Pruebas de adaptación computarizada, ¿Cómo funciona CAT, Ventajas, Desventajas, Componentes CAT, Otras cuestiones

Pruebas de adaptación computarizada es un tipo de examen computarizado que se adapta al nivel de habilidad del alumno. Por esta razón, también se ha llamado pruebas a medida.

¿Cómo funciona CAT

CAT selecciona sucesivamente preguntas con el fin de maximizar la precisión de la prueba basada en lo que se conoce acerca de la persona examinada de las preguntas anteriores. Desde la perspectiva del alumno, la dificultad del examen parece sí adaptar a su nivel de habilidad. Por ejemplo, si un alumno se comporta bien en un elemento de dificultad intermedia, que será presentado con una pregunta más difícil. O, si se realiza mal, que se presentaría con una pregunta simple. En comparación con estáticas pruebas de opción múltiple que casi todo el mundo ha experimentado, con un conjunto fijo de elementos administrados a todos los examinandos, las pruebas por ordenador adaptativos requieren un menor número de elementos de prueba para llegar a resultados igualmente precisos.

El método de prueba de equipo de adaptación básico es un algoritmo iterativo con los siguientes pasos:

  • La piscina de artículos disponibles se busca el elemento óptimo, sobre la base de la estimación actual de la capacidad del examinado
  • El elemento seleccionado se presenta al alumno, quien responde de manera correcta o incorrectamente
  • La estimación de la capacidad se actualiza, en base a todas las respuestas anteriores
  • Los pasos 1-3 se repiten hasta que se cumpla un criterio de terminación
  • Nada se sabe acerca de la persona examinada antes de la administración de la primera partida, por lo que el algoritmo se inicia por lo general mediante la selección de un elemento de soporte, o medio-fácil, dificultad como el primer elemento.

    Como resultado de la administración de adaptación, diferentes examinados reciben bastante diferentes pruebas. La tecnología psicométrica que permite resultados equitativos que se calculan a través de diferentes conjuntos de elementos es la teoría de respuesta al ítem. IRT es también la metodología preferida para seleccionar elementos óptimos que se seleccionan típicamente sobre la base de la información en lugar de dificultad, per se.

    En los EE.UU., el Graduate Management Admission Test actualmente administra principalmente como una prueba de equipo de adaptación. Una lista de los programas CAT activos se encuentra en la Asociación Internacional para pruebas de adaptación computarizada, junto con una lista de los programas actuales de investigación CAT y una bibliografía casi inclusivo de toda la investigación publicada CAT.

    Una metodología relacionada llamada prueba de múltiples etapas o yeso se utiliza en el examen uniforme de Contador Público. MST evita o reduce algunas de las desventajas de CAT como se describe a continuación. Ver el número especial 2006 de valoración aplicados en la educación para obtener más información sobre MST.

    Ventajas

    Tests adaptativos pueden proporcionar resultados uniformemente precisos para la mayoría de los examinados. Por el contrario, las pruebas fijas estándar casi siempre ofrecen la mejor precisión para la prueba-tomadores de capacidad media y cada vez más pobre precisión Para examinados con resultados de las pruebas más extremas.

    Un test adaptativo típicamente puede ser acortado en un 50% y todavía mantener un nivel de precisión más alto que una versión fija. Esto se traduce en un ahorro de tiempo para el examinado. Los examinados no pierden el tiempo tratando temas que son muy difíciles o trivialmente fácil. Adicionalmente, la organización de pruebas se beneficia de los ahorros de tiempo, se reduce sustancialmente el coste de tiempo de asiento examinado. Sin embargo, debido a que el desarrollo de un gato es mucho más gasto que una prueba de formato fijo estándar, una gran población es necesaria para un programa de pruebas CAT ser financieramente provechosa.

    Como cualquier examen computarizado, tests adaptativos pueden mostrar resultados inmediatamente después de la prueba.

    Pruebas de adaptación, en función del algoritmo de selección de elemento, puede reducir la exposición de algunos artículos porque los examinados típicamente reciben diferentes conjuntos de artículos en lugar de toda la población que se administra un único conjunto. Sin embargo, se puede aumentar la exposición de los otros.

    Desventajas

    El primer número encontrado en el CAT es la calibración del banco de ítems. Para modelar las características de los artículos, todos los artículos de la prueba deben ser previamente a una muestra amplia y analizados. Para lograr esto, los elementos nuevos deben ser mezclados en la línea operativa de un examen, llamado "prueba piloto", "pre-prueba", o "siembra". Esto presenta cuestiones logísticas, éticas y de seguridad. Por ejemplo, es imposible desplegar una prueba de adaptación operativa con flamantes, elementos invisibles, todos los artículos deben ser probados previamente con una muestra lo suficientemente grande como para obtener estadísticas estables artículo. Esta muestra puede ser obligado a ser tan grande como 1.000 examinandos. Cada programa debe decidir qué porcentaje de la prueba razonablemente puede estar compuesta de elementos de prueba piloto sin partitura.

    Aunque las pruebas de adaptación tienen algoritmos de control de la exposición para prevenir el uso excesivo de algunos artículos, la exposición condicionado a la capacidad es a menudo no se controla y puede convertirse fácilmente en cerca de 1 - Es decir, es común para algunos artículos a ser muy común en las pruebas para las personas de la misma capacidad. Este es un problema de seguridad grave, ya grupos que comparten elementos bien pueden tener un nivel de capacidad funcional similar. De hecho, un examen completamente al azar es el más seguro.

    Revisión de los puntos anteriores es generalmente rechazado. Pruebas de adaptación tienden a administrar los elementos más fáciles después alguien contesta incorrectamente. Supuestamente, una prueba-tomador astuto podría utilizar esas pistas para detectar respuestas incorrectas y corregirlas. O bien, los examinados podían ser entrenados para recoger deliberadamente respuestas incorrectas, lo que lleva a una prueba cada vez más fácil. Después de engañar a la prueba de adaptación en la construcción de un examen máximamente fáciles, podían entonces revisar los artículos y contestar correctamente, posiblemente lograr una puntuación muy alta. Los examinados con frecuencia se quejan de la imposibilidad de revisar.

    Debido a la complejidad, el desarrollo de un CAT tiene una serie de requisitos previos. Los tamaños de muestra requeridos por calibraciones IRT deben estar presentes. Los artículos deben ser puntuable en tiempo real si un nuevo elemento se va a seleccionar instantáneamente. Psicometría experimentados con calibraciones IRT y la investigación de simulación CAT son necesarias para proporcionar la documentación de validez. Por último, un sistema de software capaz de verdadera CAT basada IRT debe estar disponible.

    Componentes CAT

    Hay cinco componentes técnicos en la construcción de un CAT. Esta lista no incluye las cuestiones prácticas, como pruebas preliminares artículo o comunicado de campo directo.

  • Banco de ítems calibrados
  • Punto o nivel de entrada de inicio
  • Algoritmo de selección de elementos
  • Procedimiento de puntuación
  • Criterio de terminación
  • Calibrado artículo piscina

    A reserva de los artículos debe estar disponible para el CAT para elegir. La piscina debe ser calibrado con un modelo psicométrico, que se utiliza como base para los cuatro componentes restantes. Por lo general, la teoría de respuesta al ítem se emplea como el modelo psicométrico. Una razón por la teoría de respuesta al ítem es popular es porque pone a las personas y objetos en la misma métrica, que es útil para los problemas en la selección de material.

    Punto de partida

    En el CAT, los elementos se seleccionan en función del rendimiento del examinado hasta un punto determinado en la prueba. Sin embargo, el CAT, obviamente no es capaz de hacer cualquier estimación concreta de capacidad examinando cuando se han administrado ningún producto. Así que otra estimación inicial de capacidad examinando es necesario. Si se conoce alguna información anterior sobre el examinado, que puede ser utilizado, pero a menudo el CAT sólo asume que el examinado es de capacidad media - por lo tanto, el primer elemento a menudo ser de dificultad media.

    Algoritmo de Selección de artículos

    Como se mencionó anteriormente, el punto de respuesta de la teoría de los lugares examinados y los productos en la misma métrica. Por lo tanto, si el gato tiene una estimación de la capacidad de alumno, es capaz de seleccionar un elemento que es más apropiado para esa estimación. Técnicamente, esto se hace seleccionando el elemento de mayor información en ese punto. La información es una función del parámetro de discriminación del artículo, así como la varianza condicional y el parámetro pseudoguessing.

    Puntaje Procedimiento

    Después de administrar un elemento, el CAT actualiza su estimación del nivel de habilidad del alumno. Si el alumno responde correctamente el reactivo, el CAT es probable estimar su capacidad de ser algo más alto, y viceversa. Esto se hace mediante el uso de la función de respuesta al ítem de la teoría de respuesta al ítem para obtener una función de verosimilitud de la capacidad del examinando. Dos métodos para esto se llaman estimación de máxima verosimilitud y estimación bayesiana. Esta última asume una distribución a priori de la capacidad examinado, y tiene dos estimadores comúnmente utilizados: expectativa a posteriori y máxima a posteriori. Máxima probabilidad es equivalente a un máximo de una estimación de Bayes posteriori si se supone que antes de un uniforme. Máxima verosimilitud es asintóticamente imparcial, pero no puede proporcionar una estimación theta para un vector de respuesta nonmixed, en cuyo caso un método bayesiano puede tener para ser utilizadas temporalmente.

    Criterio de terminación

    El algoritmo CAT está diseñado para administrar repetidamente artículos y actualizar la estimación de la capacidad examinado. Esto continuará hasta que la piscina artículo está agotado a menos que un criterio de terminación se incorpora en el CAT. A menudo, la prueba se termina cuando el error estándar del examinado de medición cae por debajo de un cierto valor especificado por el usuario, por lo tanto, la afirmación anterior de que una ventaja es que las puntuaciones del examinando serán uniformemente precisa o "equiprecise." Existen otros criterios de terminación para los diferentes propósitos de la prueba, por ejemplo, si la prueba se ha diseñado sólo para determinar si el alumno debe "pasar" o "Fail" de la prueba, en lugar de obtener una estimación precisa de su capacidad.

    Otras cuestiones

    Aprobado-reprobado CAT

    En muchas situaciones, el objetivo de la prueba es para clasificar los examinados en dos o más categorías mutuamente excluyentes y exhaustivas. Esto incluye el común "prueba de dominio", donde las dos clasificaciones son "pase" y "fracaso", sino que también incluye las situaciones en las que hay tres o más clasificaciones, tales como niveles de conocimiento "insuficiente", "Basic" y "Avanzado" o competencia. El tipo de "adaptación a nivel de ítem" CAT descrito en este artículo es el más apropiado para las pruebas de que no se "pasa/no pasa" o pasa/no pasa las pruebas que proporciona una buena regeneración es extremadamente importante.) Algunas modificaciones son necesarias para que un pase/fallar CAT, también conocido como un ensayo de clasificación computarizado. Para examinados con resultados verdaderos muy cerca de la calificación de aprobado, las pruebas de clasificación computarizadas se traducirá en pruebas de largo, mientras que aquellos con puntuaciones reales muy por encima o por debajo de la calificación de aprobado se someterá a estudios más cortos.

    Por ejemplo, un nuevo algoritmo de criterios y la puntuación de terminación debe ser aplicada que clasifica el examinado en una categoría en lugar de proporcionar una estimación puntual de la capacidad. Existen dos metodologías principales disponibles para este. El más prominente de los dos es la prueba de razón de probabilidad secuencial. Esta formula el problema de clasificación examinado como una prueba de hipótesis de que la capacidad del examinado es igual a cualquiera de un cierto punto especificado por encima de la cutscore u otro punto especificado por debajo de la cutscore. Tenga en cuenta que esta es una formulación de hipótesis de punto en lugar de una formulación de hipótesis compuesto que es conceptualmente más apropiada. Una formulación de compuesto hipótesis sería que la capacidad del examinado se encuentra en la región por encima de la cutscore o la región por debajo de la cutscore.

    Un enfoque intervalo de confianza también se utiliza, donde después se administra cada elemento, el algoritmo determina la probabilidad de que cierto-puntuación del examinado está por encima o por debajo de la puntuación de aprobado. Por ejemplo, el algoritmo puede continuar hasta que el intervalo de confianza del 95% para la puntuación verdadera ya no contiene la calificación de aprobado. En ese punto, no se necesitan más elementos debido a que la decisión de aprobación-aprovecha ya es 95% exacto, suponiendo que los modelos psicométricas que subyacen a las pruebas de adaptación se ajustan el examinado y prueba. Este enfoque fue originalmente llamado "adaptive maestría pruebas", pero se puede aplicar a selección de elementos no adaptativa y situaciones de clasificación de dos o más cutscores.

    Como una cuestión práctica, el algoritmo es generalmente programado para tener un mínimo y una longitud máxima de la prueba. De lo contrario, sería posible para un examinado con capacidad muy cerca de la cutscore para ser administrada cada artículo en el banco sin el algoritmo de tomar una decisión.

    El algoritmo de selección de elemento utilizado depende del criterio de terminación. Maximización de la información en el cutscore es más apropiado para la SPRT ya que maximiza la diferencia en las probabilidades utilizadas en la razón de verosimilitud. Maximización de la información en la estimación de capacidad es más apropiado para el enfoque de intervalo de confianza, ya que minimiza el error estándar condicional de la medición, lo que disminuye la amplitud del intervalo de confianza necesaria para hacer una clasificación.

    Limitaciones prácticas de la adaptabilidad

    ETS investigadora Martha Stocking ha bromeado que la mayoría de las pruebas de adaptación son en realidad pruebas apenas adaptación ya que, en la práctica, muchas restricciones se imponen a elegir material. Por ejemplo, los exámenes CAT deben por lo general cumplen con las especificaciones de contenido, puede ser necesario un examen verbal que se compone de un número igual de analogías, rellene los tipos de elementos el blanco de sinónimos. CATs suelen tener algún tipo de restricciones de exposición del artículo, para evitar que los artículos más informativos de ser sobreexpuesta. También, en algunas pruebas, se realiza un intento de equilibrar las características superficiales de los elementos como el género de las personas en los elementos o las etnias que implican sus nombres. Por lo tanto los exámenes CAT están limitadas con frecuencia en la que los elementos que puede elegir y para algunos exámenes de las restricciones puede ser considerable y requieren estrategias de búsqueda complejas para encontrar los elementos adecuados.

    Un método sencillo para el control de la exposición elemento es el método de "randomesque" o estratos. En lugar de seleccionar el elemento más informativo en cada punto de la prueba, el algoritmo selecciona al azar el siguiente elemento a partir de los próximos cinco o diez artículos más informativos. Esto se puede utilizar durante todo el ensayo, o sólo al principio. Otro método es el método Sympson-Hetter, en el que un número aleatorio se extrae de U, y se compara con un parámetro Ki determinado para cada artículo por el usuario de prueba. Si el número aleatorio es mayor que ki, el siguiente elemento más informativa se considera.

    Wim van der Linden y sus colegas han avanzado un enfoque alternativo llamado pruebas sombra que implica la creación de pruebas de toda sombra como parte de la selección de artículos. Selección de elementos de pruebas sombra ayuda a tests adaptativos cumplen los criterios de selección, centrándose en opciones óptimas a nivel mundial.