Los reactivos de innovación

Los beneficios que potencialmente ofrecen los reactivos de innovación no están garantizados, sin la preparación suficiente, se podría disminuir la calidad de los exámenes en vez de incrementarla. Su implementación exitosa representa un desafío.

El avance informático observado en las últimas décadas ha cambiado sustancialmente la forma en que la actividad humana se lleva a cabo. Se habla ya de un mundo digital en el que estudiantes, profesores, profesionistas, entre otros grupos, construyen su conocimiento y resuelven problemas utilizando herramientas computacionales. La evaluación en la educación no ha sido ajena a este cambio y es previsible que en pocos años se dejen de utilizar pruebas impresas. Estamos en un periodo de transición.

El uso de la computadora como medio para administrar exámenes abre nuevas posibilidades en la evaluación para indagar lo que las personas opinan, conocen, han aprendido, han desarrollado, etcétera, al incorporar nuevos enfoques sobre medición respecto a los utilizados en las tradicionales pruebas impresas. Estos enfoques aprovechan las funciones y características que tienen las computadoras, en cuanto a software y hardware, para interactuar con el usuario. Ejemplos de ello son la inclusión de sonido, gráficos, animación o videos; la captura de las respuestas de los examinados mediante la selección de elementos textuales o gráficos con el ratón; la posibilidad de arrastrar u ordenar elementos, escribir respuestas cortas, modificar o redactar textos, manipular figuras, interactuar con las posibles soluciones.

A los reactivos que incorporan estas capacidades de las computadoras –adicionales a las utilizadas ya en pruebas impresas– se les ha denominado reactivos de innovación, reactivos mejorados por la tecnología o reactivos alternativos.

El principal beneficio de incluir reactivos de innovación es su potencial para mejorar la calidad de la medición. Si se diseñan y desarrollan cuidadosamente, pueden aumentar la cobertura del constructo de una prueba, medir procesos cognitivos importantes, ampliar la manera en que los examinados emiten sus respuestas o recopilar una gama más amplia de comportamiento de los examinados; aumentar la fidelidad a situaciones reales de la práctica profesional; incrementar la oportunidad de medir habilidades cognitivas de nivel superior; disminuir aspectos que contaminan a la medición como la adivinación y posibilitar la calificación de los procesos realizados por los examinados como parte de la respuesta, así como de sus productos. En la evaluación internacional PISA[1], la inclusión de reactivos de innovación para la evaluación de 2015 permitió medir aspectos nuevos y expandir los dominios ya evaluados con anterioridad. Por ejemplo, se incorporaron tareas interactivas en ciencia, lo que permitió a los estudiantes manipular las variables en investigaciones científicas simuladas. Con la simulación de blogs fue posible valorar la capacidad de solucionar problemas de forma colaborativa.

Una ventaja del uso de las computadoras y de los reactivos de innovación es la posibilidad de obtener información más detallada no sólo sobre las respuestas de los estudiantes, sino también sobre el proceso detrás de esas respuestas, como la cantidad de tiempo que tomó completar cada tarea y el número de acciones tomadas por el examinado, lo que contextualiza el proceso de evaluación. Aunque no asociado directamente a los reactivos de innovación sino al uso de las computadoras como medios para responder pruebas, se encuentra la ventaja de generar más fácilmente versiones diferentes de examen al no tener las restricciones que una imprenta impone. Además del correspondiente ahorro de papel en pro de la ecología y de la disminución de los tiempos para dar resultados al captar las respuestas de los examinados directamente, a diferencia de las pruebas impresas en las que las respuestas se codifican en hojas de lectura óptica.

La variedad de tipos de reactivos de innovación que existen puede ser muy grande y con el avance de la tecnología se espera que sea mayor, por lo que se han elaborado diversas clasificaciones. Algunas incluyen tipos de reactivos que nunca se han implementado o que tuvieron problemas para su inclusión en las pruebas. La propuesta de Parshall y sus colaboradores (2010[2]) abarca siete dimensiones:

Formato del reactivo
Acción de respuesta
Inclusión de medios
Interactividad
Complejidad del reactivo
Fidelidad del reactivo al mundo real
Método de puntuación

Debe tenerse en cuenta que los beneficios que potencialmente ofrecen los reactivos de innovación no están garantizados y que su implementación exitosa representa un desafío. A diferencia de los reactivos de opción múltiple, que se desarrollaron y perfeccionaron durante muchos años en una diversidad enorme exámenes, los reactivos de innovación aún no cuentan con ese nivel de conocimiento y comprensión, por lo que existe mucho menos información psicométrica sobre ellos, lo que implica que haya menos experiencia por parte de los elaboradores de reactivos para desarrollar reactivos de alta calidad. Además, el riesgo de incorporar nuevas tecnologías es el de modificar el constructo que se está midiendo como por ejemplo al utilizar una interfaz deficiente o que los requisitos de acción sean poco claros. En las pruebas de PISA, por ejemplo, el diseño de las pantallas tuvo que ser estudiado cuidadosamente. Se implementaron varios prototipos con la finalidad de que las nuevas pruebas fueran compatibles con las anteriores y se presentara la información de la mejor forma. En la fase de análisis, se tuvieron que descartar algunos reactivos de innovación con que los hubo problemas en la asignación de las puntuaciones. La experiencia de PISA nos enseña que, aun pasando todos los filtros de diseño, pueden surgir problemas no considerados con estos reactivos.

Debido a lo anterior, vale la pena realizar una evaluación cuidadosa de las necesidades del examen, un análisis exhaustivo de los desafíos inherentes a innovaciones específicas y un enfoque estructurado para el diseño de cualquier tipo de reactivo de innovación. Desafortunadamente, sin la preparación suficiente, se podría disminuir la calidad de los exámenes en vez de incrementarla. Con la finalidad de orientar el diseño de exámenes, Parshall y Harnes han sugerido un proceso de diseño de seis pasos con la convicción de que puede mejorarse la calidad y utilidad de los reactivos de innovación en cualquier programa de exámenes. Recomiendan que este proceso se lleve a cabo a través de múltiples rondas de retroalimentación y revisión antes de su administración en su fase operativa. La intención es minimizar los riesgos y maximizar los beneficios.

Los pasos son los siguientes:

Analizar las necesidades de construcción del programa de pruebas
Seleccionar innovaciones específicas
Diseñar prototipos iniciales para su discusión
Refinar iterativamente los diseños de reactivo
Realizar una prueba piloto de los reactivos innovadores
Producir materiales finales

Respecto al aspecto tecnológico, el software juega un papel fundamental y hasta limitante para el uso de los reactivos de innovación. En su inicio, los equipos informáticos de las agencias evaluadoras desarrollaron su propio software especializado para que soportara los reactivos tradicionales y al integrar los reactivos innovadores hubo que hacer grandes esfuerzos para su implementación. Desafortunadamente, el proceso ha sido lento y costoso. Esta situación ha ido cambiando paulatinamente al extenderse el uso de la computadora en la evaluación, de tal forma que se crearon empresas de software comercial enfocadas en las nuevas necesidades de utilizar la computadora como medio para administrar pruebas y que crearon plataformas para incluir ciertos tipos de reactivos innovadores, lo cual ha facilitado su implementación.

Por otra parte, se han hecho esfuerzos para ofrecer software de plataforma abierta creados por instituciones no lucrativas, cuyo objetivo es acelerar la innovación en la evaluación digital. Tal es el caso del Testing Assisté par Ordinateur (TAO), desarrollado por la Universidad de Luxemburgo y el Centro de Investigación Pública Henri Tudor. Si bien en estos momentos ofrece servicios básicos gratis, también ofrece herramientas más sofisticadas y asesoría de distintos niveles por una remuneración siguiendo la estrategia de negocios de muchas de las compañías de software en la actualidad. Una característica importante es que se ha adoptado un protocolo basado en especificaciones de interoperabilidad orientadas a la evaluación, el cual constituye el estándar para la organización de la información de reactivos y pruebas. Esto ha permitido una mayor integración y mucho mayor comunicación entre los sistemas de software, lo cual permite incorporar estas nuevas herramientas a los sistemas informáticos de las agencias evaluadoras. Dadas sus características de software abierto y de interoperabilidad, TAO ha sido utilizado en las pruebas de PISA y de otros organismos de evaluación.

Debido a que las plataformas como TAO ofrecen un espectro finito de los posibles reactivos de innovación, es necesario crear complementos para atender nuevos tipos de reactivos y así poderlos incorporar a las plataformas de administración y calificación. Si bien los adelantos en informática han hecho que el desarrollo de reactivos de innovación sea más factible, quedan desafíos importantes como por ejemplo los costos que en algunos casos pueden ser altos o la adecuación de las reglas para calificar.

Se podría inferir que al incluir más reactivos de innovación en las pruebas que reactivos de opción múltiple, se mejora sustancialmente la calidad de la evaluación en virtud de que los primeros proporcionan más información en todos los niveles de habilidad que los segundos, según algunos estudios realizados, sin embargo, también se ha reportado que los reactivos de opción múltiple brindan más información por unidad de tiempo, es decir que son más eficientes.[3] Este factor –la eficiencia en tiempo– adquiere gran relevancia en los programas de evaluación en los que se le presenta al examinado una cantidad considerable de reactivos los cuáles debe resolver en un tiempo determinado. Por una parte, con los reactivos de innovación se espera obtener mejores medidas y, por otra, con los reactivos de opción múltiple se obtiene más información por unidad de tiempo que se traduce en una mayor precisión en los resultados, lo que influye en las inferencias que se emitirán a partir de los resultados. Por este motivo, en el diseño de una evaluación es necesario hacer un balance entre los factores psicométricos y prácticos acorde con los objetivos de la evaluación. Por muchos años, se han utilizado los reactivos de opción múltiple en los que se selecciona una respuesta entre varias opciones por su facilidad de calificación y administración, lo que los ha hecho idóneos para las pruebas estandarizadas y, por ello, es esperable que se sigan utilizando en el futuro en las evaluaciones en computadora.

En el Ceneval, con el propósito de que las pruebas midan de manera más válida, confiable y eficiente las competencias, conocimientos y habilidades, se han incorporado reactivos de innovación en nueve de los 39 nuevos Exámenes Generales para el Egreso de la Licenciatura (EGEL Plus), que se administrarán exclusivamente por computadora para no causar disparidades con las aplicaciones con pruebas impresas. En la medida en que el uso de la computadora sea común en las aplicaciones será posible incorporar reactivos de innovación en otros exámenes.

Su inclusión inició con una extensa investigación bibliográfica para valorar los formatos de reactivos más prometedores, las capacidades o características de las computadoras susceptibles de incorporarse en los procesos de respuesta, el tipo de interacción que se deseaba tener por parte de los usuarios, el tipo de respuestas que se esperaba, etcétera. En el aspecto tecnológico, se estudiaron y se atendieron las necesidades de software y hardware para garantizar un uso seguro y confiable a los examinados a través de su interfaz. Se atendió la compatibilidad de estos nuevos reactivos con los generados anteriormente. Asimismo, se establecieron lineamientos específicos dirigidos a los elaboradores de reactivos para garantizar que dichos reactivos de innovación cumplan con su cometido de evaluar mejor y eficientemente, lo cual se agrega a los procedimientos ya establecidos con anterioridad por el Centro para crear evaluaciones de alta calidad técnica.

Por último, debido a que la calidad de las pruebas y específicamente de los reactivos de innovación debe ser una tarea permanente, se recomienda consultar el artículo de Parshall y Harmes: Improving the Quality of Innovative Item Types: Four Tasks for Design and Development (2009), que expone un modelo específico para el diseño de reactivos de innovación. Respecto a las estrategias para tener un desarrollo sostenido de las pruebas con reactivos de innovación, se recomienda la lectura del artículo de Parshall y Guille titulado Managing Ongoing Changes to the Test Agile Strategies for Continuous Innovation (2016).

Lecturas recomendadas

Parshall, C. G., y Harmes, C. (2008). The Design of Innovative Item Types: Targeting Constructs, Selecting Innovations, and Refining Prototypes. CLEAR Exam Review, XIX(2), 18-25.

Parshall, C. G., y Harmes, C. J. (2009). Improving the Quality of Innovative Item Types: Four Tasks for Design and Development. Journal of Applied Testing Technology, 10(1), 1-20.

Parshall, C. G., y Guille, R. A. (2016). Managing Ongoing Changes to the Test: Agile Strategies for Continuous Innovation. En F. Drasgow (Ed.), Technology and testing. Improving Educational and Psychological Measurement (pp. 1-22). Routledge.

[1] Programa para la Evaluación Internacional de Alumnos de la Organización para la Cooperación y el Desarrollo Económicos (OCDE).

[2] Parshall, C. G., Harmes, C. J., Davey, T., y Pashley, P. J. (2010). Innovative Items for Computerized Testing. En Elements of Adaptive Testing (pp. 215-245). Springer.

[3] Jodoin, M. G. (2003). Measurement Efficiency of Innovative Item Formats in Computer-Based Testing. Journal of Educational Measurement, 40(1), 1-15.

Este artículo se publicó originalmente en la Revista Ceneval Investiga, en el número 3 | 2021.
Autor: Edgar I. Andrade Muñoz
Jefe del Departamento de Innovación del Ceneval

Observatorio IFE

Este artículo del Observatorio del Instituto para el Futuro de la Educación puede ser compartido bajo los términos de la licencia CC BY-NC-SA 4.0

Los beneficios que potencialmente ofrecen los reactivos de innovación no están garantizados, sin la preparación suficiente, se podría disminuir la calidad de los exámenes en vez de incrementarla. Su implementación exitosa representa un desafío.

Reporte Semanal