Categories
Reflexiones sobre evaluación

Los monstruos de la evaluación: Frankenstein

Víctor Frankenstein fue un científico que creó una criatura espeluznante. La «Criatura» fue producto de un experimento que el científico creyó exitoso cuando cobró vida durante una tormenta eléctrica, pero que luego se le salió de las manos porque comenzó a asesinar humanos. Frankenstein terminó muerto al perseguir a su propia criatura por el Ártico. Luego de la muerte de su creador, la criatura se perdió en el océano en una balsa de hielo.

Cuando leo el reglamento de evaluación de nuestro país, solo puedo pensar en la «criatura» que hicimos producto de un experimento donde se combinaron los peores monstruos y al que, orgullosamente, dimos vida en el 2010. Pero, igual que a Víctor Frankenstein, sospecho que se nos está saliendo de las manos.

De acuerdo con el reglamento (nuestra Criatura), la evaluación de aprendizajes se define como el logro de las competencias esperadas para el grado. En Guatemala, el currículo nacional contiene indicadores de logro para cada competencia, por lo que este documento constituye la referencia del logro esperado para todos los grados.

A pesar de tener claro el referente de logro, la verdad es que el reglamento de evaluación no regulariza cómo visibilizar el aprendizaje de los estudiantes de forma confiable y válida. Más bien, regulariza el poder de los monstruos de la evaluación que he mencionado en los otros artículos: el Cero, la Bruja Escala y el Vampiro Promedio. Peor aún, solo nos obliga a tomar decisiones sobre los estudiantes sin tener la evidencia de lo que realmente importa: logro de competencias.

En primer lugar, el reglamento de evaluación está basado en la Bruja Escala de 0 a 100 puntos. Con esta, los docentes están obligados a calificar todos los productos de sus estudiantes con una nota entre 0 y 100, diluyendo el desempeño en demasiados números. En segundo lugar, bajo esta escala, el reglamento establece que la puntuación mínima para aprobar con una nota mínima de 60 puntos lo que sea que se use como instrumento de evaluación. De manera que, tal como vimos cuando discutimos este monstruo, dos tercios de la escala se inclinan al fracaso del estudiante solamente por la escala que el reglamento usa. En tercer lugar, el reglamento establece que los estudiantes que no aprueben con dicha nota las materias de matemática y lenguajes o bien que el Promedio de todas sus materias no supere los 60 puntos deben repetir el grado una y otra vez por una eternidad… porque todo lo anterior es posible solo si los estudiantes cumplen con 80% de asistencia, que ―para el caso de los alumnos que trabajan en campo o que tienen alguna otra barrera para asistir a la escuela― no podrán cumplir y, por tanto, acumularán Ceros en el cuadro de notas del docente.

Lo único acertado que el reglamento de evaluación contiene es eximir a los pequeños de Preprimaria de las maldades de estos tres monstruos, aunque algunos establecimientos privados que ofrecen «calidad» educativa ya han sido copados por la Bruja, el Vampiro y el Cero.

El reglamento al que rendimos pleitesía es poderoso como la criatura que creó Frankenstein. Bajo las reglas que allí se establecen, los niños repiten una y otra vez los grados, desertan, ganan becas, ingresan a la universidad, entre otros usos de las «calificaciones» que pueden cambiar el curso de la vida de un estudiante.

El gran vacío en todo esto es responder a la pregunta: ¿Qué han aprendido los estudiantes? En los múltiples años en los que trabajé evaluando en las escuelas, encontré varios escenarios:

  1. Niños que tenían altas calificaciones, pero no habían logrado las competencias del grado.
  2. Niños que habían logrado las competencias del grado, pero tenían bajas calificaciones.

La realidad de lo anterior es que medir competencias no se parece a la forma como se califica en las escuelas. Las calificaciones se producen sobre elementos que no tienen nada que ver con lograr competencias, como entregar o no las tareas, trabajar limpio y ordenado, hacer el trabajo más creativo y demostrar esfuerzo, entre otros. Rara vez se observa en las escuelas que el logro de la competencia se evalúe a través de una evidencia de desempeño directamente relacionada con dicha competencia; por ejemplo, si la competencia es escribir un párrafo, pocas veces he observado que un docente no otorgue o quite puntos por la linda letra en el párrafo, difuminando la calificación.

Todo lo que quiero decir es que muy probablemente los puntos que damos o quitamos a los estudiantes no han tenido nada que ver con el logro de aprendizajes, sino que han sido un artefacto que hemos creado de la misma forma en que Frankenstein creó a su criatura.

No digo que haya estudiantes que no logren las competencias, mi argumento es que, con el sistema actual de evaluación y calificación, realmente no sabemos qué han logrado. Sin embargo, afirmamos con convicción, pero sin evidencia, que un niño merece perder un curso, repetir el año o que no pudo aprender pese a nuestro arduo esfuerzo de enseñarle.

Categories
Reflexiones sobre evaluación

Los monstruos de la evaluación: El vampiro Promedio

Si bien he expuesto a dos monstruos temibles de la evaluación, imagina que aparezca un monstruo más y que haga más fuerte a los otros dos. El tercer monstruo que discutiremos es el Promedio. Un promedio es una medida que resume varios números en uno solo. Esta medida representa una tendencia de varios números. Sin embargo, a pesar de su precisión numérica para representar una tendencia, el promedio distorsiona el sentido del aprendizaje de un estudiante y, como si fuera el Conde Drácula de una película de terror, absorbe lo mejor de la trayectoria de aprendizaje de un estudiante (Feldman, 2019; Witte, 2011; Guskey, 2015). 

Permítanme presentarles a tres niños que reciben clases en el salón del profesor Promedio.

Samantha es una niña de cuarto de Primaria cuyo primer idioma no es el español. Sin embargo, asiste a una escuela donde el primer idioma es ese y, por tanto, las evaluaciones se realizan en ese idioma, incluso las evaluaciones de matemática. Samantha ayuda a sus papás en el campo durante los primeros meses del año, por lo que al inicio del ciclo escolar se ausenta de la escuela con frecuencia y, como consecuencia, este año, no tomó el primer examen. Conforme avanza el año, Samantha suele ponerse al día en matemática y recuperar sus calificaciones a pesar de la dificultad con el idioma español. 

Manolo es un niño que está repitiendo cuarto de Primaria. A Manolo se le dificultan las matemáticas. Al principio del año, pudo comprender algunos temas que le resultaban difíciles el año pasado, pero conforme avanzó en las unidades volvió a caer en sus calificaciones. Él sufre ansiedad por los exámenes, por lo que suele cometer errores por la traición de sus nervios y la inseguridad que siente con algunos temas. Manolo teme volver a perder el grado si no supera el examen de fin de ciclo con al menos 65 puntos.

Cristina es una niña de cuarto de Primaria a la que le encantan las matemáticas y siempre tiene buenas calificaciones. Sin embargo, su amiga Patricia encontró difícil la última unidad, y Cristina, que siempre se preocupa por los demás, decidió que Patricia podía copiar sus respuestas en el último examen. Resulta que el profesor las atrapó copiando y les colocó un cero en el examen a ambas. 

Examen unidad 1Examen unidad 2Examen unidad 3Examen unidad 4Promedio del cursoDecisión
Samantha060656563Aprueba raspada
Manolo7055406560Aprueba condicionado a la última nota
Cristina807581059Reprueba

Fuente: Adaptación de Guskey (2015).

En esta aula, el profesor Promedio toma en cuenta la trayectoria del estudiante y no su desempeño actual. El promedio resume las cuatro notas a través sumar las calificaciones del año y dividirlo entre la cantidad de calificaciones acumuladas. Sin embargo, los estadísticos saben que el promedio no es robusto ante casos extremos. Así, si el niño tiene un mal comienzo, como era el caso de Samantha; tiene dificultad en alguna unidad, como Manolo; o simplemente toma una mala decisión durante el año, como Cristina, el promedio los castigará, porque, tal como si fuera el conde Drácula, el promedio succionará todos los números sin considerar si los extremos son producto de un mal día o de alguna barrera que el estudiante esté teniendo para avanzar. 

Las calificaciones deberían interpretarse como el logro del estudiante en determinada competencia después de haber pasado por un proceso para dominarla. El promedio no representa los logros que el estudiante ha tenido en cada unidad, sino su trayectoria durante el año. No comprender esta distinción puede distorsionar la interpretación de la calificación y, peor aún, provocar que tomemos una decisión que perjudique al estudiante, en lugar de ser inclusivos y justos.

Ahora bien, hay otras medidas de tendencia central; por ejemplo, la mediana o la moda son resistentes a los casos extremos. Seguramente alguno de ustedes pensará que Cristina no merece aprobar si fue capaz de hacer trampa en el último examen. Pero, solo un malvado monstruo utilizaría la calificación para disciplinar a una joven de cuarto de Primaria. Por el contrario, las calificaciones deben utilizarse solamente para mostrar el desempeño en matemática de los estudiantes, no su comportamiento. 

Examen unidad 1Examen unidad 2Examen unidad 3Examen unidad 4MedianaDecisión
Samantha060656565Aprueba 
Manolo7055406560Aprueba condicionado por la última nota
Cristina807581080Aprueba

Sin embargo, a pesar de que la mediana pueda aparentar ser un poco más justa, en realidad también puede llegar a distorsionar el desempeño, sobre todo cuando las notas son muy dispersas, como es el caso de Manolo. Aunque el promedio es la peor de las medidas, el problema radica en utilizar una sola calificación para representar la película completa del año, cuando no se tiene claro a donde se quería llegar.  

Aquí hay algunas recomendaciones para amortiguar los efectos nocivos de los monstruos de la evaluación:

  1. Sume en lugar de promediar.
  2. Si tiene que promediar, utilice evaluaciones similares (muchas oportunidades de demostrar desempeño).
  3. Evalúe desempeño y no actitud o responsabilidad.
  4. Divida la escala en puntos acumulables.  Es decir, distribuya puntos hasta llegar a 100.
  5. Dé mayor peso al desempeño más reciente del estudiante.
  6. Planifique la retroalimentación, pero no la incluya en la calificación.
  7. Cree muestras del desempeño esperado.
  8. Reduzca la escala de 0-100 a una de cuatro puntos.
  9. Elimine el uso de 0 y establezca una calificación mínima.

Dicen que octubre es el mes que en aparecen más monstruos, pero en la clase corremos el riesgo de que los monstruos de la evaluación nos visiten en cualquier época del año.  En próximas entradas, expandiré sobre cómo evitar que los monstruos nos conviertan en maestros que, sin querer, promuevan exclusión y deserción en las escuelas al aplicar prácticas para calificar con algunos vicios que adquirimos de los monstruos de la evaluación.

Works Cited

Feldman, J. (2019). Grading for Equity. Thousand Oaks: Sage.

Guskey, T. (2015). On Your Mark: Challenging the Conventions of Grading and Reporting. Bloomington: Solution Tree.

Witte, A. E. (2011). Understanding International Grading Scales. International Journal of Managment Education, 49-54.

Categories
Reflexiones sobre evaluación

Los monstruos de la evaluación: La Bruja Escala

Desde la época de la Revolución Industrial, hemos creído que usar porcentajes para calificar es más preciso y «objetivo». Actualmente, aunque ya no vivimos la Revolución Industrial, la tecnología ha promovido el uso de porcentajes para facilitar la producción de calificaciones. Así, los profesores tendemos a describir el desempeño de los estudiantes a través de porcentajes que, por definición, es una escala de 0-100. 

La escala de 0-100, aunque ampliamente aceptada, constituye otro de los monstruos de la evaluación. Le diremos «La Bruja Escala». Como si fuera un conjuro, la práctica de usar porcentajes para calificar crea una ilusión de precisión y «objetividad» sobre el desempeño de un estudiante que, en realidad, está llena de errores. 

En 1912 Starch y Elliot, empezaron a sospechar de la malvada bruja cuando pidieron a más de un ciento de docentes que calificaran la misma tarea, y encontraron una variación de casi 30 puntos (rango de 64-98). Desde esa época, las escuelas de Estados Unidos recomendaron alejarse de los porcentajes para calificar. Sin embargo, el conjuro de la bruja fue tan fuerte que los docentes y las escuelas persisten en utilizarlos casi un siglo después. En algunos contextos, ha habido algunas modificaciones; por ejemplo, los porcentajes que ahora se usan en las escuelas son distintos a los originales, cuando se esperaba que el promedio en la escala fuera 50 puntos. Con el tiempo, el promedio se movió a 60 puntos y, entonces, se estableció que la expectativa para pasar los cursos fuera 60 puntos. 

Lo que los cazabrujas no notaron a principios de siglo pasado es que el conjuro sería tan dañino en las escuelas que la combinación de esta escala con el cálculo de promedio condenaría a los estudiantes más vulnerables a continuar rezagándose en su progreso educativo.

Sin cuestionar la práctica, continuamos otorgando puntos por los aciertos que tengan los estudiantes y, por consiguiente, quitando puntos cuando no aciertan. En medición, este concepto aplica cuando se tiene un instrumento de evaluación confiable y válido. Sin un instrumento preciso, los porcentajes crean una ilusión de objetividad que realmente no está allí. Los instrumentos que los docentes crean no tienen las características de las pruebas estandarizadas, donde el porcentaje de respuestas correctas puede defenderse porque pasan por un proceso riguroso de validación. Por el contrario, los docentes utilizan evaluaciones creativas para observar que los estudiantes han logrado las competencias. Esta creatividad es acertada porque las evaluaciones en el aula deben constituir una herramienta accesible donde el estudiante pueda evidenciar su nivel de competencia y, además, ser congruentes con lo que los docentes hemos enseñado. 

Sin embargo, las evidencias que los docentes solicitamos a los estudiantes son difíciles de calificar con un modelo de respuestas correctas o incorrectas, a menos que sean exámenes que simulen una estandarización. Por lo general, los trabajos escolares tienen modelos donde se solicita a los estudiantes que produzcan «algo»; por ejemplo, proyectos, ensayos, reportes, entre otros. 

Cuando tratamos de encajar este tipo de evidencia en una escala de calificación de 0 a 100 es difícil elegir entre 100 posibilidades el número que mejor representa el desempeño del estudiante. Así, un docente puede asignar un número basado en su propia expectativa, mientras que otro docente puede asignar otro número basado también en su expectativa. Y así, para un estudiante, aprobar o no depende del docente que califique y no de su propio desempeño.

Peor aún, cuando se trata de decidir quién tiene derecho a pasar y quién no, determinar el número mínimo para ese propósito en una escala de 0-100 también constituye un truco que la Bruja Escala nos dejó. Bajo el paradigma de que el 60 es el número mágico para pasar se sesga la probabilidad hacia el lado oscuro de la escala. El lado donde el estudiante tiene mayor posibilidad de perder y menos posibilidad de ganar, ya que dos tercios de los números representan fracaso y un tercio representa éxito. Por tanto, la escala 0-100 está orientada a fracasar. 

Por eso, colegas no caigan en el conjuro de la Bruja Escala ni se crean que a más grande la escala más precisas serán sus calificaciones. Convénzanse ustedes mismos de lo contrario. La escala de 0-100, aunque práctica, está sesgada hacia el fracaso y presenta mayor error de clasificación al tener tantas opciones para asignar. Profesionales de evaluación actualmente sugieren reducir la escala incluso a cuatro números (1-4) con una descripción clara de desempeño. Pronto vendrán los artículos donde discutiré esta alternativa.

Crédito de la imagen: Julián Véliz

Starch, D., & Ellliot, E. C. (1912). Reliability of the Grading of High School Work in EnglishThe University of Chicago Press, 442 – 457.

Categories
Reflexiones sobre evaluación

Los monstruos de la evaluación: El cero

En la escuela, el número 0 tiene un simbolismo de fracaso o de irresponsabilidad. No hay nada más tenebroso, más intimidante o donde el niño se sienta más impotente que cuando la figura de poder en el aula le aplica el cero por cometer un “error”.

Así, el cero se asigna cuando los estudiantes no entregan las tareas o cuando se comportan inadecuadamente. El cero rara vez se asigna para evidenciar el aprendizaje de un estudiante. Más bien, se asigna para disciplinar o enviar un mensaje de poder sobre el estudiante. 

Paradójicamente, en evaluación, el cero representa un punto en la escala de calificación, no falta de información de lo que se desea medir porque, a decir verdad, nadie tiene nulo conocimiento o “cero” habilidad en algo. Dicho de otra forma, los evaluadores reconocemos que, al asignar cero cuando no hay evidencia de lo que se desea medir, se puede introducir error en la calificación de forma sistemática: «No tener evidencia de lo que un estudiante no sabe no es lo mismo que tener evidencia de que el estudiante no sabe nada» (Feldman, 2019, p.77).

Veamos este ejemplo adaptado de Feldman (2019):

PezPeso
Pez A2 libras
Pez B1.5 libras
Pez C3 libras
Pez D2 libras
Pez E—-

Como notarán, desconocemos el peso del Pez E. Si el pescador vendiera a Q20.00 cada libra, lo lógico sería que el comprador pagara Q.170 por los peces A, B, C y D y que no comprara el pez E porque desconoce su peso. Asimismo, el vendedor no entregaría el pez E sin cobrar nada al comprador por la misma razón. Ahora veamos el siguiente cuadro:

Asignación Porcentaje basado en respuestas correctas
A80
B60
C100
D60
E0 (no entregó la asignación)

Al igual que el pescador, no tenemos información sobre el desempeño del estudiante en la tarea E. Puede ser que el estudiante haya decidido no hacerla, se haya enfermado el día anterior, la haya olvidado, no la haya entendido o cualquier otra razón. En un sistema de calificaciones bajo la costumbre de obtener el promedio de porcentajes de respuestas correctas en las asignaciones y donde se castiga la no entrega, el estudiante obtendría 60 en lugar de 75 al dividir la suma de calificaciones dentro de 5 y no dentro de 4 asignaciones. ¿La pregunta es si el 60 representa el desempeño del estudiante en una competencia o representa otra cosa? ¿Defenderíamos que la calificación frente a los papás del estudiante o ante un supervisor?

Probablemente la respuesta a las preguntas anteriores sería «NO». Sin embargo, algunos profesores preguntarán de qué forma incentivarán a los estudiante para completar sus asignaciones si no es a través de castigar o premiar por medio de las calificaciones. Es que erradicar el cero de los sistemas de calificaciones representa una batalla contra nuestros propios paradigmas, tanto como educadores y como estudiantes. Incluso, algunos estudiantes prefieren obtener el cero por no entregar una tarea que intentar hacer un trabajo con el cual se ponen en evidencia de no ser competentes (Feldman, 2019, p.78).

La solución retorna al propósito de calificar. En las instituciones educativas, las calificaciones son las que respaldan las decisiones que los docentes toman sobre el aprendizaje de los estudiantes, la aprobación de los cursos y la necesidad de repitencia. De la misma manera, los resultados anteriores inciden en la decisión de los estudiantes de desertar. Las calificaciones como las conocemos, con porcentajes, promedios y ceros, son consecuencia de los paradigmas que heredamos de la revolución industrial. Desde ese momento, nos creímos que las calificaciones son un buen motivador extrínseco y que los números en una calificación contienen la absoluta verdad sobre la capacidad de una persona. Sin embargo, por décadas, se ha sabido que las calificaciones que asignan los profesores son poco confiables y poco certeras porque contienen números que representan algo diferente al aprendizaje del estudiante en un curso, como el acto de entregar o no una tarea. Recientemente, bajo los nuevos marcos de validez de las evaluaciones, también se argumenta que las calificaciones contribuyen a las inequidades sociales que existen en las escuelas (Guskey, 2004). 

Por tanto, autores como Reeves (2004), Guskey (2004) y Feldman (2019) han iniciado una batalla en contra de asignar cero en las escuelas. Esta solución conlleva hacer otros cambios en los sistemas de calificaciones como reducir las escalas y eliminar la tradicional escala de 0 a 100, buscar alternativas al cálculo de promedios, entre otras. Lo cierto es que, por más incluyentes que queramos ser en las escuelas, sin pasar por los sistemas de calificaciones es probable que nunca erradiquemos la inequidad en la educación.

Crédito de la imagen: Julián Véliz

Categories
Reflexiones sobre evaluación

La evaluación artificialmente inteligente

Cuando comencé como psicometrista, me atrajo el estudio de la varianza. Las evaluaciones se basan en la variabilidad de un «rasgo» particular entre personas y de una persona en relación con una meta escolar. Además, me atrajo la posibilidad de crear instrumentos que pudieran capturar la variación de tales rasgos y las decisiones que uno podría tomar en función del resultado de una evaluación.

Para encontrar variación de un rasgo, se debe comprender ese rasgo en profundidad y, hasta cierto punto, comprender cómo lo aprende una persona; por ejemplo, si el rasgo por medir es la lectura, se debe entender cómo el niño aprende a leer y las tareas con las que ese niño demuestra que aprendió a leer en un momento específico. Este conocimiento generalmente lo poseen los maestros que conviven con los niños todos los días y los apoyan en el aprendizaje de dichas habilidades.

Hasta hace unos años, cuando dirigía el desarrollo de pruebas, me tomaba el tiempo para trabajar con los profesores para diseñar tareas (ítems) que, según su experiencia, captaran mejor las habilidades de los estudiantes. Dicho trabajo solía ser muy costoso en el proceso de desarrollar una prueba estandarizada. Actualmente, la inteligencia artificial (IA) ha sustituido en gran medida este trabajo, lo que permite que los costos y el tiempo sean mucho menores. Hoy en día, escucho en muchas conferencias que la IA es el futuro del desarrollo de pruebas y de la educación en general.

Debo confesar que, aunque encuentro impresionante la tecnología detrás de la producción de ítems usando IA, también dejé de ver la conexión de dichos ítems con la experiencia docente. Cuando hacía este trabajo con humanos, me fascinaba la forma en que los profesores diseñaban las tareas de una manera casi artística basándose principalmente en un conocimiento profundo de sus alumnos. Luego, cuando la prueba se analizaba en términos de varianza, era posible explicar los resultados con ejemplos que tuvieran sentido para los docentes. También tengo que reconocer que, en esos esfuerzos, había muchos errores humanos, que son imposibles de controlar y que se aceptaban, reconocían y mejoraban a veces de forma no tan eficiente como lo puede hacer la IA.

Sin embargo, tengo un sentimiento extraño cuando produzco ítems de forma eficiente a través de ChatGPT o cualquier otra herramienta de inteligencia artificial. Al generar los ítems casi de forma automática, los percibo tan artificiales y desconectados de la realidad de los profesores con los que conversaba. No los percibo «reales», como cuando trabajaba con profesores y con personas con un nombre, una historia o un contexto.

Me pasa lo mismo cuando se solucionan «artificialmente» otros aspectos de diseño de pruebas. Esta semana recibí mi ejemplar de la revista académica más prestigiosa de mi profesión y descubrí que más de la mitad de los artículos son simulaciones de especificidades estadísticas de análisis de pruebas.

A veces, siento que estoy en riesgo de quedarme obsoleta porque encuentro menos atractivo leer sobre simulaciones o soluciones producidas con IA. Y, cada vez más, me parece más importante que en nuestra profesión hablemos de inclusión, conciencia social, comunicación de resultados y evaluación formativa, entre otros temas. Sin dejar de conocerla y valorar las ventajas que nos trae, ahora más que nunca me parece importante que los educadores seamos críticos con las soluciones automatizadas que ofrece la vida moderna y la inteligencia artificial.

Finalmente, me parece que, independientemente de las soluciones inteligentes y automatizadas que existan, los educadores no nos podemos permitir dejar de aprender, incluso sobre inteligencia artificial.

Categories
El arte de mejorar la calidad educativa Reflexiones sobre evaluación

Los efectos colaterales de evaluar

No puedo hablar por el resto del mundo, pero Guatemala ha sido un país lleno de estigma, prejuicio y discriminación. Muchas de estas acciones han sido, en parte, culpa del sistema educativo y sus vicios. Recientemente, me he preguntado si algunos vicios que aumentan las brechas educativas, los estigmas y las prácticas discriminatorias se originan en la forma en que comunicamos los resultados de las evaluaciones a quienes pueden decidir sobre las oportunidades educativas para los estudiantes de todos los orígenes.

Entre otros propósitos, para hacer visibles las brechas entre los estudiantes y tomar decisiones informadas sobre la asignación equitativa de recursos, los países han creado evaluaciones nacionales a gran escala y han participado en programas de evaluación internacionales; por ejemplo, Pisa y Llece. Los diseños de evaluación a gran escala suelen ser rigurosos, por lo que puede decirse que los resultados son válidos. Sin embargo, estos diseños son difíciles de explicar porque los procesos se basan principalmente en la estadística.

Al diseñar una prueba, se toman decisiones basadas en la ciencia (estadística, educación, etc.) de modo que los puntajes obtenidos en la prueba representen lo que el estudiante de un contexto o edad específica puede o no hacer. Pero tales decisiones también están influenciadas por los usos que se darán a los resultados y el presupuesto con el que se puede implementar una evaluación. Por lo tanto, en ocasiones, una metodología ideal debe ser compensada por otra posible que sea igualmente rigurosa y permita utilizar los resultados esperados.

Por ejemplo, la evaluación nacional de Aprende+ tuvo un alcance casi censal porque los docentes realizaron la aplicación en sus aulas. Esto permitió darles a los docentes una mayor participación en los procesos de evaluación nacional, obtener resultados de más niños con mayor rapidez y devolver a los docentes resultados sobre sus propios estudiantes casi de forma inmediata. Sin embargo, esto comprometió parcialmente la estandarización y confiabilidad de los resultados. Por el contrario, la evaluación nacional de la primaria no es un censo, sino una muestra porque se implementa una costosa operación de recolección de datos con actores externos que permite una estandarización casi impecable. Aun así, la muestra es más pequeña y los resultados se ven comprometidos si parte de la muestra se pierde y no permite que se entreguen resultados a nivel de la escuela y el aula.

A pesar del rigor de los diseños de evaluación y la documentación para demostrar la confiabilidad y validez de los resultados de las evaluaciones a gran escala, todo termina con su correcta comunicación al público, quien los utilizará para tomar una decisión. En última instancia, lo que quien toma las decisiones entienda sobre la metodología de evaluación y la capacidad o incapacidad de una persona marcará la diferencia en su forma de actuar.

A diferencia de las evaluaciones a gran escala que siguen procesos rigurosos de diseño, estandarización y validación, las evaluaciones en el aula tienden a ser menos confiables.  A pesar de ello, las implicancias de las evaluaciones de aula son altas ya que, estas pueden cambiar el curso de la vida de una persona, para bien o para mal.

Lamentablemente, los profesores de aula tienen poca formación en evaluación, pero están obligados a evaluar y certificar competencias. En consecuencia, se observa que los docentes imitan prácticas de evaluación a gran escala que observan de evaluadores externos, pero sin el conocimiento para imitarlas adecuadamente. Así, las pruebas y hojas de trabajo tienden a estar desconectadas de la competencia u objetivo que pretenden evaluar. Peor aún, los estudiantes reciben consecuencias sobre los puntajes de los exámenes en el aula que no demuestran con precisión lo que un estudiante puede o no puede hacer; por ejemplo, los estudiantes reciben calificaciones por “buena letra” o “formato”, descuidando el contenido de un escrito. Los estudiantes a menudo son castigados o avergonzados por sus errores de ortografía y rara vez reciben retroalimentación sobre sus habilidades para escribir ensayos. Así comunicamos que un niño “falló”, “no es capaz” y “no puede” cuando, en realidad, la prueba midió otra cosa. Si pensamos un poco más allá, con estas prácticas estamos comunicando que cuando el alumno escribe bonito tendrá una buena nota, aunque su escritura no sea coherente o no tenga argumento.

Además, los profesores a veces utilizan las calificaciones como recompensa por el buen comportamiento y pierden de vista el desempeño de los estudiantes. Por lo tanto, las niñas que se quedan quietas y se portan bien obtendrán mejores calificaciones que los niños activos o menos quietos.

Me preocupa que estas prácticas tengan peores consecuencias para los estudiantes vulnerables y que un niño sea castigado o tenga acceso limitado debido a la vulnerabilidad en la que vive al obtener una evaluación válida o poco confiable. Me pregunto si muchos niños que reprobaron el primer grado fueron evaluados con pruebas poco válidas y confiables y con ideas mal concebidas sobre las poblaciones vulnerables.

No digo que el diseño y la comunicación de los resultados de las evaluaciones sean la única causa de conductas excluyentes de las poblaciones vulnerables, pero no está de más repensar cuestiones básicas como:

¿Tenemos claro qué queremos visibilizar con una evaluación?

¿El diseño de nuestras evaluaciones es inclusivo o es excluyente?

¿Qué informamos a través de nuestras evaluaciones? ¿A quién informamos?

¿Qué escuchan y entienden nuestros docentes, políticos y ciudadanos sobre los resultados de una evaluación?

¿Qué decisiones son relevantes en función de los resultados y quién debe tomarlas?

¿Qué posibilidades reales tiene un estudiante de avanzar en función de los resultados de una evaluación?

No olvidemos que al evaluar pretendemos mostrar las desigualdades entre grupos a través de evaluaciones para brindar mejores oportunidades donde sean necesarias y, sospecho, que contrariamente a tal intención, sin querer estamos propiciando conductas de exclusión hacia las poblaciones indígenas, las poblaciones pobres, las mujeres y poblaciones con discapacidad. Aunque los resultados de pruebas estandarizadas muestran que algunos grupos de la población no están alcanzando los niveles requeridos de competencias esenciales, también podríamos estar comunicándoles que “no pueden” y que deberían “perder” el grado, sobre todo cuando se reproducen prácticas de evaluación poco confiables y válidas en las aulas. Es sumamente importante empezar a discutir el tema de comunicación de resultados de pruebas (nacionales o de aula) como un factor de exclusión en países como Guatemala y encontrar mejores estrategias de comunicación (para el desarrollo) de dichos resultados.

Categories
Reflexiones sobre evaluación

Elementos para mejorar la calidad educativa

En los últimos 15 años, me he dedicado a construir datos para tomar el pulso a los aprendizajes de los estudiantes guatemaltecos. Mi rol fue construir datos que les permitieran a los implementadores de intervenciones educativas demostrarles a las partes interesadas (gobiernos, donantes, beneficiarios) las mejoras que, presumiblemente, eran producto de la inversión y la implementación eficientes. Durante estos quince años, leí varios libros y muchos artículos académicos sobre el arte de mejorar la educación y la salud de los países en vías de desarrollo. Un ejemplo fue el libro Learning to Improve de Bryk, Gomez y Grunow. Este libro es brillante al mostrar lo que implica mejorar y cómo se usan los datos para ello. 

Con certeza puedo decirles que mejorar no es una cuestión de buenas intenciones, sino de planificación detallada y basada en evidencia, así como de una implementación fiel a dicha planificación. Esto es cierto para todos los aspectos en la vida que se deseen mejorar. Un ejemplo común de mejora personal es cambiar la dieta personal, que, a su vez, mejore nuestra salud.  Para mejorar nuestra dieta y salud, se requiere, como mínimo, una planificación basada en el diagnóstico de un médico o de un nutricionista y de sostener fielmente la dieta sugerida por el profesional por un tiempo determinado.  No me dejarán mentir al decir que, a pesar de la fidelidad de implementación de una dieta e incluso observando pérdidas de peso, las dietas no funcionan igual para todas la personas.  Por ello, siempre es valioso contar con el diagnóstico y el criterio de un profesional de salud que conecte las variables necesarias para saber por qué perdemos o no perdemos peso. 

Igual que con el mundano ejemplo de la dietas, también existen innumerables libros sobre evaluación e investigación educativas que, como si fueran manuales, nos dicen la receta de todas las posibilidades para implementar y evaluar intervenciones que apuntan a mejorar la calidad educativa.  Sin embargo, rara vez los libros y los artículos contienen criterios para tomar decisiones cuando se diseña un proyecto educativo con este fin. Cuando digo proyecto educativo me refiero a uno de cualquier índole: uno grande, como los que se implementan a nivel nacional, o uno de menor escala, como los que se implementan en instituciones educativas.

Antes de introducir los criterios para tomar decisiones de diseño de un proyecto educativo con objetivos de mejorar calidad educativa, es imprescindible hablar del significado de mejorar, que quiere decir lograr un cambio positivo. Algunos sinónimos de mejorar son progresarascender de categoríaaumentarperfeccionarautomatizaradelantar, entre otros. En términos estadísticos, la mejora se evidencia al mover una población al lado positivo de la curva. Menciono la definición de mejora en términos estadísticos porque, como he discutido anteriormente, la mejora debe poder observarse y demostrarse; de lo contrario, perderemos el tiempo al creer que la dieta está funcionando, cuando en realidad no lo hace o, peor aún, pueda estar dañando nuestra salud.

La estadística y los datos permiten a los implementadores evidenciar que efectivamente el proyecto educativo ha provocado una mejora en la calidad educativa. En intervenciones educativas, por lo general se analizan datos cuya varianza permite demostrar ya sea progreso, cambios entre categorías, aumento de porcentajes o adelanto de un grupo con respecto de otros. Sin embargo, demostrar estas mejoras con datos estadísticos no pasa por arte de magia. Requiere de capturar los datos de las variables adecuadas, así como de conectar las variables de acuerdo con el diseño de la intervención para que los resultados sean válidos en términos de su interpretación.  Realizar esta labor durante estos quince años me ha dejado algunas lecciones que comparto a continuación.

  1. Elegir el resultado por mejorar de forma tan específica como sea posible. Por lo general, cuando iniciamos un proyecto educativo, la intención es mejorar habilidades básicas como parte fundamental de mejorar la calidad educativa. Entonces, tenemos intención de mejorar lecturamejorar matemática o mejorar escritura. Sin embargo, estos resultados son difíciles de traducir en datos si no se especifican. Trataré de explicarme usando la lectura como ejemplo. El aprendizaje de la lectura es un continuo que va desde desarrollar conciencia fonológica y comprensión oral hasta comprender textos de diferentes tipos, pasando por la fluidez. Si el objetivo en general es mejorar la lectura, puede significar mejorar todas las destrezas del continuo o solamente alguna, dependiendo del grado o la fase en el que se encuentre el estudiante. Por ejemplo, en preescolar, probablemente mejorar lectura signifique mejorar la comprensión oral; en segundo de Primaria, mejorar la fluidez; y en tercero, mejorar la comprensión lectora. Es decir, al elegir el resultado, es importante granularlo tanto como sea posible tomando en cuenta la fase en el continuo de desarrollo de la habilidad. Para decidir lo anterior, es necesario conocer teorías de aprendizaje de cada habilidad, idealmente desde la neurociencia y no desde la didáctica. 
  • Construir la medición apropiada de dicho resultado. Lamentablemente, con los años he podido observar que se toma muy a la ligera la medición de los resultados en intervenciones educativas, cuando es un aspecto determinante para demostrar la mejora o el estancamiento. Una medición apropiada es la que es válida y confiable. La confiabilidad está altamente asociada con el número de ítems en una prueba. Dicho de otra forma, un estudiante debe tener suficientes oportunidades para demostrar su habilidad y ser capaz de obtener resultados similares cada vez que se enfrente a dichas oportunidades. Además de ser confiables, los resultados de una medición deben interpretarse tal como se pretendía que fueran interpretados. Así, si el objetivo era medir la fluidez lectora, los resultados deben ser interpretados como fluidez y no  como comprensión lectora, por ejemplo. Este criterio está relacionado con la planificación de la estructura de datos que se usarán para medir las variables de una intervención.  Algunas variables constituyen una medición de una habilidad, mientras otras son factores asociados a la intervención que afectarán la habilidad.  En ambos casos es preciso considerar su medición de forma adecuada. 
  • Alinear la medición con el diseño de la evaluación de resultados. La medición de un resultado está altamente relacionada con el diseño de las evaluaciones en los proyectos. Por lo general, las evaluaciones siguen dos caminos: 1) evaluación transversal y 2) evaluación longitudinal. En el transversal, comparamos los resultados de dos grupos en un punto determinado de la intervención; por ejemplo, al final se pueden comparar el grupo control con el de intervención. Se espera que el grupo de intervención tenga mejores resultados que el control. Por otro lado, en el diseño longitudinal, se mide la habilidad de una misma cohorte a través del tiempo y se espera que los estudiantes aumenten su habilidad de un punto del tiempo a otro. Puede haber combinaciones de ambos diseños. Lo importante es comprender que los estudios longitudinales tienen algunas ventajas para mostrar mejoras con respecto de los transversales. Una ventaja es que, al controlar la varianza intragrupo, los efectos de mejora son más visibles. Mientras que, en los diseños transversales, los efectos de un grupo sobre otro son menos visibles, particularmente cuando las intervenciones toman tiempo en consolidarse.
  • Considerar el enfoque de la intervención en el diseño de la evaluación. El enfoque de intervención, ya sea uno enfocado en escuelas específicas o en regiones, o bien el que se implementa de arriba a abajo de una forma más directiva, contrario al que se implementa desde el desarrollo de capacidades del beneficiario, afectará la forma de mostrar las mejoras en una población. Por lo general, las mejoras se observan más cuando se interviene en escuelas específicas. Cuando las intervenciones son a nivel sistémico, las intervenciones pueden diluirse o contaminarse por otras intervenciones en la misma región. De esta forma, es importante considerar que las intervenciones a gran escala tendrán efectos menos pronunciados que las intervenciones a menor escala. 
  • Elegir un resultado que impacte en la calidad de vida de un niño. Finalmente, quizá lo más importante es elegir un resultado que impacte en la calidad de vida de un beneficiario. Muchas piezas de las intervenciones educativas solo constituyen insumos o productos que impactan el resultado; por ejemplo, otorgar libros de texto es un producto que impacta en el aprendizaje, pero que no constituye el resultado en sí mismo. El resultado en educación siempre debe estar relacionado con aprendizajes. Sin embargo, dichos aprendizajes pueden ser tan básicos que, aunque tengamos grandes efectos, no impactemos la calidad de vida de las personas. 

Estas lecciones surgieron de mi experiencia en el trabajo de campo a nivel internacional, a través del que colaboré activamente en el desarrollo de mi propio país. Asimismo, las lecciones fueron producto del continuo proceso de reflexión de libros especializados y de formación constante.  Por tanto, me atrevo a recomendar que, al diseñar un proyecto educativo, se consideren los criterios anteriores. Esto ayudará a que se construya una política educativa o una política escolar basada en evidencias, no en buenas intenciones. Además, las decisiones tomadas con base en estos criterios permitirán construir datos robustos y la varianza necesaria para demostrar verdaderas mejoras en los resultados educativos.  Al final del día, no se trata de «afirmar» que algunos los estudiantes leen mejor o que resuelven mejor los problemas matemáticos. No se trata de «contar» lo gratificante que fue la experiencia de implementación de un proyecto educativo. Se trata de «demostrar» que los ciudadanos de un país han progresado y que ese progreso ha impactado o impactará en una mejor calidad de vida.

En esta página, podrán encontrar los servicios de mejoramiento de la calidad educativa que ofrezco actualmente a instituciones educativas.  Además, pronto podrán encontrar mediciones de habilidades básicas para quienes quierean implementar evaluaciones en instituciones educativas y que, a su vez, deseen mejorar aprendizajes de los estudiantes con base en evidencia.

Categories
Reflexiones sobre evaluación

Lo que se evalúa, se enseña

Si les preguntamos a padres de familia o, incluso a adultos, para qué estudian o para qué desean que sus hijos estudien, seguramente escucharemos respuestas como las siguientes: «para que mis hijos tengan un buen trabajo», «para que puedan tener buenos sueldos y no les toque tan duro como a nosotros», «para que tengan un mejor empleo», «para que puedan mantener a sus familias», etc. Ciertamente, la educación está asociada con obtener los tan añorados «buenos empleos». 

La relación entre las escuelas y el mundo laboral está en que la escuela es la responsable de certificar que los ciudadanos han obtenido las competencias mínimas en las habilidades básicas para que, al salir de la escuela, puedan continuar sus estudios en oficios o profesiones específicas o bien aprender las tareas estipuladas para los trabajos que solamente requieren un nivel básico. Seguramente, algunos de ustedes estarán pensando en aquellos ejemplos de personas que han obtenido buenos empleos por sus conexiones con personas influyentes y poderosas y no tanto por su nivel de competencia para el puesto. Sin embargo, estas variables solamente opacan la relación entre la educación y el trabajo porque, a menos que la persona no trabaje, se enfrentará con las demandas del puesto conlleve. 

A pesar de la fuerte relación entre el mundo laboral y la educación, el tema de certificación de competencias se toma a la ligera en nuestra región. En muchos países latinoamericanos, el título universitario pesa más que las capacidades de una persona para ejercer un puesto. Es decir, confiamos plenamente tanto en el médico, maestro, psicólogo o nutricionista que se esforzó y tuvo las mejores calificaciones, como en el que obtuvo el título sin mayor esfuerzo, pues no tenemos forma de saber cuánto sabe o puede hacer un profesional. Lo único que sabemos es que tiene el título de doctor, licenciado, magister, etc. Sin embargo, en los países del primer mundo, los profesionales, y sobre todos aquellos de quienes depende la vida de otro ser humano, deben certificarse para laborar. Esta certificación ocurre con alguna frecuencia para dar cierta garantía a los usuarios de que los profesionales se actualizan constantemente. 

Asimismo, para acreditar estas certificaciones, las juntas certificadoras llevan a cabo un proceso riguroso de recolección de evidencia sobre el nivel de competencia de una persona. Con el mismo propósito, en las escuelas, los docentes también suelen recolectar evidencia todos los días para informarse sobre el nivel de competencia de sus estudiantes en las diferentes áreas, así como para colocar una calificación que certifique la aprobación del curso. Sin embargo, a diferencia de las juntas certificadoras, los docentes rara vez pensamos en la calidad de las evidencias que preparamos o elegimos para certificar.

Muchas veces, elegimos actividades porque son «bonitas», «creativas» y «diferentes», pero lo ideal es elegir evidencias que representen una oportunidad para que los niños, jóvenes y adultos demuestren su nivel de comprensión sobre un tema o el nivel de competencia para efectuar algo. Evans y Thompson (2020) sugieren tener las siguientes preguntas en mente para diseñar evidencias pertinentes y válidas que nos permitan certificar las competencias de los estudiantes:

  • Pregunta 1: ¿Qué queremos certificar sobre lo que los estudiantes saben y pueden hacer? 

Lo que deseamos certificar constituye nuestro objetivo de enseñanza. Los objetivos son afirmaciones sobre conocimientos, habilidades y comportamientos que deseamos que los estudiantes logren en determinado lapso. Realizar este listado requiere un examen cuidadoso y desempacar las «grandes ideas» de la disciplina o los conocimientos esenciales que queremos que logren los jóvenes en cada grado. Por ejemplo, el objetivo de este grado es que los estudiantes sumen fracciones en un contexto de mundo real

  • Pregunta 2: ¿Qué evidencia le permitiría hacer esa afirmación?

Evans y Thompson (2020) afirman que este paso es como «un experimento mental en el que se necesita describir qué aceptará como prueba de la afirmación sobre el conocimiento y las habilidades de los estudiantes» o dicho de otra forma «qué lo convencería de que el estudiante demostró los conocimientos y habilidades descritos en los objetivos de aprendizaje». Por ejemplo: responder preguntas literales sobre un texto apropiado[1] de sexto grado de primaria. Lo importante es pensar en las características clave de esta evidencia. En nuestro ejemplo, la clave está en el texto que leerán los niños.

  • Pregunta 3: ¿Qué proyectos, tareas, actuaciones o preguntas aportarán esa evidencia?

Es importante notar que NO debemos empezar con las preguntas, tareas o indicaciones y después tratamos de adaptar el objetivo de aprendizaje. A menudo, hacerlo así da como resultado la creación de una tarea o ejercicio que no genera evidencia de los objetivos de aprendizaje (Evans & Thompson, 2020). Es solo hasta que tenemos claros el objetivo y la evidencia cuando debemos pensar qué tipo de productos y/o procesos esperamos ver de los estudiantes que han dominado el conocimiento y las habilidades descritas en los objetivos de aprendizaje. 

También es importante que al pensar en las preguntas se tenga en cuenta su complejidad cognitiva. No se trata de que las preguntas sean difíciles sino cognitivamente complejas; por ejemplo, ¿quién era la esposa del líder de la independencia, Don Pedro de Molina? es una pregunta difícil, mas no compleja cognitivamente. Por el contrario, ¿cuál es la definición de independencia? es una pregunta con un grado de complejidad mayor. Nótese que ambas preguntas corresponden a un mismo contenido.

La complejidad cognitiva se refiere a «los procesos que tienen lugar en la mente del alumno (por ejemplo, recordar un hecho básico versus sintetizar a través de múltiples fuentes o evaluar una afirmación usando múltiples piezas de evidencia)» (Evans & Thompson, 2020). Esto ocurre cuando los estudiantes hacen conexiones en el aprendizaje anterior/reciente y consolidan su aprendizaje (colocan el aprendizaje en la memoria a largo plazo) o cuando los estudiantes aplican lo que han aprendido en situaciones nuevas o únicas (es decir, transferencia y razonamiento complejo) (Evans & Thompson, 2020). Una vez el profesor dice cómo hacer una tarea, esta pierde la complejidad.

Works Cited

Evans, C. M., & Thompson, J. (2020). Summative Classroom Assessment . Dover, New Hampshire, USA.


[1] La palabra apropiado puede ser ambigua. En algunos casos es necesario encontrar una medida. Por ejemplo, en este caso puede ser el lexile. El lexile es una medida de la complejidad de un texto.