Categories
Reflexiones sobre evaluación

Los monstruos de la evaluación: Frankenstein

Víctor Frankenstein fue un científico que creó una criatura espeluznante. La «Criatura» fue producto de un experimento que el científico creyó exitoso cuando cobró vida durante una tormenta eléctrica, pero que luego se le salió de las manos porque comenzó a asesinar humanos. Frankenstein terminó muerto al perseguir a su propia criatura por el Ártico. Luego de la muerte de su creador, la criatura se perdió en el océano en una balsa de hielo.

Cuando leo el reglamento de evaluación de nuestro país, solo puedo pensar en la «criatura» que hicimos producto de un experimento donde se combinaron los peores monstruos y al que, orgullosamente, dimos vida en el 2010. Pero, igual que a Víctor Frankenstein, sospecho que se nos está saliendo de las manos.

De acuerdo con el reglamento (nuestra Criatura), la evaluación de aprendizajes se define como el logro de las competencias esperadas para el grado. En Guatemala, el currículo nacional contiene indicadores de logro para cada competencia, por lo que este documento constituye la referencia del logro esperado para todos los grados.

A pesar de tener claro el referente de logro, la verdad es que el reglamento de evaluación no regulariza cómo visibilizar el aprendizaje de los estudiantes de forma confiable y válida. Más bien, regulariza el poder de los monstruos de la evaluación que he mencionado en los otros artículos: el Cero, la Bruja Escala y el Vampiro Promedio. Peor aún, solo nos obliga a tomar decisiones sobre los estudiantes sin tener la evidencia de lo que realmente importa: logro de competencias.

En primer lugar, el reglamento de evaluación está basado en la Bruja Escala de 0 a 100 puntos. Con esta, los docentes están obligados a calificar todos los productos de sus estudiantes con una nota entre 0 y 100, diluyendo el desempeño en demasiados números. En segundo lugar, bajo esta escala, el reglamento establece que la puntuación mínima para aprobar con una nota mínima de 60 puntos lo que sea que se use como instrumento de evaluación. De manera que, tal como vimos cuando discutimos este monstruo, dos tercios de la escala se inclinan al fracaso del estudiante solamente por la escala que el reglamento usa. En tercer lugar, el reglamento establece que los estudiantes que no aprueben con dicha nota las materias de matemática y lenguajes o bien que el Promedio de todas sus materias no supere los 60 puntos deben repetir el grado una y otra vez por una eternidad… porque todo lo anterior es posible solo si los estudiantes cumplen con 80% de asistencia, que ―para el caso de los alumnos que trabajan en campo o que tienen alguna otra barrera para asistir a la escuela― no podrán cumplir y, por tanto, acumularán Ceros en el cuadro de notas del docente.

Lo único acertado que el reglamento de evaluación contiene es eximir a los pequeños de Preprimaria de las maldades de estos tres monstruos, aunque algunos establecimientos privados que ofrecen «calidad» educativa ya han sido copados por la Bruja, el Vampiro y el Cero.

El reglamento al que rendimos pleitesía es poderoso como la criatura que creó Frankenstein. Bajo las reglas que allí se establecen, los niños repiten una y otra vez los grados, desertan, ganan becas, ingresan a la universidad, entre otros usos de las «calificaciones» que pueden cambiar el curso de la vida de un estudiante.

El gran vacío en todo esto es responder a la pregunta: ¿Qué han aprendido los estudiantes? En los múltiples años en los que trabajé evaluando en las escuelas, encontré varios escenarios:

  1. Niños que tenían altas calificaciones, pero no habían logrado las competencias del grado.
  2. Niños que habían logrado las competencias del grado, pero tenían bajas calificaciones.

La realidad de lo anterior es que medir competencias no se parece a la forma como se califica en las escuelas. Las calificaciones se producen sobre elementos que no tienen nada que ver con lograr competencias, como entregar o no las tareas, trabajar limpio y ordenado, hacer el trabajo más creativo y demostrar esfuerzo, entre otros. Rara vez se observa en las escuelas que el logro de la competencia se evalúe a través de una evidencia de desempeño directamente relacionada con dicha competencia; por ejemplo, si la competencia es escribir un párrafo, pocas veces he observado que un docente no otorgue o quite puntos por la linda letra en el párrafo, difuminando la calificación.

Todo lo que quiero decir es que muy probablemente los puntos que damos o quitamos a los estudiantes no han tenido nada que ver con el logro de aprendizajes, sino que han sido un artefacto que hemos creado de la misma forma en que Frankenstein creó a su criatura.

No digo que haya estudiantes que no logren las competencias, mi argumento es que, con el sistema actual de evaluación y calificación, realmente no sabemos qué han logrado. Sin embargo, afirmamos con convicción, pero sin evidencia, que un niño merece perder un curso, repetir el año o que no pudo aprender pese a nuestro arduo esfuerzo de enseñarle.

Categories
Reflexiones sobre evaluación

Los monstruos de la evaluación: El vampiro Promedio

Si bien he expuesto a dos monstruos temibles de la evaluación, imagina que aparezca un monstruo más y que haga más fuerte a los otros dos. El tercer monstruo que discutiremos es el Promedio. Un promedio es una medida que resume varios números en uno solo. Esta medida representa una tendencia de varios números. Sin embargo, a pesar de su precisión numérica para representar una tendencia, el promedio distorsiona el sentido del aprendizaje de un estudiante y, como si fuera el Conde Drácula de una película de terror, absorbe lo mejor de la trayectoria de aprendizaje de un estudiante (Feldman, 2019; Witte, 2011; Guskey, 2015). 

Permítanme presentarles a tres niños que reciben clases en el salón del profesor Promedio.

Samantha es una niña de cuarto de Primaria cuyo primer idioma no es el español. Sin embargo, asiste a una escuela donde el primer idioma es ese y, por tanto, las evaluaciones se realizan en ese idioma, incluso las evaluaciones de matemática. Samantha ayuda a sus papás en el campo durante los primeros meses del año, por lo que al inicio del ciclo escolar se ausenta de la escuela con frecuencia y, como consecuencia, este año, no tomó el primer examen. Conforme avanza el año, Samantha suele ponerse al día en matemática y recuperar sus calificaciones a pesar de la dificultad con el idioma español. 

Manolo es un niño que está repitiendo cuarto de Primaria. A Manolo se le dificultan las matemáticas. Al principio del año, pudo comprender algunos temas que le resultaban difíciles el año pasado, pero conforme avanzó en las unidades volvió a caer en sus calificaciones. Él sufre ansiedad por los exámenes, por lo que suele cometer errores por la traición de sus nervios y la inseguridad que siente con algunos temas. Manolo teme volver a perder el grado si no supera el examen de fin de ciclo con al menos 65 puntos.

Cristina es una niña de cuarto de Primaria a la que le encantan las matemáticas y siempre tiene buenas calificaciones. Sin embargo, su amiga Patricia encontró difícil la última unidad, y Cristina, que siempre se preocupa por los demás, decidió que Patricia podía copiar sus respuestas en el último examen. Resulta que el profesor las atrapó copiando y les colocó un cero en el examen a ambas. 

Examen unidad 1Examen unidad 2Examen unidad 3Examen unidad 4Promedio del cursoDecisión
Samantha060656563Aprueba raspada
Manolo7055406560Aprueba condicionado a la última nota
Cristina807581059Reprueba

Fuente: Adaptación de Guskey (2015).

En esta aula, el profesor Promedio toma en cuenta la trayectoria del estudiante y no su desempeño actual. El promedio resume las cuatro notas a través sumar las calificaciones del año y dividirlo entre la cantidad de calificaciones acumuladas. Sin embargo, los estadísticos saben que el promedio no es robusto ante casos extremos. Así, si el niño tiene un mal comienzo, como era el caso de Samantha; tiene dificultad en alguna unidad, como Manolo; o simplemente toma una mala decisión durante el año, como Cristina, el promedio los castigará, porque, tal como si fuera el conde Drácula, el promedio succionará todos los números sin considerar si los extremos son producto de un mal día o de alguna barrera que el estudiante esté teniendo para avanzar. 

Las calificaciones deberían interpretarse como el logro del estudiante en determinada competencia después de haber pasado por un proceso para dominarla. El promedio no representa los logros que el estudiante ha tenido en cada unidad, sino su trayectoria durante el año. No comprender esta distinción puede distorsionar la interpretación de la calificación y, peor aún, provocar que tomemos una decisión que perjudique al estudiante, en lugar de ser inclusivos y justos.

Ahora bien, hay otras medidas de tendencia central; por ejemplo, la mediana o la moda son resistentes a los casos extremos. Seguramente alguno de ustedes pensará que Cristina no merece aprobar si fue capaz de hacer trampa en el último examen. Pero, solo un malvado monstruo utilizaría la calificación para disciplinar a una joven de cuarto de Primaria. Por el contrario, las calificaciones deben utilizarse solamente para mostrar el desempeño en matemática de los estudiantes, no su comportamiento. 

Examen unidad 1Examen unidad 2Examen unidad 3Examen unidad 4MedianaDecisión
Samantha060656565Aprueba 
Manolo7055406560Aprueba condicionado por la última nota
Cristina807581080Aprueba

Sin embargo, a pesar de que la mediana pueda aparentar ser un poco más justa, en realidad también puede llegar a distorsionar el desempeño, sobre todo cuando las notas son muy dispersas, como es el caso de Manolo. Aunque el promedio es la peor de las medidas, el problema radica en utilizar una sola calificación para representar la película completa del año, cuando no se tiene claro a donde se quería llegar.  

Aquí hay algunas recomendaciones para amortiguar los efectos nocivos de los monstruos de la evaluación:

  1. Sume en lugar de promediar.
  2. Si tiene que promediar, utilice evaluaciones similares (muchas oportunidades de demostrar desempeño).
  3. Evalúe desempeño y no actitud o responsabilidad.
  4. Divida la escala en puntos acumulables.  Es decir, distribuya puntos hasta llegar a 100.
  5. Dé mayor peso al desempeño más reciente del estudiante.
  6. Planifique la retroalimentación, pero no la incluya en la calificación.
  7. Cree muestras del desempeño esperado.
  8. Reduzca la escala de 0-100 a una de cuatro puntos.
  9. Elimine el uso de 0 y establezca una calificación mínima.

Dicen que octubre es el mes que en aparecen más monstruos, pero en la clase corremos el riesgo de que los monstruos de la evaluación nos visiten en cualquier época del año.  En próximas entradas, expandiré sobre cómo evitar que los monstruos nos conviertan en maestros que, sin querer, promuevan exclusión y deserción en las escuelas al aplicar prácticas para calificar con algunos vicios que adquirimos de los monstruos de la evaluación.

Works Cited

Feldman, J. (2019). Grading for Equity. Thousand Oaks: Sage.

Guskey, T. (2015). On Your Mark: Challenging the Conventions of Grading and Reporting. Bloomington: Solution Tree.

Witte, A. E. (2011). Understanding International Grading Scales. International Journal of Managment Education, 49-54.

Categories
Reflexiones sobre evaluación

Los monstruos de la evaluación: La Bruja Escala

Desde la época de la Revolución Industrial, hemos creído que usar porcentajes para calificar es más preciso y «objetivo». Actualmente, aunque ya no vivimos la Revolución Industrial, la tecnología ha promovido el uso de porcentajes para facilitar la producción de calificaciones. Así, los profesores tendemos a describir el desempeño de los estudiantes a través de porcentajes que, por definición, es una escala de 0-100. 

La escala de 0-100, aunque ampliamente aceptada, constituye otro de los monstruos de la evaluación. Le diremos «La Bruja Escala». Como si fuera un conjuro, la práctica de usar porcentajes para calificar crea una ilusión de precisión y «objetividad» sobre el desempeño de un estudiante que, en realidad, está llena de errores. 

En 1912 Starch y Elliot, empezaron a sospechar de la malvada bruja cuando pidieron a más de un ciento de docentes que calificaran la misma tarea, y encontraron una variación de casi 30 puntos (rango de 64-98). Desde esa época, las escuelas de Estados Unidos recomendaron alejarse de los porcentajes para calificar. Sin embargo, el conjuro de la bruja fue tan fuerte que los docentes y las escuelas persisten en utilizarlos casi un siglo después. En algunos contextos, ha habido algunas modificaciones; por ejemplo, los porcentajes que ahora se usan en las escuelas son distintos a los originales, cuando se esperaba que el promedio en la escala fuera 50 puntos. Con el tiempo, el promedio se movió a 60 puntos y, entonces, se estableció que la expectativa para pasar los cursos fuera 60 puntos. 

Lo que los cazabrujas no notaron a principios de siglo pasado es que el conjuro sería tan dañino en las escuelas que la combinación de esta escala con el cálculo de promedio condenaría a los estudiantes más vulnerables a continuar rezagándose en su progreso educativo.

Sin cuestionar la práctica, continuamos otorgando puntos por los aciertos que tengan los estudiantes y, por consiguiente, quitando puntos cuando no aciertan. En medición, este concepto aplica cuando se tiene un instrumento de evaluación confiable y válido. Sin un instrumento preciso, los porcentajes crean una ilusión de objetividad que realmente no está allí. Los instrumentos que los docentes crean no tienen las características de las pruebas estandarizadas, donde el porcentaje de respuestas correctas puede defenderse porque pasan por un proceso riguroso de validación. Por el contrario, los docentes utilizan evaluaciones creativas para observar que los estudiantes han logrado las competencias. Esta creatividad es acertada porque las evaluaciones en el aula deben constituir una herramienta accesible donde el estudiante pueda evidenciar su nivel de competencia y, además, ser congruentes con lo que los docentes hemos enseñado. 

Sin embargo, las evidencias que los docentes solicitamos a los estudiantes son difíciles de calificar con un modelo de respuestas correctas o incorrectas, a menos que sean exámenes que simulen una estandarización. Por lo general, los trabajos escolares tienen modelos donde se solicita a los estudiantes que produzcan «algo»; por ejemplo, proyectos, ensayos, reportes, entre otros. 

Cuando tratamos de encajar este tipo de evidencia en una escala de calificación de 0 a 100 es difícil elegir entre 100 posibilidades el número que mejor representa el desempeño del estudiante. Así, un docente puede asignar un número basado en su propia expectativa, mientras que otro docente puede asignar otro número basado también en su expectativa. Y así, para un estudiante, aprobar o no depende del docente que califique y no de su propio desempeño.

Peor aún, cuando se trata de decidir quién tiene derecho a pasar y quién no, determinar el número mínimo para ese propósito en una escala de 0-100 también constituye un truco que la Bruja Escala nos dejó. Bajo el paradigma de que el 60 es el número mágico para pasar se sesga la probabilidad hacia el lado oscuro de la escala. El lado donde el estudiante tiene mayor posibilidad de perder y menos posibilidad de ganar, ya que dos tercios de los números representan fracaso y un tercio representa éxito. Por tanto, la escala 0-100 está orientada a fracasar. 

Por eso, colegas no caigan en el conjuro de la Bruja Escala ni se crean que a más grande la escala más precisas serán sus calificaciones. Convénzanse ustedes mismos de lo contrario. La escala de 0-100, aunque práctica, está sesgada hacia el fracaso y presenta mayor error de clasificación al tener tantas opciones para asignar. Profesionales de evaluación actualmente sugieren reducir la escala incluso a cuatro números (1-4) con una descripción clara de desempeño. Pronto vendrán los artículos donde discutiré esta alternativa.

Crédito de la imagen: Julián Véliz

Starch, D., & Ellliot, E. C. (1912). Reliability of the Grading of High School Work in EnglishThe University of Chicago Press, 442 – 457.

Categories
Reflexiones sobre evaluación

Los monstruos de la evaluación: El cero

En la escuela, el número 0 tiene un simbolismo de fracaso o de irresponsabilidad. No hay nada más tenebroso, más intimidante o donde el niño se sienta más impotente que cuando la figura de poder en el aula le aplica el cero por cometer un “error”.

Así, el cero se asigna cuando los estudiantes no entregan las tareas o cuando se comportan inadecuadamente. El cero rara vez se asigna para evidenciar el aprendizaje de un estudiante. Más bien, se asigna para disciplinar o enviar un mensaje de poder sobre el estudiante. 

Paradójicamente, en evaluación, el cero representa un punto en la escala de calificación, no falta de información de lo que se desea medir porque, a decir verdad, nadie tiene nulo conocimiento o “cero” habilidad en algo. Dicho de otra forma, los evaluadores reconocemos que, al asignar cero cuando no hay evidencia de lo que se desea medir, se puede introducir error en la calificación de forma sistemática: «No tener evidencia de lo que un estudiante no sabe no es lo mismo que tener evidencia de que el estudiante no sabe nada» (Feldman, 2019, p.77).

Veamos este ejemplo adaptado de Feldman (2019):

PezPeso
Pez A2 libras
Pez B1.5 libras
Pez C3 libras
Pez D2 libras
Pez E—-

Como notarán, desconocemos el peso del Pez E. Si el pescador vendiera a Q20.00 cada libra, lo lógico sería que el comprador pagara Q.170 por los peces A, B, C y D y que no comprara el pez E porque desconoce su peso. Asimismo, el vendedor no entregaría el pez E sin cobrar nada al comprador por la misma razón. Ahora veamos el siguiente cuadro:

Asignación Porcentaje basado en respuestas correctas
A80
B60
C100
D60
E0 (no entregó la asignación)

Al igual que el pescador, no tenemos información sobre el desempeño del estudiante en la tarea E. Puede ser que el estudiante haya decidido no hacerla, se haya enfermado el día anterior, la haya olvidado, no la haya entendido o cualquier otra razón. En un sistema de calificaciones bajo la costumbre de obtener el promedio de porcentajes de respuestas correctas en las asignaciones y donde se castiga la no entrega, el estudiante obtendría 60 en lugar de 75 al dividir la suma de calificaciones dentro de 5 y no dentro de 4 asignaciones. ¿La pregunta es si el 60 representa el desempeño del estudiante en una competencia o representa otra cosa? ¿Defenderíamos que la calificación frente a los papás del estudiante o ante un supervisor?

Probablemente la respuesta a las preguntas anteriores sería «NO». Sin embargo, algunos profesores preguntarán de qué forma incentivarán a los estudiante para completar sus asignaciones si no es a través de castigar o premiar por medio de las calificaciones. Es que erradicar el cero de los sistemas de calificaciones representa una batalla contra nuestros propios paradigmas, tanto como educadores y como estudiantes. Incluso, algunos estudiantes prefieren obtener el cero por no entregar una tarea que intentar hacer un trabajo con el cual se ponen en evidencia de no ser competentes (Feldman, 2019, p.78).

La solución retorna al propósito de calificar. En las instituciones educativas, las calificaciones son las que respaldan las decisiones que los docentes toman sobre el aprendizaje de los estudiantes, la aprobación de los cursos y la necesidad de repitencia. De la misma manera, los resultados anteriores inciden en la decisión de los estudiantes de desertar. Las calificaciones como las conocemos, con porcentajes, promedios y ceros, son consecuencia de los paradigmas que heredamos de la revolución industrial. Desde ese momento, nos creímos que las calificaciones son un buen motivador extrínseco y que los números en una calificación contienen la absoluta verdad sobre la capacidad de una persona. Sin embargo, por décadas, se ha sabido que las calificaciones que asignan los profesores son poco confiables y poco certeras porque contienen números que representan algo diferente al aprendizaje del estudiante en un curso, como el acto de entregar o no una tarea. Recientemente, bajo los nuevos marcos de validez de las evaluaciones, también se argumenta que las calificaciones contribuyen a las inequidades sociales que existen en las escuelas (Guskey, 2004). 

Por tanto, autores como Reeves (2004), Guskey (2004) y Feldman (2019) han iniciado una batalla en contra de asignar cero en las escuelas. Esta solución conlleva hacer otros cambios en los sistemas de calificaciones como reducir las escalas y eliminar la tradicional escala de 0 a 100, buscar alternativas al cálculo de promedios, entre otras. Lo cierto es que, por más incluyentes que queramos ser en las escuelas, sin pasar por los sistemas de calificaciones es probable que nunca erradiquemos la inequidad en la educación.

Crédito de la imagen: Julián Véliz