No puedo hablar por el resto del mundo, pero Guatemala ha sido un país lleno de estigma, prejuicio y discriminación. Muchas de estas acciones han sido, en parte, culpa del sistema educativo y sus vicios. Recientemente, me he preguntado si algunos vicios que aumentan las brechas educativas, los estigmas y las prácticas discriminatorias se originan en la forma en que comunicamos los resultados de las evaluaciones a quienes pueden decidir sobre las oportunidades educativas para los estudiantes de todos los orígenes.
Entre otros propósitos, para hacer visibles las brechas entre los estudiantes y tomar decisiones informadas sobre la asignación equitativa de recursos, los países han creado evaluaciones nacionales a gran escala y han participado en programas de evaluación internacionales; por ejemplo, Pisa y Llece. Los diseños de evaluación a gran escala suelen ser rigurosos, por lo que puede decirse que los resultados son válidos. Sin embargo, estos diseños son difíciles de explicar porque los procesos se basan principalmente en la estadística.
Al diseñar una prueba, se toman decisiones basadas en la ciencia (estadística, educación, etc.) de modo que los puntajes obtenidos en la prueba representen lo que el estudiante de un contexto o edad específica puede o no hacer. Pero tales decisiones también están influenciadas por los usos que se darán a los resultados y el presupuesto con el que se puede implementar una evaluación. Por lo tanto, en ocasiones, una metodología ideal debe ser compensada por otra posible que sea igualmente rigurosa y permita utilizar los resultados esperados.
Por ejemplo, la evaluación nacional de Aprende+ tuvo un alcance casi censal porque los docentes realizaron la aplicación en sus aulas. Esto permitió darles a los docentes una mayor participación en los procesos de evaluación nacional, obtener resultados de más niños con mayor rapidez y devolver a los docentes resultados sobre sus propios estudiantes casi de forma inmediata. Sin embargo, esto comprometió parcialmente la estandarización y confiabilidad de los resultados. Por el contrario, la evaluación nacional de la primaria no es un censo, sino una muestra porque se implementa una costosa operación de recolección de datos con actores externos que permite una estandarización casi impecable. Aun así, la muestra es más pequeña y los resultados se ven comprometidos si parte de la muestra se pierde y no permite que se entreguen resultados a nivel de la escuela y el aula.
A pesar del rigor de los diseños de evaluación y la documentación para demostrar la confiabilidad y validez de los resultados de las evaluaciones a gran escala, todo termina con su correcta comunicación al público, quien los utilizará para tomar una decisión. En última instancia, lo que quien toma las decisiones entienda sobre la metodología de evaluación y la capacidad o incapacidad de una persona marcará la diferencia en su forma de actuar.
A diferencia de las evaluaciones a gran escala que siguen procesos rigurosos de diseño, estandarización y validación, las evaluaciones en el aula tienden a ser menos confiables. A pesar de ello, las implicancias de las evaluaciones de aula son altas ya que, estas pueden cambiar el curso de la vida de una persona, para bien o para mal.
Lamentablemente, los profesores de aula tienen poca formación en evaluación, pero están obligados a evaluar y certificar competencias. En consecuencia, se observa que los docentes imitan prácticas de evaluación a gran escala que observan de evaluadores externos, pero sin el conocimiento para imitarlas adecuadamente. Así, las pruebas y hojas de trabajo tienden a estar desconectadas de la competencia u objetivo que pretenden evaluar. Peor aún, los estudiantes reciben consecuencias sobre los puntajes de los exámenes en el aula que no demuestran con precisión lo que un estudiante puede o no puede hacer; por ejemplo, los estudiantes reciben calificaciones por “buena letra” o “formato”, descuidando el contenido de un escrito. Los estudiantes a menudo son castigados o avergonzados por sus errores de ortografía y rara vez reciben retroalimentación sobre sus habilidades para escribir ensayos. Así comunicamos que un niño “falló”, “no es capaz” y “no puede” cuando, en realidad, la prueba midió otra cosa. Si pensamos un poco más allá, con estas prácticas estamos comunicando que cuando el alumno escribe bonito tendrá una buena nota, aunque su escritura no sea coherente o no tenga argumento.
Además, los profesores a veces utilizan las calificaciones como recompensa por el buen comportamiento y pierden de vista el desempeño de los estudiantes. Por lo tanto, las niñas que se quedan quietas y se portan bien obtendrán mejores calificaciones que los niños activos o menos quietos.
Me preocupa que estas prácticas tengan peores consecuencias para los estudiantes vulnerables y que un niño sea castigado o tenga acceso limitado debido a la vulnerabilidad en la que vive al obtener una evaluación válida o poco confiable. Me pregunto si muchos niños que reprobaron el primer grado fueron evaluados con pruebas poco válidas y confiables y con ideas mal concebidas sobre las poblaciones vulnerables.
No digo que el diseño y la comunicación de los resultados de las evaluaciones sean la única causa de conductas excluyentes de las poblaciones vulnerables, pero no está de más repensar cuestiones básicas como:
¿Tenemos claro qué queremos visibilizar con una evaluación?
¿El diseño de nuestras evaluaciones es inclusivo o es excluyente?
¿Qué informamos a través de nuestras evaluaciones? ¿A quién informamos?
¿Qué escuchan y entienden nuestros docentes, políticos y ciudadanos sobre los resultados de una evaluación?
¿Qué decisiones son relevantes en función de los resultados y quién debe tomarlas?
¿Qué posibilidades reales tiene un estudiante de avanzar en función de los resultados de una evaluación?
No olvidemos que al evaluar pretendemos mostrar las desigualdades entre grupos a través de evaluaciones para brindar mejores oportunidades donde sean necesarias y, sospecho, que contrariamente a tal intención, sin querer estamos propiciando conductas de exclusión hacia las poblaciones indígenas, las poblaciones pobres, las mujeres y poblaciones con discapacidad. Aunque los resultados de pruebas estandarizadas muestran que algunos grupos de la población no están alcanzando los niveles requeridos de competencias esenciales, también podríamos estar comunicándoles que “no pueden” y que deberían “perder” el grado, sobre todo cuando se reproducen prácticas de evaluación poco confiables y válidas en las aulas. Es sumamente importante empezar a discutir el tema de comunicación de resultados de pruebas (nacionales o de aula) como un factor de exclusión en países como Guatemala y encontrar mejores estrategias de comunicación (para el desarrollo) de dichos resultados.