Análisis crítico de las evaluaciones muestrales en educación en el Perú Por: Jean Zapata
Introducción La realización de evaluaciones, al menos a un nivel muestral, se está convirtiendo rápidamente en un elemento fundamental de los sistemas educativos modernos, dado que representa una parte necesaria del proceso de diseño, implementación y evaluación de programas para mejorar la calidad de la educación principalmente desde los puntos de vista de los ministerios o entes encargados de la educación en los países latinoamericanos y, además, porque países de muchos lugares del mundo están realizando crecientemente evaluaciones censales, usualmente en determinados grados escolares. Hasta el momento, se ha publicado muy poca información respecto al tema de los costos de las evaluaciones y ninguna sobre el caso particular de América Latina. El presente estudio tiene como propósito brindar en un primer momento algunos informes estadísticos extraídos unos cuadros del informe de las evaluaciones estandarizadas del CNE 2014, y en un segundo momento los estimados preliminares sobre este tema permitirán probar algunas hipótesis que se plantearán en el presente artículo, basados en las escasa datos estadísticos publicados y que en su mayor parte solo son figuras las que se encuentran en las publicaciones. El autor considera que y es testigo que hasta ahora no hay información publicada sobre los altos costos de las evaluaciones, sobre todo comparados con los limitados fondos discrecionales disponibles en los ministerios y la alta dedicación de tiempo exigida a un puñado de personas calificadas. Por ahora, el debate sobre los costos de evaluación no ha llegado aún a la opinión pública, pues esta información económico financiera no ha sido publicada a partir del 2004, principalmente como es el caso del Perú. Pero esta situación puede cambiar a medida que las evaluaciones se amplíen y
que en una serie de países las agencias externas que actualmente las financian insistan en que estos costos se integren en los presupuestos ordinarios.
Evaluaciones muestrales en educación La formulación e implementación de un sistema de evaluaciones estandarizadas que ayude a mejorar un sistema educativo requiere establecer claramente qué es lo que se desea lograr con las evaluaciones. Existen dos grandes modelos al respecto. El primero involucra a familiares, docentes, directores y funcionarios de distinto nivel, y es denominado modelo de bajas consecuencias. En este modelo, los resultados de las pruebas no tienen implicancias directas, sino que se espera que sean utilizados por los diversos actores educativos para tomar decisiones que lleven a mejorar los procesos de enseñanza y aprendizaje (Ravela, P & otros, 2008) Siendo el modelo descrito en el párrafo anterior el adoptado en el Perú, y el Consejo Nacional de Educación. El segundo, denominado modelo de altas consecuencias, usa los resultados para tomar decisiones que afectan directamente a los involucrados en la evaluación (Ravela, P & otros, 2008) Cabe precisar que llama la atención ya que la Ley de Reforma Magisterial (Artículo 24) establezca que la evaluación del desempeño docente incluya la evaluación del progreso de los alumnos. Esto contradice al enfoque de bajas consecuencias y lo señalado en el Marco de Buen Desempeño Docente. Este último define las competencias que debe desarrollar el docente, pero no consigna los resultados del aprendizaje de los estudiantes como elementos de la evaluación docente. Esta discrepancia debe corregirse siguiendo los lineamientos del Marco de Buen Desempeño Docente (Cueto, S. 2007). En el Perú, las evaluaciones estandarizadas empezaron a implementarse y se desarrollaron bajo un enfoque de normas entre los años 1996 y 1998. Así, los test
permitían identificar cuál era el desempeño de los estudiantes participantes en relación unos con otros, pero no permitían saber si habían logrado determinados niveles de desempeño. A pesar de esta limitación, las evaluaciones determinaron que los estudiantes de zonas rurales de habla distinta del español se encontraban notablemente rezagados en rendimiento (Cueto, S. 2007). Una segunda fase de evaluaciones estandarizadas se desarrolló desde el enfoque de criterios a partir de la medición con evaluaciones muestrales en los años 2001 y 2004. Esto significa que el diseño de las pruebas partió de un análisis del currículo nacional, gracias al cual se establecieron niveles de desempeño. A diferencia del enfoque de normas, el enfoque de criterios permite identificar el nivel de logro de los estudiantes participantes. En esta fase se produjo también un gran volumen de trabajos de análisis de los factores asociados, relevantes para orientar las políticas educativas. Mientras que la segunda fase de evaluaciones se administró a muestras representativas, la tercera fase se caracteriza por ser censal, de ahí su denominación “Evaluación Censal de Estudiantes”, que ha permitido tener resultados comparables desde 2008 hasta 2012, y que continúa en implementación (PREAL, 2014) En estas evaluaciones censales estandarizadas en educación se puede encontrar dos características muy marcadas. Lozada Pereira, B. Y. 2014 explica que en primer lugar, es un rendimiento bajo, tanto en relación con los niveles de logro esperados, como en la comparación con otros países. Un porcentaje mayoritario de estudiantes no está logrando los aprendizajes establecidos en el currículo. Otra característica es que el logro de aprendizajes está distribuido de forma inequitativa, pues los rendimientos más bajos los obtienen los estudiantes que provienen de familias que viven en zonas rurales y hablan lenguas distintas del castellano. En la serie 2008-2012 de la Evaluación Censal de Estudiantes, si bien se identifica una tendencia hacia la mejora, que actualmente se ha estancado, se siguen presentando las brechas por zona geográfica y por lengua materna. Los logros de aprendizaje entre regiones son variables, habría que preguntarse si las diferencias se correlacionan con el gasto invertido por estudiante, que es unos de los objetivos del presente trabajo.
Justificación y Fines de las Evaluaciones Estandarizadas Las evaluaciones estandarizadas del rendimiento escolar son, en general, iniciativas costosas que requieren del trabajo dedicado de profesionales altamente especializados durante largos períodos, desde la concepción inicial hasta la elaboración de reportes para diferentes actores educativos. De acuerdo con diversos autores y que concuerdan con Ravela et al., 2008, quien expone lo siguiente: “Lo más importante al planificar evaluaciones es tener un plan claro de su propósito y de los fines que se les piensa dar. Al respecto, hay una gran variedad de posibilidades. Un primer enfoque es el denominado de bajas consecuencias. En este enfoque se planifican las evaluaciones para conocer cuánto han aprendido los estudiantes en relación con algún referente (por ejemplo, el currículo nacional). Para esta labor, a menudo se han establecido previamente estándares o expectativas de aprendizaje que se usan para calcular el porcentaje de estudiantes que llegan a un nivel satisfactorio de rendimiento. El propósito de este enfoque es únicamente formativo: los actores que tuvieran acceso a los resultados de evaluaciones deberían utilizarlos para, por ejemplo, identificar dificultades y diseñar políticas, revisar los programas de capacitación docente o revisar los textos escolares existentes, por mencionar algunos posibles usos. La escasa utilización de los resultados es uno de los principales problemas de este enfoque, pues esta depende de la motivación de los actores y de su experiencia en lectura e interpretación de información que a menudo viene en formatos poco comunes entre educadores (por ejemplo, información estadística). En el segundo enfoque denominado enfoque de evaluaciones de altas consecuencias, los resultados tienen implicancias directas para algunos actores. Por ejemplo, se puede administrar una evaluación a los estudiantes que terminan la secundaria, ya sea para decidir su graduación o para tener un criterio referencial que se pueda usar para el ingreso a la educación superior o al mundo laboral. Este enfoque se justifica por la necesidad de evaluar a todos los estudiantes por igual, eliminando las diferencias provenientes de las preferencias
de cada docente por distintos criterios. Así, en este enfoque se espera que padres de familia y docentes conozcan con anticipación los niveles de rendimiento necesarios para, por ejemplo, graduarse de un nivel educativo, y que trabajen para lograrlos”. A nivel latinoamericano existen algunas experiencias como las cita el Concejo Nacional de Educación en su boletín Nº 36 del año 2013: “El caso en El Salvador, donde se administra la Prueba de Aprendizaje y Aptitudes para Egresados de la Educación Media (PAES)1. Se trata de una prueba obligatoria que tiene un peso del 25% para la nota final en las áreas evaluadas (matemática, estudios sociales, lenguaje y literatura, y estudios naturales). Una variante del anterior modelo es la evaluación estandarizada de todos los estudiantes al finalizar la secundaria, pero no para definir si se deben graduar, sino solo como referente para el ingreso a la universidad. Por ejemplo, en Chile, se administra desde el 2003 la Prueba de Selección Universitaria (PSU), que busca medir los niveles de razonamiento de los estudiantes. La PSU incluye, de manera obligatoria, evaluaciones en lenguaje y comunicación, y matemática; además, incluye, como electivas, pruebas de historia y ciencias sociales, y ciencias (física, química y biología) Algo similar se ha hecho en Brasil con la prueba ENEM (Examen Nacional de la Enseñanza Media). Estas prácticas parecen, en principio, menos problemáticas que la anterior, siempre y cuando el puntaje no sea el único criterio para la toma de decisiones (las notas del colegio, la motivación y perseverancia, o la habilidad para trabajar en grupos también pueden predecir el éxito en la educación superior o el trabajo). De hecho, este tipo de evaluaciones podría representar una ventaja para los estudiantes que, en diferentes partes de nuestro país, podrían ser evaluados y, sobre la base de sus puntajes, postular a una o varias universidades, y no como ocurre actualmente, que deben someterse a evaluaciones específicas a cada universidad a la que quieran ingresar.
Las evaluaciones también puede tener altas consecuencias si se emplean para otorgar incentivos a los docentes, como se ha hecho por décadas en Chile y México (Ferrer, 2006), o para cerrar instituciones educativas, como se ha hecho con la iniciativa legislativa Ningún Niño se Queda Atrás (No ChildLeft Behind) en los Estados Unidos.
Análisis estadísticos de los resultados de las evaluaciones muestrales A continuación se presenta un análisis estadísticos basándose el autor en los informes expuestos por el Consejo nacional de educación en el 2013, frente a la escasa información como para realizar otros estudios que desde el punto de vista del investigador no se contemplan, se recurrirá en algunos casos a pruebas no paramétricas con el fin de tratar de explicar algunos puntos de vista que dieron motivación al presente artículo. Tabla Nº1 Puntaje promedio de las evaluaciones censales por región entre 2008 y el 2012
Gráfico Nº01 Relación entre el promedio regional en matemática y el porcentaje de población en situación de pobreza extrema.
Interpretación: Es notoria la dispersión de los puntos en la Figura Nº1, al no contarse con la información cuantitativa ya que el organismo encargado de publicar estos resultados no publica la base de datos completa, pero es posible apreciar una relación inversamente proporcional entre las variables de estudio, en tal sentido se puede aseverar que a mayor porcentaje de pobreza en la población se espera un menor promedio regional, con un coeficiente de correlación lineal de -0.54 lo que nos indica que la correlación entre dichas variables es significativa ya que se encuentra en el intervalo de -0.4 y -0.7. También podemos extraer de la escasa información publicada el coeficiente de determinación, lo que nos ayuda a entender que el 73% del bajo promedio regional es explicado por el alto porcentaje de la población en extrema pobreza y viceversa.
No es posible encontrar un modelo que logre explicar lo presentado en la Figura Nº1 ya que no se dispone de la pendiente ni del punto de intercepción con el eje que representa al promedio regional. Figura Nº2 Relación entre el promedio regional en comprensión lectora y el porcentaje de pobreza
Interpretación:
Es notoria la dispersión de los puntos en la Figura Nº2, al no contarse con la información cuantitativa ya que el organismo encargado de publicar estos resultados no publica la base de datos completa, pero es posible apreciar una relación inversamente proporcional entre las variables de estudio, en tal sentido se puede aseverar que a mayor porcentaje de pobreza en la población se espera un menor promedio regional, con un coeficiente de correlación lineal de -0.67 lo que nos indica que la correlación entre dichas variables es significativa ya que se encuentra en el intervalo de -0.4 y -0.7. También podemos extraer de la escasa información publicada el coeficiente de determinación, lo que nos ayuda a entender que el 82% del promedio regional es explicado por el porcentaje de la población en extrema pobreza.
No es posible encontrar un modelo que logre explicar lo presentado en la Figura Nº2 ya que no se dispone de la pendiente ni del punto de intercepción con el eje que representa al promedio regional. Figura Nº03 Relación entre el promedio regional en matemática y el gasto público en educación primaria
Interpretación:
Es notoria la dispersión de los puntos en la Figura Nº3, al no contarse con la información cuantitativa ya que el organismo encargado de publicar estos resultados no publica la base de datos completa, pero es posible apreciar una relación directamente proporcional entre las variables de estudio, en tal sentido se puede aseverar que a mayor gasto público por alumno se espera un mayor promedio regional, con un coeficiente de correlación lineal de 0.38 lo que nos indica que la correlación entre dichas variables es baja ya que se encuentra en el intervalo de 0.2 y 0.4. También podemos extraer de la escasa información publicada el coeficiente de determinación, lo que nos ayuda a entender que el 62% del promedio regional es explicado por el porcentaje de la población en extrema pobreza.
No es posible encontrar un modelo que logre explicar lo presentado en la Figura Nº3 ya que no se dispone de la pendiente ni del punto de intercepción con el eje que representa al promedio regional. Figura Nº4 Relación entre el promedio regional en comprensión y el gasto público en educación primaria
Interpretación:
Es notoria la dispersión de los puntos en la Figura Nº4, al no contarse con la información cuantitativa ya que el organismo encargado de publicar estos resultados no publica la base de datos completa, pero es posible apreciar una relación directamente proporcional entre las variables de estudio, en tal sentido se puede aseverar que a mayor gasto público por alumno se espera un mayor promedio regional en comprensión, con un coeficiente de correlación lineal de 0.26 lo que nos indica que la correlación entre dichas variables es baja ya que se encuentra en el intervalo de 0.2 y 0.4.
También podemos extraer de la escasa información publicada el coeficiente de determinación, lo que nos ayuda a entender que el 51% del promedio regional en comprensión es explicado por el porcentaje de la población en extrema pobreza. No es posible encontrar un modelo que logre explicar lo presentado en la Figura Nº4 ya que no se dispone de la pendiente ni del punto de intercepción con el eje que representa al promedio regional. Figura Nº5 Puntaje promedio en Matemática según característica de la escuela
La Figura Nº5 nos ayudara a probar las siguientes hipótesis: H0: La diferencia entre el puntaje promedio en Matemática de las escuelas multigrado y completas no es estadísticamente significativa. H1: La diferencia entre el puntaje promedio en Matemática de las escuelas multigrado y completas es estadísticamente significativa.
Tabla Nº02 Estadísticos de contraste PUNTAJE U de Mann-Whitney
,000
W de Wilcoxon
15,000
Z
-2,611
Sig. asintót. (bilateral)
,009
Sig.
exacta
unilateral)]
[2*(Sig.
,008b
a. Variable de agrupación: Tipo de escuela b. No corregidos para los empates.
Interpretación: Con un nivel de significancia del 0.009 se puede concluir que existe evidencia estadística y usándose el estadístico no paramétrico a la U de Mann – Whitney, para rechazar la hipótesis nula, en este sentido concluimos que la diferencia entre el puntaje promedio de las escuelas multigrado y completas es estadísticamente significativa. De lo anterior es notorio que los puntajes promedio en matemática son más bajos en las escuelas multigrados que en las escuelas completas. Figura Nº6 Puntaje promedio en Comprensión según característica de la escuela
La Figura Nº6 nos ayudara a probar las siguientes hipótesis:
H0: La diferencia entre el puntaje promedio en Comprensión de las escuelas multigrado y completas no es estadísticamente significativa. H1: La diferencia entre el puntaje promedio en Comprensión de las escuelas multigrado y completas es estadísticamente significativa. Tabla Nº3 Estadísticos de contraste PUNTAJE U de Mann-Whitney
,000
W de Wilcoxon
15,000
Z
-2,611
Sig. asintót. (bilateral)
,009
Sig.
exacta
unilateral)]
[2*(Sig.
,008b
a. Variable de agrupación: Tipo de escuela b. No corregidos para los empates.
Interpretación: Con un nivel de significancia del 0.009 se puede concluir que existe evidencia estadística y usándose el estadístico no paramétrico a la U de Mann – Whitney, para rechazar a la hipótesis nula, en este sentido concluimos que la diferencia entre el puntaje promedio en comprensión de las escuelas multigrado y completas es estadísticamente significativa. De lo anterior es notorio que los puntajes promedio en comprensión son más bajos en las escuelas multigrados que en las escuelas completas. Figura Nº7 Puntaje promedio en Matemática según género
La Figura Nº7 nos ayudara a probar las siguientes hipótesis: H0: La diferencia entre el puntaje promedio en Matemática de las alumnas y alumnos no es estadísticamente significativa. H1: La diferencia entre el puntaje promedio en Matemática de las alumnas y alumnos es estadísticamente significativa. Tabla Nº4 Estadísticos de contrastea PUNTAJE U de Mann-Whitney
4,000
W de Wilcoxon
19,000
Z
-1,776
Sig. asintót. (bilateral)
,076
Sig.
exacta
unilateral)]
[2*(Sig.
,095b
a. Variable de agrupación: Tipo de escuela b. No corregidos para los empates.
Interpretación: Con un nivel de significancia del 0.076 se puede concluir que existe evidencia estadística y usándose el estadístico no paramétrico para muestras independientes a la U de Mann – Whitney, para no rechazar a la hipótesis nula, en este sentido se concluye que la diferencia entre el puntaje promedio en Matemática de las alumnas y alumnos no es estadísticamente significativa.
De lo anterior es notorio que los puntajes promedio en Matemática no se en cuenta diferencias por el género de los alumnos. Figura Nº8 Puntaje promedio en comprensión de lectura según género de los alumnos
La Figura Nº8 nos ayudara a probar las siguientes hipótesis: H0: La diferencia entre el puntaje promedio en Comprensión lectora de las alumnas y alumnos no es estadísticamente significativa. H1: La diferencia entre el puntaje promedio en Comprensión lectora de las alumnas y alumnos es estadísticamente significativa. Tabla Nº5 Estadísticos de contrastea PUNTAJE U de Mann-Whitney
7,000
W de Wilcoxon
22,000
Z
-1,149
Sig. asintót. (bilateral)
,251
Sig.
exacta
unilateral)]
[2*(Sig.
,310b
a. Variable de agrupación: Tipo de escuela b. No corregidos para los empates.
Interpretación: Con un nivel de significancia del 0.251 se puede concluir que existe evidencia estadística y usándose el estadístico no paramétrico para muestras independientes a la U de Mann – Whitney, para no rechazar a la hipótesis nula, en este sentido se concluye que la diferencia entre el puntaje promedio en Comprensión lectora de las alumnas y alumnos no es estadísticamente significativa. De lo anterior es notorio que los puntajes promedio en Comprensión lectora no se en cuentra diferencias por el género de los alumnos.
Los costos de las evaluaciones censales. Los países en los que Wolff, L. 2007 realizó su investigación como son en Chile, Colombia, Honduras, Perú y Uruguay suministraron los datos en cuatro rubros generales:
Preparación de pruebas: análisis del currículo y definición de los objetivos educativos a evaluar, elaboración de los ítems y del primer borrador de las pruebas, aplicación piloto y retroalimentación, y preparación de la versión final de las pruebas, más no costos de logística para su distribución ni impresión.
Aplicación de las pruebas: preparación del equipo central que supervisará la prueba (incluyendo la contratación de supervisores locales, evaluadores y vigilantes de pruebas) y recolección de datos.
Procesamiento y análisis: capacitación de personal, procesamiento de preguntas de opción múltiple (por lo general mediante el procesamiento automático de datos), corrección de preguntas abiertas, análisis de resultados y preparación de informes.
Difusión: impresión y difusión de documentos e informes.
Los estimados suministrados suelen no incluir la capacitación de maestros, el desarrollo del currículo o la revisión de libros de texto en función de los resultados, para efecto del presente artículo únicamente se centrará en el caso peruano, siendo extraídos del estudio de Wolff, L. 2007, en sus documentos de trabajo titulados “Los costos de las evaluaciones de aprendizaje en América Latina”. En 2001 Perú evaluó a 34,000 estudiantes de cuarto y sexto de primaria y cuarto y quinto grado de secundaria en Matemáticas y Comunicación.
En 2004 emprendió un programa muy ambicioso de pruebas, evaluando a un total de 70,000 estudiantes de segundo y sexto grado de primaria, como también de tercero y quinto de secundaria, o 17,500 alumnos en cada grado. Las pruebas cubrieron Matemáticas y Comunicación en todos esos grados, ciudadanía en sexto de primaria y quinto de secundaria. En el caso de lenguaje en sexto grado, también se aplicaron pruebas en dos lenguas indígenas. El costo total de evaluación en 2001 fue $1.7 millón; en 2004, $ 4.9 millones, más del doble del monto que en el 2001. En 2004 se incluyó una tercera materia (ciudadanía), se evaluó a más del doble de número de estudiantes, y se reportó el control de campo para asegurar condiciones confiables y adecuadas para la aplicación de pruebas. El costo promedio de evaluación por estudiante en el 2001 fue $ 52 y $ 70 en el 2004, en la actualidad hay aproximaciones que por estudiante el costo es de $121, presupuestos que como es de esperar no se encuentran al alcance de los investigadores. Las evaluaciones en Perú, sobre todo en el 2004, fueron integrales y complejas. Se evaluaron cuatro grados y tres materias, frente a uno o dos grados en el caso de los otros países que proporcionaron datos. También se tomaron pruebas en lenguas nativas extrayendo una muestra especial de escuelas bilingües. Se administraron cuestionarios a estudiantes, padres y maestros. Los maestros recibieron cuestionarios sobre “oportunidades de aprendizaje”, que preguntaban sobre tópico de matemáticas y lenguaje que ellos realmente habían enseñado, y también se evaluaron sus propios conocimientos de estas áreas. Se contrataron a terceros para la aplicación y corrección de las pruebas. Las preguntas abiertas a los estudiantes representaron entre 30% y 100% de los ítems y fueron calificados dos veces para asegurar la confiabilidad. La prueba aplicada a los maestros fue totalmente abierta. La aplicación de la prueba tomó 5 días. Se brindó capacitación de 4 a 5 días a los aplicadores de los instrumentos. La implementación de esta prueba era la principal actividad de la Unidad de Medición de la Calidad Educativa. En ese tiempo, Perú estaba empezando su sistema de evaluación, no contaba con un marco institucional y dependía mucho de los consultores. Tanto el Banco Mundial como el Banco Interamericano de Desarrollo aportaron financiamiento parcial. El costo total de la evaluación en el año 2004 que fue de $ 4.9 millones, fue equivalente al 0.15% de los gastos en educación primaria y 0.13% de los gastos en educación secundaria.
Frente a estas estadísticas en los gastos, existen fuentes no muy confiables que los gastos en la actualidad han crecido exponencialmente, y al no encontrarse información real y de fuentes confiables no se puede realizar un estudio más detallado respecto a los demás años y concluir científica y técnicamente los costos versus la utilidad en el aula del docente, encontrando correlaciones saltantes que puedan ayudar a mejorar el modelo.
Conclusiones A manera de conclusión es necesario entender que si bien es cierto el modelo empleado en el estado peruano para medir la calidad de los aprendizajes de los estudiantes es el
denominado modelo de bajas consecuencias. Como se vio en los capítulos anteriores en este modelo los resultados de las pruebas no tienen implicancias directas, sino que se espera que sean utilizados por los diversos actores educativos para tomar decisiones que lleven a mejorar los procesos de enseñanza y aprendizaje, pero por otro lado la Ley de Reforma Magisterial (Artículo 24) establezca que la evaluación del desempeño docente incluya la evaluación del progreso de los alumnos. Esto contradice al enfoque de bajas consecuencias y lo señalado en el Marco de Buen Desempeño Docente. Por otro lado podemos concluir que en estas evaluaciones muestrales si bien el rendimiento es bajo, tanto en relación con los niveles de logro esperados, como en la comparación con otros países y que el logro de aprendizajes está distribuido de forma inequitativa, pues los rendimientos más bajos los obtienen los estudiantes que provienen de familias que viven en zonas rurales y hablan lenguas distintas del castellano. Al encontrar diferentes experiencias de nuestros países vecinos, algunas muy creativas pero que para nuestra realidad y con un currículo en la que los procesos educativos transmiten la desigualdad ,en palabras de Reimers (2000),
por el acceso
diferencial a distintos niveles educativos para los pobres v/s los no pobres, el tratamiento diferencial que se da en las escuelas a los distintos estudiantes, que da una mayor ventaja a los estudiantes procedentes de sectores aventajados económica y socialmente, la segregación
social que se da en las escuelas ya que los estudiantes conviven y aprenden a relacionarse con estudiantes de un nivel sociocultural similar, jugando en contra de los hijos de hogares de menores ingresos a adquirir un capital social en forma de relaciones con personas con mayor capital cultural y finalmente la no existencia de un proyecto educativo que trate directamente la desigualdad como un problema que debe resolverse a esto se le suma la existencia de creencias, valoraciones, ideologías conscientes o inconscientes que dan soporte a la mantención de la desigualdad. Es por estas razones que el copiar una “receta” de la aplicación de algún modelo en los países vecinos, debería ser muy bien estudiado más allá de los resultados obtenidos por la aplicación de un excelente método estadístico y de análisis técnico, si no en el aspecto social, cultural y político en el que se desarrolla nuestra realidad peruana. Se concluye exteriorizando la necesidad de difundir entre la comunidad educativa expectativas precisas y detalladas de los rendimientos que deben lograr los estudiantes con una implementación adecuada de un sistema de monitoreo de los procesos pedagógicos en las aulas que retroalimente el currículo. Así, parte importante del plan de evaluaciones deberían constituirlo evaluaciones muestrales que, acompañadas de cuestionarios detallados, permitan recoger información sobre el contexto del estudiante, de modo que sea posible profundizar en el conocimientos de los factores asociados al desempeño, su peso específico, y sus interrelaciones en el logro de aprendizajes, debiendo formularse un plan de difusión de la información generada por las evaluaciones que incluya el desarrollo de capacidades para su uso adecuado. Este plan debe incluir a directores, docentes, padres de familia, autoridades locales, regionales y del nivel central, y también a quienes elaboran los textos escolares y otros materiales didácticos y propuestas pedagógicas, estimulando esto a la participación de investigadores a fin de generar más conocimiento que ilumine la toma de decisiones, al encontrarse toda la información ordenada y transparente para los diversos análisis, tanto de carácter cuantitativo, cualitativo y sobre todo en el aspecto económico y en su impacto en la comunidad y la sociedad. Finalmente se concluye que es necesario elaborar y difundir documentos técnicos que expliquen los fundamentos y propósitos de las evaluaciones, el marco muestral, los procedimientos logísticos, las especificaciones de pruebas y los procedimientos para calcular puntajes en las pruebas. Tal información es crucial, por un lado, para fortalecer la legitimidad de las evaluaciones, pero, por otro, para investigadores y otros actores que quieran usar la información en análisis particulares, y recibir las propuestas y correcciones que los investigadores, universidades, colegios profesionales y comunidad interesada pueda formular
para la mejora del modelo, descartando toda inferencia política y/o partidaria de los gobiernos de turno o de los capitales que financias estas importantes actividades.
Bibliografía consultada. Cueto, S. (2007). Las evaluaciones nacionales e internacionales de rendimiento escolar en el Perú: Balance y perspectivas. Investigación, políticas y desarrollo en el Perú, 405455. Lozada Pereira, B. Y. (2014). Políticas Educativas para el siglo XXI1. Estudios Bolivianos, 73. Mella, O., & Ortiz, I. (1999). Rendimiento escolar. Influencias diferenciales de factores externos e internos. Revista latinoamericana de estudios educativos, 29(1), 69-92. Mizala, A., & Romaguera, P. (2002). Evaluación del desempeño e incentivos en la educación chilena. Cuadernos de economía, 39(118), 353-394. Ravela, P. (2010). ¿Qué pueden aportar las evaluaciones estandarizadas a la evaluación en el aula? Documento de Trabajo N, 47. Ravela, P., Arregui, P., Valverde, G., Wolfe, R., Ferrer, G., Martínez Rizo, F., ... & Wolff, L. (2008). Las evaluaciones educativas que América Latina necesita. RIEE. Revista Iberoamericana de Evaluación Educativa. Wolff, L. (2007). Los costos de las evaluaciones de aprendizaje en América Latina. Documentos de Trabajo, (38).