Instructional Science 18: 119-144 (1989) 119 © Kluwer Academic Publishers. Dordrecht - Impreso en los Países Bajos Evaluación formativa y diseño de sistemas de instrucción D. ROYCE SADLER La teoría de la evaluación formativa descrita en este artículo es relevante para un amplio espectro de resultados de aprendizaje en una amplia variedad de temas. Específicamente, se aplica siempre que se usan múltiples criterios para hacer juicios sobre la calidad de las respuestas de los estudiantes. La teoría tiene menos relevancia para los resultados en los que las respuestas de los estudiantes pueden evaluarse simplemente como correctas o incorrectas. La retroalimentación se define de una manera particular para resaltar su función en la evaluación formativa. Esta definición difiere en varios aspectos significativos de la tradicionalmente encontrada en la investigación educativa. Luego se identifican tres condiciones para una retroalimentación efectiva y se discuten sus implicaciones. Una premisa clave es que para que los estudiantes puedan mejorar, deben desarrollar la capacidad de monitorear la calidad de su propio trabajo durante la producción real. Esto a su vez requiere que los estudiantes posean una apreciación de lo que es el trabajo de alta calidad, que tengan la habilidad evaluativa necesaria para comparar con alguna objetividad la calidad de lo que están produciendo en relación con el estándar superior, y que desarrollen una tienda de tácticas o movimientos que pueden utilizarse para modificar su propio trabajo. Se argumenta que estas habilidades se pueden desarrollar proporcionando una experiencia de evaluación directa y auténtica para los estudiantes. Los sistemas instruccionales que no hacen una provisión explícita para la adquisición de experiencia evaluativa son deficientes, porque establecen techos de rendimiento artificiales pero potencialmente removibles para los estudiantes. Introducción Este artículo trata sobre la naturaleza y la función de la evaluación formativa en el desarrollo de la experiencia. Es relevante para una amplia variedad de sistemas de instrucción en los que los resultados de los estudiantes se evalúan cualitativamente utilizando múltiples criterios. La atención se centra en los juicios sobre la calidad del trabajo del estudiante: quien toma las decisiones, cómo se hacen, cómo pueden ser refinados, y cómo pueden ser objeto de un uso en el logro de la mejora. El artículo es provocado por dos preocupaciones superpuestas. El primero es la falta de una teoría general de la retroalimentación y la evaluación formativa en entornos de aprendizaje complejos. La segunda preocupación se deriva de la observación común pero desconcertante de que, incluso cuando los maestros brindan a los estudiantes juicios válidos y confiables sobre la calidad de su trabajo, no necesariamente se produce una mejora. Los estudiantes a menudo muestran poco o ningún crecimiento o desarrollo a pesar de la retroalimentación regular y precisa. La preocupación en sí es si algunos aprendices no pueden adquirir experiencia debido a deficiencias específicas en el sistema de instrucción asociado con la evaluación formativa.
La discusión comienza con las definiciones de retroalimentación, evaluación formativa y juicios cualitativos. Esto es seguido por un análisis de ciertos patrones en las interacciones de evaluación profesor-alumno. Una cantidad de causal y condicional los enlaces son identificados A su vez, se demuestra que tienen implicaciones para el diseño de sistemas de instrucción que pretenden desarrollar la capacidad de los estudiantes para ejercer el control ejecutivo sobre sus propias actividades productivas, y eventualmente hacerse independientes y totalmente autocontrolados. Evaluación formativa, retroalimentación y autocontrol La etimología y el uso común asocian la forma adjetiva con la formación o el moldeado de algo, generalmente para lograr un fin deseado. En este artículo, la evaluación denota cualquier evaluación (o juicio, o evaluación) del trabajo o desempeño de un estudiante. (En algunos contextos, a la evaluación se le da un significado más restringido y más especializado, algunos lectores norteamericanos en particular pueden preferir sustituir el término evaluación por evaluación). La evaluación formativa se refiere a cómo los juicios sobre la calidad de las respuestas de los alumnos (representaciones, piezas o trabajos) pueden utilizarse para dar forma y mejorar la competencia del alumno al cortocircuitar la aleatoriedad y la ineficacia del aprendizaje de ensayo y error. La sumatoria contrasta con la evaluación formativa en cuanto a que se trata de resumir o resumir el estado de logro de un alumno, y está orientada a informar al final de un curso de estudio, especialmente con fines de certificación. Es esencialmente pasivo y normalmente no tiene un impacto inmediato en el aprendizaje, aunque a menudo influye en las decisiones que pueden tener profundas consecuencias educativas y personales para el alumno. La principal distinción entre evaluación formativa y sumativa se relaciona con el propósito y el efecto, no con el tiempo. Se argumenta a continuación que muchos de los principios apropiados para la evaluación sumativa no son necesariamente transferibles a la evaluación formativa; este último requiere una conceptualización y tecnología distintivas. La retroalimentación es un elemento clave en la evaluación formativa, y generalmente se define en términos de información sobre cuán exitosamente se ha hecho o se está haciendo algo. Pocas habilidades físicas, intelectuales o sociales se pueden adquirir satisfactoriamente simplemente a través de que se les informe acerca de ellas. La mayoría requiere práctica en un entorno de apoyo que incorpora ciclos de retroalimentación. Esto generalmente incluye un maestro que sabe qué habilidades se deben aprender y quién puede reconocer y describir un buen rendimiento, demostrar un buen rendimiento e indicar cómo se puede mejorar un rendimiento deficiente. La retroalimentación también se puede definir en términos de su efecto más que en su contenido informativo: "Feedback es información sobre la brecha entre el nivel real y el nivel de referencia de un parámetro del sistema que se utiliza para alterar la brecha de alguna manera" (Ramaprasad, 1983 , p.4). Esta definición alternativa
enfatiza la función de control del sistema. En términos generales, los comentarios proporcionan dos audiencias principales, el docente y el alumno. Los maestros usan los comentarios para tomar decisiones programáticas con respecto a la preparación, el diagnóstico y la corrección. Los estudiantes lo usan para monitorear las fortalezas y debilidades de sus actuaciones, de modo que los aspectos asociados con el éxito o la alta calidad puedan ser reconocidos y reforzados, y los aspectos insatisfactorios mejoren el modificador. Una característica importante de la definición de Ramaprasad es que la información sobre la brecha entre los niveles reales y de referencia se considera solo como retroalimentación cuando se utiliza para modificar la brecha. Si la información simplemente se registra, se pasa a un tercero que carece del conocimiento o el poder para cambiar el resultado, o está muy codificada (por ejemplo, como una calificación resumida dada por el maestro) para conducir a la acción apropiada, el el lazo de control no se puede cerrar y los "datos colgantes" se sustituyen por una retroalimentación efectiva. En cualquier área del plan de estudios donde una calificación o puntaje asignado por un maestro constituye un cifrado de una vía para los estudiantes, la atención se desvía de los juicios fundamentales y los criterios para hacerlos. Por lo tanto, una calificación puede ser contraproducente para propósitos formativos. Al evaluar la calidad del trabajo o desempeño del estudiante, el maestro debe poseer un concepto de calidad apropiado para la tarea y ser capaz de juzgar el trabajo del alumno en relación con ese concepto. Pero aunque los estudiantes pueden aceptar el juicio de un maestro sin objeciones, necesitan más que calificaciones sumarias si desean desarrollar la experiencia de manera inteligente. Las condiciones indispensables para la mejora son que el alumno llegue a tener un concepto de calidad más o menos similar al del maestro, sea capaz de monitorear continuamente la calidad de lo que se está produciendo durante el acto mismo de la producción, y tenga un repertorio de movimientos alternativos o estrategias de las cuales extraer en cualquier punto dado. En otras palabras, los estudiantes deben ser capaces de juzgar la calidad de lo que están produciendo y ser capaces de regular lo que están haciendo mientras lo hacen. Como dijo Shenstone (correctamente) hace más de dos siglos, "Todo buen poeta incluye una crítica, lo contrario no se sostendrá" (Shenstone, 1768) Expuesto explícitamente, por lo tanto, el alumno tiene que (a) poseer un concepto del estándar (o meta, o nivel de referencia) al que se apunta, (b) comparar el nivel real (o actual) de rendimiento con el estándar y (c) participar en las acciones apropiadas que lleven a un cierto cierre de la brecha. Estas tres condiciones forman el marco de organización para este artículo. Se argumentará que son condiciones necesarias, que deben cumplirse simultáneamente en lugar de pasos secuenciales. No obstante, es útil hacer una distinción conceptual entre las condiciones. El (macro) proceso de clasificación involucra los dos primeros en que esencialmente se compara un caso particular ya sea con un estándar o con uno o más casos. El control durante la producción involucra las tres condiciones y, por el contrario, es un (micro) proceso llevado a cabo en tiempo real. A juzgar por las prácticas de evaluación comunes en
muchas materias, se supone que la información generada sin la participación del alumno pero disponible para el alumno de vez en cuando (como inteligencia) satisface estas condiciones. Un examen detallado de las tres condiciones muestra por qué este supuesto no llega a ser lo realmente necesario. A los efectos de la discusión, es conveniente hacer una distinción entre la retroalimentación y el automonitoreo de acuerdo con la fuente de la información evaluativa. Si el alumno genera la información relevante, el procedimiento es parte de la autocontrol. Si la fuente de información es externa para el alumno, está asociada a la retroalimentación. En ambos casos, se supone que debe haber algún tipo de cierre de la brecha para que la retroalimentación y el autocontrol se etiqueten como tales. La evaluación formativa incluye retroalimentación y automonitoreo. El objetivo de muchos sistemas de instrucción es facilitar la transición de la retroalimentación al autocontrol. Comentarios y evaluación formativa en la literatura Los autores de libros de texto sobre medición y evaluación publicados durante los últimos 25 años han puesto gran énfasis en lograr una alta validez de contenido en las pruebas elaboradas por el docente, obteniendo puntajes o calificaciones confiables, y la manipulación o interpretación estadística de los puntajes. Por lo general, solo se ha prestado atención superficial a la retroalimentación y la evaluación formativa, y luego es en su mayoría exhortativa, similar a una receta y atheo-retórica. En muchos casos, la retroalimentación y la evaluación formativa (o sus equivalentes) no se mencionan en absoluto ni en el cuerpo del texto ni en el índice, aunque los libros de Rowntree (1977), Bloom, Madaus y Hastings (1981), Black y Dockrell ( 1984) y Chater (1984) son excepciones notables. En general, una preocupación con los objetivos de la evaluación sumativa ha dominado el campo en términos de investigación y la orientación dada a los docentes (Black, 1986). Este dominio está implícito en el tratamiento dado, por ejemplo, a la confiabilidad y validez. Los libros de texto casi invariablemente describen cómo la validez (de las evaluaciones) debe distinguirse de la confiabilidad (de grados o clasificaciones). La confiabilidad es usualmente (y correctamente) una condición necesaria pero no suficiente para la validez, porque las mediciones o juicios pueden ser confiables en el sentido de ser consistentes en el tiempo o sobre los jueces y aún estar fuera del objetivo (o no válido). Por lo tanto, la fiabilidad se presenta como una condición previa para la determinación de validez. Al discutir la evaluación formativa, sin embargo, la relación entre confiabilidad y validez se establece más apropiadamente de la siguiente manera: la validez es una condición suficiente pero no necesaria para la confiabilidad. La atención a la validez de los juicios sobre las piezas individuales de trabajo debe tener prioridad sobre la atención a la confiabilidad de la calificación en cualquier contexto donde el énfasis esté en el diagnóstico y la mejora. La confiabilidad seguirá como un corolario. La aceptación de este principio, que es enfatizado por solo unos pocos escritores (como Nitko, 1983), tiene implicaciones sobre cómo se conceptualiza el proceso de evaluación, y se entienden los mecanismos de mejora.
En la literatura sobre la investigación del aprendizaje, la retroalimentación generalmente se identifica con el conocimiento de los resultados (a menudo abreviado como KR), un concepto que adquirió un peso considerable a través de la llamada Ley de Efecto de Thorndike (1913). Revisión de una serie de estudios experimentales en el aprendizaje de los materiales escritos (textos e instrucción programada), Kulhavy (1977, p. 211) define la retroalimentación como "cualquiera de los numerosos procedimientos que se utilizan para contar un alumno si una respuesta de instrucción es correcta o incorrecta ". Kulik y Kulik (1988) adoptaron una definición similar en su revisión de la investigación sobre el momento de la retroalimentación. Los investigadores del aprendizaje han estado particularmente interesados en el efecto de varias características de retroalimentación (como la inmediatez, la pertinencia, la forma de datos y el tipo de recompensa) sobre la retención del material aprendido. Las hipótesis de investigación probadas se han basado casi invariablemente en teorías de aprendizaje estímulo-respuesta, con el objetivo de descubrir los tipos de estímulos e incentivos que promueven el aprendizaje. En su mayor parte, esta línea de investigación se ha limitado a los resultados de aprendizaje que pueden evaluarse mediante pruebas y pruebas de progreso que consisten en problemas a resolver o elementos objetivos que pueden calificarse como correctos o incorrectos. Los programas de aprendizaje se conciben como divisibles en unidades lógicamente dependientes que se pueden dominar más o menos secuencialmente, una por una. La tecnología resultante se asocia con puntuaciones de exámenes, elementos de diagnóstico, criterios de referencia y aprendizaje de dominio. Otras líneas de investigación ocurren en áreas temáticas específicas. De particular interés es la literatura sobre la evaluación de la escritura, que contiene descripciones de una serie de enfoques diferentes, incluida la evaluación por medio de impresión general, escalas analíticas, rasgos principales, características sintácticas, legibilidad relativa y estrategia intelectual (Gere , 1980). Estos difieren no solo en detalles de procedimiento, sino también en sus bases teóricas. Gran parte de la discusión y evaluación de las diversas posibilidades ha girado en torno a qué criterios de evaluación deberían utilizarse (y cómo), cuál de las técnicas tiene la base teórica más sólida (como una teoría de la composición) o cuál es la que mejor se ajusta jueces competentes (consideraciones de confiabilidad). Un criterio alternativo para juzgar entre los enfoques de evaluación es la medida en que los estudiantes mejoran ya sea como consumidores de las evaluaciones obtenidas por diferentes métodos, o mediante la capacitación para usar un enfoque de evaluación particular. Con respecto a la enseñanza de la escritura, estos temas no han sido exhaustivamente explorados, aunque son abordados por Cooper (1977), Odell y Cooper (1980) y muchos otros. Si bien la línea de desarrollo en este artículo es diferente de la literatura sobre evaluación escrita, comparte un interés en los resultados de aprendizaje que son complejos en el sentido de que los juicios cualitativos (definidos a continuación) están invariablemente involucrados en la evaluación del rendimiento del estudiante. En tales aprendizajes, el desarrollo de los estudiantes es multidimensional
en lugar de secuencial, y los aprendizajes previos no se pueden conceptualizar como unidades de habilidades o conocimiento cuidadosamente empaquetados. El crecimiento tiene lugar en muchos frentes interrelacionados a la vez y es continuo en lugar de cerrado. Los resultados no se caracterizan fácilmente como correctos o incorrectos, y es más apropiado pensar en términos de la calidad de la respuesta de un alumno o del grado de experiencia que en términos de datos memorizados, conceptos adquiridos o dominio del contenido. Juicios cualitativos definidos y caracterizados Se define un juicio cualitativo (Sadler, 1987) como uno hecho directamente por una persona, siendo el cerebro de la persona la fuente y el instrumento para la evaluación. Tal juicio no es reductible a una fórmula que pueda ser aplicada por un no experto. En general, los juicios cualitativos tienen algunas o todas las siguientes cinco características: 1. Se usan múltiples criterios para evaluar la calidad de los espectáculos. Además de las dimensiones individuales representadas por los criterios, el patrón total de relaciones entre esas dimensiones es importante. En este sentido, los criterios se entrelazan, de modo que la configuración general asciende a más que la suma de sus partes. Descomponer una configuración tiende a reducir la validez de una evaluación. 2. Al menos algunos de los criterios utilizados en la evaluación son confusos en lugar de agudos. Un criterio agudo contiene una discontinuidad esencial que se puede identificar como una transición abrupta de un estado a otro, como de correcto a incorrecto. Puede haber dos o más estados bien definidos, pero siempre es posible, en principio, determinar qué estado se aplica. Criterios agudos están involucrados en todas las pruebas objetivas (incluidas las de arte y humanidades) y la evaluación de muchos resultados en matemáticas y ciencias que implican la resolución de problemas y la demostración de teoremas. Por el contrario, los criterios difusos se caracterizan por una gradación continua de un estado a otro. La originalidad, tal como se aplica a un ensayo, es un ejemplo de un criterio difuso porque es posible todo lo que es totalmente no original y totalmente original. Un criterio difuso es una construcción mental abstracta denotada por un término lingüístico que no tiene un significado absoluto e inequívoco, independiente de su contexto. Si un alumno puede usar conscientemente un criterio difuso para emitir un juicio, es necesario que el alumno comprenda qué significa el criterio difuso y qué implica para la práctica. Por lo tanto, el aprendizaje de estos significados e implicaciones contextualizados es en sí mismo una tarea importante para el alumno. 4. Al evaluar la calidad de la respuesta de un alumno, a menudo no existe un método independiente para confirmar, en el momento en que se realiza un juicio, si la decisión o conclusión (a diferencia de la respuesta del alumno) es correcta. De hecho, puede no tener sentido hablar de corrección en absoluto. El último tribunal de apelación es otro juicio cualitativo. Para dar un ejemplo de independencia
metodológica, supongamos que se deben comparar dos ensayos. Un enfoque es pedirle a una persona competente que juzgue cuál es de mayor calidad, con o sin especificar los criterios. Un método diferente para juzgar la calidad sería utilizar un programa informático para analizar ciertas propiedades textuales, como la frecuencia de las comas y las proporciones de preposiciones, conjunciones y palabras poco frecuentes. Estos dos métodos son independientes porque usan medios esencialmente diferentes para llegar a una conclusión. Pero tener dos personas en lugar de una sola no constituiría métodos independientes, incluso si ambas personas hicieran los juicios sin referencia entre sí, y en ese sentido trabajaran de manera independiente. 5. Si se usan números (o marcas o puntajes), se asignan después de que se ha emitido el juicio, no al revés. Al hacer juicios cualitativos, nunca se llega a la decisión final contando cosas, haciendo mediciones físicas o números compuestos y observando la magnitud del resultado. Los resultados complejos de aprendizaje del tipo que se evalúan al hacer juicios cualitativos directos son comunes en una amplia variedad de materias en educación secundaria, vocacional, superior y superior. Estas materias incluyen inglés, idiomas extranjeros, humanidades, artes manuales y prácticas, ciencias sociales y artes visuales y escénicas. También son importantes en la formación industrial y en muchas áreas de la ciencia y las matemáticas, particularmente cuando se requiere que los estudiantes ideen experimentos, formulen hipotesis en las geografías, lleven a cabo investigaciones de campo o labores finales, o participen en la resolución creativa de problemas. Las asignaciones y tareas establecidas en todas estas áreas implican que los estudiantes sinteticen activamente e integren ideas, conceptos, movimientos o habilidades para producir respuestas ampliadas de alguna forma. En todas las evaluaciones de tales respuestas ampliadas, los juicios cualitativos son de fundamental importancia. A veces, la respuesta del alumno o producto final tiene una forma permanente, una existencia separada del alumno. Es decir, es un artefacto que está abierto a una inspección tranquila. Los ejemplos incluyen ensayos, composiciones musicales, trabajos de soldadura y artículos de cerámica. Si el andamio utilizado en la construcción del trabajo se desmantela con cuidado, el producto final puede no conservar evidencia de inicios en falso, caminos infructuosos seguidos en su producción o (si no se ha producido en condiciones de prueba de tiempo limitado) ), el tiempo necesario para producirlo. El producto es, de hecho, infinitamente maleable antes de su lanzamiento, y el autor puede modificarlo en cualquier cantidad deseada. Un tipo de producto final que contrasta es cuando el trabajo del alumno es transitorio, como una producción en vivo realizada por el alumno en tiempo real. Los ejemplos son una actuación dramática, un discurso, una entrevista con un paciente o cliente, una lección en el aula o un juego de tenis. Tenga en cuenta que hacer una grabación de una actuación en vivo produce solo un artefacto secundario que, aunque útil en el análisis y la revisión, tiene un carácter distintivamente diferente del rendimiento en sí, y de, por ejemplo, una película cuidadosamente editada
o un álbum grabado producido en varios meses. Los productos finales artefactos y transitorios plantean diferentes demandas en el sistema de instrucción en términos de retroalimentación evaluativa. También es útil hacer una distinción entre los productos finales de acuerdo con el grado de diseño esperado. En algunos campos de aprendizaje, el producto final deseado está estrechamente especificado (por ejemplo, mediante dibujos técnicos) en la medida en que si las capacidades constructivas de todos los productores fueran perfectas, los resultados serían más o menos idénticos. Lo que se evalúa en estas situaciones es esencialmente la habilidad productiva del alumno. Evaluar tales resultados puede o no implicar hacer juicios cualitativos, según el número y la naturaleza de los criterios. En otros campos (como la escritura), el diseño en sí es un componente integral de la tarea de aprendizaje, aunque puede estar tan estrechamente relacionado con la producción que no aparece como una fase distinta. En otros campos (como la moda y la arquitectura), el diseño en sí mismo puede ser la consideración principal. Dondequiera que esté presente el aspecto del diseño, qualitaLos juicios son necesarios y las respuestas de los estudiantes bastante divergentes podrían, en principio y sin ningún tipo de compromiso, ser juzgadas de igual calidad. Comunicando estándares a los estudiantes Anteriormente en este artículo, se argumentó que la transición de la retroalimentación al autocontrol puede ocurrir solo cuando se satisfacen tres condiciones. El primero de ellos es que el alumno llegue a saber qué constituye calidad. En un entorno de enseñanza, esto presupone que el maestro ya posee este conocimiento, y que de alguna manera debe ser compartido con el alumno. Sin embargo, en un contexto particular, a menudo es difícil para los maestros describir exactamente lo que están buscando (o esperando), aunque pueden tener poca dificultad para reconocer un buen rendimiento cuando ocurre entre las respuestas de los estudiantes. Las concepciones de la calidad de los profesores suelen mantenerse, en gran parte en forma no articulada, dentro de sus cabezas como conocimiento tácito. Por definición, los docentes experimentados llevan consigo una historia de juicios cualitativos previos, y cuando los docentes intercambian trabajo entre ellos o colaboran en la realización de evaluaciones, la capacidad de emitir juicios cualitativos sólidos constituye una forma de conocimiento gremial. Si bien tales estándares comunes exhiben un cierto grado de estabilidad, no son inmutables, pero se puede demostrar que se adaptan a las circunstancias. En particular, los profesores a menudo están fuertemente influenciados por el rango de calidad que existe entre un conjunto de cosas que evaluar, y por lo general les resulta difícil hacer un juicio de calidad aislado (es decir, sin referencia al trabajo de otros estudiantes). Los docentes reconocen tácitamente la dificultad de confiar solo en la memoria cuando hacen un estudio de los trabajos del alumno antes de asignarles calificaciones. Esta encuesta genera una base de referencia o un marco de referencia vagamente cuantitativo para lo que se debe considerar como apenas satisfactorio y lo que se considera como excelente en el contexto. Sin
embargo, incluso después de que se ha realizado una encuesta, casi siempre se producen efectos secundarios de menor escala (especialmente severidad, indulgencia y arrastre). Este es un tema de investigación continua (ver, por ejemplo, el trabajo de Hales 1982) y puede ser interpretado en términos de la teoría del nivel de adaptación de Helson (1959). Por lo tanto, parece que las concepciones de los maestros sobre la calidad y los estándares existen en alguna forma quiescente y flexible hasta que se reconstituyen con una nueva actividad evaluativa. En un sistema de instrucción, la dependencia exclusiva del conocimiento del gremio de los maestros va en contra de los intereses del alumno de dos maneras importantes. En primer lugar, aunque la práctica de encuestar una muestra de actuaciones es común (y recomendable cuando el objetivo es la clasificación justa del trabajo de un alumno frente a la de otros estudiantes), no es apropiado para la evaluación formativa porque legitima la noción de estándares línea de base que está sujeta a determinación existencial. Estrictamente hablando, todos los métodos de calificación que enfatizan las clasificaciones o comparaciones entre los estudiantes son irrelevantes para propósitos formativos. Asumiendo que ordenar y estratificar a los estudiantes no es el objetivo principal de la educación y la capacitación, el objetivo para cada alumno es adquirir experiencia en un sentido absoluto, no solo para superar a otros estudiantes. En segundo lugar, el conocimiento del gremio mantiene el concepto del estándar relativamente inaccesible para el alumno, y tiende a mantener la dependencia del alumno del profesor para los juicios sobre la calidad del rendimiento. Cómo sacar el concepto de excelencia de la mente de los maestros, darle una formulación externa y ponerlo a disposición del alumno, es un problema no trivial. Se trata con cierta extensión en otro lugar bajo la rúbrica de evaluación referenciada por estándares (Sadler, 1987). Parte de ese material se resume a continuación. Dos enfoques para especificar estándares son a través de declaraciones descriptivas y ejemplares. Si bien ninguno de estos es suficiente en sí mismo, una combinación de descripciones verbales y ejemplos asociados proporciona un medio práctico y eficiente de externalizar un nivel de referencia. Los enunciados descriptivos establecen las propiedades características de un rendimiento en un nivel de calidad designado. La siguiente descripción genérica de alta calidad en una tarea de escritura en particular es un ejemplo de una declaración descriptiva: Hay una progresión lógica de ideas desde una hipótesis original hasta una conclusión final. Los hechos se informan con precisión, y las inferencias extraídas son plausibles. El autor mantiene cierta "distancia" del contenido, logrando así un grado de objetividad. Toda la pieza se junta bien, la redacción es apropiada y los aspectos mecánicos de la escritura son perfectos. Los enunciados descriptivos se pueden usar para especificar puntos de anclaje en un continuo de calidad, y pueden incluir detalles presentes / ausentes (como una declaración de la hipótesis) o correctos / incorrectos (como la ortografía y la puntuación), junto con otras características que están presentes en mayor o menor grado (como "colgarse bien"). Van en parte hacia la externalización de
estándares, y pueden derivarse inductivamente clasificando o clasificando primero los logros del estudiante de manera holística, y luego abstrayendo y codificando las características distintivas de las diferentes clases. Los niveles de calidad o rendimiento también pueden transmitirse en parte por medio de un conjunto de ejemplos clave o ejemplares, elegidos para ilustrar qué distingue la alta calidad de la baja. La ventaja de los ejemplos tanto para el docente como para el alumno es que son concretos. Se puede demostrar teóricamente que el número mínimo necesario para transmitir un nivel de referencia particular exclusivamente mediante ejemplos depende del número de criterios que se utilizarán. Cuantos más criterios haya, mayor será la cantidad de formas en que se puede construir el trabajo de una determinada calidad. Algunos docentes pueden estar preocupados de que el uso de ejemplos como indicadores de estándares alentaría a los estudiantes a copiar servilmente los propios ejemplos, y así estimular las respuestas convergentes o estereotipadas en lugar de originales de los estudiantes. Los estudiantes pueden ser ciegos y tener su creatividad sofocada. El primer contraargumento a este punto de vista es que un solo modelo no es adecuado para transmitir un estándar de todos modos. Los estudiantes necesitan, en muchos contextos educativos, presentar varios ejemplos (para un estándar único), precisamente para aprender que hay diferentes formas en que el trabajo de una calidad particular puede encontrar expresión. A menudo hay una gran variedad de objetos dentro del mismo género que se consideran excelentes. A menos que los estudiantes lleguen a este entendimiento, y aprendan a abstraer las cualidades que se encuentran en los casos con diferentes características de superficie pero que son juzgados equivalentes, difícilmente se puede decir que aprecien el concepto de calidad en absoluto. La segunda consideración es que la originalidad y la creatividad no son, por lo general, contrarias a alguna opinión, mejor desarrolladas en un entorno completamente libre. Bailin (1987) señaló que no existe un conflicto esencial entre los procesos creativos y la producción de algo generalmente aceptado como de alta calidad. Las producciones creativas son en su mayoría altamente disciplinadas, y se producen casi invariablemente no por accidente o por asunción de riesgos al azar, sino cuando el productor, al estar completamente familiarizado con las características de la disciplina o el género, entiende cuándo y cómo trascender los límites normales. Conocer los metacriterios, es decir, saber cuándo la suspensión de algún criterio, incluso en ocasiones uno principal, puede justificarse en favor de otro, es un elemento importante en la creatividad. Pero para volver al tema de los ejemplares, muchos docentes piensan que, incluso si algunos alumnos lo hacen, pueden aprender algo valioso en el proceso. La emulación es un método de aprendizaje antiguo y casi universal. Cuando los estudiantes han obtenido todo lo que pueden, en el peor de los casos, copia servil, hay tiempo para que el maestro los aleje de él.
Los estudiantes desarrollan un concepto de un nivel de referencia más fácilmente en algunos contextos de aprendizaje que en otros. En el manual, las artes visuales y escénicas, por ejemplo, los estudiantes generalmente pueden observar, como una cuestión de rutina, los resultados de los esfuerzos de otros estudiantes junto con las evaluaciones de esos esfuerzos por parte de los maestros, simplemente porque el trabajo se produce en talleres, estudios, teatros y otros ambientes abiertos. Los mejores ejemplos, o quizás el material ejemplar desarrollado fuera del aula, sirven de forma natural y discreta como puntos de referencia. En las artes liberales y las humanidades, sin embargo, los estudiantes a menudo trabajan en privado, y no llegan a ver o leer lo que otros estudiantes han producido. Lo que constituye un trabajo de alta calidad permanece hasta cierto punto desconocido. Dejando a un lado los casos excepcionales, resulta irónico que los prototipos de niveles de competencia que Myers (1980) recomendó como necesarios para los evaluadores que utilizan métodos holísticos para la evaluación de la escritura no se consideren un requisito general para los estudiantes que aprenden a escribir o dominar otras habilidades complejas. Los estándares como objetivos o aspiraciones En su forma más simple, un nivel estándar o de referencia es un grado designado de rendimiento o excelencia. Se convierte en un objetivo cuando se desea, se apunta o se aspira. Algunos objetivos son externos (asignados por un profesor) mientras que otros son desarrollados o adaptados por los propios alumnos. Un alumno puede decidir ignorar o rechazar una meta externa, en cuyo caso es probable que tenga poco o ningún efecto en el logro, excepto en una situación coercitiva. Solo cuando un alumno asume la propiedad de un objetivo puede jugar un papel importante en la regulación voluntaria del rendimiento. El efecto de los objetivos en el rendimiento ha sido objeto de una gran investigación en las últimas décadas. Para una revisión de algunos de ellos, ver Locke, Shaw, Saari y Latham (1981). En una amplia variedad de entornos de campo y laboratorio, se ha descubierto que los llamados objetivos difíciles tienen el mayor impacto en el rendimiento. Los objetivos difíciles se definen como específicos y claros en lugar de generales o vagos, más difíciles y desafiantes en lugar de simples o fáciles, y más cercanos al límite superior de la capacidad de desempeño de un individuo que al nivel actual de desempeño. Los objetivos difíciles actúan para enfocar la atención, movilizar el esfuerzo y aumentar la persistencia en una tarea. Por el contrario, los mejores objetivos de uno-uno a menudo resultan ser mucho más efectivos que no tener ningún objetivo en absoluto. La discusión anterior ha implicado más o menos que un solo estándar opera para un estudiante en particular en una etapa particular de desarrollo. En general, por supuesto, la calidad del trabajo que se espera de un estudiante aumenta de manera constante a medida que el alumno progresa a lo largo de varios años de escolaridad o las etapas de un programa de capacitación. Si la tasa a la que se plantean
las expectativas es consistentemente mayor que la tasa de mejora, la incapacidad del alumno para mantener el ritmo da como resultado una sensación de logro escaso o nulo, aunque en realidad se esté produciendo una mejora. Esto, a su vez, puede llevar a una situación en la que los intentos sucesivos se toman cada vez menos seriamente, la brecha de rendimiento se amplía progresivamente y se autorrefuerza, y el alumno pierde el corazón y efectivamente abandona. En algunos temas, los peldaños de la escalera del logro toman la forma de una gradación tanto en alcance como en complejidad; en otros, reflejan diferentes estándares en una dimensión de calidad bien definida. En las aulas, los estudiantes pueden necesitar acceso a un rango de estándares (no solo al escalón superior) para atender diferentes habilidades. (Si este rango corresponde a las designaciones de calificaciones en un certificado educativo es irrelevante. Sería útil investigar la brecha óptima entre el estado actual de un alumno individual y la aspiración. Si el alumno percibe la brecha como demasiado grande, la meta puede considerarse inalcanzable. La misma brecha (en términos absolutos) puede, sin embargo, proporcionar un poderoso estímulo para otro estudiante altamente motivado y confiado, que no se deje intimidar por una secuencia de fallas iniciales. Por el contrario, si la brecha se percibe como demasiado pequeña, se podría considerar que cerrarla no justifica ningún esfuerzo adicional. Inicialmente, el maestro puede encontrarle útil negociar el nivel de aspiración con el alumno, o al menos tener en cuenta las características individuales del alumno. El objetivo final debería ser que el alumno establezca, internalice y adopte la meta, de modo que haya cierta determinación para alcanzarla. Hacer juicios multicriterio Además de conocer las normas apropiadas, los estudiantes deben poder comparar sus niveles reales de rendimiento con estos estándares. Esto requiere que sean capaces no solo de hacer juicios multicriterios sobre su propio trabajo sino también de hacerlos con un grado adecuado de objetividad y desapego. Para proporcionar un contexto para la discusión en esta sección, considere el caso especial de la evaluación de la composición escrita. Esta elección se ha realizado debido a la gran cantidad de literatura sobre el tema y porque se requiere trabajo escrito en una amplia variedad de temas. Se han identificado al menos 50 criterios para evaluar la calidad de la composición escrita. Todos los criterios en la lista a continuación han sido extraídos de las fuentes publicadas, aunque un examen de los comentarios escritos de los docentes indica que incluso esta lista no es exhaustiva. Los criterios en sí mismos están en cursiva, con sinónimos aparentes colocados juntos. precisión (hechos, evidencia, explicaciones); audiencia (senseof); autenticidad; claridad; coherencia; cohesión; lo completo; conformidad (con las convenciones del género); amplitud, concisión (concisión), consistencia (interna); contenido (sustancia); artesanía; profundidad (de análisis, tratamiento); elaboración; compromiso; ejemplificación (uso de ejemplos o ilustraciones); expresión; figuras del lenguaje; instinto; sabor;
flexibilidad; fluidez (o suavidad); atención; desarrollo global (o general); gramática; escritura a mano (legibilidad); ideas; ordenamiento lógico (o cronológico) (o control de ideas); mecánica; novedad; objetividad (o subjetividad, según corresponda); organización; originalidad (creatividad, imaginación); párrafos; persuasión; presentación (incluido el diseño); puntuación (incluidas las mayúsculas); legibilidad; referenciando; registro; relevancia (para tarea o tema); retórica (o efectividad retórica); estructura de la oración; ortografía; estilo; soporte para afirmaciones; sintaxis; tono; transición; uso; vocabulario; voz; fraseología. Varios de estos aparecen en una serie de los listados más populares, de los cuales Diederich (1974) es uno de los más conocidos. Sin embargo, la mayoría de los otros (incluso los que no son comúnmente utilizados por los docentes en general) serían reconocidos como relevantes (al menos para algunos géneros de escritura) por los profesores de inglés. Algunos de los criterios son bastante sutiles. (¿Qué se entiende exactamente por estilo?) Es probable que algunos se usen con poca frecuencia, por lo que la explicación detallada apenas se justifica. Algunos se aplican a detalles (precisión, soporte para afirmaciones); otros se aplican solo a un trabajo tomado en conjunto (coherencia, exhaustividad). Algunos son nítidos (ciertos aspectos de la puntuación, por ejemplo); la mayoría son borrosas. Algunos se superponen conceptualmente con otros (retórica, estilo, persuasión); algunos se aplican a géneros particulares de escritura, pero no a otros (referencia); y algunos subsumen lógicamente otros (la mecánica subsume la ortografía). Muchos se correlacionan operativamente juntos, de modo que cada vez que se intenta cambiar una escritura de acuerdo con una dimensión, otras propiedades se ven inevitablemente afectadas al mismo tiempo. Por ejemplo, puede ser imposible cambiar el vocabulario de una pieza de escritura sin afectar el tono simultáneamente. En resumen, este conjunto de criterios es grande e incluye subconjuntos que se superponen y se entrelazan. Por lo tanto, es obvio que detrás de las listas publicadas habitualmente (que generalmente constan de siete a diez criterios) existe un conjunto mucho mayor de criterios potenciales que podrían ponerse en juego siempre y cuando surja la necesidad. Dado este hecho, y las complejas interrelaciones que existen entre los criterios, está claro que usar el conjunto completo para una evaluación particular sería inmanejable. La forma en que los jueces hacen frente a la situación requiere, por lo tanto, alguna investigación. La literatura sobre la investigación de los procesos de juicio humanos en una variedad de contextos es a la vez instructiva y extensa, y no se puede resumir adecuadamente aquí. Pero una preocupación particular para los investigadores ha sido la ineficiencia de los procesos de juicio intuitivos y las limitaciones en las capacidades de procesamiento de información humana que resultan en decisiones sesgadas o defectuosas (Sadler, 1981). En términos generales, las muchas técnicas propuestas para hacer juicios complejos se dividen más o menos en dos campos, cada uno de los cuales tiene su tradición de investigación, sus defensores y sus detractores. Afortunadamente, no es necesario tomar una decisión firme sobre uno u otro a los efectos de la evaluación formativa. Ambos pueden utilizarse
porque el aporte evaluativo puede tomar cualquier forma adecuada y, en cualquier caso, siempre está abierto a discusión, aclaración y revisión si es necesario. La primera línea de ataque general es diseñar e implementar un procedimiento que comienza con la identificación de un número de criterios relevantes, luego mide la cantidad presente en cada criterio y combina los diversos niveles o estimaciones en una medida global de mérito por medio de una fórmula. Los criterios se tratan por separado, de modo que el orden en que se consideran las características es arbitrario y no tiene ningún efecto sobre el resultado final. La fórmula combinada puede ser simple y solo requiere la adición de puntajes o calificaciones de componentes ponderados o no ponderados. Por otro lado, la fórmula puede ser complicada (tomando, por ejemplo, forma conjuntiva o disyuntiva). Este llamado enfoque analítico es común en la evaluación de productos de consumo. El juicio global se hace al desglosar el juicio multicriterio usando criterios separados y luego siguiendo reglas explícitas. Si es necesario, el juicio puede justificarse volviendo sobre la integridad y verificando la integridad de todos los pasos que la llevaron a cabo. Al evaluar el trabajo de los estudiantes, el enfoque analítico generalmente se establece en el conjunto de criterios considerados más relevantes para el trabajo de la mayoría de los estudiantes en una etapa particular de desarrollo. Los criterios pueden ser simplemente seleccionados por un maestro sobre la base de su relevancia lógica para la tarea, o pueden ser resultado de estudios empíricos (utilizando análisis de factores o de regresión) de las conductas de juicio de los evaluadores competentes. Diederich (1974) siguió el último enfoque. Este ataque por componentes en el problema de hacer juicios multicriterios a menudo se defiende como el ideal hacia el cual se deben hacer avanzar los sistemas impresionistas, holísticos o informales. Asume, sin embargo, que el conjunto de criterios nominados es suficiente para todos los casos, que los criterios no se superponen, y que el uso de la fórmula combinada conduce a juicios que no entrarían en conflicto (excepto tal vez raramente) con enfoques más holísticos. Un argumento sustancial ha sido montado en otra parte (Sadler, 1985) que para los fenómenos complejos, el uso de un conjunto fijo de criterios (y, por lo tanto, el enfoque analítico) es potencialmente limitante. El segundo enfoque para hacer juicios complejos es que el evaluador reaccione ante el trabajo como un todo, haciendo un todo, o lo que Kaplan llamó una evaluación configuracional (1964, p. 211), primero y luego para corroborarlo (en cualquier medida que sea necesario) al hacer referencia a criterios separados, que pueden o no pueden extraerse de un conjunto preestablecido. En este enfoque, los criterios imperfectamente diferenciados se combinan como una especie de gestalt y se proyectan en una única escala de calidad, no mediante una regla formal, sino a través de los poderes integradores del cerebro del evaluador. Para generar una justificación para un juicio holístico o global, el asesor desempaca parte de la unidimensionalidad conceptual. Las evaluaciones configuracionales no requieren la especificación de todos los criterios por adelantado, ni suponen independencia operativa entre los criterios.
Al hacer juicios configuracionales, los jueces competentes seleccionan, del gran conjunto de posibles criterios, aquellos que son sobresalientes para una evaluación particular. Todas las propiedades de una pieza de trabajo del estudiante que el maestro considera normal, ordinario o esperado (y que, por lo tanto, no requieren comentarios positivos o negativos) naturalmente tienen baja relevancia. Wittgenstein (1967, 1974) señaló algo que es obvio una vez que se afirma: lo que es ordinario no llama la atención sobre sí mismo. "¿Todo lo que no encontramos conspicuo hace una impresión de discreción? ¿Lo ordinario siempre da la impresión de ser ordinario?" (Artículo 600). Algo ordinario, por lo tanto, no es "notable". Algo fuera de lo común llama la atención. La alta relevancia implica que la cantidad de la propiedad que posee el objeto o el rendimiento es diferente de lo que se considera normal, y que una evaluación del objeto normalmente mencionaría esta característica en su fundamento. Una vez que se ha identificado un criterio en una o más evaluaciones, la sensibilidad del juez a ese criterio se incrementa temporalmente y es más probable que se atienda en evaluaciones posteriores. Es decir, la saliencia potencial aumenta. En el sentido descrito anteriormente, la importancia de un criterio particular está relacionada con la percepción del trabajo que se evalúa. Es, por lo tanto, una función tanto de la condición de la mente del perceptor como de las propiedades del objeto que se evalúa. ¿Cuál de los posibles criterios se mencionan para mencionar tiene menos que ver con lo que es detectable a través de los sentidos que con lo que se considera que vale la pena notar? Considere, por ejemplo, los comentarios que un maestro puede hacer sobre el trabajo escrito de un estudiante, particularmente aquellos que se hacen progresivamente ya que el maestro (más o menos instantáneamente) percibe puntos positivos y negativos dignos de notar. Algunos comentarios (como "Sí" o "¡Acepto!") No son específicos, o no están relacionados directamente con la calidad de la pieza escrita. Otros comentarios son evaluativos y claramente implican criterios. Puede demostrarse que cuando un docente, en dos o más ocasiones distintas, realiza la evaluación de los comentarios evaluativos junto con una evaluación general de la calidad de un trabajo del alumno, los juicios generales pueden ser idénticos, pero los comentarios pueden diferir de una ocasión a otra. . Los comentarios pueden hacerse en diferentes lugares de la escritura, o si en el mismo punto, pueden diferir en el contenido. También se puede demostrar que varios evaluadores pueden acordar un juicio general, pero por diferentes razones. Este fenómeno tiene implicaciones para la evaluación formativa, porque plantea la pregunta de si se puede esperar que los estudiantes avancen sistemáticamente cuando los maestros parecen funcionar de manera probabilística. La solución obvia es volver al enfoque analítico y dejar en claro a los estudiantes que ciertos criterios nominados son los que se usarán en la evaluación. Muchos maestros siguen esta práctica, distribuyendo hojas de criterios a sus estudiantes como parte de las especificaciones de la tarea o (menos útil si los criterios cambian de una tarea a otra) cuando devuelven los documentos evaluados. Sin embargo, los profesores que usan hojas de criterio regularmente
encuentran que, si bien estas hojas son útiles, pueden llevar a la frustración debido a su inflexibilidad. Las cualidades de una obra no se pueden tratar de manera adecuada utilizando un conjunto de criterios fijos, y los maestros a menudo sienten la necesidad de recurrir a criterios no estándar. Una solución más satisfactoria (y menos mecanicista) para el problema es considerar el universo de criterios como divididos teóricamente en dos subconjuntos llamados criterios de conveniencia y criterios latentes (Sadler, 1983). Los criterios manifiestos son aquellos a los que se presta atención de forma consciente mientras se está produciendo un trabajo o mientras se está evaluando. Los criterios latentes son aquellos en el fondo, desencadenados o activados como demandas de la ocasión por alguna propiedad (existencial) del trabajo que se desvía de las expectativas. Siempre que haya una violación grave de un criterio latente, el maestro lo invoca y se agrega (al menos temporalmente) al conjunto de criterios de manifestación. Esto es posible porque los maestros competentes tienen una conocimiento del conjunto completo de criterios y las reglas (no escritas) para usarlos. Pero es precisamente este tipo de conocimiento el que debe desarrollarse dentro de los estudiantes para poder monitorear sus propios desempeños con un grado razonable de sofisticación. Por lo tanto, la traducción de un criterio de latente a manifiesto no debe ser interpretada por el alumno o el profesor como injusta o como una especie de aberración. Debido a la imposibilidad práctica de emplear todos los criterios a la vez, es inevitable y perfectamente normal. Marshall (1958, 1968) se refirió a esto como el principio de flotación, y abogó por su uso en la evaluación. En un interesante cambio de metáfora, también formó la base del llamado enfoque del centro de gravedad de Elbow (1973) para evaluar la escritura de los estudiantes con fines formativos. El arte de la evaluación formativa es generar una progresión eficiente y parcialmente reversible en la que los criterios se traducen para que el beneficio del alumno se manifieste de forma latente y vuelva a ser latente nuevamente. El objetivo es trabajar hacia la sumersión definitiva de muchos de los criterios rutinarios, una vez que se los da por sentado de forma obvia, de modo que ya no se los debe mencionar explícitamente. La necesidad de reciclar el trabajo a través del maestro (para la evaluación) puede reducirse o eliminarse solo en la medida en que los estudiantes desarrollen un concepto de calidad, y la posibilidad de emitir juicios multicriterios. Esto a su vez requiere que ellos mismos tengan una experiencia evaluativa adecuada, Experiencia evaluativa directa Cuando los estudiantes tienen que depender únicamente, por ejemplo, de los comentarios escritos de los maestros, no solo se transmiten los comentarios en forma proposicional, sino que el número de comentarios y su contenido depende de la disposición del maestro (y el tiempo disponible) para realizar el comentarios, la capacidad del profesor para expresar los comentarios en palabras y la capacidad del alumno para interpretar los comentarios. El estudiante no puede, por ejemplo, saber qué implican las referencias a criterios evaluativos particulares. Por ejemplo, supongamos que un maestro le señala a un
alumno que algo producido no es tan coherente como debería ser. Como criterio, la coherencia implica que la forma en que algo se junta es importante para evaluarla. La coherencia es claramente relevante para evaluar una variedad de cosas: una pintura, un ensayo, un segmento dramático, etc. La naturaleza de los elementos que deben cohesionarse (elementos visuales, conceptos e ideas, movimientos físicos), las conexiones en serie y laterales entre estos elementos y la relación de cada parte con el todo, pueden no ser necesariamente claras para el estudiante. a menos que se explique el significado contextual de coherencia. Exactamente lo que la coherencia implica en un contexto no se transfiere directamente a otro contexto, aunque la idea básica es la misma. Debido a que gran parte del conocimiento evaluativo subyacente a los comentarios de los maestros es tácito, el alumno también tiene la necesidad de desarrollar un cuerpo apropiado de conocimiento tácito para poder interpretar las declaraciones formales. Los criterios a menudo parecen esquivos en parte porque lo que significa un criterio y lo que implica para la evaluación no puede definirse necesariamente de forma aislada de ejemplos concretos de cosas que poseen la propiedad en cuestión, que en cualquier caso suele ser solo una de muchas propiedades. Entender la propiedad es, por lo tanto, tanto epistemológico como técnico. Para aclarar el significado y las implicaciones de un criterio particular, sería útil tener un conjunto de ejemplos clasificados que muestren más o menos de esa propiedad. Pero para las obras de arte o piezas de literatura, las distintas propiedades inevitablemente se combinan juntas, de modo que no se pueden crear o recopilar ejemplos para los que todas las propiedades distintas de la que se considera se mantengan constantes. Esto está en contraste con un criterio dicotómico, como la corrección, para el cual las instancias positivas y negativas pueden producirse normalmente a demanda. Un principiante es, por definición, incapaz de invocar los criterios implícitos para hacer juicios refinados sobre la calidad. El conocimiento de los criterios está "atrapado" a través de la experiencia, no definida. Se desarrolla a través de un proceso inductivo que implica un compromiso prolongado en la actividad evaluativa compartida con y bajo la tutela de una persona que ya es una especie de conocedor. Al hacerlo, "el aprendiz toma inconscientemente las reglas del arte, incluidas aquellas que no son explícitamente conocidas por el maestro ... El conocimiento experto ... puede comunicarse solo por ejemplo, no por precepto" (Polanyi, 1962, p. 53-54). En otras palabras, proporcionar una experiencia de evaluación guiada, pero directa y auténtica para los estudiantes les permite desarrollar su conocimiento evaluativo, lo que les permite estar dentro del gremio de personas que pueden determinar la calidad utilizando múltiples criterios. También permite transferir parte de la responsabilidad de tomar decisiones de evaluación del docente al alumno. De esta manera, los estudiantes se ven gradualmente expuestos a un conjunto completo de criterios y las reglas para usarlos, y así construir un cuerpo de conocimiento evaluativo. También los hace conscientes de las dificultades que incluso los docentes enfrentan para hacer tales evaluaciones; se vuelven conocedores y no consumidores.
Para algunos tipos de aprendizaje, existe una razón fundamental adicional para desarrollar deliberadamente el conocimiento evaluativo tácito (distinto de explícito o proposicional) a través de la experiencia. Considere el caso cuando el trabajo del alumno consiste en una producción en vivo, como una actuación musical. Si el artista se enfoca demasiado conscientemente en la mecánica de la producción o en el control de la producción durante la ejecución misma, la calidad del desempeño sufre con frecuencia. Ocasionalmente, la pérdida de calidad es catastrófica. El artista intérprete o ejecutante necesita controlar el rendimiento utilizando lo que Polanyi llama concientización subsidiaria (1962, p.55) del estado del juego en cualquier instante. La conciencia subsidiaria se basa subconscientemente en un cuerpo de conocimiento evaluativo tácito. Por el contrario, una toma de conciencia focal puede interferir y ser perjudicial para el rendimiento. Afortunadamente, los contextos de aprendizaje en los que las actuaciones en vivo son comunes también proporcionan, en la mayoría de los casos, una abundancia de representaciones ilustrativas y oportunidades para la evaluación. La mayor parte de la discusión anterior es válida independientemente de si los criterios se consideran discretos o entrelazados. Si los criterios se consideran por separado, los evaluadores se preocupan más por las propiedades o cualidades individuales que por la calidad en un sentido más amplio. Sin embargo, hay dos razones para alentar a los estudiantes a hacer juicios configuracionales de calidad general, haciendo uso de una serie de criterios simultáneamente. En primer lugar, los estudiantes deben poder evaluar un trabajo como un todo para apreciar cómo diferentes variedades dentro de una clase o género (como la historia corta) pueden ser de calidad comparable a pesar de que el diseño básico o las características estructurales son diferentes. La consideración separada de los criterios no necesariamente crea la experiencia de cómo se pueden juntar todos. Parte de la adquisición de experiencia creativa radica en conocer los límites permisibles de variación dentro de una clase, y las diferentes clases a menudo se distinguen menos por los criterios individuales que por las configuraciones características. La misma lista de criterios se puede utilizar para evaluar varias clases, pero los criterios pueden requerir diferentes interpretaciones, o difieren en importancia relativa, de clase a clase. La capacidad de realizar evaluaciones globales es, por lo tanto, fundamental para comprender la naturaleza de las diferentes clases y, por lo tanto, para producir algo dentro de una clase particular. En segundo lugar, es posible que algo aparentemente cumpla con los requisitos sobre todos los criterios apropiados tomados individualmente, pero que sea insatisfactorio en general. Puede ser difícil explicar esta anomalía a los estudiantes, a menos que los mismos estudiantes se enfrenten al mismo problema evaluativo. En un contexto diferente, Tversky (1969) sugirió una línea argumental que quizás sea útil aquí. Supongamos que existe un déficit máximo que podría tolerarse en un único criterio antes de que se notara que la expectativa no se había cumplido. Si en cada uno de un conjunto de criterios el déficit es menor que el límite tolerable, y si existe un número de tales criterios, la evaluación global en realidad falla la prueba de calidad mínima en una cantidad igual a la suma de los déficits individuales .
El déficit global puede ser notable, pero no las deficiencias individuales. La descalificación se debe menos a una sola causa identificable que a los efectos combinados de los déficits marginales. Experiencia evaluativa y especificaciones de tareas El concepto de conocimiento de gremios puede extenderse más allá de los límites de la evaluación de un trabajo aislado, para evaluar un trabajo en relación con las especificaciones de tareas. En situaciones en las que los estudiantes construyen tareas o trabajos de fin de curso de acuerdo con las especificaciones establecidas por el docente, es común (y frustrante para el docente) que una proporción de alumnos no se dirijan al conjunto de tareas. El estudiante, por ejemplo, puede hacer un trabajo encomiable al contar la historia de una novela en lugar de identificar el tema. Algunos maestros adoptan una política de aceptar y otorgar crédito parcial (deliberadamente o por defecto) para una respuesta que está bien organizada, pero que está fuera del objetivo. En la superficie, esta práctica parece hacer una concesión razonable al estudiante trabajador por el tiempo y esfuerzo invertido. A la larga, sin embargo, socava el aprendizaje que se supone que tiene lugar, y reduce el incentivo del alumno para abordar tareas del tipo realmente establecido. Si aprender a abordar una tarea determinada o cómo producir algo dentro de un género establecido es un resultado instructivo importante, apegarse a la tarea tiene que ser un criterio preventivo. Cumplir con el requisito genérico es una precondición lógica para realizar una evaluación dentro de un género en particular, pero la importancia de este hecho se puede transmitir a los estudiantes solo cuando ellos mismos se enfrentan al decidir si varios trabajos se encuentran o no. las especificaciones de la tarea original. Además, puede demostrarles cuán común es que los estudiantes no respondan a la tarea que realmente se establece. Algunas de las variaciones en la calidad de las respuestas de diferentes estudiantes a una tarea determinada también pueden deberse a deficiencias en la definición de la tarea. Una evaluación de la calidad se ve confundida por un factor que no tiene nada que ver con el estudiante. Las especificaciones pueden ser vagas, incompletas o ambiguas. Alternativamente, pueden ser técnicamente adecuados para el experto, pero contienen términos cuyos significados e implicaciones no son comprendidos por el alumno. Una tarea común en la enseñanza de la literatura inglesa, por ejemplo, requiere que el alumno identifique y describa el tema de una novela. Cualquier estudiante que no sepa qué significa el tema de una novela, y cómo el tema se distingue de la historia o la trama, no puede abordar la tarea tal como está establecida. Si el tema de una novela se hubiera incluido como parte del plan de estudios para un año anterior de escolarización, el docente podría asumir erróneamente que todos los alumnos saben qué tema es y que el tema no requiere atención explícita. La evaluación conjunta del maestro y el alumno es, por lo tanto, útil para probar la adecuación de las especificaciones de tareas y modificarlas si es necesario para su uso futuro.
Experiencia evaluativa como contenido curricular En la discusión anterior sobre experiencia y conocimiento evaluativo, la evaluación como contenido curricular debe distinguirse claramente de la evaluación como agente en el aprendizaje. La evaluación y el pensamiento crítico son aspectos importantes de muchas asignaturas y cursos. Es común encontrar referencias a la evaluación en las declaraciones del plan de estudios, listas de objetivos y líneas generales del curso (relacionadas, por ejemplo, con obras literarias o artísticas, la importancia de eventos históricos o políticas económicas, o el impacto de los contaminantes en el medio ambiente). En tales casos, el alumno tiene el papel de asesor, pero el tema de la evaluación es externo tanto para el alumno como para el docente. Esto contrasta con el uso instrumental del conocimiento evaluativo discutido anteriormente, en el cual el sujeto de la evaluación es el trabajo del tipo o género producido o realizado por los estudiantes, (pero, por supuesto, no se limita al propio trabajo del alumno). La actividad evaluativa en esta última situación está inextricablemente conectada con la actividad constructiva, y es principalmente habilitante y facilitadora más que un fin en sí misma. Estrategias para el cierre de brecha En muchos contextos, los estudiantes tradicionalmente han dependido más o menos de sus maestros para decirles cómo mejorar. Este aspecto no se trata en detalle aquí, excepto para observar que si el docente debe estar en posición de sugerir movimientos correctivos, el docente idealmente debería poseer la experiencia productiva actual del tipo que desarrollará el alumno. Además de la cuestión de la credibilidad con los estudiantes, un maestro no debe ser un conocedor puro que nunca se involucra de forma disciplinada en la actividad productiva. Muchos profesores de escritura, por ejemplo, no escriben prosa o poesía voluntariamente, ya sea por placer o beneficio, aparte de cartas personales y otras necesidades. Su experiencia de escritura es vicaria y limitada a la configuración de la clase. Consiste en iniciar a los alumnos en tareas de escritura de varios tipos y luego ayudarlos a mejorar su trabajo. Esta situación anómala es paralela a la experiencia de muchos estudiantes, cuya única exposición a la actividad evaluativa y editorial es tal como la recibe el docente. Por lo tanto, también es vicario. La tercera condición para que ocurra autocontrol es que los estudiantes mismos puedan seleccionar entre un conjunto de movimientos o estrategias apropiados para acercar sus propios desempeños a la meta. Este requisito garantiza una consideración por separado porque la capacidad de evaluar el trabajo de los demás o de uno mismo no se corresponde necesariamente con la capacidad de producir. También es consistente con la tesis de que la posesión de experiencia evaluativa es una condición necesaria (pero no suficiente) para la mejora. Un estudiante en inglés, por ejemplo, puede reconocer el tema en una novela una vez que ha sido identificado por otra persona, o ser capaz de distinguir entre el tema y otras características nominadas de una novela, pero no puede participar en el resumen pensamiento que es necesario para identificar desde cero el tema o temas en una novela invisible, o
para estructurar una respuesta escrita de manera apropiada. Esta capacidad de reconocer y evaluar pero no construir no es un fenómeno aislado, ni está limitado a la educación. Hay muchos dominios de la actividad humana donde las personas son expertas en evaluar los objetos existentes, a veces de una manera altamente sofisticada, pero son incapaces de producir objetos del tipo en cuestión. La crítica de arte es un ejemplo, al igual que cualquier cosa que involucre el conocimiento de los mismos como tal. Una tarea importante de la enseñanza, por supuesto, es ayudar a los estudiantes a desarrollar diversos tipos de experiencia, incluidos los de producción. En muchos sistemas artificiales complejos, el control se logra teniendo una gran cantidad de circuitos de retroalimentación que consisten en sensores, comparadores y efectores. Típicamente, cada acción correctiva es singular y está vinculada de manera determinista a una deficiencia particular. Esto también ocurre con aspectos particulares de la actividad creativa, como la ortografía, la puntuación y la precisión de los hechos al producir una composición. Pero cuanto más compleja es una tarea, y cuanto mayor es la divergencia en los resultados que pueden considerarse aceptables, es más probable que se puedan diseñar una variedad de formas para alterar la brecha entre los niveles reales y de referencia, y por lo tanto, la menor probabilidad es que la información sobre la brecha por sí misma sugiere una acción correctiva. Los movimientos deben importarse desde afuera, y las elecciones deben realizarse a partir de una gama de opciones o posibilidades disponibles para el alumno. Siempre que el alumno aprecie la naturaleza de la tarea, la experiencia en producción, evaluación y corrección proporciona un medio para desarrollar y mantener un conjunto de recursos. La complejidad de las tareas de aprendizaje multicriterio sugiere que si el alumno está preparado para actuar sobre un conjunto de deficiencias identificadas con el fin de mejorar, una lista de debilidades puede ser tan eficaz como la formativa de otra si los criterios están altamente intercorrelacionados. Por otro lado, las mejoras realizadas en algunas direcciones pueden exponer las deficiencias residuales (o incluso precipitar nuevas) en otras direcciones. Por estas razones, sería difícil, si no imposible, en las situaciones descritas anteriormente automatizar o desarrollar un sistema computarizado para retroalimentación o evaluación formativa, o para generar movimientos correctivos y procedimientos correctivos apropiados. Cualquier intento de mecanizar tales actividades educativas y esfuerzos creativos es poco probable que tenga éxito debido a la gran cantidad de variables involucradas, las intensas relaciones que a menudo existen entre ellos y su falta de claridad esencial (Sadler, 1982). Pero la incapacidad de mecanizar un sistema que ordinariamente depende en gran medida de juicios cualitativos no significa, por supuesto, que dicho sistema no pueda funcionar. Con frecuencia, las personas no solo hacen, comparten y acuerdan ampliamente juicios cualitativos, sino que también los utilizan como base para su propia mejora. Por definición, algo que se puede demostrar que ocurre es más que solo una posibilidad teórica, y es de conocimiento común que una actividad compleja puede
estar sujeta a un alto grado de control incluso cuando los procesos individuales no se han analizado exhaustivamente y no son completamente entendido. El material más fácilmente disponible para que los estudiantes trabajen en una experiencia de evaluación y remediación es el de los compañeros estudiantes. Además de la disponibilidad, y siempre que se tomen medidas para garantizar que el intercambio mutuo no cause fricción o resentimiento o que los estudiantes más débiles se sientan amenazados o humillados, participar en actividades evaluativas y correctivas en el trabajo de otros estudiantes tiene las ventajas de que (a) del mismo tipo y dirigidos a la misma tarea que ellos mismos, (b) los estudiantes se enfrentan cara a cara con una amplia gama de movimientos o soluciones para problemas de creación, diseño y procedimientos, y la exposición a estos expande incidentalmente su propio repertorio de movimientos, (c) los intentos de otros estudiantes normalmente cubren un amplio espectro de imperfecciones, incluyendo insuficiencias globales y particulares, y (d) el uso del trabajo de otros estudiantes en un entorno cooperativo ayuda a lograr cierta objetividad en que los estudiantes son menos defensivos y comprometidos emocionalmente con el trabajo de otros estudiantes, que con los suyos. Una consecuencia práctica del uso de la evaluación por pares es que reduce la carga de trabajo de evaluación para los profesores. Los enfoques tradicionales de la evaluación formativa suelen ser intensivos en mano de obra, en parte explican la renuencia de los docentes a hacer gran parte de ella. La evaluación constructiva del trabajo de los compañeros aprendices ya está establecida como parte de la enseñanza normal en algunas asignaturas y campos. Muchos maestros, por ejemplo, alientan a sus estudiantes a intercambiar trabajo entre ellos en clase. En particular, estos principios son fundamentales para ciertos enfoques de la enseñanza de la escritura, específicamente conferencias de lector-escritor, revisión por pares y escritura de procesos. Los estudiantes desarrollan su grupo de estrategias aprendiendo a revisar y refinar su propio trabajo en cooperación con el maestro, y editando y ayudando a otros estudiantes a mejorar el suyo (Beaven, 1977; Pianko y Radzik, 1980; Thompson, 1981; Chater, 1984). . "Los estudiantes que toman conciencia de lo que están haciendo al explicar sus decisiones a otros estudiantes también aprenden nuevas estrategias para resolver problemas de escritura. Y dado que los estudiantes deben volverse cada vez más independientes y seguros de sí mismos como escritores, deben evaluar el uno al otro el trabajo y el suyo con frecuencia, una práctica que enseña la crítica constructiva, la lectura íntima y la reescritura "(Lindemann, 1982, p.234). Boud (1986) informó hallazgos similares en la educación superior cuando la autoevaluación y la evaluación por pares se integraron en los procedimientos de instrucción para estudiantes de derecho, ingeniería y arquitectura. Está claro que crear disposiciones explícitas para la experiencia evaluativa en un sistema de instrucción permite a los estudiantes desarrollar habilidades de autoevaluación y estrategias de cierre de brechas simultáneamente, y por lo tanto avanzar hacia la autocontrol. Sin embargo, se puede esperar cierta resistencia a esta proposición.
Factores que militan contra el automonitoreo La falta de oportunidades que normalmente se les da a los estudiantes para hacer juicios cualitativos apropiados sugiere una suposición subyacente de que solo los maestros tienen la habilidad y la experiencia para evaluar el trabajo del alumno, y que esta habilidad no es transferible a los estudiantes. La taxonomía influyente de Bloom (1956) coloca a la evaluación en la cima de la jerarquía de las habilidades cognitivas, y algunos teóricos del aprendizaje sostienen que los estudiantes típicamente no (y quizás no) pueden involucrarse en pensamientos abstractos de alto nivel cuando son jóvenes. Aunque la posición exacta de la evaluación en la jerarquía de Bloom es discutible, casi con toda seguridad requiere un pensamiento abstracto y se sitúa por encima del conocimiento, la comprensión y la aplicación. Esto puede dar la impresión de que la evaluación es algún tipo de actividad esotérica en la que participan adultos o expertos. Si es así, ignora el hecho de que incluso los niños (sin duda en sus horas fuera de la escuela) participan continuamente en actividades de evaluación y, si se les pregunta, a menudo pueden producir fundamentos rudimentarios pero razonablemente sólidos para sus juicios. Algunos maestros se sienten amenazados por la idea de que los estudiantes deben involucrarse abierta y cooperativamente para hacer juicios evaluativos. Muchos maestros usan una evaluación que resulta en una calificación como una herramienta para el control o la modificación de la conducta, para reincidencias y castigos. Puede considerarse que la remoción de la responsabilidad de los docentes para evaluarla y colocarla en las manos de los estudiantes puede minar la autoridad del maestro. Una preocupación menos patológica es que muchos profesores perciben la evaluación como la responsabilidad primaria de los docentes porque constituye parte del conocimiento especializado y la experiencia que han adquirido como profesionales. La evaluación se considera estrictamente la prerrogativa de los docentes: los diferencia de sus alumnos y, en cierta medida, de los padres y el resto de la sociedad. Sin embargo, parte de la responsabilidad del docente es descargar ese conocimiento evaluativo para que los estudiantes eventualmente se vuelvan independientes del docente e inteligentemente se involucren y supervisen su propio desarrollo. En todo caso, el conocimiento del gremio de los maestros debe consistir menos en saber cómo evaluar el trabajo de los estudiantes y más en saber cómo descargar los conocimientos de evaluación a los estudiantes. Además de los factores personales, la evaluación formativa puede ser inhibida por ciertas circunstancias fuera del control del maestro. Los sistemas de examen interno o basados en la escuela a menudo hacen uso de la evaluación llamada continua (o progresiva, o periódica). Uno de los argumentos a favor de la evaluación continua es que una serie de evaluaciones realizadas durante un período prolongado de tiempo tiende a reducir los altos niveles de ansiedad experimentados por algunos estudiantes bajo exámenes formales de final de curso al final de un curso. (Puede, por supuesto, crear una forma diferente de estrés.) Otro argumento es que la evaluación continua permite
un muestreo más amplio y variado del conocimiento y las habilidades del estudiante. Un tercer argumento es que la evaluación continua proporciona comentarios frecuentes sobre el progreso. Sin embargo, la evaluación continua no puede funcionar formativamente cuando es acumulativa, es decir, cuando cada intento o trabajo presentado por un estudiante se califica y los puntajes se suman al final del curso. Esta práctica tiende a producir en los estudiantes la mentalidad de que si una pieza de trabajo no contribuye al total, no vale la pena hacerlo. Por lo tanto, el objetivo de excelencia a más largo plazo puede perderse debido a la motivación para acumular crédito. El reciclaje opcional del trabajo para fines de mejora se convierte en una proposición poco atractiva, y también plantea la cuestión de la equidad a otros estudiantes si un maestro trabaja con algunos de los estudiantes (pero tal vez no con otros) para ayudar a elevar el nivel de rendimiento. Por lo general, se espera que cualquier trabajo que sirva de base para una calificación del curso sea producido por el alumno sin la ayuda del profesor. Otro factor se deriva de la política generalizada de asignar calificaciones de cursos de acuerdo con una distribución estadística predeterminada. A menudo se considera que este es el mejor o el único método práctico para mantener los estándares. Sin embargo, tal clasificación en la curva no permite el reconocimiento de la mejora en el rendimiento en términos absolutos; crea un juego de suma cero, alienta la competitividad entre los estudiantes y es contrario al objetivo de mejora genuina para todos los estudiantes. Un factor final está asociado con la estructura del currículo. En las últimas décadas, ha habido una tendencia a dividir los cursos largos en unidades o módulos a fin de proporcionar una mayor flexibilidad curricular para los estudiantes. Cada unidad está diseñada de modo que puede, en gran medida, ser independiente, y cada una de ellas se imparte durante un único trimestre o semestre, o incluso unas pocas semanas. Los estudiantes compilan un plan de estudios personalizado al armar una colección de unidades. A los efectos de la evaluación formativa, la duración de cada unidad a menudo no es lo suficientemente larga para que los estudiantes presenten el trabajo, lo evalúen, lo reelaboren en un esfuerzo por adquirir competencia y finalmente presenten una pieza diferente pero bien producida para un grado. Simplemente no hay tiempo para hacerlo. Conclusión Para mejorar su rendimiento, los estudiantes necesitan saber cómo están progresando. La retroalimentación se define comúnmente en términos de información dada al estudiante sobre la calidad del desempeño (conocimiento de los resultados). Pero en muchos contextos educativos y de capacitación, los estudiantes producen trabajos que no se pueden evaluar simplemente como correctos o incorrectos. La calidad del trabajo está determinada por el juicio humano cualitativo directo. La definición tradicional de retroalimentación es demasiado estrecha para ser de mucha utilidad, y en este artículo se presenta una concepción más apropiada. Requiere conocimiento del estándar o objetivo,
habilidades para hacer comparaciones multicriterio, y el desarrollo de formas y medios para reducir la discrepancia entre lo que se produce y lo que se busca. La mejora puede, por supuesto, ocurrir si el maestro proporciona asesoramiento detallado de recuperación y el estudiante lo sigue. Esto, sin embargo, mantiene la dependencia del aprendiz del maestro. El enfoque alternativo que se describe y se propone en este artículo es que los estudiantes desarrollen habilidades para evaluar la calidad de su propio trabajo, especialmente durante el proceso de producción. La transición de la retroalimentación suministrada por el docente al autocontrol del alumno no es algo que se produzca de manera automática. Para una clase importante de logros de aprendizaje, el sistema de instrucción debe hacer una provisión explícita para que los estudiantes adquieran experiencia evaluativa. Se argumenta que brindar una experiencia de evaluación directa y auténtica es una condición necesaria (instrumental) para el desarrollo de la experiencia evaluativa y, por lo tanto, para el autocontrol inteligente. No es suficiente que los estudiantes confíen en los juicios evaluativos hechos por el maestro. Las prácticas recomendadas no son radicalmente nuevas, y ya se emplean en algunos sistemas de instrucción. Empíricamente, se sabe que producen resultados. Lo que ofrece este artículo es una perspectiva teórica de estas prácticas y un argumento para su generalización a cualquier sistema de instrucción diseñado para producir resultados de aprendizaje que se juzguen cualitativamente utilizando múltiples criterios. El corolario es que no diseñar experiencia de evaluación auténtica en el sistema de instrucción coloca un límite de rendimiento artificial en muchos estudiantes o limita su tasa de aprendizaje.