Enfoques y prácticas en la evaluación de programas by Editorial Pontificia Universidad Javeriana

colección gerencia y políticas de salud

Su finalidad es contribuir a la reflexión, al análisis y al debate de los temas y problemas más urgentes sobre la salud y el desarrollo de los sistemas de salud.

Otros títulos de esta colección

Derechos de propiedad del seguro obligatorio de salud en Colombia Jaime Ramírez Moreno

Igualdad y Desigualdad: un enfoque crítico de la justicia social en salud

Las publicaciones sobre evaluación, escritas en español, son escasas y poco fundamentadas. Por esto, quisiera felicitar a los profesores Válery Ridde y Christian Dagenais, directores de este trabajo, por el esfuerzo de convocar, organizar y disponer para la consulta diversas perspectivas sobre la teoría y práctica de la evaluación. A los estudiantes, docentes, investigadores y profesionales interesados, los invito a realizar una rigurosa lectura de esta obra que los motivará a fortalecer la evaluación como instrumento de política social.

Román Vega Romero

Medicamentos esenciales y propiedad intelectual. Análisis para países en desarrollo Luis Edgar Parra Salas

Autores

En esta traducción de Approches et pratiques en évaluation de programmes el lector encontrará herramientas importantes para la reflexión y práctica de la evaluación de efectividad, así como para hacer frente a desafíos teóricos y metodológicos propios de la investigacion evaluativa en intervenciones de naturaleza social. Esta obra condensa el esfuerzo de diversos autores, los cuales comparten los resultados de sus experiencias en diversos países, con el fin de cerrar la brecha entre teoría, práctica y toma de decisiones.

Ligia de Salazar, Ph.D Directora Fundesalud Profesora titular (jubilada) Escuela de Salud Pública Universidad del Valle Colombia

Facultad de Ciencias Económicas y Administrativas

Enfoques y prácticas en la evaluación de programas Valéry Ridde Christian Dagenais compiladores

Enfoques y prácticas en la evaluación de programas

La Colección Gerencia y Políticas de Salud es una publicación de los programas del Posgrado en Administración de Salud y Seguridad Social de la Facultad de Ciencias Económicas y Administrativas de la Pontificia Universidad Javeriana.

Valéry Ridde Christian Dagenais Aristide Bado

Kadidiatou Kadio

Michael Bamberger

Seni Kouanda

Murielle Bauchet

Francine LaBossière

Diane Berthelette

Miri Levin-Rozalis

Pierre Blaise

Isabelle Marcoux

François Bowen

Pierre McDuff

François Chagnon

Frédéric Nault-Brière

Nadia Cunden

Bernard Perret

Pierre-Marc Daigneault

Pierre Pluye

Luc Desnoyers

Nancy L. Porteous

Didier Dupont

Michael Quinn Patton

Julie Dutil

Emilie Robert

Françoise Fortin

Patricia Rogers

Pierre Fournier

Christine Rothmayr

Marie Gervais

Jim Rugh

Anne Guichard

Caroline Tourigny

Robert R. Haccoun

Josefien Van Olmen

Janie Houle

Sophie Witter

Françoise Jabot

Maurice Yameogo

Steve Jacob

Robert K. Yin

Enfoques y pr谩cticas en la evaluaci贸n de programas

Enfoques y prácticas en la evaluación de programas Bajo la dirección de Valéry Ridde y Christian Dagenais Traducción de la segunda edición revisada y ampliada

Facultad de Ciencias Económicas y Administrativas

Colección Gerencia y Políticas de Salud Pontificia Universidad Javeriana

© Pontificia Universidad Javeriana © Valéry Ridde Christian Dagenais Aristide Bado, Michael Bamberger, Murielle Bauchet, Diane Berthelette, Pierre Blaise, François Bowen, François Chagnon, Nadia Cunden, PierreMarc Daigneault, Luc Desnoyers, Didier Dupont, Julie Dutil, Françoise Fortin, Pierre Fournier, Marie Gervais, Anne Guichard, Robert R. Haccoun, Janie Houle, Françoise Jabot, Steve Jacob, Kadidiatou Kadio, Seni Kouanda, Francine LaBossière, Miri Levin-Rozalis, Isabelle Marcoux, Pierre McDuff, Frédéric Nault-Brière, Bernard Perret, Pierre Pluye, Nancy L. Porteous, Michael Quinn Patton, Emilie Robert, Patricia Rogers, Christine Rothmayr, Jim Rugh, Caroline Tourigny, Josefien Van Olmen, Sophie Witter, Maurice Yameogo, Robert K. Yin Primera edición en español: Bogotá, D. C., diciembre del 2015 ISBN: 978-958-716-883-9 Número de ejemplares: 300 Impreso y hecho en Colombia Printed and made in Colombia

Editora de la colección María Inés Jara Navarro Compiladores Valéry Ridde Christian Dagenais Traducción Pedro Lama

Corrección de estilo César Mackenzie Diagramación Kilka Diseño Gráfico

Preprensa e impresión Javegraf MIEMBRO DE LA

ASOCIACIÓN DE UNIVERSIDADES CONFIADAS A LA COMPAÑIA DE JESÚS EN AMÉRICA LATINA

RED DE EDITORIALES UNIVERSITARIAS DE AUSJAL www.ausjal.org

Editorial Pontificia Universidad Javeriana Carrera 7a núm. 37-25, oficina 13-01. Edificio Lutaima Teléfono: 320 8320 ext. 4752 editorialpuj@javeriana.edu.co www.javeriana.edu.co/editorial Bogotá - Colombia

Enfoques y prácticas en la evaluación de programas/bajo la dirección de Valéry Ridde y Christian Dagenais. --Primera edición. --Bogotá: Editorial Pontificia Universidad Javeriana, 2015. --(Colección gerencia y políticas de salud). 411 páginas; 24 cm Incluye referencias bibliográficas (página 411) y glosario. ISBN: 978-958-716-883-9 1. ADMINISTRACIÓN DE LOS SERVICIOS DE SALUD. 2. PLANIFICACIÓN DE LA SALUD. 3. POLÍTICAS PÚBLICAS DE SALUD. 4. EVALUACIÓN DE PROGRAMAS. I. Ridde, Valéry, directora. II. Dagenais, Christian, director. III. Pontificia Universidad Javeriana. Facultad de Ciencias Económicas y Administrativas. CDD 362.11068 ed. 21 Catalogación en la publicación - Pontificia Universidad Javeriana. Biblioteca Alfonso Borrero Cabal, S. J. dff.

Diciembre 2 / 2015

Tabla de contenido Siglas y abreviaturas

Presentación 11 Primera parte. Conceptos y enfoques 15 1. Introducción general a la evaluación de programas

Valéry Ridde y Christian Dagenais

2. Investigación y evaluación de programas

Miri Levin-Rozalis

3. La construcción de un juicio

Bernard Perret

4. El análisis de las políticas públicas

Steve Jacob y Christine Rothmayr

5. La construcción del modelo lógico de un programa

Nancy L. Porteous

6. Atribución y causalidad de los efectos

103

Robert R. Haccoun y Pierre McDuff

7. Los métodos mixtos

119

Pierre Pluye

8. La evaluación centrada en la utilización

137

Michael Quinn Patton y Francine LaBossière

9. Una estrategia para hacer frente a las limitaciones inherentes a la práctica

153

Michael Bamberger y Jim Rugh

10. Teoría y prácticas de los estudios de caso en evaluación de programas

169

Robert K. Yin y Valéry Ridde

11. Una introducción a la evaluación económica de programas Sophie Witter y Nadia Cunden

189

12. El fortalecimiento de las capacidades en el campo de la evaluación

203

Marie Gervais y Patricia Rogers

13. Conceptualizar y medir la participación en la evaluación

221

Pierre-Marc Daigneault y Steve Jacob

14. Teoría y práctica del enfoque Realist para la evaluación de programas

241

Valéry Ridde, Émilie Robert, Anne Guichard, Pierre Blais y Josefien Van Olmen

Segunda parte. Prácticas evaluativas 261 15. Una evaluación participativa con fortalecimiento de la capacidad de los actores implicados

263

Valéry Ridde

16. Una evaluación de las necesidades de capacitación

279

François Chagnon, Janie Houle e Isabelle Marcoux

17. Una evaluación de los procesos de un programa de protección de la juventud

291

Christian Dagenais y Didier Dupont

18. Una evaluación de los procesos de un programa de remisión-evacuación en Malí

307

Pierre Fournier, Caroline Tourigny y Francine LaBossière

19. Una evaluación de la eficacia de un programa de capacitación

333

Diane Berthelette y Luc Desnoyers

20. Una evaluación de los efectos de un programa de reducción de los conflictos en los niños

351

Françoise Fortin y François Bowen

21. Una evaluación de implantación en Burkina Faso con un método mixto

369

Valéry Ridde, Seni Kouanda, Maurice Yameogo, Kadidiatou Kadio y Aristide Bado

22. Una evaluación de la implantación y eficacia de un programa destinado a los niños y sus familias

389

Christian Dagenais, Frédéric Nault-Brière, Didier Dupont y Julie Dutil

Glosario 405 Françoise Jabot y Murielle Bauchet

Siglas y abreviaturas

ASACO: ATTRueQ:

Asociación de Salud Comunitaria Asociación de Trabajadores y Trabajadoras Sociales de la Calle de Québec (Association des Travailleurs et Travailleuses de Rue du Québec) CEQ: Central de la Educación de Quebec CIRCM: Centro Internacional de Resolución de Conflictos y de Mediación CJM-IU: Centro para la Juventud de Montreal — Instituto Universitario (Centre Jeunesse de Montreal —Institut Universitaire) CNPC: Centro Nacional de Prevención del Delito de Canadá (Centre National de Prévention du Crime du Canada) CPS: Centro de Prevención del Suicidio CRDI: Centro Internacional de Investigaciones para el Desarrollo (Centre de Recherches pour le Développement International) CRISE: Centro para la Investigación e Intervención en Suicidio y Eutanasia (Centre de Recherche et d’Intervention sur le Suicide et l’Euthanasie) CSCOM: Centro de Salud Comunitario CSRem: Centros de Salud de Remisión DDSES: Dirección de Desarrollo Social y Economía Solidaria DNS: Dirección Nacional de Salud DPJ: Director de la Protección de la Juventud DRS: Dirección Regional de Salud ERPI: Entrevista de resolución de problemas interpersonales GEMMS: Grupo de Estudio sobre la Mediación en el Entorno Escolar (Groupe d’Étude sur la Médiation en Milieu Scolaire) IRI-Acogida: Intervención Rápida e Intensiva vinculada al centro de acogida IRSST: Instituto de Investigación Robert-Sauvé en Seguridad y Salud en el Trabajo (Institut de Recherche Robert-Sauvé en Santé et en Sécurité du Travail) MM: Métodos Mixtos PED: Países en Desarrollo PIJ: Programa de Integración Juvenil

Enfoques y prácticas en la evaluación de programas

QES: CUAL: CUANT: RAJB: RLM: RTS:

SAM: SOU: SRE: SST: TC: UdeM: UNFPA: US:

Cuestionario sobre el Entorno Socioeducativo Métodos Cualitativos Métodos Cuantitativos Recurso Alternativo de Jóvenes de Bellechasse (Ressource Alternative des Jeunes de Bellechasse) Revista de Literatura Mixta (revista de estudios CUAL, CUANT y MM) Recepción-tratamiento de las denuncias (Réception-traitement des signalements) Suicido Acción de Montreal (Suicide Action Montréal) Atención Obstétrica de Urgencia (Soins Obstétricaux d’Urgence) Sistema de Remisión-Evacuación Seguridad y Salud en el Trabajo Trabajadores Sociales de Calle Universidad de Montreal Fondo de las Naciones Unidas para la Población Urgencias Sociales

Presentación Nuestra idea de ofrecer un manual pedagógico de referencia sobre la evaluación de programas en una lengua diferente al inglés, se gestó desde hace mucho tiempo. En 2009, la obra se publicó en lengua francesa y confirmó nuestra intuición respecto a su pertinencia. Se reimprimió menos de un año después de su primera aparición en el mercado y nos llevó a preparar una segunda edición revisada y ampliada con nuevos capítulos. De la misma forma, y considerando posible la pertinencia de un documento en español, hemos realizado esta traducción de la obra para que sea accesible a los lectores hispanoparlantes. Existe aún un número muy reducido de obras con finalidades pedagógicas apropiadas para los estudiantes y los profesionales que participan en cursos de formación en evaluación de programas. Si bien existen en nuestras bibliotecas algunos libros en español y francés consagrados a este ámbito, la mayoría proceden de disciplinas específicas tales como política pública, servicios sociales, administración pública, salud o desarrollo internacional. Los textos cortos son sin duda bastante numerosos, pero dispersos y difíciles de conseguir. A menudo están inmersos en libros que tratan temas más generales o son publicados en revistas no especializadas. De hecho, existe una sola revista científica dedicada a la evaluación, publica artículos en español desde 2013, se trata de la Revista de Evaluación de Programas y Políticas Públicas (disponible en: http://revistas. uned.es/index.php/REPPP). Enfrentados con regularidad a estas lagunas en nuestra educación universitaria y en la formación profesional impartida en Quebec (Canadá), Francia, Haití o África, concebimos el proyecto de publicar la obra inicialmente en francés. Así mismo, considerando posible que se presenten retos similares en América Latina, pensamos en la posibilidad de traducir la presente obra al español y publicarla, como una herramienta útil para la formación sobre evaluación en el ámbito hispanohablante. Su planificación y realización se extendieron por cerca de dos años para la primera edición (2009), el tiempo necesario para encontrar los temas principales y, sobre todo, los autores clave, especialistas dispuestos a plegarse a las exigencias didácticas que habíamos elaborado. Así pues, todos los capítulos de este libro fueron escritos en una forma accesible por pedagogos, profesores universitarios y educadores avezados desde hace muchos años en el ejercicio del

Enfoques y prácticas en la evaluación de programas

intercambio de conocimientos en evaluación de programas, haciendo hincapié en la práctica más que en la teoría. Incluso en el año 2010, firmamos un acuerdo con la editorial de la Universidad de Montreal (Presses de l’Université de Montréal) y con la editorial L’Harmattan Burkina Faso para hacer que la edición africana —vendida únicamente en ese continente— tuviera un costo asequible para su población. Tres años después de la publicación del libro, los numerosos comentarios hechos por lectores y colegas nos impulsaron a producir la segunda edición. En particular, añadimos cuatro nuevos capítulos teóricos, dado que los conocimientos en evaluación evolucionan constantemente y queríamos que los lectores de lengua francesa pudieran tener acceso a los últimos logros en este campo. En la primera edición también faltaron ejemplos relativos al uso de métodos mixtos, a pesar de que estos fueron descritos en la primera parte. Por lo tanto, dos nuevos capítulos llenan este vacío y se unen al capítulo teórico sobre los métodos mixtos, que fue totalmente actualizado. En la primera parte, el lector profundizará su comprensión de ciertos conceptos cuyos contornos se han delineado en la introducción general. El objetivo es demostrar que el campo de la evaluación de programas involucra un número importante de teorías, enfoques y herramientas para responder a las preguntas formuladas por sus promotores. En efecto, la evaluación recurre a diferentes disciplinas, tales como el estudio de las políticas públicas, la epistemología o la estadística. En esta nueva edición, los lectores podrán familiarizarse con la estrategia de estudio de casos, la evaluación económica, los enfoques participativos y el enfoque Realistico. Un desafío clave que enfrenta todo profesor del área de la evaluación está relacionado con el dominio de la gran diversidad de enfoques evaluativos y de los tipos de evaluación. La segunda parte del libro presenta algunos estudios de caso para mostrar claramente cómo se emplean en la práctica los conceptos expuestos. Estos capítulos abarcan varios campos disciplinarios y proponen diversos ejemplos de prácticas evaluativas. Cada estudio sigue un plan similar para lograr que la descripción de casos sea relativamente homogénea. El cuadro 1.1 presentado en la introducción permitirá a un instructor identificar, de acuerdo con los tipos de evaluación, los diferentes estudios de caso correspondientes. Los casos presentados provienen de diversos contextos socioeconómicos, lo que permitirá a quienes lean este libro en Canadá, Mali, Francia, Colombia o Argentina, por ejemplo, conocer realidades diferentes. En esta nueva edición se introducen dos casos que ilustran la utilización de métodos mixtos en Quebec y en Burkina Faso. Reconocemos que debido a que es una traducción de la segunda edición no contamos con ejemplos de experiencias desarrolladas en el contexto

Presentación

latinoamericano. Por lo tanto, esperamos poder integrar la riquísima experiencia de nuestros colegas en Latinoamérica en una futura edición, enriquecida también con los comentarios de nuestros lectores. Queremos agradecer a los autores, que respondieron favorablemente a nuestras peticiones y supieron ponerse al nivel de los estudiantes para compartir sus conocimientos, incluso en la actualización de esta nueva edición. También queremos agradecer al Dr. Mabel Carabali y Camilo Coral. Sin sus esfuerzos, este manual no habría podido salir a la luz.

Valéry Ridde Christian Dagenais

PRIMERA PARTE Conceptos y enfoques

1. Introducción general a la evaluación de programas Valéry Ridde y Christian Dagenais

La evaluación no es un asunto o un tema nuevo. En el Antiguo Testamento se cuenta que en la corte de Nabucodonosor, rey de Babilonia, el jefe de los eunucos hizo una evaluación que calificaremos cuasi experimental (véase los capítulos 6 y 9). Se trataba de estudiar los efectos diferenciados de una dieta en la salud de los niños hebreos de la corte. Pero más allá de la leyenda, hay que reconocer que el campo de la evaluación de programas se ha desarrollado sobre todo durante los últimos treinta años. El origen de la práctica y la investigación en esta materia se sitúa fundamentalmente en el ámbito de la educación. Los educadores se interrogaron sobre la influencia que podían tener sus cursos en los conocimientos adquiridos por sus alumnos. Al cambiar de objeto, pasando de las habilidades y los conocimientos adquiridos por los individuos a los programas que organizaban esa transmisión, el campo de la evaluación se transformó para volverse mucho más interdisciplinario, e incluso transdisciplinario para algunos. Por lo tanto, cuando se trata por primera vez el campo de la evaluación de programas, nos damos cuenta de que hay muchas maneras de concebirlo. Si usted consulta cinco libros de referencia, puede encontrar cinco formas diferentes de definir la evaluación y sus conceptos. Se trata, en efecto, de una disciplina cuyos conceptos y práctica aún no han sido claramente codificados. Por esta razón muchas sociedades nacionales de evaluación aún tratan de establecer estatutos, códigos de conducta, normas de práctica o de competencias esenciales, mientras que otras apenas los han adoptado desde hace poco (véase el capítulo 12). También por esta razón es conveniente establecer una política común de evaluación o incluso el glosario de términos que se utilizarán cuando se desea fortalecer las capacidades y las prácticas evaluativas. La presente introducción se basa en nuestra propia experiencia de la enseñanza, en nuestra práctica de la evaluación en una gran variedad de contextos y en diversas problemáticas. No se trata, de ninguna manera, de sugerir una nomenclatura definitiva o superior a otras. Nuestro objetivo es mucho más modesto, y consiste en presentar a los lectores el campo de la evaluación de programas

Enfoques y prácticas en la evaluación de programas

con el fin de facilitarles la lectura de los distintos capítulos de este libro, o incluso remitirlos a las referencias claves en este campo. Las corrientes de pensamiento: una breve historia de la evaluación

Existen numerosas corrientes de pensamiento en el ámbito de la evaluación, y la forma en que los evaluadores se representan el mundo (su paradigma) determina en gran medida las preguntas que se plantean y las estrategias que emplean para responderlas (Bégin et al., 1999). Nuestros valores, creencias e intereses interfieren, sin duda, en nuestras prácticas profesionales. En el caso que nos ocupa, determinan las opciones teóricas y metodológicas de la evaluación. No es cuestión de examinar en detalle los grandes paradigmas epistemológicos, pero es esencial hablar brevemente al respecto para que el lector, evaluador presente o futuro, pueda interrogarse a su vez sobre sus propias decisiones.1 Para definirlo de una forma sencilla, un paradigma, de acuerdo con la definición clásica de Thomas Kuhn, es un sistema de creencias compartido por la mayoría de individuos que trabajan en el seno de una misma disciplina.2 Este sistema de referencia es un marco que orienta los temas, los métodos (véase el capítulo 7) y la manera de dar sentido a los datos que se recopilan. Siguiendo a Levy, Gendron (2001) plantea que un paradigma está compuesto de cuatro campos interrelacionados. Figura 1.1. Los cuatro campos constitutivos de un paradigma

Epistemología

Metodología

Ontología

Teleología

Fuente: Gendron, 2011 1 Para profundizar en esta reflexión, sugerimos la lectura del excelente manual de introducción a la epistemología de Fourez (2003).

2 Hall (1993) también ha empleado este término en su concepto de paradigma político, sin duda útil para los

evaluadores de las políticas públicas (véase el capítulo 4 y el libro de análisis político recientemente publicado por Paquin et al., 2011).

1. Introducción general a la evaluación de programas

•

El campo epistemológico remite a la visión de mundo del evaluador, a la legitimidad de los análisis que produce y sobre todo a su relación (y su distancia) con los datos que recoge y analiza (subjetividad en contraste con objetividad).

El campo ontológico abarca la naturaleza del mundo vivido y la comprensión que se tiene de la posible manipulación por parte del evaluador de las entidades físicas o mentales. Se trata aquí de la construcción de la realidad (una única realidad en contraste con varias). El campo metodológico reúne las técnicas que emplea el evaluador para comprender el mundo vivido.

El campo teleológico agrupa las cuestiones relacionadas con los fines de la evaluación y con los intereses e intenciones de los evaluadores de un programa.

El paradigma en el que se inscribe el evaluador, determina los métodos utilizados para responder a las preguntas de evaluación planteadas por los responsables de un programa. Algunos evaluadores, llamados positivistas, no pueden creer en la efectividad de un programa a menos que haya sido posible comparar sus efectos, como en un laboratorio, en un grupo de participantes (casos) y un grupo de no participantes (controles), tras determinar de forma aleatoria la pertenencia de esas personas a estos grupos (véase el capítulo 6). Otros evaluadores, más bien constructivistas, por el contrario sostienen que es imposible aislar los efectos de un programa de su entorno, y que es necesario emplear una metodología que permita señalar estas interacciones. Consideran, entonces, que en el caso de los programas sociales es imposible reproducir las condiciones de laboratorio. Sostienen también que todo conocimiento sobre los efectos de un programa es construido en forma conjunta por los actores sociales en cuestión. Estos evaluadores constructivistas asumen plenamente la subjetividad de su juicio, ya que consideran que la objetividad que reivindica el campo de saber positivista es inalcanzable. Los partidarios del enfoque realista de la evaluación (Blaise et al., 2010), al optar por una perspectiva epistemológica intermedia, postulan por su parte que la realidad existe fuera de las construcciones humanas, pero que solo es perceptible a través de nuestros sentidos (véase el capítulo 14). Diferentes corrientes de pensamiento de la evaluación se han desarrollado a lo largo de la historia. Una manera de describir esta historia, de acuerdo con Shaw y sus colegas (2006), es proponer la existencia, a veces concurrente, de cuatro generaciones de evaluación (Guba y Lincoln, 1987). La primera generación es la de la medición, en la que el evaluador es un especialista. La segunda, es más

Enfoques y prácticas en la evaluación de programas

bien de orden descriptivo: el evaluador se centra principalmente en los procesos que permiten la aparición de los efectos observados. En la tercera generación, el reto del evaluador consiste en emitir un juicio sobre los resultados obtenidos en relación con los objetivos iniciales. Finalmente, en la década de 1970 apareció una cuarta generación que pretendía ser mucho más interactiva. Los evaluadores se sirven de la negociación, convirtiéndose en facilitadores entre los organismos implicados. No solo se trata de reconocer el punto de vista y los valores del conjunto de los actores en cuestión, sino también de procurar que ellos sean parte integrante de este proceso. En otras palabras, se trata de evaluaciones pluralistas cuyo enfoque participativo, descrito más abajo, es una de las estrategias con gran potencial (véase el capítulo 13). La evaluación de programas: una definición

En lugar de comenzar con una definición académica, les proponemos una breve estancia bajo el sol de un país de África occidental. En un radiante día de enero, un experto quebequense anima una sesión de capacitación en evaluación de programas en Burkina Faso. Esta sesión es organizada para las parteras y técnicos de una organización no gubernamental (ONG) que implementa un programa de maternidad denominado “de bajo riesgo”. Al comenzar la formación en evaluación de programas, el experto pregunta a las participantes qué palabras asocian con el término “evaluación”. Se menciona el control, la auditoría, la medición, la verificación, entre otros términos. Los canadienses presentes en la sala aluden a la idea de la rendición de cuentas. Este léxico no sorprende al instructor, puesto que aún hoy en día, muchos asocian la evaluación principalmente con funciones de control que asignan calificaciones buenas o malas a un programa… y a los responsables del mismo. Luego, el experto pregunta: “¿a qué temperatura estamos hoy?”. Las funcionarias de la salud consideran que hace algo de frío, los expatriados canadienses que hace calor y el experto quebequense que acaba de llegar estima que hace mucho calor. “¿Cómo han hecho ustedes para estimar la temperatura y decir que hace frío o calor?”. Todos responden de manera diferente a la pregunta del experto: “es invierno”, “miré el termómetro”, “comparé con la temperatura del día anterior”, “hoy estoy sudando mucho más que ayer”, “esta es la temporada fresca”. A continuación, todos los participantes aceptan que eligieron sus prendas de vestir de acuerdo con la temperatura de aquella mañana. Los asistentes a este taller de capacitación tomaron entonces conciencia del hecho de que la evaluación es un acto que permite hacer una valoración (frío, caliente, templado) según un enfoque crítico basado en la recopilación sistemática de datos (temperatura, sudoración,

1. Introducción general a la evaluación de programas

temporada) en relación con múltiples objetos (la temperatura) con el fin de tomar decisiones (cómo vestirse). Algunos autores sostienen que la apreciación valorativa de un programa debe hacerse de acuerdo con un enfoque científico o mediante el uso de métodos científicos. Nosotros preferimos no emplear el término “científico”, ya que en nuestra práctica de la evaluación esta palabra siempre ha tendido a crear cierta distancia con respecto a las partes involucradas en la evaluación. El evaluador es percibido, de manera inmediata, como un “investigador”, con todas las connotaciones que, con razón o sin ella, se asocian a este término. Por otra parte, aludir a la ciencia perpetúa la dificultad que tiene la mayoría de autores para diferenciar la investigación de la evaluación (capítulo 2). A nuestro juicio, la diferencia fundamental entre la investigación y la evaluación es que el objetivo principal de la primera es la producción de conocimiento, mientras que el objetivo de la segunda es proporcionar una información útil sobre el funcionamiento de un programa o la toma de decisión al respecto. Obviamente, las cosas no siempre son tan tajantes: a veces se pueden producir conocimientos con la ayuda de una evaluación, o tomar decisiones como consecuencia de los trabajos de investigación. Sin embargo, la decisión de no definirla explícitamente como una ciencia no significa que la evaluación sea un enfoque frívolo en el cual la apreciación que se hace del objeto programa no es válida. Al contrario, el rigor y la sistematización son sus dos valores emblemáticos. La analogía con el clima es simple, pero lo suficientemente clara para definir el acto de evaluación y garantizar que las personas con las que vamos a trabajar no la perciban como un proceso de control (aunque algunas veces pueda ser así). Evaluar la temperatura es un poco más sencillo que evaluar un programa, sobre todo cuando este es tan complejo como la mayoría de intervenciones sociales (véase el capítulo 14). Pero ¿cómo puede definirse un programa? Aquí también confluyen una multitud de definiciones. Destacamos la de Plante (1994) que, aunque un poco larga, tiene el mérito de definir con claridad los límites de lo que constituye un programa: [Un programa es un] todo coherente, organizado y estructurado con objetivos, medios y personas que lo dirigen. Se justifica tomando como base las necesidades definidas como una carencia o una falta que afecta a los individuos, una comunidad o una sociedad. Está bajo el control de una o más personas responsables de la calidad de su formulación y de su funcionamiento. Se crea para transformar las cosas o el estado de una cosa.

La palabra clave de esta definición es transformación. En efecto, no sirve de nada desarrollar un programa de maternidad de bajo riesgo si este solo tiene como objetivo construir maternidades, capacitar parteras o redactar protocolos

Enfoques y prácticas en la evaluación de programas

terapéuticos. Lo que se pretende, ante todo, es la obtención a corto plazo de una mejor calidad de la atención a las madres y sus hijos recién nacidos y, a más largo plazo, la reducción de la mortalidad materna e infantil (véase el capítulo 18). También es necesario entender que todo programa puede producir cambios inesperados de los que los evaluadores también deben dar cuenta (Morell, 2010). Estos efectos podrían haberse previsto o no, ser beneficiosos, neutrales o perjudiciales para los participantes. Aunque las fronteras no siempre son fáciles de trazar, este libro se ocupa de la evaluación de programas, y deja de lado la evaluación de las prácticas profesionales, del conocimiento individual o incluso de las políticas públicas. Más allá de los aspectos conceptuales de estas definiciones sobre qué es un programa, es preciso señalar cómo los actores sociales desempeñan un papel fundamental en su dinámica. Mediante el ejercicio del poder se llevan a cabo o no los programas, que de ninguna manera se implementan por sí mismos (Crozier y Friedberg, 1977; Lemieux, 2002). Por lo tanto, es preciso estar muy atentos a las actuaciones de los actores, las relaciones de poder y las interacciones sociales. Además, varios actores se encuentran involucrados en la definición de un programa y luego en su implementación, así como también en su evaluación. La evaluación, en su calidad de actividad humana, es fuente de tensiones y de relaciones de poder. Por consiguiente, no se debe ver un programa y su evaluación como una actividad mecánica, exclusivamente técnica, de la que solo nos interesan los objetivos y los indicadores. Si bien un programa también puede concebirse intelectualmente como el resultado de un orden negociado entre los actores sociales, en palabras de Ansel Strauss, a efectos de esta introducción, debemos recurrir a subterfugios didácticos para explicar los conceptos teóricos. Así pues, los diferentes términos que sugerimos son fundamentalmente heurísticos, pues explican el tema tratado. Sin embargo, no se trata de negar la complejidad de los programas ni de las interacciones sociales, como diría Edgar Morin. Los partidarios de la evaluación realista, que se analiza en el capítulo 14, perciben el cambio social como un sistema de transformación, un sistema abierto que es producto de una mirada de elementos y de fuerzas imposibles de cuantificar (Pawson, 2006; Ridde y Guichard, 2008; Blaise et al., 2009). Por tanto, se entenderá que la visión del mundo y de la ciencia que tienen los evaluadores —su perspectiva paradigmática— determina su forma de percibir y evaluar un programa.

1. Introducción general a la evaluación de programas

La evaluación no es la etapa final de un programa

La visión de los programas que quiere que estos deban adaptarse, contradice aquella que describe su vida según un ciclo ineluctable que va desde la identificación de las necesidades hasta la evaluación, pasando por las etapas de planificación e implementación. La mayoría de los manuales de gestión de programas ilustran el proceso de los programas mediante un círculo que representa las distintas etapas unidas por flechas. Los fundamentos de esta concepción seguramente se remontan a los “etapistas” de la década de 1950 que estudiaban las políticas públicas. Para ellos, la evaluación es la última etapa del proceso. Otros añaden a veces la sostenibilidad o la capitalización (véase el capítulo 10 para un ejemplo) para cerrar el círculo. Nosotros creemos que el proceso de los programas no es lineal ni cíclico. Según las propuestas teóricas enunciadas por Pierre Pluye y sus colaboradores (2004), un programa debería concebirse como compuesto por una serie de cuatro subprocesos concomitantes e interdependientes: la planificación, la implementación, la evaluación y la sostenibilidad. De tal modo, estos cuatro subprocesos pueden ser representados por los cuatro hilos de una misma cuerda programática. Figura 1.2. Concomitancia e interdependencia de los subprocesos de un programa

Implementación

Sostenibilidad

Planificación Evaluación Adaptado de Pluye et al., 2004.

La planificación permite prever la asignación de los recursos necesarios para alcanzar objetivos concretos mediante la realización de actividades previamente definidas. En cuanto a la evaluación de un programa, al adaptar definiciones más clásicas y formales (Grembowski, 2001; Mathison, 2004; Patton, 1997) de las que hemos mencionado, diremos que se trata de un proceso sistemático de recopilación de datos utilizables para valorar un programa y sus componentes, con el fin de tomar decisiones. La evaluación es generalmente un proceso de mejora de proyectos y de prácticas; en resumidas cuentas, un motor de cambio (Ridde, Pommier y Jabot, 2010). Finalmente, mientras que la implementación de un programa consiste en la movilización de recursos para organizar actividades con el

Enfoques y prácticas en la evaluación de programas

fin de lograr los objetivos, la sostenibilidad se refiere al futuro de los programas; se centra en el proceso que permite la continuación de las actividades y los efectos de los programas. La continuidad es el resultado del proceso de sostenibilidad —resultado que se manifiesta en las rutinas organizativas— y puede evaluarse de manera transversal, en cualquier momento y, puntualmente, dependiendo de los niveles de continuidad. Las acciones favorables a la continuidad deben iniciarse desde la implementación del programa, y no al final de este (Pluye et al., 2005). No vamos a profundizar en esta reflexión sobre la sostenibilidad y la continuidad, sin duda nueva en este campo, pero cuyos pormenores conceptuales e ilustraciones empíricas se presentan en otro lugar (Pluye et al., 2004; Ridde, Pluye y Queuille, 2006). Volvamos a estos cuatro subprocesos concomitantes. Quienes han estado involucrados en programas saben bien que al ponerlo en marcha (implementación), siempre nos preguntamos qué pasa (evaluación). Siempre se revisa lo que se ha previsto hacer (planificación). Sin embargo, esto sigue siendo el eslabón débil de los programas, de la forma de proceder para asegurar el futuro de estos últimos (sostenibilidad). La finalidad de una evaluación

A mediados de la década de 1980, Patton estableció una “sopa de letras de la evaluación” (alphabet soup) en la cual terminó por encontrar cien tipos de evaluación de programas. En épocas más recientes, redujo el número a 58. Stufflebeam (2001) sugiere, a su vez, agrupar 22 tipos de evaluación en cuatro grandes categorías: •

Pseudoevaluaciones: relaciones públicas.

•

Mejora e imputabilidad: orientadas hacia el mérito y el valor.

• •

Cuasievaluaciones: orientadas hacia las preguntas y los métodos. Promoción social: orientado hacia la diferencia en la sociedad.

A pesar de estas diversas distinciones es posible sugerir diferencias según las finalidades de las evaluaciones. Convencionalmente, se considera que las evaluaciones tienen dos objetivos principales: la rendición de cuentas o la mejora de un programa. El primer tipo de objetivos permite a los responsables de un programa la rendición de cuentas desde una perspectiva de imputabilidad. Algunas veces se le denomina evaluación acumulativa, ya que con mucha frecuencia se hace al final de un programa, o ex post. El segundo tipo de objetivos produce información útil para corregir la manera como se realizan las actividades de un programa. También se conoce como evaluación formativa, ya que normalmente se lleva a

1. Introducción general a la evaluación de programas

cabo durante la implementación de un programa. Además de esta gran distinción en la finalidad de una evaluación, algunos autores han querido añadir dos más. Por un lado, la evaluación también sería útil para mejorar el estado de los conocimientos acerca de la eficacia de una intervención, para construir una teoría y para publicar artículos científicos (Patton, 1997). Se acerca, así, a la práctica de la investigación. Por otro lado, la finalidad de la evaluación de programas no se relacionaría únicamente con los programas y sus componentes, sino también con la mejora de las condiciones sociales y colectivas, cosa que ya decía Carol Weiss a principios de la década de 1970. La evaluación se vuelve entonces un medio, no es un fin en sí misma. Algunos tratan incluso de fortalecer el poder de actuar (empowerment) de los participantes en el programa y en la evaluación, tema del que hablaremos en el capítulo 15. Planificación de una evaluación

Si dejamos de lado la concomitancia de los subprocesos, un proceso evaluativo por lo general se lleva a cabo en dos fases, a veces sucesivas, pero que también pueden ser paralelas o en bucle. Se trata de la fase preevaluativa y la fase evaluativa. Algunos autores añaden una tercera fase: la utilización de los resultados de la evaluación para la toma de decisiones (Grembowski, 2001). Señalemos, no obstante, que no todos los evaluadores parecen estar dispuestos a asumir esta responsabilidad. El nombre de la primera fase es una traducción del concepto anglófono de evaluability assessment. La etapa preevaluativa (Beaudry y Gauthier, 1992) permite garantizar no solo que es posible realizar la evaluación de un programa, sino también que los evaluadores disponen de toda la información sobre la solicitud de evaluación. Wholey, por su parte, ofrece dos ideas en este sentido: distingue el estudio de la viabilidad de la evaluación (la presencia de las condiciones que permiten realizarla), por una parte, y el análisis del carácter evaluable de un programa (esencialmente vinculado a la coherencia del modelo lógico, véase el capítulo 5), por otra parte. De este modo, es preciso comprender los retos de la evaluación, que a veces son políticos (capítulo 4), así como anticipar los posibles conflictos. Los partidarios de una evaluación centrada en la utilización de los resultados, como Patton (1997) (capítulo 8), y aquellos que lo son de una evaluación reactiva, como Stake (2004), se preguntarán inmediatamente qué preocupa a las partes interesadas y cómo se proponen aplicar las recomendaciones. Entonces, el foco de este proceso preevaluativo es comprobar que los individuos que participan en la evaluación saben en qué consiste exactamente el

Enfoques y prácticas en la evaluación de programas

programa que se requiere evaluar. Si bien muchas organizaciones implementan intervenciones y quieren que se haga una valoración de estas, rara vez cuentan con una descripción detallada del programa, de sus componentes y de sus objetivos. Nuestra experiencia demuestra que esta laguna constituye más la norma que la excepción. Por lo tanto, el trabajo fundamental que debe hacerse de inmediato es el de reconstituir la lógica del programa (capítulo 5), tal como realmente se ha implementado. Aunque esta lógica a veces está presente en diversas formas en los documentos de planificación, siempre existe una diferencia entre lo que se planea hacer y lo que realmente se hace, y el programa muchas veces se aplica de manera diferente de un territorio a otro y de una persona a otra. Esto es lo que mide la evaluación de implementación (Carroll, 2007). Por lo tanto, sigue siendo indispensable describir de manera consensuada el programa que será objeto de la evaluación, así como sus componentes. El papel de las partes interesadas en este proceso se discute especialmente en el capítulo 13. Si no se sabe con exactitud cuáles son los efectos esperados de un programa, ¿cómo evaluar su eficacia? Si no se conoce con precisión la secuencia de las actividades y los posibles vínculos de causalidad con los efectos esperados, es imposible atribuir al programa los cambios observados. De acuerdo con las escuelas de pensamiento y su terminología, será necesario disponer, al final de esta preparación, de un modelo lógico, de una teoría o de la lógica del programa a evaluar. Algunos autores hacen una distinción entre el modelo lógico operativo de un programa y su modelo teórico conceptual. Del mismo modo, Chen (2005) diferencia el modelo de cambios (hipótesis descriptivas con respecto a las relaciones causales que explican el logro de objetivos) del modelo de acción (hipótesis preceptivas con respecto a los componentes del programa que van a procurar que este funcione). Pero recordemos especialmente aquí que la descripción precisa de un programa y que los vínculos entre sus componentes es indispensable en todo proceso evaluativo. Para esto, a menudo es útil hacer una representación gráfica de las relaciones entre las actividades previstas y los efectos esperados, cuyos símbolos y forma habrán de elegirse. En la segunda parte de este libro se ofrecen ejemplos interesantes a este respecto. Lo importante de estas imágenes es que las relaciones sean claras y lo suficientemente precisas para llegar a un entendimiento común del programa estudiado y para orientar la manera en que se plantearán los temas de la evaluación. Estas representaciones también pueden ser útiles para demostrar que la lógica de un programa no producirá efectos por cuanto que, por ejemplo, la manera en que este es concebido va en contra de los conocimientos de los que dispone-

1. Introducción general a la evaluación de programas

mos sobre las formas de intervenir en un ámbito particular. Los datos actuales en materia de reducción de la mortalidad materna en los países en vías de desarrollo, por ejemplo, nos dicen que la formación de parteras tradicionales y la realización de consultas prenatales son relativamente ineficaces. Si la construcción de la lógica de un programa por sus actores pone de manifiesto que ellos desarrollan su programa siguiendo estos vínculos de causalidad, el evaluador puede inmediatamente emitir un juicio sobre esta “lógica ilógica”. En tal caso, la etapa preevaluativa permite evitar la realización de una inapropiada evaluación de efectos y sugerir, por ejemplo, una evaluación de las posibilidades de acción con el fin de revisar la lógica del programa. En la figura 1.3 proponemos una representación gráfica de los elementos que componen un programa, pero hay muchos otros. Si continuamos con el ejemplo del programa de maternidad de bajo riesgo, las necesidades (mortalidad, morbilidad) de los participantes (las mujeres en edad fértil) conllevan a la implementación de un programa cuyo objetivo esté orientado a reducir la mortalidad materna dentro de un contexto particular (una región de África). Este programa se compone de insumos (recursos financieros y humanos necesarios para la realización de las actividades) y procesos (formación, proyecto de construcción) que generan productos (libros, edificios de maternidad) con el propósito de producir efectos a corto plazo (calidad y accesibilidad de la atención) en los participantes (parturientas y parteras) o efectos a más largo plazo (reducción de la tasa de mortalidad materna). Figura 1.3. Representación genérica de la lógica de una intervención Contexto

Necesidades

Objetivos

Insumos

Procesos y productos

Participantes

Efectos a corto y mediano plazo

Factores externos sobre los efectos del programa

Efectos a largo plazo

Enfoques y prácticas en la evaluación de programas

En la figura 1.3 los participantes están separados visualmente de los procesos con el fin de destacar el hecho de que un programa se justifica en función de los cambios que trata de inducir a favor de sus beneficiarios. Las flechas horizontales hacen hincapié en la cadena de resultados, los vínculos de causas y efectos. Cuanto más nos movemos hacia la derecha de la figura (hacia los efectos a largo plazo), los factores externos (otros programas, actores, cambios contextuales) pueden ser más la causa de estos efectos y, por consiguiente, menos podemos atribuir a la intervención los efectos o resultados encontrados. Es evidente que un programa de salud pública, cualquiera que sea su magnitud, no puede contribuir por sí solo a la reducción de la mortalidad materna. Por ejemplo, es bien sabido que el aumento de la tasa de escolarización de las niñas tendrá en la mortalidad materna un efecto a largo plazo tan o más importante que un programa de salud pública. Una vez circunscrita la lógica de la intervención, es necesario determinar las preguntas de evaluación a responder. En muchos contextos, quienes encargan una evaluación quieren saberlo todo, en poco tiempo y con un presupuesto limitado. Por lo tanto, a menudo es indispensable clasificar las preguntas y verificar la viabilidad de la evaluación. Podemos basarnos en el planteamiento sugerido en el capítulo 9 para determinar mejor las preguntas de evaluación con la ayuda de criterios de tiempo, recursos y acceso a los datos, así como de criterios políticos o estratégicos. Pusimos este modelo en práctica en el año 2005, en una evaluación realizada en Haití. Una vez comprendidos los retos y las necesidades, se elaboró una lista de todas las preguntas de evaluación que permitirían satisfacer todas las peticiones formuladas en la demanda de evaluación recibida. Ante la magnitud de la tarea y la imposibilidad manifiesta de responder a todos estos interrogantes, se hizo una lista de preguntas prioritarias. Dos conjuntos de criterios se aplicaron sucesivamente para hacer esta selección. El primer conjunto era de carácter técnico y se basaba en tres indicadores: tiempo, presupuesto y acceso a los datos. Algunas preguntas fueron eliminadas enseguida por razones metodológicas. El segundo conjunto de criterios era de carácter estratégico y estaba relacionado con el uso potencial de los resultados de la evaluación. Una vez resueltas estas cuestiones cruciales, fue necesario elaborar un plan de evaluación. Damos ejemplos en la segunda parte de este libro. Una vez más, con el fin de no crear distancias innecesarias entre los evaluadores y las partes interesadas, a veces es preferible utilizar el término “plan”, en lugar de “protocolo” o “diseño” de evaluación, que tienen una connotación del mundo de la

1. Introducción general a la evaluación de programas

investigación. Para cada una de las preguntas de evaluación seleccionadas fue preciso determinar: •

Los datos necesarios para responderla.

•

Las personas que tienen estos datos y los lugares en los que se encuentran.

• • •

Los instrumentos de recolección de estos datos.

El momento en que los instrumentos de recolección se utilizarán y quién lo hará. Los métodos de análisis de datos.

Después, una evaluación de programas se gestiona como cualquier acción: es necesario prever una lista de tareas, un calendario de ejecución, una descripción de los recursos humanos y un presupuesto. Dijimos que una evaluación era especialmente útil para la toma de decisiones, y en particular para mejorar los programas. Por consiguiente, es indispensable, desde la planificación, interrogarse sobre la manera en que se recibirán los resultados. Es preciso examinar las estrategias que se pretenden implementar para comunicarlos (presentaciones cara a cara, resumen no técnico, formatos diferentes según las partes interesadas, etc.) y asegurarse de que las personas concernidas puedan apropiárselos. Una evaluación solo es realmente útil si sus resultados son utilizables y utilizados. Los pocos trabajos empíricos sobre las condiciones de utilización de la evaluación (Cousins y Shulha, 2006) muestran que se asemejan a las condiciones de utilización de la investigación. Este rico campo de estudios muestra que hay una multitud de condiciones que favorecen la utilización de los conocimientos producidos por las actividades de los investigadores. Pueden clasificarse en cinco categorías (Dagenais, 2010; Dagenais et al., en prensa): 1) la opinión de los usuarios potenciales, 2) su experiencia individual, 3) el contexto organizacional propio de los usuarios, 4) las estrategias de apoyo a la utilización de los resultados y 5) las características de los investigadores y de su entorno. El cuadro 1.1 presenta ejemplos para cada una de estas categorías.

Enfoques y prácticas en la evaluación de programas

Cuadro 1.1. Categorías de condiciones que favorecen la utilización de la investigación Características de los usuarios

Receptividad y actitud positiva frente a la investigación. Utilidad percibida de la investigación.

Experiencia en relación con los conocimientos derivados de la investigación. Contexto organizacional

La cultura organizacional que valora la investigación. Nivel de compromiso de la organización en el proceso de transferencia. Fuerte liderazgo de la dirección. Consenso sobre la naturaleza de las necesidades en materia de conocimientos Visión común y compartida de los resultados a alcanzar. Recursos dedicados a las actividades de transferencia de conocimientos.

Características de los conocimientos

Adecuación con los valores y las necesidades de los usuarios. Aplicabilidad. Nivel de participación de los usuarios en la producción de conocimientos. Accesibilidad de la información. Plazos de producción apropiados.

Estrategias de transferencia y apoyo

Deben tener en cuenta las características de los grupos objetivo y sus necesidades. Deben basarse en una relación de confianza con los usuarios. Mecanismos de intercambio (formales e informales). Lenguaje común. Actividades realizadas en el momento oportuno. Adaptación del formato de los conocimientos. Acompañamiento y seguimiento regular (medición sistemática de los progresos).

La implementación de una evaluación: tipos y enfoques

Elegimos ignorar aquí el aspecto teórico de la implementación de una evaluación. En efecto, en lugar de disertar sobre la implementación, hemos preferido presentar al lector estudios de casos concretos que proporcionan respuestas a una pregunta que los estudiantes plantean con frecuencia: “¿cómo se hace la evaluación de un programa?”. Por consiguiente, el lector encontrará en la segunda parte de este libro varios ejemplos de procesos evaluativos. Para ampliar el alcance de estos ejemplos, presentaremos evaluaciones realizadas en diversas áreas, tales como el trabajo social, la educación, la salud o la administración; evaluaciones de diferentes tipos y que se basan en distintos enfoques organizados en contextos sociales variados. Los tipos de evaluación

La representación esquemática de la figura 1.4 es una introducción eficaz a los distintos tipos de evaluación definidos como el objeto en el que se centra la valoración del evaluador. En el caso de la evaluación de un programa, este objeto puede

1. Introducción general a la evaluación de programas

ser un componente del mismo o la relación entre sus componentes. Tomaría demasiado tiempo examinar aquí los diferentes tipos de evaluación, por lo tanto solo daremos algunos ejemplos de ellos. Figura 1.4. Los tipos de evaluación y sus relaciones con los componentes de un programa Contexto

Necesidades

NECESIDADES

Objetivos

Pertinencia

Insumos

Procesos y productos

PROCESOS

Participantes

EFICACIA

IMPACTO

Efectos a corto y mediano plazo

Efectos a largo plazo

EFICIENCIA

El cuadro 1.2 presenta algunos ejemplos de preguntas seleccionadas en función de los distintos tipos de evaluación. Los estudios de caso de la segunda parte de este libro proporcionan varios ejemplos empíricos de estas preguntas genéricas.

Cuadro 1.2. Tipos de evaluación y preguntas genéricas Tipos de evaluación

Evaluación de las necesidades

Ejemplos de preguntas genéricas

¿Qué necesidades pretende satisfacer el programa? ¿Han cambiado las necesidades de los participantes desde el comienzo de la implementación? (véase el capítulo 16).

Evaluación de la pertinencia

¿Responde el programa a las necesidades de los participantes? ¿Tiene en cuenta el contexto de su implementación? (véase el capítulo 14).

Evaluación del proceso

¿El programa es implementado tal y como se planeó? ¿Qué factores facilitan o dificultan la implementación del programa? (véanse los capítulos 17 y 19).

Enfoques y prácticas en la evaluación de programas Tipos de evaluación

Ejemplos de preguntas genéricas

Evaluación de la eficacia

¿Los efectos observados en el corto plazo corresponden a los objetivos fijados inicialmente? ¿Cómo se comparan los efectos observados en los participantes del programa con la situación de los no participantes? (véanse los capítulos 15, 16, 18, 19 y 20).

Evaluación del impacto

¿Los efectos observados en el largo plazo corresponden a los objetivos fijados inicialmente?

Evaluación de la eficiencia

¿Cuál es la relación entre los recursos y los efectos del programa? ¿Este programa es más costoso que otro que produciría el mismo efecto? (véase el capítulo 11).

Señalemos que se proponen muchas otras tipologías en la literatura sobre la evaluación. Pero cualquiera que sea la opción preferida, siempre es indispensable analizar el contexto: dependiendo de su naturaleza, un programa tendrá efectos distintos y se implementará de diversas maneras. También debemos recordar que se pueden generar efectos no previstos, sean favorables o no a los participantes (Morell, 2010), y es imperativo registrarlos. Chen (2005) considera que algunos tipos de evaluación se aplican mejor en determinados momentos de la vida de un programa. No obstante, también pueden emplearse otros tipos de evaluación. Por ejemplo, cuando se quiere invertir en actividades que tienen más probabilidades de éxito, podría ser más útil desarrollar una evaluación sobre las posibilidades de acción. A veces también se requiere la evaluación de la coherencia de las actividades de un programa. Algunos distinguen la evaluación de la implantación (describir lo que sucede) de la evaluación de los procesos (comprender la dinámica interna). Dentro de la categoría de la evaluación de la eficiencia, también llamada “evaluación económica”, es útil distinguir cuatro tipos específicos de evaluación: minimización de costos, costo-eficacia, costo-utilidad y costo-beneficio (Drummond et al., 1998). No se olvide, por último, la posibilidad de hacer una evaluación de la equidad (Potvin et al., 2008; Ridde et al., 2010), la cual muy rara vez se hace.

Los enfoques evaluativos

Para responder a las preguntas, el evaluador puede recurrir a varios enfoques evaluativos. El término enfoque remite aquí a la manera en que los expertos interactúan con los individuos involucrados en la evaluación. También se puede definir el enfoque como la forma en que el evaluador asume su función. El enfoque adoptado varía en función de las situaciones, de la organización en la que

1. Introducción general a la evaluación de programas

el evaluador evoluciona, de sus características personales y de las necesidades especificadas por las personas involucradas. Ningún enfoque es a priori mejor que otro. Se trata de elegir el que parezca más pertinente en el caso estudiado. Al forzar un poco los rasgos del tipo ideal weberiano, es posible poner de relieve los elementos fundamentales que caracterizan tres enfoques específicos. El evaluador que utiliza un enfoque directivo desempeña un papel de experto y se mantiene relativamente neutral y distante con respecto al objeto evaluado. Dirige todas las operaciones y toma las decisiones. Los diferentes actores solo intervienen como fuente de información y en momentos específicos del proceso. Solo el evaluador tiene la autoridad para estimar el valor y el mérito del programa. El enfoque centrado en el desarrollo de un programa es menos conocido y su utilización menos frecuente (Patton, 1994; Ridde et al., 2006). Lo que tiene de interesante es que los resultados y el proceso mismo de la evaluación se utilizan para hacer que el programa avance durante su implementación. El experto en evaluación guía a las partes interesadas para asegurarse de que el proyecto mejore, se adapte y responda mejor a las necesidades de los participantes. Es miembro de pleno derecho del equipo del proyecto y participa en la toma de decisiones, tanto en términos de la evaluación como del desarrollo del proyecto. El enfoque participativo, por su parte, preconiza la implementación del proceso evaluativo según una perspectiva de cooperación entre los evaluadores y las personas involucradas en la evaluación, pero que no son evaluadores profesionales. Tres razones pueden justificar la utilización de este enfoque: la primera es de orden pragmático (aumentar las posibilidades de éxito del proceso y maximizar el empleo de los resultados), la segunda es política (preocupación democrática por la participación ciudadana y el empoderamiento), y la tercera es epistemológica (no existe una realidad única y la pluralidad de puntos de vista es esencial para la construcción de un argumento) (Weaver y Cousins, 2005). Cabe distinguir dos tendencias en el seno del enfoque participativo: •

•

La evaluación práctica sirve para resolver problemas, mejorar un programa y tomar decisiones. Se realiza en el marco de una asociación igualitaria entre el evaluador y las partes interesadas (las personas que deben tomar las decisiones).

La evaluación empoderadora es un medio, pero también, en cierta medida, un fin en sí misma. El proceso evaluativo debe favorecer el aumento del poder de actuar (empowerment) de las partes interesadas, desde una perspectiva de justicia social. Las decisiones con respecto al proceso evaluativo las toman exclusivamente las partes interesadas, y no el evaluador (Cousins y Whitmore, 1998; Ridde, 2006).

Enfoques y prácticas en la evaluación de programas

Las normas de práctica

A raíz de la creación de múltiples asociaciones profesionales y agrupaciones nacionales dedicadas a la evaluación de programas, sobre todo en los países de altos ingresos, el año 2003 vio nacer la Organización Internacional para la Cooperación en Evaluación (OICE). En los países con ingresos bajos y medios, tales asociaciones aún son escasas. En el África Occidental francesa, por ejemplo, una de las primeras en salir a la luz fue la Red Nigeriana de Seguimiento y Evaluación (ReNSE), creada tras la Primera Conferencia de la Asociación Africana de Evaluación (AfrEA), celebrada en 1999. Una de las primeras tareas de esas asociaciones profesionales de evaluadores fue establecer normas de práctica, códigos de ética o, más recientemente, una lista de competencias esenciales propias de esta profesión (véase el capítulo 12). La Asociación Americana de Evaluación, por ejemplo, elaboró una lista de treinta criterios para garantizar la calidad de una evaluación, que se enumeran según cuatro dimensiones clave de una evaluación de programas de calidad: la utilidad, la viabilidad, la propiedad y la precisión. La AfrEA intentó adaptar estos principios (Rouge, 2004). Los suizos sustituyeron la tercera dimensión por la ética. Los franceses establecieron siete principios rectores: pluralidad, distanciamiento, competencia, respeto de las personas, transparencia, oportunidad y responsabilidad. Por último, desde hace poco, tanto en los Estados Unidos como en Quebec, se están realizando intentos para establecer una lista de competencias esenciales que deben tener los evaluadores (Doré y Marceau, 2006; Stevahn et al., 2005). Nosotros pusimos a prueba la utilización de competencias en África (Ridde et al., 2009). La Sociedad Canadiense de Evaluación dispone desde 2010 de un marco referencial de competencias y de un proceso de acreditación voluntaria de los evaluadores. Un centenar de personas se acreditaron a principios de 2012. El objetivo de esta introducción no era hacer una descripción exhaustiva del campo de la evaluación de programas. De hecho, existen múltiples maneras de enfocar este campo de práctica y de definir los términos utilizados en el mismo. Sin embargo, esperamos haber iniciado al lector en los conceptos esenciales para la comprensión de la evaluación de programas. Los capítulos de la primera parte del libro profundizan en algunos conceptos que forzosamente se abordaron de manera somera aquí. En la segunda parte, estudios detallados de casos ilustran las aplicaciones empíricas de esos conceptos y ponen de manifiesto, especialmente, la riqueza y la diversidad de las prácticas evaluativas.

2. Investigación y evaluación de programas* Miri Levin-Rozalis1

Parece que los vínculos y las diferencias entre la evaluación y la investigación plantean interrogantes constantemente. Tras los congresos anuales de la European Evaluation Society y de la American Evaluation Association de 2002, decidí aceptar el desafío que constituye toda tentativa de aclaración de las diferencias que existen entre estas dos actividades. Mi visión de la evaluación, como un servicio a las partes interesadas y una herramienta para mejorar la realización de un proyecto, influyó considerablemente en el contenido de este capítulo. En mi trabajo de evaluadora a menudo he sido testigo de la falta de conocimientos con respecto a la esencia de la evaluación, y en particular respecto a la diferencia entre la evaluación y la investigación. En la literatura sobre el tema encontramos muchas veces la expresión “investigación evaluativa”, como si se tratase de una especie de híbrido, pero en muchos casos se trata del resultado de un mestizaje que no corresponde, ni a una investigación adecuada, ni a una evaluación apropiada. En este capítulo voy a hablar de las similitudes y diferencias que definen la evaluación y la investigación. Quiero demostrar que son disciplinas muy diferentes, y esto a pesar de las similitudes que presentan y que provienen del hecho de que comparten conceptos, instrumentos y, en ciertos casos, métodos. En mi opinión, la dificultad de distinguir entre la investigación y la evaluación perjudica a esta última. Los constantes esfuerzos realizados por los evaluadores para aplicar a la evaluación los criterios de la investigación los obligan a abandonar las particularidades de la primera. Al hacerlo, la singularidad y la calidad de la evaluación se ven reducidas. Los debates filosóficos sobre la investigación científica se centran generalmente en su esencia —racionalistas contra empiristas, positivistas contra partidarios * Este capítulo es la adaptación de un artículo publicado en inglés, en 2003, en la Revue Canadienne d’Évaluation

de Programmes, 18(3).

Enfoques y prácticas en la evaluación de programas

del interaccionismo simbólico— y tienden a poner énfasis en aspectos particulares de esta empresa (Bechler, 1987; Caws, 1965; Copi, 1961; Hempel, 1965; Kincheloe y McLaren, 2000; Kuhn, 1962; Popper, 1959). No obstante, varios criterios y definiciones son reconocidos por todos. Generalmente se reconoce que el objetivo de la investigación, como método científico, es descubrir y comprender las leyes fundamentales según las cuales funciona el mundo; pero también aumentar el conjunto de conocimientos con el fin de lograr un mejor dominio de la naturaleza y satisfacer el deseo natural de los seres humanos de adquirir nuevos conocimientos. De este modo, en el ámbito de la investigación, reunir conocimientos es el principal objetivo de toda actividad, dado que el conocimiento en sí tiene un valor intrínseco. No se ha determinado debidamente la esencia de la evaluación, como se ha hecho con la investigación científica. Sin embargo, por definición, la evaluación es un proceso constante de cambio y desarrollo, ya que se utiliza con un objetivo de investigación o de estudio. La evaluación generalmente se considera como un instrumento para los directores de programas, los responsables de tomar decisiones y las partes interesadas. Se utiliza en diversas áreas, que van desde la educación y los procesos sociales hasta los servicios de salud y la agricultura, y puede hacerse, por ejemplo, con ayuda de estudios estrictamente cuantitativos o enteramente no direccionales. La evaluación también tiene numerosas funciones. En primer lugar, puede tratar de determinar el grado de éxito de un programa, para ver si un determinado programa ha evolucionado y alcanzado sus metas, conocer los efectos secundarios de las actividades con el fin de mejorar la eficacia de un proyecto educativo, comunitario o social en curso, o de contribuir a su continuidad (Cronbach, 1963, 1983; House, 1980; JCSEE, 1981; Nevo, 1989; Patton, 1981; Scriven, 1967; Stufflebeam, 1971; Tyler, 1950). La evaluación también puede ser una “operación práctica, material y política cuyo interés es examinar y mejorar nuestras maneras de emitir juicios interpretativos sobre el valor de las acciones humanas que tienen lugar en contextos sociales y culturales particulares” (Schwandt, 2002, p. 2). Las exigencias hechas a los evaluadores y a la evaluación en general han evolucionado: de la década de 1950 pasaron del examen de objetivos operacionales cuantificables a la recolección, en los años setenta, de información útil para los responsables de tomar decisiones. Este último fenómeno incluso llegó a conformar la intervención misma. (Nevo, 1989; Scriven, 1967; Stufflebeam et al., 1974). Al mismo tiempo, se hizo evidente que los evaluadores, para satisfacer eficazmente las necesidades de los distintos proyectos, debían ser creativos (Patton, 1981). En la década de 1980 se esperaba que los evaluadores tuvieran en cuenta a todos los que

2. Investigación y evaluación de programas

pudiesen verse afectados por la actividad de la evaluación, y que la utilizaran para reestructurar y reorientar los conceptos y perspectivas de sus clientes, las partes interesadas, los responsables de tomar decisiones y los usuarios del proyecto (Abma, 1997; Guba & Lincoln, 1989; Pawson, 1996), o incluso para influir en la estructura de poder mediante el suministro de herramientas a todos aquellos que fuesen objeto de la evaluación (Brisolara, 1998; Cousins y Whitmore, 1998; Fetterman, 1996). Estos cambios y estas exigencias entraban en conflicto con los marcos de investigación definidos y estructurados. Se esperaba que el evaluador estuviera en condiciones de determinar qué conocimientos eran importantes y para quién; de saber cómo reunir, procesar e interpretar estos conocimientos; de decidir sobre las conclusiones a sacar y hacer recomendaciones basadas en estas conclusiones. Habida cuenta de estas exigencias, los evaluadores con frecuencia se encontraban entre la espada y la pared. Por una parte, se les exigía encontrar respuestas a un gran número de cuestiones diversas; por otra, carecían de un marco claro y de las herramientas adecuadas para hacerlo, además del hecho de que procedían en un entorno en constante evolución (Eyken et al., 1995; Guba y Lincoln, 1989; Tucker y Dempsey, 1991). Algunos evaluadores, para resolver esos problemas, utilizaron métodos tomados de distintas disciplinas (Finne et al., 1995; Kazi, 1996; Tucker y Dempsey, 1991), mientras que otros establecieron vínculos con la teoría (Chen, 1990; Chen y Rossi, 1981, 1992; Pawson y Tilley, 1997). A pesar de las diferencias entre la evaluación y la investigación, y las que existen entre las exigencias hechas a los evaluadores y los mandatos impuestos a los investigadores, sigue habiendo una confusión acerca del rol propio de cada una, y hay varias razones para esto. Entre ellas, la definición misma de la investigación, que no es clara, y en particular en el ámbito de las ciencias sociales, la cual evoluciona constantemente. Ante condiciones a menudo confusas, los evaluadores buscan un marco de referencia bien definido y reconocido con el cual trabajar. Los procedimientos y criterios de la investigación proporcionan estos marcos de referencia reconocidos, y la investigación sigue siendo más valorada que la evaluación. En las próximas páginas se profundizará en estas afirmaciones, resumidas en la siguiente tabla.

Enfoques y prácticas en la evaluación de programas

Tabla 2.1. Similitudes y diferencias entre la evaluación y la investigación Ámbitos de aplicación

Teoría

Evaluación

Investigación

Aplicación del análisis tan ampliamente

como sea posible.

Aplicación limitada de los resultados, que

Aplicación de los resultados tan

se centran en el proyecto. El objetivo es

ampliamente como sea posible.

proporcionar insumos concretos para

El objetivo es aumentar el conjunto de

mejorar las intervenciones.

conocimientos científicos.

Dependencia con respecto al campo: la

Dependencia con respecto a la teoría: la

teoría sirve para aumentar la comprensión

teoría es a la vez la fuente y el objetivo.

de los resultados. Metodología

Generalización

Pertinencia

La elección del marco de evaluación y

La elección del marco de investigación y

de los métodos de recopilación de datos

proviene del campo. El evaluador reacciona.

proviene de la teoría. El investigador actúa.

Esfuerzo por comprender lo que sucede en

Esfuerzo por formular una ley general; la

un determinado proyecto.

validez externa es importante.

Utilidad para el proyecto.

Ampliación de los conocimientos científicos.

Causalidad

Énfasis en la validez interna; lo que en

La validez interna es importante; énfasis en

investigación constituye un artefacto, en

un pequeño número de variables causales

evaluación es visto como una variable

aisladas de las otras variables.

interna que permite obtener una relación de causalidad.

Los ámbitos de aplicación

La principal diferencia que existe entre la evaluación y la investigación radica en sus campos de aplicación. Las dos intentan aumentar nuestra comprensión en diversos ámbitos, pero el tipo de comprensión al que contribuyen es diferente. El paradigma dominante en investigación apunta a la expresión de conocimientos generales en forma de leyes. Por lo tanto, la comprensión que se quiere alcanzar es la de una ley abstracta y universal que puede aplicarse al mayor número de eventos posibles. (En ciencias sociales, hoy en día, este paradigma es cuestionado por algunas corrientes, tales como el enfoque interpretativo, el relativismo, el posestructuralismo y la teoría crítica, pero estos enfoques quieren llegar también a una comprensión general de los fenómenos observados). Por el contrario, el propósito de la evaluación es reunir conocimientos para desarrollar una comprensión en relación con una actividad específica, y aplicar esta comprensión al proyecto mismo en forma de insumos basados en la práctica. La evaluación

2. Investigación y evaluación de programas

trata de examinar las influencias recíprocas de un máximo de variables en un momento y un lugar determinados. El objetivo de la investigación es enriquecer un acervo de conocimientos que tienen valor en sí mismos. En la evaluación, en cambio, el conocimiento es un medio para alcanzar ciertos fines. Su valor reside en primer lugar, y ante todo, en la retroinformación que proporciona al proyecto. Por consiguiente, la evaluación es un proceso circular cuyo ciclo comienza y termina con el proyecto. En el caso de las intervenciones sociales, en educación o en la comunidad, los seguimientos realizados por los evaluadores se convierten en una necesidad. La capacidad de permanecer al margen y observar, de percibir y comprender los procesos, organizarlos, analizarlos y expresarlos, es una contribución importante que aumenta la efectividad de un proyecto o una actividad en condiciones cambiantes. En relación con la aplicación de la evaluación y la investigación, es importante distinguir dos puntos: los procedimientos de examen (cuestionarios, entrevistas, observaciones) que los evaluadores y los investigadores emplean para recopilar datos, y los resultados y las conclusiones que se derivan de allí, así como sus consecuencias. La razón de esta distinción se encuentra en las principales diferencias entre la evaluación y la investigación, en su aplicación potencial. Con respecto a los procedimientos, una aplicación amplia es importante, tanto para la investigación como para la evaluación. Por ello se recomienda que los evaluadores utilicen procedimientos de examen sistemáticos y repetibles que puedan ser objeto de críticas y de un seguimiento. Si se utilizan procedimientos estadísticos, es importante que se trate de métodos reconocidos. Si es posible, pero muchas veces no lo es, es preferible emplear instrumentos conocidos que puedan utilizarse en otros marcos. Se observa otra diferencia entre la evaluación y la investigación al abordar la cuestión de los resultados. En todo tipo de investigación se espera que la aplicación de los resultados y las conclusiones obtenidas sea lo más amplia posible para proporcionar una base a las leyes universales. Este es el primer objeto de la investigación. En la evaluación, los resultados no pretenden ser pertinentes más que para el proyecto evaluado, y solo son precisos durante un periodo determinado del proyecto. No se trata de obtener leyes inmutables que puedan aplicarse más allá del proyecto en estudio. Esto no quiere decir, como dice Pawson (1996), que no se puedan considerar las “leyendas” y las “historias” procedentes de este ámbito, sin conceptualización ni aprendizaje (Patton, 1997), como verdaderos resultados, que no hacen más que confirmar a los miembros del proyecto la comprensión de la situación que ya tenían antes de la evaluación. Esto no significa que sea imposible

Enfoques y prácticas en la evaluación de programas

obtener resultados o, más a menudo, sacar conclusiones cuyo valor rebase el marco del proyecto. Esto ocurre con frecuencia, pero no es el propósito principal de la evaluación. Me referiré a la cuestión de la generalización en páginas posteriores de este capítulo. Cuando los evaluadores utilizan procedimientos de investigación para realizar una evaluación, se valen de instrumentos adaptados a las cuestiones que les interesan; lo que se traduce en una más amplia aplicabilidad de los resultados. Paradójicamente, las variables definidas, que son generales y abstractas, pueden aumentar la aplicabilidad de los resultados, pero disminuyen la utilidad de las conclusiones para un proyecto. Es decir que la posibilidad de generalizar los resultados y las variables aumenta, pero la de proporcionar información inteligible y coherente sobre la situación del proyecto en su conjunto es mucho más reducida. Por lo tanto, los instrumentos propios del campo de la investigación ofrecen respuestas abstractas que tienen un alto grado de generalización y que son adecuadas para la investigación, respuestas válidas que se reúnen con ayuda de instrumentos fiables y que pueden replicarse. Sin embargo, la calidad de la evaluación disminuye, ya que los gestores del proyecto no reciben respuestas útiles para su propio trabajo; respuestas que estén directamente relacionadas con las diferentes actividades, las problemáticas y los usuarios o beneficiarios del proyecto. Los resultados con un alto grado de generalización, constituidos de variables teóricas y expresados en lenguaje científico, difícilmente pueden traducirse en propuestas operacionales que apunten a una mejora. Por eso tienen poco o ningún valor en lo que a retroinformación se refiere. (Tal informe puede ser necesario para justificar la existencia o la continuación de un proyecto, o también para obtener financiación, pero no para su funcionamiento cotidiano). De hecho, en investigación encontramos el mismo problema: una aplicación amplia de los resultados se opone a una comprensión profunda del tema de investigación (Geertz, 1973; Goetz y LeCompte, 1984; LeCompte y Preissle, 1993; Sabar, 1990; Tucker y Dempsey, 1991). Constantemente se desarrollan nuevos métodos de investigación, tales como el estudio de casos, la etnografía y otros métodos de investigación cualitativa (Creswell, 1998; Sabar, 1990) para superar estas dificultades. Mediante estos enfoques, los investigadores renuncian a una aplicación demasiado amplia de sus resultados para comprender mejor las complejidades de su tema de investigación. En tales circunstancias, los métodos de investigación se asemejan a los enfoques utilizados en la evaluación de proyectos, pero sin ser idénticos, ya que los objetivos y las funciones de la investigación cualitativa o etnográfica, o bien del estudio de casos, no han cambiado. La investigación siempre busca

2. Investigación y evaluación de programas

enriquecer el acervo de los conocimientos científicos mediante la formulación de leyes universales y la aplicación más amplia posible de sus resultados. Las funciones de la teoría, las hipótesis y la metodología

En la investigación, la lógica puede tomar tres caminos distintos para vincular la teoría y los datos: la lógica deductiva, la lógica inductiva y la inferencia abductiva. En la lógica deductiva existe un fuerte vínculo entre las hipótesis de investigación y un postulado teórico anterior. La hipótesis —el explanandum— se explica por las premisas procedentes de la teoría, y nada nuevo se encuentra en ella. Los postulados teóricos a priori constituyen los explanans. Ellos son los que explican la hipótesis formulada. La solidez del vínculo entre explanans (hipótesis a priori) y explanandum no se ve influenciada por ninguna información, establecida o recién descubierta y a confirmar. Esta forma de formular hipótesis es apropiada en investigación cuando se examina una teoría que se intenta refutar. Para el investigador esto permite garantizar que no se desviará mediante la aplicación de la teoría en cuestión a su tema de investigación. De este modo, los fenómenos observados en el campo no están sujetos a la lógica deductiva. Aquí el campo no sería más que el entorno en que las hipótesis a priori pueden ser examinadas (Copi, 1961; Copi y Burgess-Jackson, 1995). La lógica deductiva es lo contrario de la lógica utilizada en la evaluación, ya que esta examina el contexto para identificar las variables y los factores implicados, así como los vínculos entre ellos. El contexto no se utiliza para validar las variables y las hipótesis procedentes de una teoría preexistente. Pawson y Tiley son los principales defensores de la lógica deductiva. Aquí presentamos un ejemplo tomado de Weiss (1996) y citado por Owens y Rogers (1999). Cuando un counseling (consejería) a favor de la contracepción se asocia con una reducción del número de embarazos, parece evidente que la causa de este cambio es dicho counseling. Pero, en este proceso, ¿qué es lo que realmente ha causado el cambio? ¿Los conocimientos proporcionados? Es posible que el counseling ayude a superar los tabúes culturales que van en contra de la planificación familiar; o que dé a las mujeres una mayor confianza en sí mismas y una mayor capacidad para hacerse valer en las relaciones sexuales; o bien que provoque un desplazamiento de poder en las relaciones entre hombres y mujeres. Estas razones, u otras de orden cognitivo, emocional o social, pueden constituir los mecanismos que conducirán a los resultados deseados. Nunca lo sabremos al utilizar la lógica deductiva, ya que la teoría nos retrotrae, según Pawson y Tilley (1997), a los mecanismos, los contextos y los resultados que forman parte de nuestro propio marco de referencia;

Enfoques y prácticas en la evaluación de programas

lo que no es importante cuando se examina una teoría, pero es crucial cuando se trata de saber qué funciona de manera exitosa en un proyecto. En la lógica inductiva, las hipótesis se emiten a partir de los fenómenos generalizados observados en el terreno. Estas hipótesis examinan las posibilidades de que los fenómenos se repitan para formular una ley general de probabilidades. Para lograr esto, es necesario conocer las características examinadas del grupo de interés y sus condiciones a priori. Se puede hacer una analogía con el conocimiento del hecho de que una moneda tiene dos caras y que, al lanzarla al aire, cae sobre una sola de ellas (Copi, 1961). Por lo general, estas condiciones no se encuentran en la evaluación. En primer lugar, se requiere una generalización empírica cuando, de manera razonable, se cree estar ante un fenómeno. Para que esta generalización sea empírica es preciso conocer previamente las características de este fenómeno, y que estas características hayan sido examinadas. Una parte de la evaluación comienza tempranamente, durante este examen, o incluso antes. Ella debe intentar primero exponer el fenómeno significativo, y por consiguiente no puede examinar desde entonces sus características ni su probabilidad de ocurrencia. Además, el objetivo de un examen empírico es generalizar más allá de un caso individual para tratar de formular una ley universal, lo que no es el objetivo principal de la evaluación, por todas las razones mencionadas anteriormente. La evaluación no depende de la teoría, depende más bien de la acción en el terreno. Existen, desde luego, teorías de la evaluación, modelos de evaluación y diversos enfoques para las preguntas de evaluación. Se utilizan varias teorías en la interpretación de los resultados de una evaluación, pero el elemento esencial de la misma es aquello que se recopila en el terreno, en el sentido de que las preguntas planteadas por una evaluación no proceden de una teoría. Proceden, más bien, del proyecto evaluado, sus objetivos, su entorno y sus usuarios, así como de las necesidades de las personas que gestionan la intervención, de quienes toman las decisiones y de las partes interesadas a diferentes niveles, y finalmente de las necesidades de los evaluadores. De tal modo, el trabajo de un evaluador es similar al de un médico o un sicólogo que examina a un paciente teniendo en cuenta la historia y las condiciones que le son propias. Los médicos y sicólogos encuentran posteriormente una validación de sus resultados y sus hipótesis en la literatura existente y en las teorías pertinentes. Del mismo modo, los evaluadores basan su trabajo en una amplia gama de conocimientos prácticos y teóricos en los diversos ámbitos en los que operan. Cuando un médico trata a un paciente no busca validar una teoría (a no ser que esté haciendo una investigación médica); sin embargo, cuenta con los conocimientos adquiridos

2. Investigación y evaluación de programas

gracias a la investigación. De la misma manera, aunque se basan en conocimientos teóricos, los evaluadores no buscan validar una teoría. Cuando se intenta formular hipótesis a partir de un marco de referencia teórico particular se limita el alcance de la evaluación y se impide al evaluador formular hipótesis no procedentes de este marco. El marco de referencia indica los conceptos a utilizar y la relación esperada entre ellos. En una evaluación se puede elegir una teoría apropiada para el proyecto en una etapa ulterior, en el momento en que el evaluador explica los resultados y saca conclusiones. El tercer tipo de investigación lógica, la inferencia abductiva, es una valiosa guía en la evaluación (Peirce, 1960). Los principios de la inferencia abductiva se basan en la idea de que no hay ninguna hipótesis a priori, ningún presupuesto ni teoría elaborados previamente. Cada acontecimiento se estudia en sí mismo y se examina su propia importancia (Shank y Cunningham, 1996). Se formulan entonces las hipótesis relativas a ese acontecimiento: ¿está relacionado con otros? Si es así, ¿cómo? ¿Es este un acontecimiento aislado? En caso afirmativo, ¿cuál es su significado? Las explicaciones que se atribuyen a estos acontecimientos son “hipótesis en periodo de prueba”. Se pone en marcha un proceso cíclico de verificación de las observaciones hechas, lo que permite profundizar y modificar las explicaciones (Levin-Rozalis, 2000). No pretendo que el evaluador examine todos los hechos y los acontecimientos que tienen lugar en el terreno. Tal examen no es ni posible ni deseable. Solo defiendo la idea de que en la investigación científica, la teoría constituye el marco de referencia que establece qué datos son pertinentes y cuáles no lo son; mientras que en la evaluación, son las necesidades del proyecto y la realidad en la que se implementa las que determinan las preguntas y las variables. Se recomienda que los gestores del proyecto, junto con los evaluadores, definan la problemática. Pero incluso cuando no se hace así, los evaluadores toman en consideración la situación sobre el terreno, y es esta situación, en toda su complejidad, la que genera las preguntas que se explorarán. Después de observar un fenómeno singular en un proyecto, puede ser interesante e importante examinarlo según métodos de investigación controlados. De este modo se pueden producir nuevos conocimientos que contribuyan, no solo al proyecto, sino también al acervo de conocimientos científicos. Los evaluadores exponen la realidad con ayuda de todos los medios científicos a su disposición, y de la manera más sistemática posible para cada proyecto en particular. Las condiciones que se encuentran en el medio objeto de la investigación determinan los instrumentos que se utilizarán, así como el lenguaje empleado. Por

Enfoques y prácticas en la evaluación de programas

ejemplo, un cuestionario no es adecuado para una población con dificultades de lectura. Estas condiciones también establecen los conceptos a utilizar durante el examen. Por ejemplo, el uso de los conceptos y el lenguaje del proyecto en lugar de la jerga especializada del evaluador. Los evaluadores organizan sus resultados en patrones significativos y, si es posible, comparables. Es factible generalizar los resultados específicos en estructuras y procesos más amplios, o establecer una teoría explicativa; pero encontrar una explicación coherente de lo que ocurre en un proyecto, incluyendo los éxitos y los fracasos, sigue siendo el objetivo principal de la evaluación. Por ejemplo, el gestor de un proyecto evaluado tenía un estilo de gestión autoritario que cohibía toda iniciativa proveniente de sus empleados. Sabiendo esto, fue posible encontrar una explicación general apoyada por las teorías sobre los vínculos entre autoritarismo e iniciativa. Pero no podíamos afirmar por anticipado que este gestor era autoritario, pues no conocíamos en absoluto su estilo de gestión, ni el tipo de interacciones que tenía con los empleados del proyecto y no sabíamos si las preguntas relativas a las relaciones dirección-empleados serían pertinentes. Los evaluadores deben tener suficientes conocimientos sobre los estilos de gestión, así como sobre el autoritarismo y la iniciativa, para elaborar una explicación pertinente. Si este no es el caso, pueden buscar la ayuda de profesionales que conozcan los estilos de gestión. Las preguntas que guían la actividad de evaluación no emanan de una teoría, pero, en muchos casos, el proyecto es una demostración de la aplicación de una teoría. Los programas y métodos del proyecto se basan en la lógica de determinada teoría o en la manera en que los patrocinadores, los gestores y los proveedores de fondos ven el mundo. Entre los elementos que examina la evaluación se encuentran la calidad de la lógica que determina las actividades del proyecto, su relación con lo que sucede en el entorno y la verificación de la coherencia entre los resultados y la lógica. En este caso, las preguntas que formula el evaluador forman parte del diálogo que se entabla con la teoría. La metodología tradicional de la investigación proviene de la teoría, así como de sus hipótesis y generalizaciones empíricas. Es el fruto de la planificación rigurosa de una estrategia de operacionalización de las hipótesis, es decir, de la formulación de las variables en elementos observables. Un elemento observable debe estar anclado en la realidad; una situación favorable a la observación debe ser identificada o creada artificialmente antes de que se realicen las observaciones científicas necesarias para la verificación de la hipótesis. Para esto, el investigador debe elegir las variables más adecuadas a los conceptos de la hipótesis: los temas, el terreno y el marco más conveniente.

2. Investigación y evaluación de programas

La metodología de la evaluación es diferente a la de investigación. Mientras que los investigadores pueden elegir sus propios temas de investigación y proponer ellos mismos un enfoque (a lo que llamaremos método activo), los evaluadores son reactivos y proactivos. Reaccionan ante los acontecimientos y a veces tratan de dirigirlos. Los evaluadores no pueden elegir a los participantes del proyecto, ni tampoco su entorno o sus variables. El entorno y los participantes están predeterminados, y las variables, por lo menos en parte, no se conocen de antemano. Se tiene una idea general de los temas de evaluación, pero estos no se definen en forma de hipótesis y las variables no son operacionales. Algunas veces, incluso la definición nominal de los conceptos es materia de evaluación. Los instrumentos que se utilizan para la evaluación (entrevistas, discusiones, observaciones, cuestionarios, videos, análisis de protocolos, análisis de diálogos, entre otros) son elegidos y planificados en función de la población en cuestión, las actividades a verificar, el tema a estudiar, el tiempo y el dinero del que se dispone y el contrato entre los gestores del proyecto o personas que lo encargan y el equipo de evaluación. La validez de los resultados de la evaluación

Dado que cada proyecto es diferente de otros y requiere un enfoque distinto, no es raro que se tenga que tratar con cuestiones relacionadas con la validez de los resultados y la posibilidad de generalizarlos. En lo que concierne a la validez de un marco de investigación, se dice generalmente que la investigación y el investigador hacen hincapié en la validez interna y externa (Cook y Campbell, 1976, 1979), mientras que los evaluadores solo ponen énfasis en la validez interna, pues se interesan en el funcionamiento inmediato de un proyecto en particular. La metodología de la evaluación supera con relativa facilidad la mayoría de problemas que amenazan la validez interna de las variables que son objeto de examen (por ejemplo, la historia, la maduración, la selección o la mortalidad). Todos estos elementos están incluidos en el campo de la evaluación. Contrario a la investigación, la evaluación se ocupa de un número considerable de variables, y no de variables aisladas. Las variables que la investigación consideraría como artefactos despiertan, en cambio, el interés del evaluador. La cuestión de la validez de la medida en el campo de la evaluación está vinculada al hecho de que la medida en las ciencias sociales es, salvo muy pocas excepciones, indirecta; ya que la mayoría de los conceptos en que se interesa son abstracciones o construcciones teóricas. Esto significa que los investigadores en ciencias sociales nunca pueden estar totalmente seguros de que lo que miden de facto es lo que quieren medir (Nachemias y Nachemias, 1982). Sin embargo, la incertidumbre en cuanto a la validez de la construcción (variable teórica vaga o

Enfoques y prácticas en la evaluación de programas

confusa, o falta de congruencia entre la variable teórica y la observable) no representa un problema para la evaluación, puesto que la definición operacional y las preguntas utilizadas provienen de lo que ocurre en el terreno, y no de una teoría. En la evaluación, la validez de la construcción de un instrumento de medida corresponde a la congruencia entre la observación y la etiqueta de la variable estudiada (Peres y Yatsiv, 1994). Durante los últimos veinte años, los autores se han inclinado por una definición vaga de la validez, permitiendo así los juicios subjetivos. Por ejemplo, Cronbach (1983) afirma que la validez es más subjetiva que objetiva. Krathwohl (1982) compara la validez con la persuasión, la seriedad y el consenso. Campbell, a quien corresponde la paternidad de los conceptos de validez interna y externa, se ha distanciado casi por completo de estos conceptos (Campbell, 1986). Él sugiere formular nuevas definiciones, convirtiendo la validez interna en validez local, holística (pragmática y sin teoría) y causal. Esta innovación pone en duda la idea de que un número determinado de procesos provoca un cambio real en una actividad, un lugar y un tiempo específicos. Según Campbell, en el terreno se encuentran relaciones de causa y efecto cuyo origen no puede explicar ninguna teoría y que no se sabe cómo generalizar. Para hacerlo, se debe invertir el orden habitual de las intervenciones, que es abordar la teoría antes de la actividad. La causa y el efecto que se observa en el terreno y que no proceden de una teoría reconocida pueden convertirse en un trampolín para una nueva teoría. La validez externa se refiere a la generalización de los resultados y los vínculos irrefutables que pueden predecirse entre los fenómenos empíricos. Dado que la investigación pretende habitualmente generalizar los resultados obtenidos con el fin de aplicarlos a otras realidades (organismos, poblaciones, situaciones, tiempos) para formular una ley universal, una pregunta típica de la investigación podría ser: “el desarrollo de las relaciones sociales entre personas que viven juntas 24 horas al día durante un periodo prolongado de tiempo, ¿puede ser aplicado a otras personas en otras situaciones?” Pero en una evaluación, la consolidación de un grupo de candidatos a un curso para pilotos de caza, por ejemplo, puede muy bien ser la cuestión a estudiar, y esta debe permitir a los comandantes tomar decisiones. ¿Tendrían los factores de evaluación la misma importancia para las personas que dirigen unos campamentos de verano para jóvenes que intentan aumentar el grado de satisfacción de los participantes? Los evaluadores encargados de la encuesta a los pilotos de caza no quieren saber realmente si se forman los mismos lazos entre los habitantes de un asilo de ancianos o los de un internado, mientras que esta pregunta puede ser de interés para los investigadores.

2. Investigación y evaluación de programas

La cuestión de la validez externa es, por lo tanto, sumamente importante para la investigación, pero lo es menos para la evaluación. Por su parte, la posibilidad de generalizar el efecto de un proyecto es un asunto importante. Los gerentes o empresarios siempre implementan un proyecto con el fin de obtener el efecto deseado. La evaluación puede determinar si los efectos del proyecto pueden generalizarse o si el proyecto tiene un mayor potencial de aplicación, si estamos interesados en estas cuestiones. En otras palabras, nos preguntamos acerca de la posibilidad de retomar el proceso implementado por el proyecto para aplicarlo en otros entornos, en otras poblaciones. Se puede, entonces, generalizar las conclusiones, pero no los resultados. Cuando se hace, a partir de una muestra, una generalización destinada a otros grupos de participantes, es preciso verificar la representatividad real de la muestra. La evaluación se interesa por la extensión de cada parte del proyecto a otras y de un conjunto de variables a otro para evitar la descripción del proyecto como una serie de acontecimientos desconectados entre sí. Por ejemplo, si la definición de las tareas del personal de alto nivel de un proyecto se caracteriza por sus límites difusos, resulta justificado preguntarse si esto también caracteriza las tareas de todo el personal del proyecto. Si existe una falta de familiaridad con los conceptos centrales de un proyecto en una de las escuelas que participan en el mismo (es decir que hay un problema en una escuela en particular), ¿se presenta esta misma deficiencia en otras escuelas del proyecto? ¿Han tenido los gestores del proyecto dificultades para transmitir su mensaje? Estas hipótesis sobre la posibilidad de generalizar los resultados de una evaluación ayudan al evaluador a elaborar un retrato coherente de un programa, a identificar fenómenos inusuales (por ejemplo, una ineficiencia en una situación en la que se suele ser eficiente) y a determinar el origen de estos problemas (gestores incapaces de movilizar a los maestros, quienes ya no confían en ellos). La posibilidad de generalizar un resultado particular proporciona a los evaluadores un instrumento importante para comprender el campo en el que trabajan. Esto aporta conocimientos importantes y pertinentes tanto para ellos como para el proyecto en el que toman parte. El examen de un número de variables significativas, en el marco de una investigación estructurada, puede formar parte de un contexto más amplio de evaluación que incluye otros exámenes, variables adicionales y preguntas relativas a los vínculos entre los acontecimientos y los efectos de sus interacciones. Los conceptos operacionales de ‘variables aisladas’, ‘muestras controladas’ y ‘generalización’ no existen en el ámbito de la evaluación. En la práctica, las variables

Enfoques y prácticas en la evaluación de programas

no están aisladas, los grupos examinados no son puros ni están controlados y la posibilidad de generalizar es muy limitada e incluso nula en muchas ocasiones. La influencia que pueden tener estos conceptos en el éxito o fracaso de un proyecto en particular no suele ser el tipo de pregunta que los investigadores se plantean; pero para los evaluadores esta es la esencia de su trabajo. Los investigadores eligen sus temas de investigación en función de su campo de especialización, así como del interés y la importancia que presentan estos temas. Los evaluadores eligen los suyos en función de la utilidad probable de las respuestas que obtendrán para el proyecto en el que trabajan. En otras palabras, hacen su elección en función de la pertinencia para el proyecto. La importancia de la pertinencia

La pertinencia de una evaluación es sumamente importante, puesto que una parte esencial de su valor es que debe estar en condiciones de suministrar una retroinformación eficaz a los responsables de un proyecto. El evaluador proporciona un servicio que debe ser eficaz, y la eficacia y la pertinencia de la retroinformación sobre los resultados de un proyecto en un momento determinado y para una clientela específica, dependen de la calidad del examen realizado. En investigación, dado que el objetivo es generalizar los resultados, no se cuestiona la pertinencia de estos para el ámbito en que se hace la investigación (a menos que se trabaje en el departamento de “investigación y desarrollo” de una empresa, que debe satisfacer necesidades muy específicas). Es posible que haya una negociación entre el evaluador y los directores del proyecto o los proveedores de fondos, sobre los temas que son o no pertinentes y la asignación de recursos destinados a la evaluación. El interés de una evaluación es una razón suficiente para justificarla, pero no es suficiente para formular las preguntas de la evaluación. Los temas de investigación científica, por el contrario, no son objeto de negociaciones, sino más bien de discusiones entre un investigador y sus colegas. Las decisiones sobre la manera de examinar un tema de investigación queda a discreción de sus promotores. La aplicación de un procedimiento de examen para hacer un seguimiento de variables generalizadas y abstractas, no tiene gran utilidad ni para los evaluadores ni para sus clientes a la luz del criterio de pertinencia. Esto se debe a que las respuestas que pueden surgir distan mucho de la realidad de los clientes y de sus preocupaciones inmediatas. Para ser pertinente y útil, la retroinformación debe cumplir las siguientes condiciones: La inmediatez: la retroinformación debe ser inmediata u ofrecerse en un plazo que permita hacer un análisis de los resultados y sacar conclusiones que

2. Investigación y evaluación de programas

contribuyan a un cambio o a la planificación de un cambio. Si la retroinformación se dilata mucho tiempo corre el riesgo de ser inútil para las personas a las que va destinada. Incluso en el caso de una evaluación sumativa post facto, la retroinformación debe estar disponible rápidamente para fines de planificación futura. La especificidad: la retroalimentación debe ser específica para dar respuestas que guarden una relación directa con el proyecto que es objeto de la evaluación. Lo que significa que está dirigida al público objetivo del proyecto, a sus gestores y sus planificadores. Por lo tanto, no debería tratar de conceptos generalizados. Encontramos un buen ejemplo de esto en un proyecto de fortalecimiento de la autonomía de las mujeres entre los beduinos. La frustración de estas mujeres puede llegar a ser más clara para las personas que dirigen este proyecto, si se examinan los factores concretos de su situación. Por ejemplo, en el proceso de retroalimentación no sería recomendable decir: “la estructura patriarcal de esta sociedad se ve amenazada, por lo tanto los hombres se oponen al proyecto dado que las mujeres recibirían un trato diferente. Es preciso hacer algo para reducir la percepción de amenaza y la resistencia resultante”. Sería preferible limitarse a indicar a las partes interesadas en el proyecto que los hombres no cooperan, que no permiten que sus esposas participen en ciertas actividades, y que es conveniente reunir a los hombres para explicarles los objetivos del programa. Los resultados expresados como leyes universales o conceptos teóricos abstractos por lo general son inútiles para los gestores y los responsables de tomar decisiones que trabajan en el terreno. Además, los no iniciados en el campo de las ciencias no siempre los entienden a cabalidad. El lenguaje del proyecto: la retroalimentación debe formularse utilizando la terminología propia del proyecto o al menos en un lenguaje comprensible para sus gestores y promotores, aunque sus definiciones y su terminología no correspondan del todo a la jerga profesional de los evaluadores. Si, dentro de la terminología de un proyecto, se utiliza el término “asesores”, este no debe remplazarse por “jefes de grupo”, “agentes de cambio”, “coordinadores” o “facilitadores”. Si un proyecto habla de crear poder o autonomía en una población determinada, estos son los conceptos que deben utilizarse. Se puede, por supuesto, negociar un cambio en caso de utilización de conceptos inadecuados, o tratar de introducir términos nuevos durante la implementación de la evaluación; pero cuando ya existe una terminología propia, es preciso utilizarla. Esto es válido para diferentes tipos de evaluación, como la evaluación formativa, la sumativa, la de procesos y la de resultados.

Enfoques y prácticas en la evaluación de programas

Los juicios de valor: no se puede hablar de pertinencia de la retroalimentación sin abordar una de las principales diferencias entre la evaluación y la investigación; diferencia relacionada con la pertinencia de los resultados, es decir, la cuestión del “juicio” inherente a la evaluación. La historia de la disciplina de la evaluación muestra que la necesidad del cliente está inscrita en el corazón mismo de su desarrollo, dado que el papel de los evaluadores es interpretar y juzgar los resultados de los programas. Es también el origen de la evaluación como disciplina. A finales de la década de 1970 se fundó un comité en los Estados Unidos encargado de definir la esencia de la evaluación como disciplina. Este comité decidió insistir en la importancia de la decisión que debe tomar el evaluador con respecto al valor del objeto evaluado (JCSEE, 1981). Esto también se aplica a las evaluaciones sumativas, que se centran en un único resultado, es decir, medir el logro de los objetivos de un proyecto, lo cual es una petición frecuente (Mor, 1992). Esto es especialmente cierto en lo que respecta a los enfoques formativos tan populares hoy en día, que examinan el valor de los objetivos de un proyecto, los daños o pérdidas que puede acarrear y la importancia de sus efectos. La investigación científica intenta ser objetiva y los resultados constituyen su mensaje final. La evaluación, dado que es una herramienta para la toma de decisiones, no puede, y no debería, evitar hacer recomendaciones, incluso si estas atañen a valores. Un proceso de evaluación que no suponga más que la recolección de datos, sin emitir juicio alguno sobre su esencia, sin dar una opinión, sin una propuesta de solución alternativa y sin elegir entre ellos, no sería ni posible ni deseable (Cordray, 1986; JCSEE, 1981; Levin-Rozalis, 1987, 1998; Lincoln y Guba, 1986; Scriven, 1967, 1983; Stake, 1969). El problema de la causalidad

El esfuerzo realizado para entender la causa y la naturaleza de un fenómeno, así como la naturaleza de la causa misma, representa un elemento importante de la retroinformación procedente de una evaluación. Es posible por lo menos intentar controlar los efectos de una causa si esta se conoce, pero las respuestas con respecto a los vínculos entre variables generalmente no son satisfactorias. Nachemias y Nachemias (1982) sostienen que existe un dilema fundamental entre la causalidad y la generalización: para garantizar que la evidencia de la causalidad sea clara a menudo se sacrifica la posibilidad de generalizar. Esto es sin duda cierto para la investigación científica. Pero en la evaluación, como se dijo anteriormente, la posibilidad de generalizar no suele ser tan importante como la comprensión de la causa de un fenómeno.

2. Investigación y evaluación de programas

Por ejemplo, los niños participantes en un proyecto (Levin-Rozalis y Bar-On, 1994) se quejaban constantemente de la comida, que calificaban de “comida de escuela”, y decían querer “comida de casa”. En diferentes ocasiones se intentó mejorar la calidad de las comidas o preparar platos de la cocina tradicional, pero todo fue en vano. No había ninguna correlación entre el tipo de alimentos y el número de quejas. Una investigación exhaustiva demostró que, en realidad, a los niños no les parecía mala la comida, pero que para ellos esta era una forma de expresar su descontento con el proyecto, por falta de disponer de otros medios para hacerlo. No se atrevían a expresar esta insatisfacción porque consideraban que era un honor formar parte de este proyecto. Al entender la naturaleza del problema de los niños y, por lo tanto, la causa de sus quejas, los gestores del proyecto pudieron hablar abiertamente sobre el problema y resolverlo. Una vez resuelto, cesaron las quejas con respecto a la comida. Mor (1992) sostiene que ni siquiera una evaluación sumativa, que se realiza al terminar un proyecto, puede contentarse con los solos resultados. Es preciso analizar lo que se ha hecho y cómo se ha hecho, explicar por qué los resultados son lo que son y definir las causas de este estado de cosas. Desde luego, esto no quiere decir que necesariamente exista una explicación causal, ni que siempre sea fácil encontrarla, ni tampoco que los evaluadores deban hacer grandes esfuerzos para descubrirla.

3. La construcción de un juicio Bernard Perret

Las definiciones comunes de evaluación se centran en la idea de medida: evaluar un programa o una política es, en esencia, medir sus efectos. Esta caracterización tiene la ventaja de ser sencilla, pero refleja bastante mal la realidad de las prácticas. El objetivo de esta disciplina no es solo medir los efectos de las acciones públicas, sino también comprender sus mecanismos. Por otra parte, la evaluación no es una actividad puramente científica: es un proceso colectivo de construcción de juicios prácticos, es decir, de juicios hechos para tomar medidas o decisiones. Ahora bien, todo juicio se materializa en un lenguaje. Para contribuir a la articulación de un juicio, los hechos brutos deben transformarse en argumentos. Por lo tanto, la evaluación tiene un carácter retórico. Término que no tiene aquí ninguna connotación peyorativa, simplemente remite a la idea de una “práctica regulada” de la argumentación. Es sugestivo, desde esta perspectiva, pensar el desarrollo de una evaluación como el de un proceso, modelo de una discusión sujeta a normas formales sobre el estatus, los criterios de validez y el peso relativo de los argumentos. Al establecer este marco de análisis, no se pierden de vista los aspectos técnicos de la evaluación, sino que se ponen en contexto. La búsqueda de pruebas válidas, objeto central del debate metodológico, se inscribe en el contexto más amplio de una reflexión sobre las bases de un juicio práctico. No se trata de eludir los imperativos del método científico, sino más bien de ampliar la exigencia de rigor a todo el proceso social de evaluación, de principio a fin del trabajo de investigación, desde la formulación de las preguntas de evaluación hasta las técnicas de edición y difusión de los resultados. Los límites del análisis causal

Con frecuencia se utiliza la expresión “investigación evaluativa” (evaluation research) para designar la parte más “científica” del trabajo de evaluación, a saber, la medición y el análisis de los efectos propios de una acción (normalmente un “programa”) en la sociedad.

Enfoques y prácticas en la evaluación de programas

En sus comienzos, la evaluación de programas trataba de imitar las ciencias denominadas “exactas”, como la biología. El objetivo era medir los efectos de las intervenciones en la sociedad con el mismo rigor científico que se exige, por ejemplo, en las pruebas de eficacia de un nuevo medicamento. Aun hoy en día, la evaluación evaluativa se entiende principalmente como una actividad de modelización y medición. Se trata, idealmente, de establecer y cuantificar un vínculo de causalidad entre un “tratamiento” y un efecto buscado (por ejemplo, entre una medida de fomento del empleo y la disminución del desempleo). En la práctica, sin embargo, esta ambición se enfrenta a dos tipos de obstáculos. En primer lugar, la evaluación trata a menudo de políticas complejas que combinan diferentes tipos de medidas (subvenciones, reglamentaciones, etc.), cuyos objetivos son reformulados a lo largo del tiempo y cuyo contenido concreto es modificado en función de las situaciones locales. Esto puede ilustrarse con el ejemplo de los programas de desarrollo social en las zonas urbanas desfavorecidas, constantemente revisados y vueltos más complejos a lo largo de los años. En tal caso, el análisis causal parece fuera de contexto, e incluso carece de sentido. En segundo lugar, cuando la naturaleza de las preguntas planteadas hace que este sea posible, el análisis causal tropieza a menudo con obstáculos técnicos que limitan su alcance. Medir un efecto es siempre comparar dos situaciones: de un modo u otro, hay que observar o reconstruir lo que habría sucedido si no se hubiera implementado el programa. No hay necesidad de presentar en detalle los métodos utilizados para este propósito (experimentación con un grupo de control, protocolo cuasiexperimental con estimación de un modelo, etc.). Así, es suficiente con señalar que rara vez se reúnen las condiciones prácticas para su aplicación, ya que suponen protocolos de observación rigurosos y datos completos sobre los fenómenos analizados. La evaluación se interesa tanto en la comprensión como en la medición

Aun suponiendo que el análisis causal conduzca a conclusiones precisas, no es frecuente que la evaluación se contente con eso. En primer lugar, incluso cuando se logra medir un efecto, resulta casi tan importante entender cómo y por qué se produce. Chen toma el ejemplo de los medicamentos: “Si una evaluación de ‘caja negra’ demuestra que un nuevo medicamento puede tratar una enfermedad, pero no proporciona información sobre sus mecanismos de acción, los médicos vacilarán en recetar este nuevo medicamento, porque no se conocerán las condiciones en las que actúa ni los riesgos de efectos secundarios” (1990, p. 18 y 42; véase también: Chen, 2005). El análisis de los mecanismos —que se basa en las investigaciones cualitativas (monografías, encuestas mediante entrevistas, etc.), pero también en la actividad

3. La construcción de un juicio

autointerpretativa de los propios actores—, pretende especialmente determinar en qué condiciones y en qué contexto un programa es susceptible de producir los efectos esperados. El adjetivo “cualitativo”, que se opone a “cuantitativo”, significa simplemente que el análisis tiene por objeto describir y comprender con palabras más que con cifras. Una corriente importante de la evaluación contemporánea, la evaluación basada en una teoría (Theory based evaluation), recomienda centrar la evaluación en los mecanismos de acción o, en términos más amplios, en la “teoría del programa”. La teoría de un programa es la estructura lógica de las ideas y los razonamientos en los que él se basa. Esta teoría puede dividirse en segmentos elementales constituidos, por ejemplo, de relaciones supuestas entre los incentivos y el comportamiento de las personas o comunidades que se benefician de ellos. Los evaluadores a veces proporcionan una representación gráfica (como en el llamado método del “marco lógico”). Elaborar una política es como construir una teoría: esto equivale a emitir hipótesis sobre las consecuencias de determinadas acciones. Estas hipótesis son a menudo frágiles, están basadas en ideas recibidas. El objeto mismo de la evaluación es someterlas a la prueba de los hechos. En la práctica, dado que la medición de los efectos es difícil, con frecuencia basta con observar lo que sucede, con describir e interpretar el comportamiento de los actores sociales en cuestión, para hacerse una idea de la validez de los razonamientos que sustentan una política. La evaluación debe procurar cuestionar las ideas de los encargados de formular políticas

El juicio evaluativo nunca es el resultado mecánico de la aplicación de un método, ya sea cualitativo o cuantitativo. Como todo juicio, es también un trabajo sobre las representaciones de la realidad, que pasa por la mediación del intercambio verbal. Como lo indican Thomas Schwandt y Jennifer Greene (2006), “el interés por las técnicas o los métodos no debe ocultar la naturaleza fundamentalmente discursiva de la evaluación”. El término “discursivo” significa aquí “el hecho de que el vocabulario y los conceptos utilizados para conocer y expresar el valor de una política son construcciones sociales de los seres humanos”. Es importante comprender que esta “construcción social de la realidad” (Berger y Lupman, 1966) no puede circunscribirse a la evaluación. Es poco frecuente que los métodos de la investigación evaluativa permitan responder a todas las preguntas que se plantean en relación con una acción pública. Los encargados de formular políticas y los actores disponen siempre de otras informaciones, de orígenes y naturalezas diversos, que les permiten como mínimo formarse una opinión: estadísticas, artículos de prensa, opiniones expresadas por los grupos

Enfoques y prácticas en la evaluación de programas

de interés, etc. Obviamente, la influencia de estas distintas informaciones no es proporcional a su pertinencia científica. Algunos datos impresionan porque afectan directamente la sensibilidad, creando o reforzando opiniones que un análisis riguroso de la realidad tendrá muchas dificultades para deconstruir. Así sucede, por ejemplo, con las noticias de “sucesos”, cuando son presentadas por los medios de comunicación como imágenes emblemáticas de una sociedad carcomida por la inseguridad. Todas estas informaciones son organizadas, interpretadas y ponderadas por sus receptores en función de su experiencia, sus inclinaciones ideológicas y sus necesidades prácticas. Desde antes de su inicio, quienes encargan una evaluación tienen sus propias ideas sobre la política evaluada, sus resultados probables y lo que, llegado el caso, puede “causar problemas”. En otras palabras, tienen su propia teoría sobre esta política. Es importante que la evaluación tenga en cuenta el punto de vista inicial de los encargados de formular políticas y de otros protagonistas de la evaluación, no como verdades definitivas, desde luego, sino como hipótesis que han de ser verificadas y relativizadas o profundizadas. Para que el impacto de una evaluación en las representaciones comunes de la realidad sea más importante, ella debe tratar de cuestionar dichas representaciones, someterlas a pruebas susceptibles de invalidarlas. Ahora bien, esto solo puede hacerse situándose en un mismo espacio semántico. Si los resultados de las evaluaciones son muchas veces ignorados o desatendidos, es porque a menudo se expresan en un lenguaje que sus destinatarios no reconocen, por ser demasiado diferente de aquel en el que ellos formulan sus preocupaciones, sus convicciones o sus experiencias. Por esto el trabajo relacionado con la formulación de las preguntas de evaluación reviste una importancia crucial. Producir datos significativos en relación con las representaciones comunes

El propósito de la evaluación no es producir datos científicos, sino más bien reducir la incertidumbre y reforzar la coherencia de las decisiones y las prácticas. En ausencia de pruebas formales de la eficacia de una acción, con frecuencia nos contentamos con “cuasi pruebas”, o incluso con indicios. En la vida real, muchas veces nos permitimos sacar conclusiones generales a partir de un pequeño número de observaciones, siempre que estas tengan sentido, es decir, que se integren en un sistema racional y verosímil previamente construido (el equivalente, podría decirse, del “móvil” de un crimen). Quedamos satisfechos cuando disponemos de un conjunto de indicios convergentes que pueden obtener la “íntima

3. La construcción de un juicio

convicción” de una persona de buena fe (utilizo deliberadamente el vocabulario del juicio penal). Lo mismo ocurre en la evaluación. La siguiente frase, tomada de un informe de evaluación, ilustra la manera como la observación de una muestra limitada refuerza un punto de vista previamente constituido: “se ha demostrado que las patologías psiquiátricas que afectan a los padres pueden generar un riesgo importante de maltrato. Así, en nuestra serie de 39 parejas que han ejercido el maltrato hacia sus hijos, 20 presentaban trastornos o antecedentes psiquiátricos importantes”. Demasiada información oculta la información clave

Los juicios prácticos sobre la acción pública se apoyan en datos numerosos y variados. Se podría deducir, un tanto apresuradamente, que la evaluación, ante todo, debe tratar de reunir la mayor cantidad de información sobre su objeto, en el supuesto de que nunca se está demasiado bien informado. Pero esto sería olvidar que un exceso de información inadecuada es casi tan perjudicial como la falta de información. Todos estamos abarrotados de datos no pertinentes —el fenómeno del correo no deseado (spam) constituye un buen ejemplo— que debemos eliminar a costa de inversiones significativas de tiempo y de atención. Es preciso reconocer que no toda información debe tenerse en cuenta. Uno de los que más lúcidamente ha llamado la atención sobre este fenómeno es Herbert Simon, premio Nobel de Economía: “en un mundo donde la atención es un recurso terriblemente escaso, la información puede ser un lujo costoso, ya que puede desviar nuestra atención de lo que es importante hacia lo que no lo es. No podemos permitirnos procesar una información simplemente porque está ahí” (Leca, 1993). Basta con echar un vistazo a un informe sobre un tema cualquiera para comprobar que contiene en general una gran cantidad de datos inútiles. Para ser útil, la información evaluativa debe construirse y configurarse de acuerdo con necesidades específicas. La lista de aspectos a abordar debe establecerse en función de las expectativas expresadas por los encargados de formular políticas y los grupos interesados. Del mismo modo, en la etapa de la redacción del informe, los resultados, las conclusiones y las recomendaciones deben jerarquizarse teniendo en cuenta estas expectativas. Un informe debe llamar la atención sobre los datos más importantes y “ponerlos en escena” de manera adecuada. El cerebro humano no funciona como una computadora

Esta concepción “constructivista” de la evaluación puede ser respaldada por consideraciones tomadas de trabajos contemporáneos sobre el funcionamiento del cerebro humano (véase: Varela, 1999, Kolb y Whishaw, 2002). En la actualidad

Enfoques y prácticas en la evaluación de programas

entendemos que no funciona como una computadora, sino como un sistema en equilibrio dinámico con una gran capacidad de autorregulación. A diferencia de una computadora, que procesa de forma sistemática los datos que le son presentados por sus dispositivos de entrada, nuestro cerebro elige “libremente” si toma en cuenta o no la información que capta a través de los cinco sentidos. La integra en función de su propio programa, que mantiene registros de toda la experiencia anterior de la persona. En otras palabras, el cerebro dedica la mayor parte de su energía a responder las preguntas que él mismo se plantea, y esto dentro de la lógica de su propio movimiento. Nuestra principal preocupación no tiene que ver con lo que vemos y oímos, sino con la manera en que estas informaciones nuevas pueden ayudarnos a resolver nuestros problemas, afectar nuestras creencias y, en general, facilitar o complicar el manejo de nuestros estados mentales. El lector de un informe de evaluación, como cualquier otro sujeto pensante, utiliza de manera selectiva la información puesta a su disposición en función de sus necesidades y centros de interés; puede aprovechar mejor los resultados de la evaluación si estos hablan su lenguaje y responden a sus preocupaciones. El enfoque cognitivo de las políticas públicas

La evaluación, en resumen, es siempre un trabajo sobre el lenguaje y las representaciones. No solo produce conocimientos, sino también nuevas ideas, una nueva forma de abordar los problemas. Contribuye a producir nuevos marcos referenciales para la acción pública. Esta concepción de la evaluación hace eco del “enfoque cognitivo de las políticas públicas”. Según esta corriente de pensamiento (Muller, 2006), resulta erróneo considerar que las políticas públicas son fruto de decisiones racionales adoptadas por responsables de formular políticas que son todopoderosos y sabios. En realidad, la acción pública es el resultado inestable de una confrontación sin fin entre fuerzas sociales e ideologías contradictorias. Y es de este enfrentamiento que surgen los conceptos que sirven de fundamento intelectual e ideológico a la acción pública. Como indica Yves Surel (2000): “las políticas públicas son fruto de interacciones sociales que dan lugar a la producción de ideas, representaciones y valores comunes”. La evaluación puede considerarse como un método de organización de procesos cognitivos y discursivos formalizados que participan de un proceso más amplio de interacciones sociales en torno a los desafíos de la acción pública. Es importante precisar que ella asegura esta función de producción de marcos referenciales en diferentes niveles: tanto en el de la concepción de políticas como en el de su implementación por parte de los actores locales. En cada uno de estos niveles, la acción pública es,

3. La construcción de un juicio

de hecho, parcialmente redefinida en sus modalidades y sus objetivos, y puede ser puesta en tela de juicio por la evaluación. La evaluación como proceso organizado de producción de ideas compartidas

En una operación de evaluación, por lo tanto, el conocimiento no es un fin en sí mismo. Se trata siempre de responder a las preguntas planteadas por los responsables de formular políticas y los actores políticos. La adaptación de los conocimientos producidos a las necesidades de sus usuarios es reveladora de la calidad del proceso y del procedimiento de evaluación. El proceso es el conjunto de las interacciones sociales suscitadas por la evaluación para negociar su objeto, sus preguntas, sus métodos (el “proyecto de evaluación”) y la formulación de sus conclusiones. El procedimiento es la forma institucional de este proceso. Conlleva principalmente la estructuración de una “escena evaluativa”: distribución de funciones entre quien encarga la evaluación, el director del proyecto, el comité de evaluación, los expertos y los responsables del estudio. El procedimiento abarca también las normas metodológicas y éticas que regulan el proceso: normas de calidad elaboradas por las sociedades profesionales de evaluación o normas internas de una organización. La elección de los criterios de resultado

Previamente a la investigación evaluativa, el proceso de evaluación empieza con la formulación de preguntas evaluativas, basadas en una explicación de la teoría del programa centrada en la articulación y la jerarquización de sus objetivos. De hecho, los criterios de los resultados finalmente seleccionados en una evaluación solo representan un subconjunto de la amplia gama de fenómenos susceptibles de ser afectados por el programa. Incluso antes de tratar de medir los resultados, se debe construir un marco de análisis y determinar a priori los efectos observables con más probabilidades de proporcionar información sobre el éxito del programa, en relación con sus objetivos políticos (el “marco de referencia de la evaluación”). La elección de los marcos de descripción

Toda operación de recopilación de información supone la construcción previa de categorías, nomenclaturas, indicadores, entre otros. También es necesario proceder a hacer las demarcaciones temporales, espaciales. “Toda cuantificación implica una configuración previa de la realidad: es necesario elegir los fenómenos a medir entre una multitud de posibilidades, definir ‘unidades estadísticas’ (dar un sentido preciso a términos como hogar, empresa, conjunto, barrio), elaborar tipologías y

Enfoques y prácticas en la evaluación de programas

nomenclaturas. Las cifras solo tienen sentido en el interior de un marco conceptual respaldado por una representación más o menos convencional de la realidad. Esta siempre es motivo de controversias, como lo demuestran los debates recurrentes sobre la medición de una ‘tasa de desempleo’ o de una ‘tasa de criminalidad’, por ejemplo” (Perret y Seibel, 1993). Una discusión pluralista para interpretar los resultados

En la etapa posterior a la medición, la interpretación de las cifras se basa siempre en modos de entender la realidad que afecta a los datos. Es preciso, por una parte, seleccionar los resultados más importantes y, por otra, transformarlos en conclusiones, juicios y recomendaciones. Para ello necesitamos criterios, puntos de comparación que hay que buscar en una reserva de referencias previamente constituidas. Por ejemplo, en una investigación evaluativa se demuestra que esta actividad de interpretación es inherente a la producción de cifras. La medición de un fenómeno solo tiene sentido en comparación con otros fenómenos supuestamente mejor conocidos por el lector: “la frecuencia de los maltratos infligidos a los recién nacidos es elevada (1,8% de la población total). Para proporcionar una comparación, la frecuencia de esta patología se puede homologar a la de las malformaciones fetales en la totalidad de la población”. En una investigación del dominio de una disciplina científica (Economía, Sociología, Ciencias de la Educación, Salud Pública, entre otras), todos los datos son interpretados en el contexto de ese marco conceptual. Se espera que el investigador domine a la vez el objeto de la investigación, sus objetivos y su contexto. No ocurre lo mismo en el caso de la evaluación. Dado que involucra consideraciones políticas u operacionales que no son del dominio de un ámbito científico especializado, la interpretación de los resultados deja de ser un monopolio de los expertos para convertirse en una cuestión de debate pluralista. La organización de este debate es una de las tareas principales de los comités u órganos de evaluación encargados de dirigir sus procesos. La contribución de la teoría de la argumentación

Una tradición que se remonta a Aristóteles Los anteriores desarrollos muestran lo interesante de analizar las prácticas evaluativas como prácticas argumentativas. Para Jürgen Habermas (1981, p. 41), una práctica argumentativa puede analizarse según tres puntos de vista: el proceso (social), el procedimiento (las normas) y la producción de argumentos. Estos tres aspectos se encuentran en la evaluación. En el ámbito social existen diferentes tipos de prácticas argumentativas, cada una de las cuales se caracteriza por la

3. La construcción de un juicio

naturaleza de los argumentos intercambiados (políticos, jurídicos, éticos, estéticos, etc.) y las “pretensiones de validez” emitidas. La noción de “pretensión de validez” es importante. Significa que todo argumento pretende establecer una verdad, pero que no todas las verdades se sitúan en el mismo plano. Para poner un ejemplo clásico, no es pertinente poner un juicio estético o moral frente a un argumento de hecho. El origen de la reflexión sobre la argumentación puede remontarse a la Retórica de Aristóteles. Aunque se ocupe principalmente de la retórica entendida como el arte de la persuasión (“la retórica es la facultad de considerar en cada caso aquello que puede ser apropiado para persuadir”), Aristóteles señala que puede ser vista desde una perspectiva más amplia, como el arte de la discusión adaptado al examen de cuestiones inciertas: “el objeto de la retórica no es tanto persuadir como ver el estado probable de las cosas en relación con cada cuestión”. Aristóteles hace especial hincapié en el vínculo entre la retórica y la incertidumbre. Si la cuestión de la argumentación se plantea, es que hay incertidumbre, y por tanto, duda o pluralidad de opiniones legítimas: deliberamos sobre cuestiones que involucran soluciones diversas, pues nadie delibera sobre hechos que no pueden haber sido, ser o deber ser de una manera distinta a aquella en que se nos presentan; en cuyo caso no queda más que reconocer que son así. (Aristóteles, 1991, pp. 81 y 87)

Para Aristóteles una de las características de la retórica es el uso frecuente de la inducción, es decir de los ejemplos, por falta de poder demostrar de manera vinculante las tesis que se quiere defender.

El esquema de Toulmin

El lógico británico Stephen Toulmin (1993) sentó las bases para una reflexión moderna sobre la argumentación. Su teoría del argumento puede resumirse en un diagrama que permite visualizar la estructura lógica de toda forma de argumentación:

Enfoques y prácticas en la evaluación de programas

Figura 3.1.

Probablemente Dato

cualificación

Porque

salvo que

Justificación

salvedad

pretensión (claim)

En virtud de

Fundamento

• • • • •

•

La pretensión es el punto (siempre sujeto a discusión) que desea establecer el autor del argumento. No es una simple afirmación, sino una conclusión parcial que justifica un esfuerzo de argumentación específico. El dato es la información nueva movilizada como apoyo directo de la pretensión.

La justificación expresa el razonamiento utilizado para establecer un vínculo entre el dato y la pretensión.

El fundamento está constituido por los hechos o razonamientos, supuestamente previamente conocidos, que vienen a fundar, reforzar o legitimar el principio contenido en la justificación.

La calificación indica el grado de certeza o la fuerza racional que el autor atribuye a la justificación.

La salvedad precisa las circunstancias o las condiciones que pueden reducir la fuerza y el alcance del argumento.

Esta estructura lógica no debe confundirse con la estructura gramatical de las oraciones. El esquema de Toulmin rara vez se reconoce a primera vista. De hecho, no siempre resulta fácil distinguir el dato, la justificación y el fundamento. Tomemos la siguiente frase: “La reciente disminución de [la tasa de] desempleo parece demostrar la eficacia de las medidas gubernamentales”. Este argumento se desglosa como sigue: • •

Pretensión: las medidas gubernamentales son eficaces. Dato: disminuye la tasa de desempleo.

3. La construcción de un juicio

• • • •

Justificación: la coincidencia entre la implementación de medidas y la disminución de la tasa de desempleo es indicio de una relación de causa-efecto. Fundamento: se sabe además que las medidas gubernamentales son, por su naturaleza misma, susceptibles de ser eficaces. Calificación: se expresa mediante un verbo modal, en este caso “parece”. Salvedad: ninguna.

Toulmin insiste en el hecho de que todos nuestros argumentos tienen una cara oculta. Se refieren de forma implícita a elementos del contexto supuestamente conocidos y bien interpretados. La validez de un argumento, por tanto, no es una cuestión de lógica pura: depende de estipulaciones supuestas y aceptadas por el público del debate. En el ejemplo anterior es evidente que el argumento tiene poco valor si no se cree desde un principio en la posible eficacia de las medidas gubernamentales. Una de las contribuciones de Toulmin ha sido el hecho de señalar que no se pueden analizar las prácticas de argumentación refiriéndose al modelo de la lógica formal. El modelo pertinente sería más bien el del proceso judicial, que puede ayudar a tomar conciencia de la heterogeneidad de los argumentos presentados en toda discusión orientada hacia un juicio: Los enunciados judiciales tienen varias funciones distintas. Sentencias sobre una queja, pruebas de identificación, testimonios acerca de acontecimientos o controversias, interpretaciones de un estatuto o discusión de su validez, exenciones de la aplicación de una ley, alegatos de mitigación, veredictos, sentencias. Todas estas clases de proposiciones tienen un papel que desempeñar en el proceso judicial, y las diferencias entre ellas distan mucho de carecer de importancia. Cuando abandonamos el ámbito particular del derecho para considerar los argumentos racionales en general, hacemos frente enseguida a la cuestión de saber si no es preciso analizarlos con ayuda de un conjunto de categorías de igual complejidad. (Toulmin, 1993, p. 96)

Tipos de datos y justificaciones utilizados en la evaluación

En las evaluaciones se encuentran argumentos de naturaleza fáctica (hechos brutos, cifras, observaciones y descripciones), pero también argumentos lógicos (basados en un razonamiento lógico-matemático) y argumentos basados en testimonios, puntos de vista u opiniones. Algunos argumentos tienen carácter normativo: se basan en valores o normas supuestamente reconocidos. Además se encuentran argumentos de autoridad que se presentan bajo diversas formas: autoridad de un experto, de una teoría, de un corpus de conocimientos, entre otros. Es importante distinguir estos diferentes registros y poner de manifiesto claramente su articulación respectiva.

Enfoques y prácticas en la evaluación de programas

No todos los argumentos tienen el mismo alcance. Los métodos de la investigación cuantitativa tienen por objeto producir argumentos casi vinculantes basados en certezas de tipo matemático. Sin embargo, de la obra de Toulmin se desprende que el vínculo entre los hechos establecidos y las conclusiones que se sacan no es estrictamente lógico, y se justifican a su vez en fundamentos de diversa índole. De ello se deduce que los argumentos fácticos o científicos siempre deben transigir con argumentos de estatus más incierto. Para mantenerse en el nivel más elemental, una cifra debe siempre ser calificada para permitir emitir un juicio sobre una situación: el aumento del número de beneficiarios de una medida puede calificarse de “rápido” o “lento”, la evolución de una situación puede calificarse de “satisfactoria” o “preocupante”, un efecto puede calificarse de “significativo”, etc. Los elementos de una “buena práctica” de la argumentación

La evaluación como discusión metódica En muchos aspectos, la evaluación se asemeja a una discusión ordinaria en la que se intercambian argumentos con el fin de llegar a un juicio mejor fundado y, siempre que sea posible, compartido. Si el juicio evaluativo se diferencia del juicio ordinario, es menos por su objeto y la naturaleza de las informaciones movilizadas, que por el esfuerzo de inscribir el proceso argumentativo en un marco metodológico y procedimental riguroso. El siguiente extracto, tomado de una guía metodológica francesa, resume perfectamente este punto: A diferencia de la investigación científica realizada en un marco disciplinario determinado, que privilegia un número limitado de razonamientos, la evaluación intenta utilizar todas las heurísticas, y adaptarse a las condiciones reales de la deliberación y de la adopción de decisiones. Como cualquier discusión o reflexión que tiene efectos prácticos, la evaluación no excluye a priori ningún elemento de información referente a su objeto, cualquiera que sea su naturaleza (cuantitativa o cualitativa) y su origen, siempre que parezca pertinente. [Pero] este eclecticismo no es sinónimo de confusión: contrariamente a una discusión ordinaria, llevada a cabo sin método formal, la evaluación se esfuerza por no mezclar los diferentes tipos de argumentos; sino más bien por jerarquizarlos, ponderarlos y vincular cada uno de ellos a conclusiones específicas. (Consejo Científico de la Evaluación, 1996, p. 49)

“Discutibilidad” versus persuasión La analogía del proceso, descrita anteriormente, es sugestiva pero no del todo pertinente. Una evaluación no es el enfrentamiento regulado de dos tesis contradictorias, sino un proceso cooperativo mediante el cual se trata de establecer un juicio razonable en relación con los criterios socialmente legítimos (los objetivos

3. La construcción de un juicio

de una política específica o, más ampliamente, el interés general). Un informe de evaluación debe, entonces, garantizar la discutibilidad de las pretensiones que contiene. Todo debe hacerse de manera que un lector cualquiera pueda hacerse una idea precisa de la validez de los argumentos: conocimiento de las fuentes de información y de sus eventuales deficiencias. En otras palabras, conviene garantizar la trazabilidad de los argumentos. La explicitación de las preguntas como elemento de la trazabilidad de los argumentos

Un argumento constituye siempre la respuesta a una pregunta o cuestión.1 El lenguaje cotidiano lleva la marca de esto, ya que el término “cuestión” se asocia a menudo a la idea de significado —incluso en ausencia del signo de interrogación—, por ejemplo cuando en un texto se dice “es cuestión de”. En la presente discusión, las preguntas o cuestiones muchas veces permanecen implícitas. En cambio, en la argumentación en que se basa una decisión de justicia penal, las preguntas o cuestiones se plantean explícitamente. Lo mismo ocurre en la evaluación: la formulación en un lenguaje claro de las preguntas a las que se quiere responder es un factor de clarificación de la argumentación evaluativa. El hecho de recordar la lista de cuestiones examinadas permite determinar con mayor claridad las pretensiones y su naturaleza (lo que se quiere demostrar y en lo que nos basamos para este propósito). Consecuencias prácticas para los procesos de evaluación

La realización de un proyecto de evaluación debe orientarse hacia la construcción de un juicio razonable, “apropiable” y “discutible”. Esto supone sobre todo: •

Determinar ex ante —de antemano— los temas críticos desde el punto de vista de un juicio orientado a la acción, es decir, los temas a los que parece importante despojar de una incertidumbre, así como las ideas que es importante validar o precisar.

1 El término francés question es ambiguo. Corresponde en español tanto a pregunta como a asunto o materia. Esta

ambigüedad se presenta a lo largo de los textos originales. En español también se entiende ‘cuestión’ como (según

el DRAE): “Pregunta que se hace o propone para averiguar la verdad de algo controvirtiéndolo”, o como “asunto o materia”. Por claridad de la traducción muchas veces escogemos traducir este término como pregunta, pues en nuestro español predomina más el segundo significado de la palabra cuestión. En esta parte del texto se resalta esta

ambigüedad propia del término. Por esto, traduzco aquí esta palabra con los dos significados: cuestión o pregunta.

(N. del T.)

Enfoques y prácticas en la evaluación de programas

•

Formular las preguntas de evaluación en términos que prefiguren los puntos cruciales de la argumentación que se pretende construir.

•

Tener especial cuidado, en el momento de la redacción del informe de evaluación, con el rigor y la claridad de la argumentación. El informe de evaluación debe explicitar el objeto, los objetivos y los métodos implementados, sin olvidar especificar sus límites. Debe permitir al lector distinguir entre los hechos y las opiniones mayoritarias, entre las conclusiones que se sacan y las recomendaciones que se hacen.

•

Destinar los medios disponibles a las investigaciones para responder las preguntas más importantes desde el punto de vista de su impacto en los juicios prácticos de los responsables de tomar decisiones y los actores clave de la política.

Aplicar la exigencia de rigor a los procesos socio-cognitivos

Nuestra insistencia en las dimensiones discursivas e interpretativas de la evaluación no debe entenderse como una relativización de los desafíos del trabajo más estrictamente técnico de medición de los efectos de una acción. Se trata más bien de llamar la atención sobre el hecho de que la fase de recopilación y tratamiento de la información se inserta siempre en un proceso más amplio de interacciones sociales diversificadas cuya buena organización forma parte del trabajo de evaluación. Estas interacciones participan plenamente de la eficacia de la evaluación, no solo en el plano social, político y de gestión, sino también en el estrictamente cognitivo. En efecto, el conocimiento social solo tiene valor, utilidad e incluso consistencia en la medida en que esté vinculado a preguntas y juicios. Ahora bien, la elaboración de estos depende de un trabajo intelectual colectivo que se puede hacer más eficaz y pertinente al someterlo a normas metodológicas simples. Desde este punto de vista, la reflexión sobre métodos y procesos de evaluación tiene gran alcance epistemológico. Plantea la posibilidad y la conveniencia de aplicar los requisitos de rigor y objetividad que han constituido el éxito de la ciencia a una categoría más amplia de procesos socio-cognitivos. Esto deja entrever la posibilidad de desarrollar un método y prácticas encaminados a lograr que el trabajo de las sociedades humanas con respecto a sí mismas sea más reflexivo, organizado y sistemático, las cuales, por ahora, aprenden poco y muy lentamente de sus experiencias.

3. La construcción de un juicio

Para profundizar en el tema

Perelman, C., & Olbrechts-Tyteca, L. (1958). La nouvelle rhétorique. Traité de l’argumentation. Paris: Presses Universitaires de France. Toulmin, S. (1993). Les usages de l’argumentation. Paris: Presses Universitaires de France. Obras que abordan la evaluación desde el punto de vista de la discusión y la argumentación

House, E. R., & Howe, K. R. (1999). Values in Evaluation and Social Research. Thousand Oaks: Sage Publications. Perret, B. (2001). L’évaluation des politiques publiques. Paris: La Découverte. ———. (1995). “La construction du jugement” en Conseil Scientifique de l’Evaluation. L’évaluation en développement 1994. Paris: La Documentation Française. Schwandt, T.A. (2005). Politics of Evaluation. En S. Mathison (dir.), Encyclopedia of Evaluation. Thousand Oaks: Sage Publications. Internet

Perret, B. (1996). Évaluation, gouvernance et procéduralisation de l’expertise. Intervención en el seminario “Las mutaciones contemporáneas del arte de gobernar”, organizado por la célula de Prospectiva de la Comisión Europea (Bruselas). Disponible en: http://perso.orange.fr/bernard.perret/eva-proc.htm

4. El análisis de las políticas públicas Steve Jacob y Christine Rothmayr

La evaluación de políticas o programas públicos se presenta por tradición como una práctica arraigada teórica y metodológicamente en muchas disciplinas, entre las que se encuentran la Economía, la Psicología y la Sociología. No obstante, su lugar de nacimiento exacto es más difícil de determinar, aun cuando algunos autores no vacilan en afirmar que “la ciencia política es probablemente el lugar de nacimiento de la evaluación” (Schneider, 1986, p. 222; la traducción es nuestra). En este capítulo no tenemos la pretensión de resolver de forma definitiva este debate, y nos centraremos más en la descripción de la relación que existe entre la evaluación y el análisis de las políticas públicas, un campo de la ciencia política actualmente en plena expansión. Varios elementos, en efecto, hacen que la evaluación y el análisis de políticas públicas se asemejen. En primer lugar, se trata de procesos centrados en el examen de la intervención del Estado, y en particular en los ministerios y organismos que lo componen, a través de sus acciones concretas y sus logros observables. Estos estudios abordan su tema desde el ángulo de un objeto político común que, a menudo, es el área de la actividad gubernamental (por ejemplo, el empleo, la economía, el medio ambiente, entre otros). En segundo lugar, la evaluación y el análisis de políticas alimentan el repertorio de conocimientos y saberes movilizados por los encargados de formular políticas y los gestores. Por lo tanto, se trata aquí de la constitución de un saber más orientado hacia la resolución de problemas que hacia la producción de conocimientos fundamentales. Los investigadores y los evaluadores desarrollan un lenguaje común con intención de “decir la verdad a los encargados de formular políticas”,1 lo que algunas veces los hace encontrarse en la posición de asesores del mandatario (Duran, 1997). En tercer lugar, los trabajos de evaluación y análisis de políticas conceden gran prioridad a las actuaciones en el estudio de los procesos, a fin de tener en cuenta las cuestiones 1 Nuestra traducción de la célebre frase de Wildavsky (1979): “Speaking truth to power”.

Enfoques y prácticas en la evaluación de programas

de poder, tal y como lo haremos nosotros en este capítulo. Por regla general, todos los actores que se encuentran en el ámbito de la política o del programa examinado son objeto de una atención especial, ya sea que pertenezcan al sector público (parlamentarios, ministros, gestores, entre otros) o al sector privado (grupos de interés, ONG, sociedad civil). Pero también existen elementos de diferencia entre la evaluación y el análisis de políticas, como lo demuestra el escepticismo de Brewer y deLeon (1983) con respecto a los trabajos evaluativos, cuyos estándares teóricos son elevados pero que, según estos autores, difícilmente se materializan. La principal diferencia radica en el juicio de valor emitido por el evaluador sobre la política o programa que estudia. A este respecto, Vincent Lemieux (2006a) considera que “el análisis de las políticas sirve para describir o explicar cómo se realizan las políticas en sus diferentes fases, mientras que la evaluación de programas pretende más bien juzgar si los programas se ajustan a valores prescritos o presuntos”. Y este juicio tiene consecuencias en relación con los programas, los encargados de formular políticas o los gestores en el seno de los ministerios y los organismos. Por esta razón “la evaluación puede considerarse como un proceso político, es decir, como un conjunto de relaciones de poder entre los actores involucrados” (Lemieux, 2006e). En efecto, la evaluación, como las otras etapas de las políticas públicas que describiremos aquí, no puede entenderse sin tener en cuenta el hecho de que es una actividad política basada en un enfoque metodológico riguroso. Para llegar a sus conclusiones y recomendaciones, y cuando estas son aceptadas, el evaluador pone en marcha un proceso de aprendizaje y de cambio tan importante como el programa evaluado. Volveremos un poco más adelante a las diferentes formas de utilización del proceso evaluativo, que no se circunscriben a la descripción de hechos, sino que posteriormente, ante los encargados de formular políticas y los gestores, tienen repercusiones que en algunos casos pueden ocasionar la suspensión del programa. Con el objetivo de establecer vínculos entre la evaluación y el análisis de las políticas públicas, procederemos a estructurar nuestra explicación en torno al ciclo de la política. Las tablas de análisis secuencial que se derivan de los trabajos de Lasswell (1956) y Jones (1970) permiten comparar una política o un programa público con un organismo vivo cuyo crecimiento está marcado por etapas sucesivas que van desde el nacimiento hasta la muerte o el renacimiento. Por consiguiente, una tabla secuencial agrupa, de forma ordenada, las etapas que estructuran el desarrollo de una política o de un programa público. Las diferentes etapas del ciclo de la política varían según los autores. En este capítulo nos centraremos en cinco etapas:

4. El análisis de las políticas públicas

1. La consideración de la aparición y la identificación de un problema, permite comprender cómo un problema privado se vuelve social y, por lo tanto, comprender los orígenes de una posible intervención pública a través del estudio de las controversias.

2. El establecimiento de la agenda es la etapa durante la cual un encargado de formular políticas (parlamentario, concejal, gestor), calificado de empresario político, se implica activamente en la promoción de los intereses que se han construido con anterioridad, y esto a fin de convencer de la pertinencia política de la acción del Estado en esa área. Esta participación a menudo da lugar a la movilización de actores, recursos y estrategias distintas (Cobb y Rochefort, 1993). 3. La formulación y la adopción de una política o de un programa implican la puesta en práctica y la apreciación de las diferentes opciones disponibles para resolver el problema que dio origen a la intervención pública.

4. La implementación se refiere a la aplicación de las decisiones adoptadas con anterioridad. Durante esta etapa, a veces es necesario hacer adaptaciones y ajustes para materializar las intenciones de los encargados de formular políticas (Pressman y Wildavsky, 1973). 5. La evaluación y la terminación se interrogan sobre la evolución y la sostenibilidad de las políticas y programas públicos. Dado que la evaluación no es un fin en sí misma, el estudio de la terminación permite observar la utilización de sus conclusiones y recomendaciones respecto al aprendizaje, la continuidad o la suspensión del programa, y el seguimiento que se le da (deLeon, 1987).

Figura 4.1. Las etapas del ciclo de la política pública Aparición e identificación del problema

Establecimiento de la agenda

Fuente: Adaptada de Muller, 2003, p. 24

Formulación y adopción de la política

Implementación

Evaluación

Terminación

Esta esquematización del ciclo de una política pública es una ficción, tanto para los analistas de políticas públicas como para los evaluadores. Los analistas saben que estas secuencias suelen intercalarse, superponerse e incluso confundirse

Enfoques y prácticas en la evaluación de programas

(Sabatier, 1997). Los evaluadores, por su parte, saben que la evaluación no interviene únicamente al final del ciclo de políticas con el fin de cerrarlo. La evaluación pretende producir un saber sobre el funcionamiento y los efectos de una política al evaluarla a la luz de diversos criterios, tales como la oportunidad, la pertinencia, la eficacia y la eficiencia. Estos conocimientos sirven para guiar el quehacer de la acción pública. Desde este punto de vista, y contrario a la visión sugerida por el análisis secuencial de las políticas, es ilusorio y artificial considerar que la evaluación solo se realiza después de la etapa de implementación. En su calidad de instrumento de control, es posible movilizar la evaluación durante cada una de las fases de una política o de un programa. De hecho, una evaluación ex ante puede alimentar las etapas de aparición de un problema, establecimiento de la agenda o formulación de una política; puesto que si se trata, por ejemplo, de grandes proyectos medioambientales o de infraestructura, sus resultados iluminan a los encargados de formular políticas sobre su viabilidad y los impactos que se prevén. En el momento de la implementación de una política, los responsables de formularla o los gestores públicos pueden encargar una evaluación concomitante con el fin de documentar el proceso de implementación y de realizar ajustes. Por último, tras varios años de implementación de una política, algunos desean identificar, medir y analizar los efectos de la acción pública a través de una evaluación ex post (el tipo de evaluación que con mayor frecuencia se menciona en la literatura). La literatura sobre la administración pública nos enseña que la evaluación no es solo un instrumento de control (por ejemplo, verificación, seguimiento, auditoría, entre otros), y no siempre es fácil distinguir estos instrumentos con precisión. De tal modo, con el auge del paradigma gerencial, centrado en los resultados, la evaluación se presenta más como un instrumento de gestión que como una herramienta de control (Segsworth, 2004). Sin embargo, el principal elemento que permite distinguir la evaluación de los demás instrumentos de control de la acción pública lo constituye la atención que presta a los efectos de una política o de un programa, es decir a los cambios (positivos o negativos, deseados o inesperados) generados ante los actores. Desde este punto de vista, los demás instrumentos de control no disponen de las herramientas metodológicas para identificar y aislar con precisión los efectos imputables a la intervención pública. Por último, la evaluación puede acarrear un cuestionamiento y por lo tanto un replanteamiento de la pertinencia o de la oportunidad de las decisiones previas. No obstante, a pesar de los límites tradicionalmente establecidos en contra de este enfoque secuencial, nos parece igualmente útil vincular esta esquematización con el proceso de evaluación. De hecho, nos parece apropiado utilizar este

4. El análisis de las políticas públicas

ciclo para analizar y comprender el proceso evaluativo. Esta deconstrucción analítica permite aislar los momentos clave del proceso y centrarse en las interacciones entre los diferentes actores de la evaluación (personas que la requieren, evaluadores y evaluados). Más allá de esta esquematización, también nos detendremos en las principales teorías de análisis de las políticas públicas que nos ayudan a entender mejor el desarrollo del proceso de evaluación. Con este fin, la literatura sobre el análisis de las políticas, enriquece la comprensión de la práctica evaluativa. En este capítulo, nos centraremos en el análisis de las políticas públicas para definir mejor la práctica de la evaluación y presentar las principales enseñanzas teóricas respecto a cada una de las fases definidas anteriormente. Esto nos permitirá poner de relieve los factores clave que los evaluadores deben tener en cuenta para superar los escollos en el proceso evaluativo. La justificación de la evaluación: aparición e identificación del problema

En una dimensión centrada en la resolución de problemas, la aparición de una política o de un programa es el resultado de una voluntad de cambio con objeto de mejorar la situación vivida por algunos miembros de la comunidad (por ejemplo, desempleo, delincuencia, contaminación, entre otros). Para esto, es indispensable que la situación problemática que enfrentan los presuntos beneficiarios de una intervención pública se tipifique como problema colectivo o público, es decir, que se la saque de la esfera confidencial o privada en la que se encuentra al principio (Garraud, 1990). La evaluación algunas veces está presente en esta visión “tradicional” de la aparición de una política, ya que suele alimentar esta primera etapa del ciclo de la política. En algunos casos, la evaluación llama la atención del público sobre un problema específico y, por lo tanto, resulta ser una de las posibles fuentes de información que permiten identificar un problema alrededor del cual una demanda o incluso una reivindicación social, podrán estructurarse en algún momento. En ausencia de esta movilización y de este reconocimiento social de la situación privada problemática, esta no se abordará políticamente y no dará lugar a una intervención pública (Knoepfel et al., 2001). En consecuencia, la intervención pública sería el resultado de un proceso estructurado en diferentes etapas: la identificación de un problema (naming), la designación de las causas y las responsabilidades (blaming) y la reivindicación de un cambio (claiming) (Cobb y Ross, 1997). Teniendo en cuenta todos estos factores, se entiende que la forma en que el debate se organiza influye considerablemente en las operaciones posteriores. Desde este punto de vista, los analistas de políticas observan comúnmente que la estructuración del debate orienta el registro de las soluciones al que luego recurrirán los encargados de formular políticas.

Enfoques y prácticas en la evaluación de programas

Una evaluación solo es posible si los actores manifiestan el deseo de realizarla. Sin embargo, la necesidad, y a veces incluso la urgencia, de hacer una evaluación es el resultado de la aparición de problemas graves en el funcionamiento de un programa o de la falta de implementación de una política, que se observan en forma de disfunción de la gestión pública. En este caso, la crisis se convierte en un indicador que muestra la urgencia de realizar una evaluación con objeto de alimentar el debate con ayuda de pruebas (evidence-based policy) o de silenciar una polémica o una controversia pública. A este respecto, los encargados de formular políticas o los gestores que deben hacer frente a una crisis insisten en la necesidad de esclarecer el fenómeno con transparencia (Jacob, 2006). La evaluación externa constituye una manera cómoda de hacerlo, ya que permite basarse en el análisis de un tercero (el evaluador) presentado como neutral, experto e imparcial. En otros casos, la realización de una evaluación es planeada por la misma persona encargada de formular políticas, quien puede adoptar una cláusula evaluativa. Las cláusulas de evaluación son disposiciones que el legislador inserta en una ley y que hacen que sea obligatorio realizar una evaluación en un plazo más o menos imperativo. La cláusula puede ser más o menos minuciosa: puede ir desde la simple intención de evaluación hasta la mención de las condiciones prácticas del proceso evaluativo. Estas cláusulas permiten a los evaluadores anticipar las expectativas del promotor y fomentan un trabajo preparatorio en materia de recopilación de datos, elaboración de instrumentos de medida y de seguimiento, y planificación del ejercicio. El tipo de razonamiento tiene consecuencias en los objetivos de la evaluación (en particular en la participación, la colaboración, e incluso la conflictividad) en todas las etapas siguientes: durante la definición del mandato, en el momento de la participación de los actores durante la realización de la evaluación y, por supuesto, durante su utilización, en el momento de hacer el seguimiento, las conclusiones y las recomendaciones. Si la evaluación es “impuesta”, se manifiesta como un instrumento de control ante los ojos de aquellos que son presentados como los responsables de la situación denunciada inicialmente. Tendrán miedo, desconfiarán del ejercicio e intentarán frenar su progresión. También pueden denunciar la parcialidad o la instrumentalización política de los resultados obtenidos. En conclusión, al término de esta primera etapa, es indispensable que el evaluador se pregunte sobre el origen de su solicitud (¿de dónde proviene?, ¿quién lo definió?) con el fin de anticipar la continuación del proceso.

4. El análisis de las políticas públicas

La solicitud de la evaluación: establecimiento de la agenda

Muchos autores consideran que la fase de establecimiento de la agenda es crucial para la formulación e implementación posteriores de las políticas y los programas públicos (Kingdon, 1984; Baumgartner y Jones, 1993). Sus explicaciones se basan en dos razones principales. En primer lugar, la fase de establecimiento de la agenda se presenta como un filtro que permite determinar cuáles son los temas que figurarán, o no, en la agenda política. Los analistas de políticas han demostrado que no basta con preguntarse cuáles son los actores que logran hacer aparecer un tema en la agenda política para entender este proceso. De hecho, los análisis se enriquecen cuando se tiene en cuenta a los actores que tienen el poder de impedir la inclusión de un problema en la agenda (Bachrach y Baratz, 1963). En segundo lugar, los analistas que se centran en esta etapa insisten en la importancia de estudiar la manera en que un problema o un tema es (re)configurado durante esta etapa del ciclo de la política. En esta fase, la definición y la traducción de un problema dependen de los intereses y valores de los actores involucrados, y repercuten en la definición de los objetivos de la política futura y en el tipo de soluciones que finalmente se adopten (Stone, 1989; Cobb y Rochefort, 1993). Estos trabajos pueden alimentar las reflexiones sobre la decisión de emprender o no un proceso evaluativo. Desde esta perspectiva, la solicitud de una evaluación no se reduce a sus aspectos “tecnocráticos”, sino que tiene también una dimensión política importante. En primer lugar, la decisión de evaluar un programa o de centrarse en una de sus dimensiones precisas está determinada por el cargo que ocupa la persona que puede llegar a encargar la evaluación y sus propios intereses, así como sus conocimientos sobre el programa en cuestión. En esta etapa se determina si esta evaluación responde a una necesidad general y se definen sus objetivos específicos. Las respuestas a las preguntas “¿para qué realizar una evaluación?” y “¿cuáles son los objetivos buscados por quien la encarga?”, dependen en gran medida de los actores que emprenden el ejercicio y de su capacidad de incluir la necesidad de una evaluación en la agenda administrativa. En una perspectiva pluralista, podemos imaginar que el “juego evaluativo” está abierto a todo el mundo (Dahl, 1961). Este punto de vista es reforzado además por los teóricos de la evaluación que abogan por la consideración de una gama de intereses más amplia (Patton, 2000; Fetterman, 2001) y que promueven la democratización del proceso evaluativo (House y Howe, 2000). Sin embargo, las responsabilidades y las prerrogativas no son las mismas para todos los actores involucrados. La capacidad de un actor de realizar o no una evaluación se ve influida por la manera en que la práctica se encuentra institucionalizada ante los órganos parlamentarios,

Enfoques y prácticas en la evaluación de programas

gubernamentales o administrativos (Jacob, 2005), o por la existencia más o menos sistematizada de cláusulas evaluativas. En la práctica, la decisión de realizar una evaluación proviene a menudo de los funcionarios responsables de la implementación de la política o del programa, de los administradores públicos o de las instituciones gubernamentales de verificación y de control (Segsworth, 2002). Los funcionarios de primera línea también pueden contribuir a crear conciencia acerca de la necesidad de evaluar una política o programa, aun si su influencia es limitada debido a que sus capacidades decisorias se encuentran poco desarrolladas. Cuando un programa o una política es objeto de controversia, ocurre que los encargados de formular políticas (parlamentarios, ministros, altos funcionarios), los grupos de interés o incluso los ciudadanos ejercen presión para que se realice una evaluación (Jacob, 2007, p. 185-190). No obstante, esto representa más una excepción que la regla. Por otra parte, los motivos que llevan a los actores a iniciar una evaluación no siempre son claros. En muchos casos, las razones legítimas coexisten con motivaciones más estratégicas, e incluso con intereses muy evidentes. Es también el caso en el proceso decisorio clásico, ya que como lo demuestra la literatura sobre el análisis de políticas, el hecho de resolver un problema no es la única explicación considerada para comprender las justificaciones que llevan a la elaboración de una nueva política. En este mismo orden de ideas, al observar la práctica evaluativa, constatamos que la mejora de un programa o de una política, el establecimiento de un proceso de aprendizaje organizacional, la transmisión de información a los encargados de formular políticas o el respeto de obligaciones evaluativas, no son las únicas motivaciones que impulsan a los actores a emprender este proceso. Los intereses ocultos aumentan los riesgos de instrumentalización de la evaluación. Entre ellos están el aplazamiento de una decisión, la legitimación de una decisión ya tomada, los intentos de apaciguar las resistencias en el seno de una administración, la mejora de la imagen de una unidad o de una organización y, por extensión, el fortalecimiento de su posición dentro del aparato administrativo (Weiss, 1998). Es evidente la importancia de que un evaluador externo conozca el contexto dentro del cual se tomó la decisión de iniciar una evaluación. Al responder a las preguntas: “¿cómo se llegó a esta decisión?”, y “¿ha habido resistencia, o incluso oposición a la voluntad de hacer una evaluación?”, el evaluador dispondrá de una información útil para la realización de su solicitud. Podrá adoptar un comportamiento adecuado, ya que será capaz de tomar decisiones fundadas en materia de consulta, participación o colaboración entre las distintas partes interesadas. Por su parte, los investigadores que se interesan más en la implementación de

4. El análisis de las políticas públicas

programas o políticas han puesto de manifiesto la necesidad de hacer referencia a estos factores contextuales para comprender mejor las posiciones ulteriores de los actores. Al responder a las preguntas: “¿cuáles son los actores que han definido el problema y propuesto soluciones?”, y “¿cuáles son los actores que han estado involucrados en el proceso o excluidos del mismo?”, es posible prever la manera en que se llevará a cabo la implementación de la política y el comportamiento de los actores asociados o no a esta etapa. Lo mismo vale para la evaluación, por supuesto. Esta es la razón por la cual el evaluador podría identificar y registrar sistemáticamente a todas las partes interesadas (stakeholders) directa o indirectamente afectadas por la política o el programa a evaluar. En este punto, es conveniente ir más allá de las apariencias y estudiar de forma meticulosa el conjunto de intereses que entrarán en juego durante la evaluación. De hecho, al identificar a las partes interesadas, sus aspiraciones y necesidades, el evaluador puede percibir las relaciones de poder a las que potencialmente deberá hacer frente. Esto le permitirá prever los posibles puntos de tensión o los momentos en que probablemente tenga que replantear las expectativas relativas a su trabajo. Estos pueden surgir desde el inicio de la evaluación, es decir, durante la definición de la solicitud, como lo veremos ahora. La definición de la evaluación: formulación y adopción de la política

El proceso decisorio ha llamado la atención de numerosos investigadores en análisis de políticas desde hace mucho tiempo. Se han propuesto varias teorías para explicar la manera en que los encargados de formular políticas elaboran y fundamentan sus decisiones. Hace más de medio siglo, Herbert Simon, considerando que el modelo del actor racional, el homo economicus, cuyas elecciones se basan en la maximización de sus propios intereses, no permitía comprender el proceso político, enriqueció el marco de análisis mediante la incorporación del concepto de racionalidad limitada (Simon, 1945). Desde esta perspectiva, la racionalidad perfecta no existe, ya que los conocimientos son incompletos y fragmentados: los actores no siempre prevén con precisión las consecuencias de sus acciones, y no son aptos para analizar por completo todos los aspectos de un problema. En estas condiciones, su capacidad de reflexión es limitada. Por lo tanto, hacen frente a los problemas y toman sus decisiones de manera fragmentada, no simultánea. Además, las rutinas y otras soluciones a las que ya han recurrido influyen en sus elecciones. En consecuencia, las decisiones adoptadas permiten satisfacer los objetivos buscados en lugar de maximizar los beneficios. Posteriormente, Lindblom (1979) rompió de manera aun más radical con la figura del encargado

Enfoques y prácticas en la evaluación de programas

de formular políticas racionales. Desde su punto de vista, la decisión política se caracteriza por el ‘incrementalismo’. Las decisiones no son el resultado de análisis planificados ni de reflexiones globales. Por el contrario, los actores analizan los problemas que enfrentan en relación con las soluciones disponibles; basan sus decisiones en aquello que existe realmente y proceden a hacer rápidas comparaciones con el fin de determinar la pertinencia de su adopción. De este modo, las políticas evolucionan de manera progresiva, como lo demuestran varios estudios que confirman el hecho de que las decisiones políticas se basan más en la gama de políticas existentes que en la innovación (Rose y Davies, 1993; Pierson, 2000). Los conceptos de cultura o de práctica evaluativa llaman la atención sobre el hecho de que los valores, las rutinas y los procedimientos de una unidad, un departamento o una organización (ministerio, agencia, entre otros) también pueden afectar seriamente la elaboración de una evaluación, que muchas veces se materializa en forma de pliego de condiciones. De hecho, al redactar una evaluación, los responsables de formular políticas públicas muchas veces reproducen los hábitos y procedimientos político-administrativos arraigados en su entorno. Como ya lo hemos mencionado, las características de los dispositivos de institucionalización de la práctica evaluativa influyen en este proceso y son fundamentales para entender los factores que afectan la preparación de una solicitud y, ulteriormente, los resultados del ejercicio de evaluación. En el mismo orden de ideas, el perfil del evaluador también tendrá repercusiones en la totalidad del ejercicio. En efecto, la evaluación realizada por un organismo encargado de una auditoría (contable y financiera) y de una evaluación no conducirá necesariamente a los mismos procedimientos, conclusiones y recomendaciones que una evaluación confiada a una unidad interna de evaluación o a un evaluador externo (Segsworth, 2002, 2005; Saint-Martin, 2004). En el transcurso de esta etapa es necesario que quien encarga la evaluación defina los objetivos de la misma. La literatura nos enseña que estos son numerosos, y que van desde la transmisión de información a los encargados de formular políticas, hasta la eliminación de un programa o una política, pasando por la implementación de un proceso de aprendizaje organizacional en el seno de la administración encargada de la política o el programa evaluado (Weiss, 1998). Así pues, las finalidades de la evaluación muchas veces están estrechamente relacionadas con las ambiciones perseguidas por quien, en última instancia, dispondrá de la información generada por este ejercicio. Además, la realización de una evaluación, en términos prácticos y concretos, requiere decisiones sobre el enfoque preferido (por ejemplo, guiado por las teorías participativa, realista, emancipadora, etc.), la elección del evaluador (en el caso de la evaluación externa) y los

4. El análisis de las políticas públicas

diseños de evaluación que se emplearán; es decir, sobre los métodos utilizados, la agenda y la planificación, el presupuesto asignado y la valorización deseada de los resultados. A pesar de las apariencias, estas decisiones distan mucho de ser neutrales o triviales, ya que tendrán una incidencia significativa sobre el desarrollo de la evaluación, así como sobre las conclusiones y recomendaciones a las que llegue el evaluador. El análisis de las políticas nos enseña que no todos los actores pueden organizarse de la misma manera con el fin de defender sus intereses y, que no todos tienen el mismo peso cuando se trata de ejercer presión o influir en el proceso decisorio (Bachrach y Baratz, 1970). Esto mismo vale para la definición de una evaluación. Los analistas de políticas consideran que al observar a los actores involucrados en el proceso de formulación de un programa o política, incluso en el juego de distribución de recursos que lo acompaña, es posible comprender sus resultados. Se trata de un factor interesante a tener en cuenta cuando se comparan los debates relativos a la participación de la sociedad civil en los procesos decisorios y de formulación de políticas en general (democracia deliberativa, panel de ciudadanos, etc.) (Dryzek, 1990) con los debates en torno al papel del evaluador y a la participación de las partes interesadas, en particular en la literatura sobre evaluación. En ambos casos, hay una tendencia que aboga a favor de un fortalecimiento de la participación y que fomenta la mayor inclusión de los actores en el proceso decisorio. Los defensores de este movimiento utilizan distintos argumentos para apoyar su punto de vista. Según ellos, la participación en el proceso decisorio aumenta la legitimidad de las decisiones tomadas y, por lo tanto, de la intervención pública, y facilita el éxito de la implementación en cuanto a la cooperación y el contenido, es decir, a la realización de los objetivos definidos con antelación. Esto mismo se aplica en el caso de la evaluación, en el que los defensores de un enfoque participativo destacan el hecho de que la realización de una evaluación puede guiarse por consideraciones sociales, que la participación favorece la utilización de los resultados generados y que la inclusión de una variedad más amplia o diferenciada de partes interesadas refuerza la calidad, la validez y la interpretación de los datos recogidos. Lo que en última instancia se refleja en las conclusiones y las recomendaciones formuladas por el evaluador. En resumen, si bien hay diferencias entre la definición de una solicitud de evaluación y la formulación de una política o un programa desde el punto de vista de la legitimidad democrática y la posterior rendición de cuentas, no se puede negar que sus contenidos se verán afectados por la naturaleza de los actores (involucrados, excluidos o que no desean participar en esta etapa, de forma voluntaria y a

Enfoques y prácticas en la evaluación de programas

veces estratégica) y por los recursos de los que disponen, y que afectan la distribución de las fuentes de influencia y de poder. Además, la definición de una solicitud de evaluación puede estar fuertemente condicionada por las prácticas existentes, las rutinas burocráticas y las formas de institucionalización de la práctica, como ya lo hemos visto. Sin embargo, no hay que pronunciarse prematuramente por un determinismo en el proceso evaluativo. Esto sería pasar por alto las dimensiones colaborativas de esta práctica. En efecto, a lo largo del proceso habrá momentos de discusión, e incluso a veces de negociación, entre el evaluador y quien encarga la evaluación, con el fin de conciliar las dimensiones científicas y políticas de este ejercicio. Dado que la evaluación es más un oficio (metodológicamente exigente) que una ciencia, permite hacer ajustes. Estos no son exclusivamente de orden político. De tal modo, paralelamente a la diplomacia, el evaluador debe ser pragmático para tener en cuenta las limitaciones que nunca dejan de surgir en el terreno de los recursos (temporales, presupuestarios, entre otros). Como lo veremos ahora, la realización de una evaluación es una alquimia entre lo científicamente deseable y lo materialmente factible. La realización de la evaluación: implementación

Los analistas de políticas consideran que la etapa de la implementación consiste en actuar con miras a la materialización de los objetivos de una política. Esta transformación de las intenciones en logros no es un proceso exento de problemas. No se trata de una simple transposición neutral e indiferente de la voluntad de los encargados de formular políticas, puesto que en esta fase se interpretan las directrices gubernamentales (Muller, 2003). A este respecto, las administraciones se han alejado paulatinamente de la concepción ‘weberiana’ según la cual la discrecionalidad administrativa es un obstáculo para la eficacia de la burocracia, la neutralidad y la previsión de la acción administrativa para cumplir con los requisitos de la nueva gestión pública. Para los partidarios de esta corriente, la discrecionalidad permite maximizar la eficacia de las administraciones, evitando la rigidez excesiva que caracteriza a menudo a las organizaciones burocráticas. Esta traducción de las decisiones políticas en efectos concretos depende muchas veces de sus creadores y de otras partes interesadas posteriormente (Lemieux, 1995; Bardach, 1977). Si puede haber múltiples interpretaciones y formulaciones de un problema, también puede haber reinterpretaciones en la etapa de la implementación. En este caso, los funcionarios públicos disponen de un margen de maniobra, e incluso de cierta flexibilidad para actuar (Goggin et al., 1990). Esta forma de discrecionalidad administrativa se encuentra en la evaluación: los actores involucrados en el ejercicio interpretan el mandato que se les ha confiado con el

4. El análisis de las políticas públicas

propósito de adaptarse a las circunstancias particulares (accesibilidad de los datos, aparición de una nueva cuestión evaluativa, entre otras). Como lo demuestra Bardach (1977), es importante tener en cuenta la interacción entre los actores. No todos se comprometen (o están involucrados) de la misma manera. El entusiasmo para colaborar o no en una evaluación es revelador de la percepción que tienen los actores de este ejercicio y, a veces, de su previsión de los resultados. Así pues, algunos intentarán orientar el proceso en beneficio propio, mientras que otros tratarán de obstaculizarlo para complicar su realización. Junto con esta actitud estratégicamente orientada, es importante precisar que la literatura sobre la evaluación presta gran atención a la participación de terceros. La evaluación que involucra a las partes interesadas (Cousins y Whitmore, 1998; Guba y Lincoln, 1989; Fetterman, 2001) permite tomar en consideración una variedad de puntos de vista y ofrecer a otros actores, que no pertenecen al tradicional dúo persona que encarga la evaluación-evaluador, una posibilidad de influir en el proceso evaluativo. Como ya lo hemos mencionado, la identificación previa de todas las partes interesadas, permite anticipar las situaciones que el evaluador podría enfrentar en su trabajo. Al comparar el cumplimiento de una solicitud de evaluación con la implementación de una política o un programa público, no es posible hacer caso omiso de los problemas que pueden surgir durante esta etapa y que la literatura sobre el análisis de políticas califica de “déficits de implementación” (Pressman y Wildavsky, 1973). Se trata de desfases, a veces considerables, que se producen entre las intenciones de los encargados de formular políticas y los efectos observados sobre el terreno. Es también posible que esto se produzca durante una evaluación que puede generar consecuencias inesperadas. En los estudios de análisis de políticas (Hogwood y Gunn, 1984; Sabatier, 1997), hemos encontrado algunos elementos que hay que tener en cuenta si se quiere reducir este riesgo y evitar que la evaluación se estanque, no tenga éxito o produzca efectos perversos. Se trata de ser conscientes de que ninguna coacción es insuperable, fomentar la participación de una autoridad reconocida, afianzar la evaluación en una teoría de la intervención válida, definir objetivos claros, obtener información pertinente y procurar que se establezca una coordinación perfecta entre los actores involucrados. Por último, es necesario garantizar durante esta etapa la coherencia de las acciones emprendidas. Por ejemplo, en el contexto de una evaluación a gran escala, es necesario asegurarse de que las distintas evaluaciones realizadas simultáneamente en varios sitios (evaluación de múltiples proyectos, múltiples sitios, entre otras) sean coherentes. De manera más clara, el evaluador puede en cada etapa preguntarse por el sentido de las acciones que realiza para garantizar que lo

Enfoques y prácticas en la evaluación de programas

conduzcan en la dirección deseada. Estas reflexiones pueden basarse en estándares de calidad, que son guías útiles para enmarcar el proceso de evaluación (por ejemplo, The Joint Committee on Standard for Educational Evaluation, Estándares de Evaluación de la Sociedad Suiza de Evaluación, SEVAL). Al respecto, consideramos los estándares como herramientas que permiten al evaluador situar su práctica sobre la base de normas o concepciones habituales y usuales en la materia, y no como un catecismo prescriptivo que hay que seguir al pie de la letra. De hecho, en muchos casos el evaluador es llevado a apartarse de esas normas para hacer frente a situaciones específicas o tener en cuenta el contexto, posiblemente cultural, en el que opera. En tales casos, deberá adaptar sus instrumentos de recolección o sus marcos analíticos. No obstante, nosotros ponemos especial énfasis en la prudencia a este respecto, pues el evaluador puede tener la sensación de estar innovando, cuando no está haciendo más que reinventar la rueda. Del conocimiento producido a la utilización de las conclusiones: terminación de la política

Para los evaluadores, la producción de conocimientos sobre el funcionamiento del Estado y sobre los efectos producidos por su intervención es un objetivo importante. Este hecho es tanto más pertinente por cuanto que las relaciones entre saber y decisión se fortalecen y el conocimiento especializado se hace popular. Aunque el conocimiento de lo público siempre ha desempeñado un papel importante en el proceso decisorio, las sociedades contemporáneas se enfrentan a una oferta de conocimientos cada vez más diversificada procedente, tanto de las universidades como de los grupos de interés. En este contexto, los encargados de formular políticas están obligados a justificar sus decisiones. Este imperativo de transparencia acrecienta la utilización de pruebas (evidence-based policy). La evaluación se convierte en una fuente de conocimientos especializados no desdeñable. Por esta razón, los evaluadores hacen hincapié en la necesidad del rigor metodológico de su enfoque, con el fin de no dar pie a la crítica y evitar el descrédito del trabajo realizado. No obstante, la producción de conocimientos evaluativos no es un fin en sí mismo, y algunos consideran que la parte más difícil empieza cuando se presenta el informe de evaluación. En efecto, los conocimientos producidos pueden explicar las decisiones posteriores con respecto a la política o el programa en cuestión. Al tener en cuenta las conclusiones y las recomendaciones formuladas en la evaluación, los encargados de formular políticas o los gestores pueden acordar el mantenimiento, la reformulación o la eliminación de determinada política o programa. No es necesario exagerar su significación para ver que este es uno de

4. El análisis de las políticas públicas

los principales retos del proceso evaluativo. La cuestión de la utilización de los conocimientos producidos por las evaluaciones es fundamental en la literatura (véase el capítulo 8). En cada una de las etapas que hemos mencionado, la evaluación puede generar procesos de aprendizaje que permiten modificar las metas y los medios de una política o de un programa público. Algunos consideran, además, que el criterio de validación de una evaluación no se limita únicamente a las cuestiones de rigor científico y metodológico, sino que también depende, en gran medida, de la utilización de los conocimientos producidos y de sus repercusiones sobre el terreno. No obstante, cabe señalar que es poco común, con excepción de algunos proyectos piloto, que una evaluación lleve a la eliminación de una política o de un programa. Los investigadores interesados en la evolución de las políticas en periodos más o menos largos, se basan en varios corpus teóricos que pueden ser movilizados por los evaluadores para ampliar el debate sobre la utilización de las conclusiones y las recomendaciones de una evaluación. En un eje que va desde la infrautilización de los resultados hasta su utilización, es posible movilizar dos enfoques principales: la dependencia del camino seguido (path dependency) y el incrementalismo. Según el primer enfoque, las rutas y trayectos en los que ha transitado la acción pública están tan arraigados que es difícil cambiar de dirección (particularmente en lo concerniente a costos políticos y financieros). En este contexto, las evaluaciones se utilizarán muy poco. Desde una perspectiva más centrada en el cambio, el incrementalismo nos enseña que los ajustes de los programas públicos son el resultado de un lento proceso de adaptación y de cambios marginales que pueden conducir progresivamente a una reestructuración importante de los programas. En este caso, las conclusiones y recomendaciones de una evaluación pueden facilitar la adopción de medidas de cambio en lo que se refiere a la implementación de un programa (por ejemplo, medios puestos a disposición, proceso), lo que puede llevar a una reestructuración importante de este último. Ya vimos que los debates y las enseñanzas teóricas del análisis de las políticas pueden enriquecer la comprensión del contexto político de la evaluación. Esto implica que no se debe reducir la práctica evaluativa a un ejercicio “tecnocrático”, sino que se puede percibir más bien como un elemento del proceso decisorio. Sin embargo, la literatura presentada en este capítulo nos recuerda que la evaluación no es la toma de decisiones. La gran variedad de teorías que nos permiten comprender el ciclo de la política en general y los momentos de la toma de decisiones en particular, nos recuerdan constantemente que una multitud de factores intervienen en estos procesos. El saber producido por la evaluación no es más que una piedra (quizás una piedra angular) en el edificio del proceso político.

Enfoques y prácticas en la evaluación de programas

Para profundizar en el tema

Alkin, M. C. (dir.). (2004). Evaluation Roots. Tracing Theorists’ Views and Influences. Thousand Oaks: Sage Publications.2 Kusek, J. Z. y Rist, R.C. (2006). Dix étapes pour mettre en place un système de suivi et d’évaluation. Montréal: Saint-Martin.3 Massardier, G. (2003). Politiques et action publique. Paris: Armand Colin.4 Internet

European Evaluation Society: http://europeanevaluation.org International Development Evaluation Association: www.ideas-int.org Virtual Library: The World Wide Evaluation Gateway: www.policy- evaluation.org

2 Al dar la palabra a los teóricos que hacen evolucionar la disciplina de la evaluación, Marvin Alkin ofrece una

recopilación de testimonios que refleja la diversidad de prácticas y dota al lector de las principales claves de com-

prensión que le permitirán orientarse y tomar decisiones fundamentadas en el momento de iniciar un proceso evaluativo.

3 Al apoyarse en una sólida experiencia de campo, adquirida en el Banco Mundial, los autores presentan las di-

ferentes etapas del proceso de seguimiento y evaluación. Los ejemplos proceden de programas de cooperación al desarrollo.

4 Una síntesis de la literatura sobre el análisis de la acción de los poderes públicos, dirigida principalmente a

los estudiantes que deseen familiarizarse con los conceptos básicos del análisis de políticas. Al centrarse en las

funciones de los principales actores involucrados en la gestión pública, el autor contribuye a la reflexión sobre los cambios del Estado contemporáneo.

5. La construcción del modelo lógico de un programa Nancy L. Porteous

El modelo de análisis lógico es una herramienta visual que pretende describir un programa en su lógica (o su teoría) fundamental. Pese a su diversidad, los programas tienen ciertos elementos comunes, y el modelo lógico es un diagrama de estos elementos que ilustra el contenido (¿qué?), los destinatarios (¿quién?) y la razón de ser (¿por qué?) del programa (véase la figura 5.1). Es esencial tener una visión común de la lógica de un programa antes de elaborar medidas de seguimiento y evaluación. Un modelo lógico puede aplicarse a los programas de todo tipo, y el alcance de estos puede ser amplio o restringido. Este tipo de modelo también se puede elaborar para la totalidad de actividades de un organismo. En el presente capítulo, el término “programa” tendrá un sentido lo suficientemente amplio como para incluir los proyectos, las políticas u otros tipos de iniciativa tales como las intervenciones, los proyectos piloto, los acontecimientos, los proceso, las campañas y los servicios. Un programa puede ser muy amplio o muy restringido, o también situarse en algún punto entre estos dos extremos. Básicamente, un programa consiste en una serie de actividades apoyadas por un conjunto de recursos y destinadas a lograr resultados específicos en el seno de grupos objetivo definidos.

Enfoques y prácticas en la evaluación de programas

Figura 5.1. Modelo de análisis lógico Componentes

¿Qué? Actividades

Grupos objetivo

Resultados

¿Quién?

¿Por qué?

Es útil definir aquí los términos que se utilizan en un modelo lógico para describir los principales elementos de un programa: ¿Qué? • •

Los componentes de un programa son una serie de actividades estrechamente relacionadas.

Las actividades son las medidas implementadas por el programa para lograr los resultados deseados.

¿Quién? •

Los grupos objetivo son los clientes —individuos, grupos, comunidades u organismos— a los que el programa está dirigido.

¿Por qué? •

Los resultados son los cambios que se esperan realizar a través del programa.

Elementos opcionales • • •

Los insumos son los recursos que permiten la realización de actividades.

Los productos son los servicios, los acontecimientos o los bienes producidos por las actividades.

Los factores contribuyentes representan aquello que explica que las actividades o los productos generan los resultados (por ejemplo, las reacciones de los participantes, como su interés o su satisfacción respecto al programa).

5. La construcción del modelo lógico de un programa

•

Los factores externos son elementos situados fuera de la esfera del programa, pero que ejercen una influencia sobre este último.

Hablaremos de todos estos elementos, pero refirámonos primero a los conceptos de escenificación de situaciones y contexto. Utilidad, beneficios y desafíos de los modelos lógicos

El modelo lógico de un programa constituye una herramienta importante de planificación y evaluación desde finales de la década de los ochenta. Este modelo permite recopilar y ver la información relativa a un programa con la ayuda de un esquema, con el fin de facilitar la comprensión de los retos del programa. Idealmente, la elaboración de un modelo lógico se efectúa en la etapa de planificación de un programa. Si no existe un modelo lógico, la elaboración de esta herramienta pasa a ser la primera etapa crucial en todo proceso de evaluación. Los modelos lógicos también son muy útiles para comunicar a las distintas partes interesadas los pormenores de un programa respecto a una multitud de objetivos. Un modelo lógico permite transmitir rápidamente la razón de ser de un programa en el momento de la iniciación y la formación del personal y los voluntarios (véase el cuadro 5.1). El proceso de elaboración de un modelo lógico tiene en sí mismo un valor inestimable. Los diálogos, las discusiones y a veces incluso los debates de los que va acompañado, permiten esclarecer conceptualizaciones nuevas o incluso otras posibles interpretaciones de un programa y de los objetivos que se supone deben lograr. Ya lo hemos dicho: un modelo lógico debidamente establecido constituye una herramienta muy útil de planificación y evaluación. El cuadro 5.2 expone sus ventajas. Cuadro 5.1. Posibilidades de utilización del modelo lógico de un programa Metas

Público objetivo

Planificación

Gestores, empleados, socios y otras partes interesadas, planificadores.

Solicitud de subvenciones

Proveedores de fondos.

Comunicación

Encargados de formular políticas, altos ejecutivos, colegas de otros organismos, socios del programa, representantes de los medios de comunicación, participantes.

Iniciación y formación

Nuevos empleados o voluntarios.

Seguimiento y evaluación

Especialistas en evaluación y partes interesadas.

Enfoques y prácticas en la evaluación de programas

Cuadro 5.2. Beneficios relacionados con la elaboración y la utilización de un modelo lógico de programa Proceso: elaborar un modelo lógico

Producto: disponer de un modelo lógico completo

Cerrar la brecha existente entre la planificación

Resumir los elementos principales de un programa

estratégica y la planificación operativa.

(de preferencia en una sola página).

Permitir a las partes interesadas discutir el

Explicar la teoría que sirve de base a las actividades

programa y ponerse de acuerdo en la descripción que

del programa, así como las hipótesis.

hacen de él. Abrir el camino a maneras diferentes o innovadoras

Describir con facilidad el programa a otras personas.

de elaborar un programa. Poner de relieve los puntos de entendimiento o las

Demostrar las relaciones causales entre las

percepciones que difieren con respecto al programa.

actividades y los resultados (por ejemplo, tal actividad debería producir tales resultados).

Explicar con claridad la diferencia entre las

Ayudar a determinar quién es responsable de tales

actividades y los resultados previstos.

resultados durante tal periodo.

Facilitar la identificación de cuestiones importantes

Contribuir a la elaboración de mediciones de eficacia

para la evaluación.

del programa que se puedan evaluar de manera continua.

• •

Pese a estas fortalezas, el modelo lógico también tiene algunas desventajas: Puede tomar tiempo.

Es solo una representación de la realidad. Un simple modelo: –– No se pueden estudiar todos los aspectos de un programa.

–– Se corre el riesgo de simplificar demasiado el programa, por ejemplo, al no ilustrar de forma adecuada su contexto y las influencias externas que actúan sobre él. –– Se corre el riesgo de transformar sistemas complejos en sistemas lineales.

Respecto a los modelos lógicos, Westley, Zimmerman y Patton (2006) hacen esta advertencia general: “las conceptualizaciones de este tipo presuponen un conocimiento previo del desarrollo exacto de una innovación. En entornos complejos y muy dinámicos, los ‘conocimientos previos’ no son posibles ni deseables, ya que pueden restringir la apertura y la flexibilidad” (p. 237; traducción de los autores). Los elementos de un modelo lógico

Los elementos esenciales de un modelo lógico son los componentes y las actividades relacionadas con ellos, los públicos objetivo y los resultados a corto, mediano

5. La construcción del modelo lógico de un programa

y largo plazo. En algunos casos, también puede ser útil incluir los elementos opcionales, que son los insumos, los productos y los factores contribuyentes. Insumos Componentes y actividades Productos Grupos objetivo Factores contribuyentes Resultados Componentes, actividades y grupos objetivo

Los componentes de un programa son conjuntos de actividades estrechamente relacionadas. Su número depende de la envergadura del programa y de la manera como las partes interesadas lo conceptualizan y administran. El modelo lógico aplicable a un programa de gran alcance podría incluir varios componentes, pero un programa pequeño puede tener uno solo. Por lo general, se hace referencia a ellos por medio de enunciados cortos, como en los ejemplos siguientes: •

Defensa de los derechos

•

Recaudación de fondos

• • • • • •

Desarrollo comunitario Educación pública Consulta

Intervención inmediata Servicio de referencia Formación

Consejo: centrarse en los temas o en los conjuntos de actividades. Se tratará algunas veces de grandes estrategias utilizadas o también de sectores de actividad o de servicios. Las actividades son las principales funciones o tareas que realiza el personal del programa, o también los servicios que él ofrece. Representan el medio de alcanzar los resultados previstos. Para ayudar a las partes interesadas a reflexionar al respecto, reúna todos los documentos relacionados con el programa. Puede ser una descripción de las actividades del programa, planes de trabajo o planes operativos.

• • • • • • • •

Enfoques y prácticas en la evaluación de programas

Se hace referencia a ellas mediante verbos de acción, como: Animar

Elaborar

Proporcionar Establecer Distribuir Formar

Identificar Apoyar

Consejo: evitar los aspectos administrativos del programa, tales como el servicio de nómina o las evaluaciones de rendimiento. Los grupos objetivo son los individuos, los grupos, los organismos y las comunidades a los que se destinan los servicios previstos por el programa; es decir, los clientes, los destinatarios, los beneficiarios, los consumidores, las poblaciones consideradas prioritarias o el público “objetivo” del programa. Pueden definirse en función de características sociodemográficas (edad, ingresos, empleo, situación geográfica, composición del hogar, educación, género, idioma, discapacidad, origen étnico u orientación sexual), o en función de la salud o del estatus social, de problemáticas específicas o de trastornos de comportamiento. Los grupos objetivo se definen por medio de descripciones breves: •

Mujeres aborígenes.

•

Nuevos inmigrantes, refugiados.

• • • •

Familias de bajos ingresos que viven en zonas rurales. Personas mayores que viven solas.

Personas sin hogar o en riesgo de llegar a serlo. Jóvenes de origen haitiano entre 14 y 17 años.

Consejo: dar pruebas de gran precisión mediante la combinación de varias características. Los resultados

Los resultados son los cambios que el programa debería producir en cada grupo objetivo, es decir, se refieren a los objetivos, las metas, las soluciones, los beneficios, los efectos o las consecuencias previstas de la implementación del programa.

5. La construcción del modelo lógico de un programa

Se trata de elegir la terminología que mejor se ajuste al contexto de cada programa. No obstante, los resultados se centran en los efectos del mismo más que en las actividades que él conlleva. Se trata, por lo tanto, de la finalidad del programa y no del método o proceso utilizado. Los resultados responden a la pregunta: “¿y entonces?”. El número de resultados varía según el alcance y la complejidad del programa, y en función de sus objetivos y su público objetivo. Al implementar un programa, generalmente se esperan resultados positivos. En cambio, mientras que algunos programas pretenden realizar o mantener un cambio positivo, otros contribuyen más bien a que la situación de los participantes se deteriore con menor rapidez. Es importante mostrar la secuencia de los cambios deseados por el grupo objetivo. Por lo general, no se obtiene una solución única resultante de la suma de las actividades y los insumos de un programa, sino más bien una serie de resultados, cada uno de los cuales conduce al siguiente. Se puede expresar esta secuencia por frases como: “si se produce este resultado, entonces tal otro resultado debería derivar de él, acarreando otro resultado”. De ahí que sea posible hablar de una jerarquía o una secuencia de resultados. Cuadro 5.3. Secuencia típica de resultados Resultados a corto plazo

Cambios relativos al grado de sensibilización ante una problemática, los conocimientos, las aptitudes o las competencia.

Resultados a mediano plazo

Cambios de hábitos o comportamientos.

Resultados a largo plazo

Cambios en las condiciones sociales, económicas y ambientales, o relacionados con la salud.

Los resultados a corto plazo son los efectos directos de un programa en los participantes; por ejemplo, los cambios relativos al grado de sensibilización con respecto a una cuestión o un problema, al aumento de los conocimientos, a un cambio de actitud o al perfeccionamiento de competencias. Los resultados a mediano plazo se traducen en un cambio en las costumbres, en los comportamientos o en las aptitudes. Los resultados a largo plazo son las consecuencias sociales, económicas o ambientales del programa, así como sus repercusiones en toda la comunidad. Pero, independiente del programa, es muy probable que estos resultados a largo plazo sean poco numerosos. Estos tres niveles de resultados se articulan, entonces, de manera secuencial. Por ejemplo, si un programa de competencias parentales ofrece sesiones grupales concebidas para padres jóvenes con niños en edad preescolar, entonces esos padres podrán aumentar sus conocimientos y sus habilidades para cuidar a sus

Enfoques y prácticas en la evaluación de programas

hijos. Si los padres profundizan sus conocimientos y habilidades a fin de atender mejor a sus hijos, entonces tendrán comportamientos más apropiados en su calidad de padres; sabrán cómo preparar comidas equilibradas, cómo proporcionar un cuidado adecuado a los niños enfermos, cómo comunicarse de manera eficaz, cómo fijar límites, cómo abordar las cuestiones relacionadas con la sexualidad o estimular la autoestima de sus hijos. Figura 5.2. Modelo lógico de un programa de competencias parentales Componentes

Actividades

Educación en materia de salud

• Promover discusiones a partir de módulos redactados sobre temas relacionados con las competencias parentales. • Distribuir folletos sobre diversos temas. • Distribuir folletos sobre otros recursos comunitarios.

Grupos objetivo

Resultados a corto plazo

Especialmente, padres de niños en edades comprendidas entre los 2 y los 4 años.

• • • •

Los padres que participen tendrán: Un mayor conocimiento respecto a cómo cuidar a un niño. Un apoyo mayor y constante de sus pares. Mayor conocimiento de los recursos y los servicios ofrecidos. Mejores competencias parentales.

Resultados a mediano plazo

Aumento del número de padres que adopten comportamientos parentales apropiados.

Resultados a largo plazo

Aumento del número de niños capaces de alcanzar su nivel óptimo de desarrollo físico, mental, emocional y social.

Si los padres son capaces de abordar su papel como “modelos” a imitar por sus hijos, entonces ellos deberían estar en condiciones de alcanzar un nivel óptimo en términos de desarrollo físico, mental, emocional y social. En otras palabras, sus hijos serán más sanos. Cabe señalar que las actividades de un programa de este tipo están destinadas a los padres. Son ellos quienes conforman el grupo objetivo, el de los destinatarios de los servicios. No obstante, sus hijos son, en última instancia, los beneficiarios. Por esta razón es importante especificar en el enunciado de los resultados quién se beneficia de los cambios inducidos por cada uno de estos resultados. La terminología utilizada para describir los resultados a corto, mediano y largo plazo varía según los organismos y los sectores. Reiterémoslo: es importante elegir la terminología que mejor se ajuste al contexto del estudio.

5. La construcción del modelo lógico de un programa Cuadro 5.4. Ejemplos de terminologías para secuencias de resultados Bibliografía

Gobierno de Canadá

Resultados a corto plazo

Resultados inmediatos (o directos) Resultados

Resultados a mediano plazo Resultados a largo plazo

Resultados intermedios (o indirectos) Impactos

Resultados finales (o últimos)

La distinción entre los resultados a corto, mediano y largo plazo atañe más a la secuencia que a la duración. La expresión corto plazo no equivale necesariamente a un mes, y hablar de largo plazo no siempre significa cinco años. Todo depende del programa y sus objetivos. Por ejemplo, se podrían requerir cerca de 25 años para ver los resultados de un programa multiestratégico destinado a contrarrestar el consumo de tabaco. Por el contrario, los efectos a largo plazo de un programa de inmunización destinado a reducir la tasa de enfermedades contagiosas se manifestarían mucho más rápido. Los elementos opcionales de un modelo lógico

Los insumos son los recursos que permiten implementar las actividades de un programa. Entre estos figuran los recursos financieros (la entrada de efectivo, el presupuesto, los fondos), los recursos humanos (el personal, los voluntarios, los expertos técnicos), los recursos físicos (las instalaciones) o los recursos materiales (el equipo y los materiales). Los productos son servicios, eventos o bienes producidos por las actividades de los programas para los grupos objetivo. Son tangibles y cuantificables. Los factores contribuyentes representan aquello que lleva a las actividades o los productos a alcanzar los resultados a corto plazo. La participación de un grupo objetivo en un programa es un buen ejemplo de un factor contribuyente típico. La reacción de los participantes en relación con el programa es otro ejemplo de esto. ¿Están los participantes interesados, entusiasmados? ¿Están satisfechos? Es poco probable que una actividad o un producto generen a corto plazo los resultados deseados si los participantes no están satisfechos o no encuentran ningún interés en ellos. No obstante, el interés y la satisfacción no son los objetivos buscados; son más bien los medios por los cuales se pueden alcanzar los resultados. Los factores externos son elementos situados fuera de la esfera del programa, pero que ejercen una influencia sobre él. A manera de ejemplo, pensemos en cambios en la situación política o económica, en una agitación social, en los medios de comunicación, en acontecimientos imprevistos, como epidemias o desastres

Enfoques y prácticas en la evaluación de programas

naturales, entre otros. Estos factores externos ilustran la complejidad potencial de los contextos de los programas. Influencia y responsabilidad

Cuanto más descendemos en el esquema de un modelo lógico, menor es la influencia que ejerce un programa en el logro real de sus resultados. En otras palabras, al pasar de los insumos a los productos, es cada vez más probable que intervengan fuerzas externas al programa. Steve Montague (2011), de la Red de Gestión del Desempeño, distingue cuatro niveles de control o influencia. 1. Control directo. Los programas son responsables de la gestión de su presupuesto y de las actividades encaminadas a producir los resultados. Aunque haya cambios en el entorno de un programa, incluyendo la reasignación de recursos, los gestores y el personal de un programa, deben “controlar” los aspectos operacionales del mismo, en particular las actividades y los productos.

2. Influencia directa. Los programas influyen en el logro real de los resultados, pero no pueden controlar algunos elementos, como el hecho de unirse o no a los grupos objetivo, sus reacciones ante las actividades, o el hecho de observar cambios inmediatos como consecuencia de su participación en los programas. La influencia de los programas, en tales casos, se denomina directa: los equipos de los programas adaptan intencionalmente sus actividades con miras a satisfacer las necesidades especiales de los grupos objetivo.

3. Influencia indirecta o concurrente. Cuando se trata de resultados a mediano y a largo plazo la influencia es, en el mejor de los casos, indirecta. Los programas, así como todos los demás factores relacionados con los participantes en el programa, pueden ayudar a crear cambios en sus hábitos o su comportamiento. 4. Fuera de control o de influencia. Numerosos factores externos intervienen en la vida de los participantes en un programa e influyen en su manera de participar y de reaccionar. Aunque los programas prevean y reconozcan estos factores, por lo general no pueden ni controlarlos ni influir sobre ellos.

El cuadro 5.5 ilustra el grado de influencia que normalmente se asocia con cada elemento de un programa. A medida que el grado de control o de influencia disminuye, el nivel de responsabilidad que normalmente se espera de los gestores de programas y de sus equipos disminuye.

5. La construcción del modelo lógico de un programa

Al añadir círculos concéntricos alrededor del modelo lógico, se llega a ilustrar los grados decrecientes de influencia sobre la secuencia de los resultados. A manera de ejemplo, veamos el caso del Centro de Prevención y Control de las Enfermedades Crónicas, que proviene de la Agencia de la Salud Pública de Canadá.

Cuadro 5.5. Grados de influencia de los elementos de un programa y niveles de responsabilidad esperada Grado de control o de influencia

Elementos del programa

Nivel de responsabilidad imputado al programa

Insumos: recursos que apoyan las actividades. Control directo

Componentes y actividades relacionadas: logros, servicios prestados.

Alto

Productos: bienes, servicios o eventos. Grupos objetivo: individuos, grupos o comunidades. Influencia directa

Factores contribuyentes: participación, reacciones. Moderado Resultados a corto plazo: cambios relativos al nivel de sensibilización, a los conocimientos, a las aptitudes o a las competencias.

Influencia indirecta o concurrente

Resultados a mediano plazo: cambios relativos a los hábitos y al comportamiento. Bajo Resultados a largo plazo: cambios en las condiciones sociales, económicas, ambientales o sanitarias. Factores externos: cambios en la situación política o

Fuera de control o de influencia

económica, agitación social, medios de comunicación, acontecimientos imprevistos tales como epidemias o

Ninguno

desastres naturales.

La figura 5.3 representa un modelo lógico de nivel alto que solo se refiere a los resultados atribuibles a los cuatro componentes principales del organismo. A partir de aquí, se puede establecer un modelo lógico más detallado que incluya subcomponentes, actividades, productos y resultados a corto y mediano plazo más precisos y que correspondan a cada uno de los componentes. Se trata de un enfoque jerárquico cuyo propósito es crear modelos lógicos con diferentes niveles de detalle según los destinatarios y los objetivos de los programas.

Enfoques y prácticas en la evaluación de programas

Figura 5.3. Modelo lógico del Centro de Prevención y Control de las Enfermedades Crónicas LEYENDA Control Influencia directa Influencia concurrente

eraz Lid

go fed

COMPONENTES DEL PROGRAMA

rdinación y plataforma de desarrollo estratég ico de

Desarrollo e intercambio de conocimientos

Seguimiento

RESULTADOS A CORTO PLAZO

RESULTADOS A MEDIANO PLAZO

eral, coo

polí tica s

Programación comunitaria

Compromiso interorganizacional, inter e intrasectorial y multijurisdiccional mejorado.

-Capacidad organizacional mejorada para el seguimiento y el desarrollo de los conocimientos. -Mayor capacidad de los profesionales de la salud.

Capacidad y acción comunitarias fortalecidas.

Capacidad individual mejorada. Redes de apoyo social mejoradas.

OTROS FACTORES

OTROS FACTORES -Políticas públicas más sanas. -Sistemas de respuesta integrados basados en la evidencia.

RESULTADOS A LARGO PLAZO

-Reducción de los factores de riesgo y de las condiciones en los grupos de alto riesgo. -Detección más precoz de las enfermedades crónicas. -Mejor gestión para el control de las enfermedades crónicas. -Disminución de la proporción de canadienses que desarrollan una enfermedad crónica. -Mantenimiento y mejora de la calidad de vida, menos complicaciones y muertes prematuras.

OTROS FACTORES

OTROS FACTORES -Disminución de la carga personal, social y económica de la enfermedad crónica para los individuos y para la sociedad.

La elaboración de un modelo lógico

¿Quién debería participar? Los evaluadores procedían prácticamente solos a la elaboración de un modelo lógico como punto de partida del proceso de evaluación. Confiaban en la documentación existente sobre el programa y en unas pocas entrevistas con los principales

5. La construcción del modelo lógico de un programa

miembros del personal. Hoy en día, es mucho más común, e incluso recomendable, fomentar la participación de las partes interesadas en el programa en la elaboración de los modelos lógicos. En muchos casos, el proceso de elaboración de un modelo lógico es tan útil como el propio modelo lógico; y esto vale tanto para los interesados en el programa como para los evaluadores. Hay varias maneras de involucrar a las partes interesadas en la elaboración de un modelo lógico. El método a privilegiar depende de las relaciones entre las partes interesadas, la complejidad del programa, el plazo disponible y las aptitudes del evaluador como moderador. Se ofrecen tres grandes opciones: 1. Preparar una propuesta para iniciar la discusión con las partes interesadas (así se puede ganar tiempo, pero los participantes podrían tener una menor apropiación de la propuesta).

2. Partir de cero con todo el grupo (los participantes se involucran más, pero se requiere más tiempo).

3. Pedir a los subgrupos elaborar propuestas sobre los diferentes elementos del programa (así se puede lograr un equilibrio entre la participación del grupo y el tiempo de ejecución necesario).

Cualquiera que sea el método utilizado, es necesario pedir a los principales participantes que comprueben la exactitud de los trabajos, reconozcan la necesidad de impugnar o cuestionar la lógica del programa, y lleguen a un acuerdo sobre el modelo lógico establecido antes de proceder con la evaluación. La elaboración de un modelo lógico es un proceso reiterativo. Sin duda habrá que hacer varias propuestas antes de llegar a la versión final. Basta con hacer hincapié en los beneficios del programa y no preocuparse por presentar el modelo lógico perfecto desde el principio. El evaluador debería estimular el debate entre las partes interesadas si se ve enfrentado a perspectivas muy divergentes en cuanto a la forma en que el programa debería traducirse en el marco del modelo lógico. Debería esforzarse por entender las hipótesis, los valores y los prejuicios de las partes interesadas y tratar de encontrar una vía de entendimiento. Si es imposible llegar a un consenso, es necesario determinar si todas las partes interesadas pueden al menos aceptar una versión determinada del modelo lógico. En última instancia, es posible utilizar más de un modelo lógico para tener en cuenta todos los elementos principales del programa en el momento de la planificación y la determinación de los temas y los indicadores de la evaluación. A veces son necesarios varios intentos antes de llegar a un modelo reducido a su más simple expresión. Puede ser útil modificar el orden de los componentes

Enfoques y prácticas en la evaluación de programas

o de los grupos objetivo para atenuar el “efecto espagueti”, un enmarañamiento que reduce considerablemente el impacto visual del modelo y que no permite comprender la lógica del programa. ¿Por dónde empezar?

No hay puntos de partida buenos o malos. Todo depende de la participación de cada uno en el programa y de la posición que ocupa en él. Los ejecutores de primera línea normalmente consideran que es más fácil comenzar por las actividades y los grupos objetivo, mientras que los gestores por lo general prefieren empezar por los resultados previstos. Sin embargo, la decisión puede depender de la etapa de desarrollo del programa. En el caso de los nuevos programas, a menudo es más conveniente comenzar por los resultados esperados (por ejemplo preguntarse qué cambios se esperan obtener) para luego examinar los medios; mientras que si se trata de programas ya bien establecidos, es más natural definir primero las actividades (como saber qué hace el programa) antes de evaluar los efectos. En el caso de los programas establecidos, es preciso consultar toda la documentación disponible, incluyendo: •

Los planes estratégicos del organismo (su visión, su misión, su mandato y sus valores).

•

Los planes operativos, presupuestarios y de ejecución relativos al programa.

• • • •

Los organigramas.

El material de iniciación y de formación del personal.

El material publicitario producido para el programa (folletos y circulares). Los informes de evaluación de los comités anteriores, entre otros.

Siempre es preferible concentrarse en la forma en que el programa funciona de facto, y no en la manera en que ha sido concebido, en su funcionamiento anterior o en su desarrollo ideal. En el caso de los nuevos programas, generalmente se hace referencia a: •

Las evaluaciones de las necesidades y las investigaciones preliminares realizadas para el programa.

•

Los informes de las deliberaciones de las partes interesadas sobre el tema objeto de estudio.

•

Las descripciones o los informes de evaluación de programas similares ofrecidos por otros organismos.

5. La construcción del modelo lógico de un programa

El formato y el sentido del desarrollo Hay innumerables guías y manuales sobre los modelos lógicos, así como múltiples términos y formatos. Es preciso evitar enfocarse en esto, y más bien centrarse en la comprensión de los modelos lógicos y en elegir el enfoque que mejor se ajuste al contexto del programa a evaluar. Es importante utilizar el vocabulario y los métodos empleados por cada organismo o por varios organismos que comparten regularmente información sobre sus programas. Algunos modelos se presentan en forma de tablas o de matrices, pero las tablas difícilmente reflejan las supuestas relaciones de causa y efecto entre las actividades y los resultados. Por consiguiente, se recomienda mucho alentar a los equipos asociados a los programas a dibujar un esquema del modelo lógico de su programa. Una representación visual tiene siempre un impacto importante. El modo tradicional de elaboración de modelos lógicos consiste en la utilización de cuadros conectados por flechas horizontales o verticales (véase la figura 5.1). En un modelo lógico vertical, se encuentran las actividades en la parte superior de la página y los resultados en la parte inferior, o viceversa. En el caso de un modelo horizontal, las actividades pueden situarse a la derecha y los resultados a la izquierda, o viceversa. Figura 5.4. Dos formatos de modelos lógicos Actividades

Enfoques horizontales Grupos objetivo Resultados o

Resultados

Grupos objetivo

Enfoques verticales Resultados Actividades Grupos objetivo

Actividades

Resultados

Grupos objetivo Actividades

Se pueden utilizar diversos programas informáticos para dibujar el modelo lógico definitivo. Los equipos de los programas podrían utilizar con mayor facilidad programas informáticos especializados para la creación de cuadros y diagramas o la elaboración de procesos, pero es posible que no hagan uso de ellos con mucha frecuencia. Las aplicaciones de automatización de oficinas que se utilizan para la producción de presentaciones serán, sin duda, más accesibles. Algunos utilizan programas procesadores de texto o de hojas de cálculo, pero estos últimos pueden ser de uso complejo. En algunas situaciones es posible que el proceso de elaboración del modelo lógico y su formato deba ser revisado y adaptado. Michael Quinn Patton recuerda que: En los grupos culturales en los que la tradición oral se encuentra muy presente, como es el caso de los pueblos indígenas de América del Norte (…) el lenguaje y el método utilizados por los evaluadores para establecer modelos lógicos pueden

100 Enfoques y prácticas en la evaluación de programas resultar muy poco atractivos. Los modelos lógicos son normalmente lineales y rígidos, y el vocabulario teórico es a veces intimidante. En lugar de ello, es posible adaptar el modelo lógico en función de los modos de comunicación culturalmente preferibles, a fin de desarrollar los conocimientos y las destrezas de la población (…). [Se puede así] utilizar el guión gráfico, que permite organizar los relatos en una secuencia de imágenes, en lugar de recurrir a las flechas y los cuadros preferidos por los diseñadores de organigramas. (Patton, 2002; la traducción es nuestra.) La evaluación de los modelos lógicos

La representación de un programa no es ni buena ni mala en sí misma, pero algunas representaciones son mucho más fiables en el plano teórico. Se trata de lograr que los gestores y el personal de los programas se cuestionen la lógica que sustenta sus programas y justifiquen sus relaciones subyacentes de causa y efecto con la ayuda de elementos probatorios extraídos de la literatura. He aquí una lista de preguntas que se puede utilizar para evaluar los modelos lógicos. Si la respuesta a alguna de estas preguntas es negativa, las partes interesadas deberían tomarse un tiempo para replantearse el programa y su modelo lógico. Cuadro 5.6. Lista de verificación para la evaluación de un modelo lógico Pertinencia y realismo

• ¿Responden las actividades y los resultados a una necesidad manifiesta dentro del grupo objetivo? • ¿Son los recursos suficientes para llevar a cabo las actividades del programa? • ¿Se han tomado en cuenta los factores externos, incluidos los imprevistos? Precisiones suficientes • ¿Están todos los elementos claramente enunciados? • ¿Se incluyen todas las actividades, todos los grupos objetivo y todos los resultados previsibles? • ¿Hay un documento escrito que acompañe el elemento visual? Exactitud • ¿Hay errores u omisiones? • ¿Son los resultados registrados los verdaderos, y no productos o actividades? • ¿Todos los resultados anuncian un cambio proyectado? • ¿Se han tenido en cuenta los puntos de vista de las principales partes interesadas? • ¿Las partes interesadas se sienten cómodas con el modelo lógico?

5. La construcción del modelo lógico de un programa

101

Lógica • ¿Hay vacíos? Es decir, ¿conducen todos los componentes a uno o varios resultados a través de actividades y grupos objetivo? • ¿Es lógica la secuencia de resultados? ¿Es razonable prever que las actividades del programa conducirán realmente a los resultados esperados? En otras palabras, ¿son las relaciones causales plausibles y están corroboradas por la documentación, la experiencia del equipo del programa o la de otras personas a través de la provisión de programas similares? Si dirige usted tales actividades hacia tales grupos objetivo, ¿es razonable prever la obtención de tales resultados? • ¿Están los resultados del programa en armonía con la visión, la misión, los principios y el plan estratégico a largo plazo del organismo? • ¿Se podrán medir los resultados? • ¿El equipo del programa se siente cómodo para aceptar la responsabilidad de los resultados a corto plazo? Simplicidad visual • ¿Ocupa el modelo lógico una sola página? • ¿El modelo lógico se lee con facilidad al darle un vistazo? • ¿Se evitó la multiplicación excesiva de casillas o un enmarañamiento tipo “espagueti”? Fuente: Porteous et al., 2002; Poole et al. (2000). Evaluating performance measurement systems in nonprofit agencies: The Program Accountability Quality Scale (PAQS). American Journal of Evaluation, 21(1), 15-26.

El modelo lógico es una herramienta muy útil para la planificación y la evaluación. En efecto, es importante delimitar bien la teoría de un programa antes de comenzar a medir su eficacia y su rendimiento. La flexibilidad del modelo lógico, tanto en términos de terminología como de la gran diversidad de formatos que es posible emplear, permite adaptarlo a cualquier programa, independientemente de su alcance.

Para profundizar en el tema

Porteous, N. L., B. J. Sheldrick y P. J. Stewart. (1997). Trousse d’évaluation des programmes, Ottawa, Servicio sanitario de Ottawa-Carleton.1 Porteous, N. L., B. J. Sheldrick y P. J. Stewart. (2002). “Présentation des modèles logiques aux équipes de projet pour faciliter le processus d’apprentissage”, Revue canadienne d’évaluation de programmes, Edición especial, vol. 17, Nº 3, pp. 113-141.

1 Una guía que muestra, paso a paso, cómo elaborar un modelo lógico con la ayuda de hojas de trabajo y ejemplos,

así como de un artículo sobre la enseñanza de esta técnica. Pedidos en línea: www.ottawa.ca/residents/funding/ toolkit/index_fr.html.

102 Enfoques y prácticas en la evaluación de programas

Internet

El Centro de Control de Enfermedades (Disease Control) de Estados Unidos produjo una buena guía para la elaboración y utilización de los modelos lógicos: www. cdc.gov/DHDSP/state_ program/evaluation_guides/logic_model.htm La Fundación W. K. Kellogg publicó en 2002 un documento muy completo titulado: Using Logic Models to Bring Together Planning, Evaluation and Action: Logic Model Development Guide: www.wkkf.org/Pubs/Tools/Evaluation/Pub3669.pdf Promoción Salud Suiza (Promotion Santé Suisse) elaboró un modelo de clasificación de resultados que constituye un recurso útil para la creación de modelos lógicos de programas de salud pública: www.gesundheitsfoerderung.ch/common/files/ knowhow/tools/N107713_Ergebnismodell_fr.pdf La Secretaría del Consejo del Tesoro de Canadá ofrece una herramienta en línea sobre la gestión basada en resultados (GBR). El segundo módulo se centra en la descripción de un programa, una política o un proyecto y en la elaboración del modelo lógico conexo: www.tbs-sct.gc.ca/eval/tools_outils/RBM_GAR_cour/ Enh/module_02/module_02_f.asp La Unidad de Desarrollo y Evaluación de programas del Programa de Extensión Cooperativa de la Universidad de Wisconsin cuenta con un excelente sitio web sobre los modelos lógicos, donde se encuentra un módulo de auto-información, hojas de trabajo, una bibliografía y varios ejemplos:: www.uwex.edu/ ces/ pdande/evaluation/evallogicmodel.html

6. Atribución y causalidad de los efectos Robert R. Haccoun y Pierre McDuff

Preocupado por el hecho de que la transmisión de enfermedades graves como el VIH y la hepatitis B y C se ve favorecida por el intercambio de jeringas contaminadas, un importante municipio canadiense decide autorizar y financiar un programa de intercambio de jeringas destinado a los heroinómanos. Una evaluación realizada tras la implementación de este programa muestra que la incidencia de nuevos casos de infección (VIH y hepatitis) es estadísticamente menor de lo que era antes. ¡Algo ha cambiado! Pero, ¿podemos concluir de forma inequívoca que este programa de intercambio es la causa de esta disminución y que, por lo tanto, es un “éxito”? ¿Deberían otras ciudades seguir este ejemplo? Las respuestas a estas preguntas y la certeza con la que podemos expresarlas dependen principalmente de los procesos y los procedimientos que se han implementado para evaluar este programa. Entre estos procesos, la elección de los diseños de evaluación, la constitución del grupo de control y las amenazas a la validez interna y externa son elementos importantes de la atribución causal y se abordarán con mayor detalle en este capítulo. Aunque exista una amplia gama de técnicas de evaluación, todas comparten un cierto número de características, en particular aquellas que involucran personas: •

• •

La medición de al menos un fenómeno que lógicamente debería ser influenciado (la variable dependiente) por el tratamiento o la intervención (la variable independiente).

El estudio de uno o varios grupos de personas que son objeto de la intervención, el tratamiento o el programa y que participan en él o ella. Al menos una recopilación de esta información. Estas recopilaciones se organizan de una manera precisa que denominamos “diseño de evaluación”. Estos diseños pueden ser muy simples o muy complejos, y la elección de uno de ellos depende del grado de precisión y del nivel de inferencia requeridos, así como de las posibilidades para la realización concreta de la evaluación.

104 Enfoques y prácticas en la evaluación de programas

•

Algunos diseños no permiten hacer más que una simple descripción de los resultados, mientras que otros pueden proporcionar información sobre la causa (o las causas) que llevó (o llevaron) a estos resultados. En este capítulo nos centraremos en las evaluaciones causales. Por último, toda evaluación exige un análisis, cuantitativo o cualitativo, de la información.

La diferencia entre la evaluación y la evaluación causal

Si bien la evaluación de programas permite cuantificar un resultado (por ejemplo, ¿ha disminuido realmente la tasa de infecciones?) y calificarlo (¿es esta diferencia grande o pequeña?), la evaluación causal, por su parte, se utiliza para estimar la causa probable de este resultado (¿es el programa de intercambio de jeringas la causa de tal resultado?). En la evaluación causal, la causa se denomina variable independiente, mientras que el efecto recibe el nombre de variable dependiente. De tal modo, cuando una bola de billar blanca choca con una negra, la trayectoria de esta última (la variable dependiente) es el efecto que la bola blanca (la variable independiente) causa. En la evaluación causal, la o las variables independientes son las intervenciones que definen el programa. Así, en el ejemplo del programa de intercambio de jeringas, la variable independiente es la presencia o no del programa. Al contrario, la(s) variable(s) dependiente(s) son los fenómenos medidos que lógicamente deberían ser influenciados por la variable independiente. En el caso del programa de intercambio de jeringas, la principal variable dependiente es la tasa de infección por el VIH o la hepatitis. En la evaluación causal es necesario determinar el grado en que una causa precisa es responsable de un efecto medido. Esto se hace, entre otras cosas, mediante la eliminación de posibles causas alternativas. Por ejemplo, si la mesa de billar está inclinada, el movimiento de la bola negra (el efecto) no puede ser enteramente atribuido al movimiento de la bola blanca que choca con ella (la causa). Aunque es posible que la bola blanca sea la causa de la trayectoria de la bola negra, no es necesariamente la causa, ni necesariamente la única causa. En este caso, la atribución causal es ambigua. Para minimizar la ambigüedad de las conclusiones, por lo general es aconsejable medir, además de la variable dependiente, otras variables que pueden afectar el resultado del programa o ser afectadas por este resultado. En el ejemplo del programa de intercambio de jeringas, además de medir las tasas de infección, se podría medir un conjunto de variables conexas que también podrían influir en la tasa de infecciones notificada, como las actitudes hacia las prácticas seguras y

6. Atribución y causalidad de los efectos

105

los comportamientos de los participantes. Por lo tanto, además de los resultados médicos, las medidas de los cambios de actitudes o de la evolución de algunos comportamientos de riesgo (tales como las relaciones sexuales no protegidas) podrían ayudar a determinar con más precisión los elementos que contribuyeron al éxito o el fracaso de la intervención, y también a identificar los elementos que se podrían modificar para mejorarla. En este caso concreto, se ha demostrado que el programa de intercambio de jeringas ha contribuido a aumentar significativamente el porcentaje de participación en los programas terapéuticos dirigidos a cambiar el comportamiento de los toxicómanos, y también a reducir la tasa de criminalidad en el barrio. Los diseños para la recopilación de datos en la evaluación causal

La determinación de la causalidad implica una recopilación de datos organizada de manera precisa mediante la utilización de un diseño. Existen varios tipos de diseños que permiten hacer inferencias causales, pero el grado de certeza de las conclusiones causales de los diferentes tipos de diseños varía. Se diferencian entre sí por su capacidad de reducir la ambigüedad causal. La figura 6.1 presenta seis diseños de recolección de datos utilizados en la práctica evaluativa. Aunque haya muchos otros (la obra original de Cook y Campbell, 1979, proporciona una lista exhaustiva, actualizada en 2002 por Shadish, Cook y Campbell), centramos nuestra deliberación en estos seis diseños, porque son los que se utilizan con más frecuencia en la práctica, especialmente para las evaluaciones de programas de gran alcance. Los diseños A, B y C son no experimentales, mientras que los diseños D, E y F son experimentales o cuasi experimentales. Los diseños A, B y C se denominan a veces evaluaciones de grupo único, porque permiten comparar los resultados obtenidos por determinadas personas después de una intervención con aquellos que obtuvieron estas mismas personas antes de la intervención. Sin embargo, mientras que el diseño A no puede ofrecer conclusiones causales que sean válidas, los diseños B y C acarrean inferencias causales ambiguas. Los diseños D, E y F, por su parte, son diseños de evaluación experimentales o cuasiexperimentales que permiten comparar los resultados obtenidos por las personas objetivo con aquellos que ha(n) obtenido un (o varios) grupo(s) independiente(s) de personas que no se han beneficiado del tratamiento o de la intervención. En principio, estos tres últimos diseños permiten hacer atribuciones causales, pero la certeza de las conclusiones es más fuerte para las evaluaciones experimentales que para las evaluaciones cuasiexperimentales. Volveremos a referirnos a la distinción

106 Enfoques y prácticas en la evaluación de programas

entre los diseños experimentales y los cuasiexperimentales después de la presentación de los seis tipos de diseño. En todos los gráficos, los informantes que participan en el programa son representados por círculos, y los que no participan en él, por cuadrados. Se hacen las mismas mediciones en los dos grupos. La abscisa de los gráficos representa el momento de la recolección de la información, mientras que la flecha negra indica el momento en que tiene lugar la intervención. A manera de ejemplo, en el diseño A vemos que se hacen mediciones una vez antes y una vez después de una intervención. También vemos que solo se recogen datos para el grupo que es objeto de la intervención o que forma parte del programa a evaluar. En contraste, en el diseño F vemos que los datos se recogen varias veces antes y varias veces después de la intervención, tanto en el grupo que se beneficia de la intervención como en otro grupo que no se beneficia de ella. El diseño B —la estrategia por referencia interna (ERI)— es un caso especial que se discutirá por separado, y que se basa en una lógica de recopilación de información que difiere de la requerida por los otros diseños. El diseño A (pre-pos de grupo único) consta de mediciones realizadas únicamente entre los participantes del programa. La variable dependiente se mide dos veces, una vez antes y una vez después de la intervención. El análisis estadístico consiste, entonces, en determinar si existe una diferencia estadísticamente significativa entre los dos momentos de recopilación de datos (con la ayuda de una prueba t pareada o una prueba de McNemar)1 y en determinar la magnitud de esta diferencia.

1 A título informativo, damos algunos ejemplos de pruebas estadísticas apropiadas para cada uno de los diseños. Sin embargo, es preciso aclarar que la lista de pruebas posibles podría por sí sola ser objeto de otro capítulo, si tomáramos en consideración los tipos de distribución, el tamaño de la muestra y la naturaleza del problema evaluado. Así pues, remitimos al lector a las obras citadas en la selección bibliográfica que cierra este capítulo.

6. Atribución y causalidad de los efectos Figura 6.1. Seis diseños de evaluación A Pre-pos, grupo único

D Pos, comparación o control

B Estrategia por referencia interna

C Serie cronológica, grupo único

1 2 3 4

E Pre-pos, comparación o control

107

5 6 7 8 9...

F Serie cronológica, comparación o control

1 2 3 4

5 6 7 8 9...

Participa en el programa No participa en el programa Variable Dependiente pertinente Variable Dependiente ficticia

La utilización de este diseño para evaluar un programa de intercambio de jeringas hipotético requeriría que se determinara la tasa promedio de infecciones, tanto para el año anterior a la introducción del programa como para el año siguiente a su terminación, para comprobar si la diferencia entre estas dos tasas es estadísticamente significativa. Este diseño permite determinar si los participantes en el programa son “diferentes” después de la intervención, pero no permite identificar la causa de esta diferencia, ya que otros acontecimientos que coinciden con la intervención también podrían ser la causa. El diseño C (serie cronológica de grupo único), así como el A, requiere la recolección de mediciones dependientes antes y después de la intervención, y esto solo entre los participantes del programa. Se distingue del modelo pre-pos de grupo único por el hecho de que repite la recopilación de información varias veces antes y varias veces después de la intervención. El análisis estadístico de los datos difiere de aquel que requiere el diseño A, ya que con el diseño C no se debe simplemente comparar el promedio de los resultados posintervención con el promedio de los resultados preintervención. Es necesario realizar un análisis de tendencia

108 Enfoques y prácticas en la evaluación de programas

(por lo general una regresión polinomial) que demuestre la presencia de una ruptura clara coincidente con la intervención entre los resultados pre y los resultados pos, lo que los estadísticos llaman una relación cuadrática. Este diseño se suele utilizar cuando es posible tener acceso a datos objetivos que pueden reunirse sin perturbar a los sujetos de la intervención. Este diseño sería particularmente útil para la evaluación del programa de intercambio de jeringas, pues sería fácil medir las tasas de infección a lo largo de varios años a partir de la consulta de los registros de los hospitales de la ciudad. Pero al igual que en el diseño A, es posible que una variable distinta de la intervención sea la causa del efecto observado. Sin embargo, dado que se reúnen varias mediciones pre y varias mediciones pos, y que el cambio brusco coincide con el tratamiento, se tiene aquí una mayor certidumbre en cuanto al hecho que la intervención es la causa del cambio. El diseño D (pos con comparación independiente) es el diseño “experimental causal” más sencillo. Le asignamos esta etiqueta porque la comparación se centra en la diferencia entre un grupo que se beneficia de una intervención y otro que no se beneficia de ella.2 La recopilación de datos solo se realiza una vez, después de la intervención. El análisis estadístico (una prueba t o una prueba de proporciones) se refiere a la diferencia entre los resultados promedio obtenidos por estos dos grupos en la variable dependiente después de la intervención. Puesto que la variable dependiente solo se mide en una ocasión, no es posible medir el cambio en los participantes. Por consiguiente, la validez de la inferencia causal y la certeza que se tiene con respecto a esta conclusión dependerán, en gran medida, del grado de equivalencia inicial de los dos grupos. El diseño E (pre-pos con comparación independiente) es idéntico al diseño D, solo que la recopilación de información también se hace antes del comienzo de la intervención. Como se trata de un diseño experimental, se recogerán los datos en dos grupos independientes, uno que es objeto de la intervención y otro que no se beneficia de ella. El análisis estadístico3 no solo servirá para demostrar que existe una diferencia pre-pos, sino también que esta diferencia solo se observa en el grupo que ha participado en la intervención. Se trata pues de demostrar la existencia de una interacción estadísticamente significativa entre las condiciones 2 En contraste, los diseños de grupo único son calificados de no experimentales, ya que no implican la utilización

de un grupo de control. Nos extenderemos más en esta distinción en las siguientes páginas.

3 Entre los métodos más frecuentemente utilizados para el análisis del diseño E, en los últimos años se sugiere uti-

lizar de preferencia los siguientes tres: 1) la regresión jerárquica que utiliza la medición posprueba como variable

dependiente, la puntuación en la pre-prueba como variable de control y el tratamiento como variable independiente; 2) el análisis de covarianza (en el que la medición pre-prueba es la covariable); y 3) el análisis de varianza con

medidas repetidas (véase, entre otros, Gliner et al., 2003).

6. Atribución y causalidad de los efectos

109

de tratamiento (grupo que participa o no en la intervención) y el momento de la recopilación de la información (pre y pos). El diseño F (serie cronológica con comparación independiente) es idéntico al diseño C, pero añade la recolección de datos en un grupo que no se ha beneficiado de la intervención. La demostración estadística consistirá en establecer la presencia (o la ausencia) de una relación cuadrática solo en el grupo que se beneficia de la intervención, y esto con la ayuda de una regresión polinomial. El diseño experimental vs. el diseño no experimental

Al analizar los diseños descritos en la figura 6.1 se observa que es la presencia de un grupo de comparación lo que distingue a los modelos experimentales y cuasiexperimentales de los no experimentales. Con estos últimos se comparan los resultados obtenidos después de la intervención con aquellos obtenidos antes de la intervención para el mismo grupo de personas. Por consiguiente, es muy probable que las variables relacionadas con la intervención sean responsables de una posible diferencia pre-pos. En sentido estricto es inadecuado atribuir las diferencias pre-pos (causales) al solo efecto de la variable independiente, cuando se utiliza un diseño no experimental. En cambio, la lógica causal de los modelos experimentales es fácil de entender. Suponiendo que los dos grupos inicialmente son idénticos en cuanto a la variable dependiente y que la intervención solo se lleva a cabo con uno de los grupos, la diferencia entre los dos puede atribuirse únicamente al efecto de la intervención. Por tanto, se concluye que la intervención es la causa de la diferencia. Naturalmente, la validez de esta inferencia se basa en la equivalencia inicial entre los grupos. Si los dos grupos no son idénticos al principio, la inferencia causal se ve amenazada, pues la diferencia entre los grupos podría ser atribuible a la desigualdad inicial más que al tratamiento. ¿Diseño experimental o diseño cuasiexperimental?

Existen dos técnicas generales para constituir un grupo de comparación. En un caso, podríamos comenzar con una sola cohorte de personas que se distribuirían aleatoriamente en dos grupos. La intervención solo se realizaría en uno de los grupos, y el otro pasaría a ser el grupo de comparación, que en este caso sería calificado de grupo de control. Los diseños que exigen formar grupos, recurriendo a la distribución aleatoria, reciben el nombre de diseños experimentales. La distribución aleatoria es la técnica que mejor garantiza la equivalencia de los grupos.

110 Enfoques y prácticas en la evaluación de programas

Por razones prácticas o éticas, no siempre es posible constituir un grupo de control.4 Por ejemplo, en la evaluación de un programa de intercambio de jeringas, en el que se participaría de forma voluntaria, no podríamos tomar la decisión de denegar el acceso a las jeringas a algunos heroinómanos seleccionados aleatoriamente para formar parte del grupo de comparación. Del mismo modo, en la evaluación de un programa de distribución de mosquiteros destinado a reducir la incidencia de la malaria, no sería ético ofrecer mosquiteros únicamente a una muestra de campesinos. Por último, las reglas de la función de riesgo solo funcionan cuando el número de personas en cada grupo es relativamente grande. Dado que el número mínimo de sujetos por grupo está relacionado con la variabilidad en el seno de la población, este número podría ser relativamente pequeño (N = 30 para cada grupo). No obstante, debería ser más grande cuando la varianza es mayor o cuando la variable subyacente no se distribuye con normalidad (véase Haccoun y Cousineau, 2010). Cuando se trata de evaluar las repercusiones de programas dirigidos a un pequeño número de personas, la distribución aleatoria no garantiza necesariamente la equivalencia de los grupos. Por consiguiente, generalmente es más fácil comparar el grupo experimental con un grupo natural que se le parezca. Por ejemplo, el grupo de comparación podría ser los heroinómanos de otra ciudad canadiense de tamaño similar, pero que no ofrece un programa de intercambio de jeringas. De este modo, cuando los grupos no se distribuyen aleatoriamente, el diseño pasa a ser cuasiexperimental y el grupo de control recibe el nombre de grupo de comparación. Los modelos cuasiexperimentales permiten hacer inferencias causales, pero estas nunca son tan fiables como las de los diseños experimentales. En efecto, con los diseños cuasiexperimentales siempre queda una duda sobre la equivalencia inicial de los grupos. Por tanto, la diferencia observada podría ser atribuible tanto a la desigualdad inicial como al tratamiento. Por ejemplo, en la evaluación del programa de intercambio de jeringas o de aquel relativo a los mosquiteros, el problema sigue siendo: ¿es la población de heroinómanos en las dos ciudades o la densidad de mosquitos en los dos pueblos realmente similar? En resumen, la validez de las inferencias causales depende del grado de certeza que tengamos en cuanto al hecho de que la diferencia observada pueda atribuirse

4 Una excepción proviene de los campos médico y farmacéutico, en los que la distribución aleatoria casi siempre

se utiliza cuando se trata de evaluar la eficacia de procedimientos y medicamentos. Además, particularmente en este ámbito de la investigación evaluativa, es preferible recurrir a tres grupos compuestos de forma aleatoria: un grupo recibe el medicamento experimental, otro grupo recibe un placebo y el tercero no recibe ni lo uno ni lo otro.

6. Atribución y causalidad de los efectos

111

a la causa hipotética. Por lo tanto, vemos que la desigualdad inicial constituye una amenaza importante para la validez de las inferencias causales, pero no es la única. La inferencia causal y los conceptos de validez interna y externa

La noción de demostración causal implica necesariamente la idea de prueba de que un efecto observado no pudo haber sido creado por algo que no sea la variable causal en juego. En realidad, es preciso reconocer que ninguna técnica, ni ningún procedimiento pueden garantizar totalmente esta conclusión. Se trata más bien de una probabilidad que puede ser más o menos fuerte. En una de las obras clásicas más importantes en este campo, Campbell y Stanley (1963) analizan los riesgos relativos a la validez interna y externa asociados a la utilización de diversos diseños de investigación. La validez interna está relacionada con las posibilidades de interpretación de los resultados, mientras que la validez externa se refiere a la generalización a la población de los resultados obtenidos en una evaluación. El siguiente cuadro enumera las amenazas que, según estos autores, pesan sobre la validez interna y externa. Cada uno de estos obstáculos se ilustra aquí en el marco de un programa de capacitación para la reducción del estrés en el trabajo. Los obstáculos a la validez: el ejemplo de un programa para la reducción del estrés en el trabajo

Obstáculos a la validez interna 1. Historia: los acontecimientos que coinciden con el tratamiento podrían ser la causa de los resultados obtenidos.

Durante la capacitación, vio usted un documental sobre el mismo tema. Un cambio en el nivel de estrés podría ser causado por la capacitación, por el documental o por ambos.

2. Maduración: la evolución natural de los participantes influye en los efectos enumerados. El simple paso del tiempo hace que su reacción frente al estrés cambie.

3. Medición: la medición hecha antes del tratamiento afecta la reacción de la persona después del tratamiento.

La medición del estrés antes de la capacitación le hace descubrir que usted es una persona estresada.

112 Enfoques y prácticas en la evaluación de programas

4. Instrumentación: un cambio en la propia medida.

Los cuestionarios utilizados para medir su nivel de estrés antes y después de la capacitación no son los mismos. 5. Regresión estadística: cuando la asignación al programa está determinada por los resultados de las prepruebas, los resultados de la posprueba retroceden hacia la media.

Antes de la evaluación, se mide el nivel de estrés mediante un cuestionario. Solo las personas con resultados elevados reciben la capacitación. En la posprueba las puntuaciones obtenidas en la medición del estrés tenderán a bajar para estas personas. 6. Selección: los participantes que son elegidos para formar parte del programa no son equivalentes a los que no forman parte de él.

La capacitación se ofrece únicamente a aquellas personas que quieran hacerla, mientras que el grupo de comparación está compuesto de las que no quieren hacerla. La reacción frente al estrés es diferente para aquellas que se inscriben y para las que no se inscriben. El grado de motivación para reducir el estrés difiere dependiendo de si las personas se inscriben o no en el programa, lo que podría explicar la diferencia en el nivel de estrés experimentado tras la participación en el mismo. 7. Mortalidad experimental: la pérdida de sujetos que formaban parte del programa o del grupo de comparación no es la misma.

Las personas que están muy estresadas (o muy poco estresadas) abandonan el programa antes de que termine, y por lo tanto no es posible medir su nivel de estrés poscapacitación.

8. Interacción entre selección y maduración: la evolución natural de las personas que se encuentran en el grupo de comparación difiere de la evolución natural de las que participan en el programa.

Obstáculos a la validez externa

1. Reactividad a la preprueba: el simple hecho de ser medido afecta las mediciones posteriores.

Al medir el estado inicial de estrés experimentado por el participante, este se da cuenta que está estresado. 2. Interacción entre la selección de los participantes y el programa: el tratamiento administrado interactúa con la selección diferencial.

Las personas seleccionadas para el grupo de tratamiento son más (o menos) sensibles al estrés que las elegidas para el grupo de comparación.

6. Atribución y causalidad de los efectos

113

3. El efecto Hawthorne: el hecho de saber que se es “estudiado” afecta los resultados de los participantes.

Los participantes en el estudio se dan cuenta de que se les presta atención, lo que altera su comportamiento.

4. Los efectos residuales de tratamientos múltiples: los efectos de un primer tratamiento contaminan los efectos producidos por los tratamientos posteriores.

Si los sujetos que participan en el programa fueron tratados previamente con medicamentos, el efecto del programa de capacitación en la reducción del estrés sería indeterminado. (Campbell y Stanley, 1963, p. 5-6). La lista hecha por Campbell y Stanley es importante pues propone una forma práctica de evaluar la calidad de diversos diseños para la evaluación. Los diseños que producen las inferencias causales menos ambiguas son aquellos que eliminan al máximo estas amenazas a la validez interna y externa. La evaluación de la validez de los diversos diseños de recolección de datos

Los cuadros 6.1 y 6.2 retoman los diseños descritos en la figura 6.1 y los análisis de los riesgos conexos que pesan sobre su validez interna y externa. Tomamos estas evaluaciones de Campbell y Stanley (1963). Cuadro 6.1. Los riesgos para la validez interna y externa de los diseños de evaluación A y C A Pre-pos, grupo único

C Serie cronológica, grupo único

Validez interna 1. Historia

2. Maduración

3. Mediciones

4. Instrumentación

5. Regresión estadística

6. Selección diferencial

7. Mortalidad experimental

8. Interacción selección/maduración

114 Enfoques y prácticas en la evaluación de programas A Pre-pos, grupo único

C Serie cronológica, grupo único

Validez externa 1. Reactividad a la preprueba

E (F si las mediciones son objetivas)

2. Interacción selección/programa

3. Efecto Hawthorne

4. Efectos residuales de

tratamientos múltiples E: alto riesgo ; F: bajo riesgo; M: riesgo medio; X: no aplicable.

Al comparar el número de riesgos E (alto) y F (bajo) para los dos modelos, vemos claramente que el modelo A (pre-pos de grupo único) es significativamente inferior al modelo C. De hecho, el modelo C puede eliminar la mayoría de riesgos relacionados con la validez de las conclusiones, mientras que el modelo A presenta todos los riesgos, excepto los relativos a la no equivalencia del grupo tratado y el de comparación. El riesgo 9 (reactividad a la preprueba) se marca con una E (alto) para el diseño por serie cronológica, pero pasa a ser bajo (F) cuando las medidas recopiladas son datos objetivos que pueden medirse sin que las personas sean conscientes de ello.

Cuadro 6.2. Los riesgos para la validez interna y externa de los diseños de evaluación D, E y F D Pos, grupo de control o de comparación

E Pre, pos, grupo de control o de comparación

F Serie cronológica, grupo de control o de comparación

Validez interna 1. Historia

F(F)

2. Maduración

F(M)

M(F)

3. Mediciones

F(F)

4. Instrumentación

F(F)

5. Regresión estadística

F(F)

6. Selección diferencial

F(E)

E(F)

7. Mortalidad experimental

F(E)

E(F)

6. Atribución y causalidad de los efectos

8. Interacción selección/

115

D Pos, grupo de control o de comparación

E Pre, pos, grupo de control o de comparación

F Serie cronológica, grupo de control o de comparación

F(E)

E(F)

E (si las medidas son

maduración Validez externa 1. Reactividad a la

preprueba 2. Interacción selección/

objetivas) M(E)

M(X)

programa 3. Efecto Hawthorne 4. Efectos residuales de tratamientos múltiples E: alto riesgo; F: bajo riesgo; M: riesgo medio; X: no aplicables.

Se evalúan los riesgos para los diseños que se valen de un grupo de control. Cuando la comparación se hace con un

grupo de comparación, se indica el riesgo entre paréntesis.

Un caso particular: el diseño B (estrategia por referencia interna)

En la práctica, especialmente en los programas de gran alcance, es muy difícil formar grupos de comparación, y aún más difícil crear grupos de control. En estos casos, se prefiere utilizar el diseño por serie cronológica, aunque su utilización no siempre sea posible por razones prácticas. Por ejemplo, no siempre es posible tener acceso a datos objetivos, y la utilización de medidas repetidas puede crear problemas de validez interna, en particular de los efectos que corresponden a las mediciones y a la instrumentación. Por esta razón, la mayoría de evaluaciones hechas en la práctica (como para la evaluación de los programas de capacitación) (véase Saks y Haccoun, 2007) se limitan al diseño A: el diseño pre-pos de grupo único. Sin embargo, como lo hemos visto en el cuadro 6.1, la utilización del diseño A no permite hacer inferencias causales idóneas. No obstante, es posible mejorar el diseño A recurriendo al diseño B, la estrategia por referencia interna concebida por Haccoun y Hamtiaux (1994). Esta técnica propone incluir en las mediciones realizadas, antes y después, no solo las medidas que deberían ser afectadas por el programa (las medidas “pertinentes” de la figura 6.1), sino también las variables conexas a la intervención, es decir que no son el objetivo de esta (las medidas “ficticias”). Si el cambio pre-pos evaluado con ayuda

116 Enfoques y prácticas en la evaluación de programas

de las medidas pertinentes es mayor que el cambio evaluado con las medidas ficticias, se obtiene una prueba causal de la eficacia del programa. En contraste, si los cambios en las variables ficticias y pertinentes son estadísticamente iguales, no es posible determinar la eficacia del programa. La forma estadística requerida es un análisis de varianza (con medidas repetidas), en el que una interacción estadística entre las medidas (pertinentes-ficticias) y el momento de medición (pre-pos) signifique que el programa es eficaz. Cuando las mejoras son equivalentes para las dos series de medidas, no podemos concluir que el programa es eficaz. En lenguaje estadístico, se dirá que la estrategia por referencia interna es susceptible de causar errores de tipo II (Haccoun y Cousineau, 2007), errores que explicaremos aquí con brevedad. Cuando las dos series de variables muestran mejoras equivalentes, no es posible elegir entre dos interpretaciones potenciales: a) el programa no es eficaz y los cambios son atribuibles a uno de los riesgos relacionados con la validez, o b) el programa es eficaz y los participantes generalizan los impactos del mismo extendiéndolos a las medidas ficticias. Por ejemplo, en el programa de intercambio de jeringas, además de medir las tasas de infección por VIH y hepatitis (las variables pertinentes), podríamos reunir datos sobre los comportamientos sexuales de riesgo (variables ficticias). Pero la dificultad en un caso como este es que el programa de intercambio podría hacer que los heroinómanos tomaran conciencia del problema de los comportamientos de riesgo, provocando de este modo cambios en sus comportamientos sexuales, así como también en los comportamientos estrictamente relacionados con la utilización de la heroína. En este caso, la intervención es eficaz en la práctica, pero el diseño B no puede determinar las pruebas de ello. Verificaciones empíricas (Haccoun y Hamtiaux, 1994; Frese et al., 2003) demuestran que la estrategia por referencia interna (ERI) puede proporcionar inferencias causales equivalentes a las producidas por el diseño experimental E. El diseño ERI es superior al modelo A, pero aun así se le debe considerar como un modelo causal mínimo a utilizar solo cuando no sea posible recurrir a un diseño distinto del modelo A. Nunca debe sustituir a otros diseños (D a F), si la utilización de estos es posible. El análisis de datos: significación estadística y significación práctica

Las comparaciones requeridas en el campo de la evaluación exigen la utilización de procedimientos estadísticos, especialmente de pruebas comparativas como las pruebas t y (o) los análisis de varianza/covarianza o los de regresión lineal. Cuando estas pruebas hacen resaltar diferencias (o correlaciones) “estadísticamente significativas”, concluimos (teniendo en cuenta un riesgo de error preestablecido,

6. Atribución y causalidad de los efectos

117

por ejemplo del 5%) que existe una diferencia “real”, es decir, una diferencia que también aparecerá en la totalidad la población. De este modo se podría concluir que la incidencia del VIH y de la hepatitis es diferente en la población desde la instauración del programa de jeringas. Sin embargo, según el número de participantes y algunas otras características específicas del estudio,5 es posible que incluso las diferencias triviales puedan ser estadísticamente significativas. Por tanto, sería erróneo concluir que el impacto del programa es sustancial basándose únicamente en la simple significación estadística. De hecho, la significación estadística es una prueba esencial, pero mínima e insuficiente, de la eficacia de un programa. Por consiguiente, es importante someter los datos a una análisis adicional: la determinación de la magnitud de la diferencia, lo que los estadísticos llaman el tamaño del efecto. Estos procedimientos estadísticos adicionales, tales como el coeficiente de determinación rxy2 o el coeficiente de correlación n2 (eta al cuadrado), permiten responder la siguiente pregunta: ¿qué proporción de todas las diferencias identificadas por la prueba comparativa puede explicarse por el tratamiento o el programa? Si la diferencia es grande, esto indicará que el programa podría tener una repercusión práctica de gran alcance: tendría entonces un nivel elevado de significación práctica. Pero si la diferencia es pequeña, habría menos razones para continuar con el programa, sobre todo cuando este es costoso o difícil de implementar. Su significación práctica sería baja. En resumen, las evaluaciones deben probar, en principio, la significación estadística y, luego, demostrar el tamaño del efecto. En el caso de que la diferencia sea estadísticamente significativa, la interpretación del éxito o del fracaso de un programa se basaría principalmente en el tamaño del efecto, ya que este indica el alcance real —la significación práctica— del programa. Algunas consideraciones sobre la elección de un modelo de evaluación causal

El objetivo idealizado de una evaluación causal es presentar una atribución clara de la causalidad de un efecto. Por lo tanto, el evaluador elegirá, entre los modelos de evaluación disponibles, aquel que ofrezca la conclusión causal más sólida. No obstante, el evaluador también debe ser sensible a la ética de su enfoque, así como al aspecto práctico y a los costos asociados a esta elección: no todos los 5 Véase Haccoun y Cousineau (2007) para una deliberación más detallada de las características que afectan las

probabilidades de establecer la significación estadística.

118 Enfoques y prácticas en la evaluación de programas

modelos son igual o fácilmente aplicables y adecuados a todos los contextos (véase el capítulo 9). En la práctica, los modelos estrictamente experimentales (con grupo de control o grupo de comparación) suelen ser difíciles de utilizar. El diseño por serie cronológica sin duda sigue siendo el más conveniente. Pero, de nuevo, hay que tener en cuenta el hecho de que este puede ser utilizado con eficacia especialmente cuando se tiene acceso a datos objetivos que se pueden reunir sin crear reactividad entre los participantes. En ausencia de estas condiciones, y cuando debemos restringirnos a un modelo pre-pos con grupo único, será preferible mejorarlo mediante la utilización de la estrategia por referencia interna. En última instancia, la elección de un modelo depende del riesgo asociado a un error en la atribución de la causalidad. Si el hecho de sacar una conclusión falsa no tiene más que una importancia secundaria, entonces se puede utilizar un modelo de evaluación más simple, como el B. Por el contrario, cuando las consecuencias de tal error pueden ser graves, solo deben seleccionarse los modelos de evaluación complejos, los modelos experimentales. Para profundizar en el tema

Collins, L. M., y Horn, J. L. (1991). Best Methods for the Analysis of Change: Recent Advances, Unanswered Questions, Future Directions. Washington: American Psychological Association.6 Gliner, J. A., Morgan, G. A., y Harmon, R. J. (2003). Pretest-posttest comparison group designs: Analysis and interpretation. Journal of the American Academy of Child and Adolescent Psychiatry, 42(4), 500-503.7 Haccoun, R. R. y D. Cousineau. (2007). Statistiques: Concepts et applications, Montréal, Les Presses de l’Université de Montréal.8 Saks, M. A., y Haccoun, R. R. (2007). Managing Performance Through Training and Development. Toronto: Nelson Publishers.9

6 El libro analiza algunos aspectos de la medición del cambio, utilizando, entre otros, los modelos de ecuaciones estructurales y las variables latentes.

7 Este breve artículo de divulgación presenta las fortalezas y las debilidades de los análisis basados en la regresión jerárquica, el análisis de covarianza, el análisis de varianza con medidas repetidas y el enfoque de la puntuación de diferencia.

8 Introducción a la lógica y a las técnicas de inferencia. En general, la presentación es no matemática y se centra en los conceptos y las interpretaciones que pueden derivarse de las diversas técnicas estadísticas. Las páginas web

asociadas al libro presentan problemas y bancos de datos que pueden analizarse con la ayuda del SPSS, programa

informático profesional de análisis estadístico.

9 Aunque se centra principalmente en la capacitación en el entorno laboral, esta obra incluye dos capítulos completos dedicados a la evaluación, sus mediciones, sus técnicas y sus diseños.

7. Los métodos mixtos* Pierre Pluye10

Los métodos mixtos de investigación y de evaluación combinan los métodos de recolección y análisis de datos cualitativos y cuantitativos. Se utilizan cada vez con mayor frecuencia y, a lo largo de los años, se han propuesto varios términos para designarlos (por ejemplo, multimétodos). Johnson (2007) realizó una síntesis crítica de la literatura científica sobre los métodos mixtos y propuso una definición de estos métodos para la investigación. Esta reseña de los distintos escritos sugiere definir los métodos mixtos para la evaluación de programas de la siguiente manera. Una evaluación mixta es un tipo de evaluación en la cual un experto o un equipo de expertos combinan los enfoques o diseños metodológicos con las técnicas cualitativas y cuantitativas de recolección y análisis de datos para profundizar la comprensión, o interpretar o corroborar los resultados de la evaluación. Las tres razones principales para combinar métodos cualitativos y cuantitativos son las siguientes: •

Los evaluadores pueden necesitar los métodos cualitativos para interpretar los resultados cuantitativos.

•

Finalmente, pueden necesitar explorar o comprender mejor un fenómeno nuevo (métodos cualitativos) y medir el alcance, la evolución, las causas y los efectos (métodos cuantitativos) del mismo.

•

Pueden necesitar los métodos cuantitativos para generalizar los resultados cualitativos.

En el cuadro 7.1 presentamos una lista no exhaustiva de los métodos cualitativos y cuantitativos susceptibles de combinarse en forma de métodos mixtos. Los lectores que no los conocen bien pueden remitirse a los diccionarios de * Damos las gracias a Lucie Nadeau, Marie-Pierre Gagnon, Roland Grad, Janique Johnson-Lafleur y Frances

Griffiths por su colaboración con una versión anterior de este capítulo (2009).

120 Enfoques y prácticas en la evaluación de programas

Muchielli (2004) para los métodos cualitativos y de Porta (2008) para los métodos cuantitativos. Cuadro 7.1. Ejemplos de métodos cualitativos y cuantitativos Métodos cualitativos

Métodos cuantitativos

Comunicación e información

Estudios aleatorizados

Análisis de discursos

Prueba controlada aleatoria

Tipos ideales y “paradigmas”

Estudios no aleatorizados

Análisis de eventos

Prueba controlada

Teorización fundamentada

Estudio de cohorte

Estudio de caso cualitativo

Estudio de comparación de casos

Acciones sociales

Estudio pre-pos/series temporales

Hermenéutica

Investigación transversal (analítica)

Historias de vida

Estudios descriptivos

Fenomenología

Estudio de prevalencia o de incidencia (sin grupo de

Sociedad e interacciones sociales

comparación)

Etnografía

Serie de casos

Etnometodología

Informe de casos

A modo de ejemplo, una metodología mixta de evaluación de los servicios de salud mental en un medio multiétnico podría combinar una investigación cuantitativa transversal (cuestionario estructurado) con un estudio etnográfico (documentos, entrevistas y observaciones), permitiendo así comprender mejor los resultados de la investigación y elaborar un nuevo programa para facilitar el acceso a los servicios (Groleau et al., 2007). En este ejemplo, la sola investigación habría bastado para revelar los problemas de accesibilidad, pero habría sido insuficiente para crear un programa adecuado. Como señalan Sharp y Frechtling, “al centrarse principalmente en las técnicas cuantitativas, los expertos podrían dejar a un lado algunas partes importantes de la historia. Los evaluadores experimentados han comprobado muchas veces que se obtienen mejores resultados utilizando métodos mixtos de evaluación” (1997, p. 2). De hecho, desde hace mucho tiempo se han combinado estos métodos en la investigación y la evaluación, y esta combinación puede considerarse como inevitable en el campo de la evaluación (Rallis y Rossman, 2003, p. 491). Pero solo recientemente este tipo de combinaciones se ha conceptualizado en términos de métodos mixtos (Creswell y Plano Clark, 2010; Greene, 2006; Johnson, 2007; Tashakkori y Teddlie, 2010). En general, los métodos mixtos se utilizan con la intención de combinar los puntos fuertes y compensar las limitaciones respectivas de los métodos cuantitativos y cualitativos. Por una parte, las evaluaciones cuantitativas examinan, por lo general, asociaciones de factores (por ejemplo, las causas y sus efectos)

7. Los métodos mixtos

121

que se pueden generalizar a toda una población, en particular mediante inferencias estadísticas. Por otra parte, las evaluaciones cualitativas proporcionan descripciones detallas de fenómenos complejos basadas de manera empírica en un contexto concreto, que pueden ser teóricamente aplicables en otras situaciones (por ejemplo, un estudio etnográfico). En particular, la parte cualitativa de una evaluación mixta puede proporcionar una mejor comprensión del desarrollo de programas complejos (planificación, implantación y sostenibilidad), y una comprensión profunda de las razones por las que estos programas funcionan bien en ciertos contextos (o no funcionan en otras situaciones). Este capítulo tiene como objetivo presentar nuestra concepción de los métodos mixtos y, acto seguido, describir los enfoques, diseños y técnicas de recolección y análisis de datos cualitativos y cuantitativos que son útiles para planificar o implantar métodos mixtos para la evaluación de programas. Pondremos un ejemplo que extraemos de nuestro trabajo en la evaluación de tecnologías. En las secciones finales propondremos criterios de calidad para planificar o evaluar los métodos mixtos, y para hacer un examen mixto de la literatura para la evaluación de programas. Los métodos mixtos y los debates entre métodos cuantitativos y cualitativos

La metodología de los métodos mixtos se puede conceptualizar a partir de los debates metodológicos entre los partidarios de los métodos cuantitativos y los de los métodos cualitativos. Estos debates sugieren dos tipos ideales metodológicos, por lo general considerados como dos paradigmas concurrentes que son respectivamente asociados a los métodos cuantitativos y cualitativos: el empirismo lógico (materialismo, realismo y argumentos objetivos generalmente asociados a los métodos cuantitativos) y el constructivismo (idealismo, relativismo y argumentos subjetivos generalmente asociados a los métodos cualitativos). Un paradigma se define como una norma (o un estándar) institucional de las ciencias. Aunque según Kuhn (1983), la evolución de las ciencias se caracteriza por transiciones sucesivas de un paradigma a otro —revoluciones—, muchos historiadores o filósofos de las ciencias observan que varios paradigmas o “visiones de mundo” coexisten (Morgan, 2007). Por ejemplo, el empirismo lógico, el paradigma dominante de las disciplinas científicas en el siglo XX, es cuestionado por los partidarios del constructivismo (Denzin y Lincoln, 1994), y coexiste con este. En esta sección presentaremos con brevedad estos dos tipos ideales, sus principales fortalezas y debilidades para la evaluación de programas, y la forma en que ellos permiten conceptualizar los métodos mixtos. El término “ideal”, en el concepto (herramienta

122 Enfoques y prácticas en la evaluación de programas

de análisis) propuesto por Max Weber, designa la idea, y un tipo ideal es la agrupación de cierto número de características típicas de los fenómenos sociales que tiene por objeto ayudar a su comprensión. El empirismo lógico tiene como objetivo estudiar los fenómenos según leyes empíricas, como la fuerza de la asociación entre los factores importantes de la implantación de los programas (medidos en valores de variables independientes) y los resultados observados en términos de implantación (medidos en valores de variables dependientes). Las relaciones causales constituyen un ejemplo de estas leyes empíricas y se presentan en detalle en el capítulo 6, titulado “Atribución y causalidad de los efectos”. El empirismo lógico se deriva del positivismo propuesto en el siglo XIX, integra las críticas pospositivistas del siglo XX y propone, por lo general (pero no necesariamente), que las leyes empíricas se basen en una teoría que es anterior al proceso de investigación (enfoque deductivo o confirmatorio). Por ejemplo, los empiristas lógicos asumen por lo general (pero de nuevo, no necesariamente) que no hay causalidad sin una organización normativa previa del campo de exploración empírico por una explicación científica lógica. El estudio de la causalidad se basa en hipótesis formuladas con la ayuda de relaciones condicionales (lenguaje de la ciencia según el empirismo lógico).1 En la evaluación de programas, los sesgos pueden afectar la validez de los estudios experimentales o cuasiexperimentales. Las fuentes de sesgo son más o menos controladas dependiendo del diseño utilizado: los estudios aleatorizados se consideran como los más válidos para examinar las relaciones causales (más válidos que los estudios no aleatorizados, por ejemplo). No obstante, los estudios aleatorizados tienen sus propias debilidades (Mays et al., 2005; Pawson, 2005). De tal modo que una evaluación con un ensayo aleatorio controlado podría ser inadecuado, dependiendo del contexto o del asunto, y puede ser controvertido por los resultados de estudios no aleatorizados. Por ejemplo, los estudios aleatorizados son menos apropiados que los estudios de cohorte para evaluar los raros efectos negativos a largo plazo de los programas (la aleatorización de miles de personas puede ser necesaria para detectar estos efectos, pero corre el riesgo de ser irrealizable o demasiado costosa). Además, los programas se pueden conceptualizar como intervenciones sociales complejas que actúan sobre sistemas sociales complejos. Ahora bien, los estudios aleatorizados generalmente proporcionan

1 Damos las gracias a François Béland, de la Universidad de Montreal, por sus comentarios sobre el empirismo

lógico. Evidentemente, este párrafo no da cuenta de todo el trabajo de los empiristas lógicos, y en particular el de aquellos que han desarrollado una lógica “inductiva”.

7. Los métodos mixtos

123

pocos resultados empíricos, o ninguno, para explicar por qué los efectos de las intervenciones varían según distintos contextos de implantación. El constructivismo, por su parte, pretende descubrir y explorar fenómenos complejos, describir sus variaciones según su contexto y proponer interpretaciones diferentes para comprenderlos mejor (enfoque inductivo o exploratorio). El constructivismo se deriva de los enfoques denominados comprensivos desarrollados en Alemania en la década de 1920 por Weber, y en Chicago por los fundadores de un enfoque sociológico estadounidense llamado “interaccionismo simbólico”. Los investigadores cualitativos destacan la naturaleza socialmente construida de la realidad, la relación íntima entre el investigador, el fenómeno estudiado y su contexto (Denzin y Lincoln, 1994). Examinan los aspectos históricos, interpretativos y narrativos en función de su contexto de producción cultural, económica y social (Abbott, 1998). Los métodos cualitativos se desarrollaron de forma concomitante en varias disciplinas y utilizan diferentes procedimientos interpretativos (por ejemplo, la etnografía en antropología y los etnométodos en sociología). Los métodos cualitativos tienen éxito en la evaluación de programas porque satisfacen las necesidades de los responsables de formular políticas y de los profesionales en términos de una comprensión rica y detallada de las intervenciones sociales complejas (Patton, 2002); comprensión útil para la planificación, la implantación y la sostenibilidad de los programas. Más concretamente, los estudios cualitativos proporcionan resultados empíricos que explican por qué los efectos de las intervenciones varían según los diferentes contextos de implantación. Sin embargo, los métodos cualitativos han sido criticados porque los resultados pueden ser idiosincrásicos de un contexto específico (ningún conocimiento transferible a otro contexto), o basarse en procedimientos interpretativos tácitos, no reproducibles y no verificables (Huberman y Miles, 1991). Los métodos mixtos cuestionan estos tipos ideales y sugieren tipos metodológicos diferentes. Por ejemplo, los estudios cuantitativos exploratorios no corresponden al tipo ideal metodológico del empirismo lógico. Los resultados estadísticos o epidemiológicos pueden considerarse construcciones sociales útiles para explorar y comprender los fenómenos sociales (constructivismo o realismo constructivo). De tal modo, Kallerud y Ramberg (2002) promueven la interpretación constructivista de las investigaciones. Otro ejemplo, los estudios cualitativos inductivos-deductivos no corresponden al tipo de ideal metodológico del constructivismo. Los resultados cualitativos por lo general están integrados en las investigaciones que examinan las relaciones causales, y se consideran argumentos científicos válidos para generar teorías o hipótesis (pospositivismo). Así, según Campbell (1988), una

124 Enfoques y prácticas en la evaluación de programas

consideración cualitativa de los diferentes contextos de medición permite proponer hipótesis rivales plausibles. El debate entre métodos cuantitativos (en adelante Cuanti) y métodos cualitativos (en adelante Cuali) permite concebir los métodos mixtos (en adelante MM) en relación con los tipos ideales metodológicos resumidos anteriormente. Como se afirma en la introducción de este capítulo, los métodos Cuanti y Cuali coexisten, y esta coexistencia contribuye al desarrollo de los MM, y mediante estos últimos, al desarrollo de combinaciones de enfoques, diseños y técnicas. Los métodos mixtos: enfoques, diseños y técnicas de recolección y análisis de datos

Esta sección tiene como objetivo presentar todas las posibilidades de combinación y de integración de los enfoques, los diseños y las técnicas para facilitar la planificación y la evaluación de los MM. Al igual que Johnson (2007), creemos que es legítimo considerar como MM toda combinación de enfoques metodológicos, diseños y técnicas de recolección y análisis de datos, siempre y cuando estas combinaciones cumplan con tres condiciones: 1) al menos un método Cuali y un método Cuanti se combinan (por ejemplo, la etnografía y la experimentación); 2) cada método se utiliza de manera rigurosa en relación con los criterios generalmente admitidos (véase la sección siguiente: “planificación y calidad de los MM en la evaluación de programas”); y 3) la combinación de los métodos se traduce en una integración de los enfoques metodológicos, los diseños o las técnicas (por ejemplo, las observaciones y las mediciones), y de los datos y (o) los resultados. Por el contrario, a nuestro juicio, no son MM: 1) un método Cuanti con recolección o análisis de datos cualitativos que no hace referencia a un método Cuali (por ejemplo, un estudio de prevalencia que utiliza un cuestionario estructurado auto-administrado con preguntas de respuesta cerrada principalmente, y algunas preguntas que requieren escribir comentarios libres), o viceversa; 2) las combinaciones de métodos Cuanti; 3) las combinaciones de métodos Cuali; y 4) las yuxtaposiciones de métodos Cuali y Cuanti sin ninguna integración de los enfoques, los diseños, las técnicas, los datos y/o los resultados Cuali y Cuanti. Los enfoques

Los expertos de los MM, como Bryman (sociología) y Cresswell (sicología), así como Greene, Morgan, Tashakkori y Teddlie (educación) ofrecen distintas tipologías de enfoques en MM. Nos hemos inspirado aquí en las propuestas de Teddlie y

7. Los métodos mixtos

125

Tashakkori (2003). Ee evidente que los MM resultan imposibles cuando los métodos Cuanti y Cuali se consideran incompatibles o inconmensurables (positivismo radical o constructivismo radical). Tres enfoques principales apoyan los MM en la evaluación de programas. El enfoque complementario indica que los resultados Cuali y Cuanti se presentan por separado, pero que un elemento Cuali contribuye con un elemento Cuanti, o viceversa. Por ejemplo, los resultados Cuali y Cuanti son claramente distintos en la sección de “Resultados” de los informes de evaluación o de las publicaciones, pero al menos una frase sugiere que los resultados Cuali y Cuanti son complementarios. El enfoque por tensión dialéctica destaca las diferencias siempre posibles entre los resultados Cuali y Cuanti. Por ejemplo, las diferencias entre los resultados Cuanti y Cuali se establecen en la sección de “Resultados” de los informes de evaluación o de las publicaciones, y al menos una frase sugiere cómo resolver estas diferencias. El enfoque MM por tensión dialéctica puede coexistir con el anterior. Postula la existencia de diferentes “visiones parciales del mundo” (Teddlie y Tashakkori, 2003, p. 18). Se proponen tres estrategias principales para resolver las diferencias entre datos o resultados Cuali y Cuanti: exclusión, reconciliación o iniciación (nuevo proyecto de investigación o nueva recopilación/análisis de datos). Estas estrategias se presentan en otro lugar (Pluye, Grad, Levine y Nicolau, 2009). El enfoque MM por asimilación sugiere que los resultados Cuali y Cuanti sean asimilados o transformados en una única forma Cuali o Cuanti. Por ejemplo, se presentan las frecuencias de ocurrencia de temas cualitativos, y no hay una distinción clara entre los resultados Cuali y Cuanti en la sección de “Resultados” de los informes de evaluaciones o de las publicaciones. Los diseños

Una clasificación común de los métodos mixtos se basa en tres tipos de diseños de investigación, cada uno de los cuales corresponde a un tipo de integración de los métodos cuantitativos y cualitativos (Creswell y Plano Clark, 2010). En primer lugar, los diseños de investigación exploratorios secuenciales que utilizan un método cualitativo seguido de un método cuantitativo (primero Cuali y luego Cuanti). En términos de integración, los resultados cuantitativos se movilizan para confirmar o generalizar los resultados cualitativos. En segundo lugar, los diseños explicativos secuenciales que utilizan un método cuantitativo seguido de un método cualitativo (primero Cuanti y luego Cuali). En lo concerniente a la integración, los resultados cualitativos se movilizan para interpretar o explicar los resultados

126 Enfoques y prácticas en la evaluación de programas

cuantitativos. En tercer lugar, los diseños concomitantes combinan los métodos cuantitativos y cualitativos desde la planificación de la investigación, o en el momento de la recolección y el análisis de los datos (Cuanti y Cuali). Por ejemplo, estos métodos pueden estudiar los mismos fenómenos de manera complementaria. La integración se produce en el momento de la recolección y el análisis de los datos. Se proponen tres tipos de diseños MM para planificar los estudios simples más que los programas de investigación compuestos de varios estudios, pero sin duda pueden aplicarse a los dos (Creswell y Plano Clark, 2010). Se puede transponer este matiz al campo de las evaluaciones de la siguiente manera. Los MM para la evaluación de programas pueden combinar los métodos Cuali y Cuanti al interior de un estudio de evaluación único o en un conjunto de evaluaciones estrechamente relacionadas. A manera de ejemplo, presentamos aquí un diseño de evaluación de tecnologías, donde se muestra cómo combinar una evaluación Cuanti longitudinal (estudio de cohorte) con una evaluación Cuali (estudio de caso múltiple) en un diseño MM concomitante. También hay variantes de estos tres diseños de base, como por ejemplo los diseños multinivel. El capítulo de Dagenais y Dupont (22), que presenta la evaluación del programa denominado “Equipo de intervención de la juventud”, da un ejemplo de ello. Este programa piloto (2003-2006) implicaba el análisis de la implementación de 17 equipos de coordinación para mejorar la accesibilidad y la calidad de los servicios para jóvenes en situaciones difíciles (0-18 años). Se evaluaron tres aspectos del programa en dos niveles: a) los jóvenes (1. Implantación y 2. Resultados), y b) los equipos (3. Proceso de coordinación). En el primer nivel, la evaluación utilizó un diseño concomitante (triangulación). El componente Cuanti consistía en análisis estadísticos descriptivos de los datos recogidos para cada joven (N = 441), en una base de datos en internet, por los coordinadores del programa (estudio de prevalencia). El componente Cuali consistía en estudios de caso (N = 29). Un caso estaba definido por un joven, su entorno y los profesionales encargados de la prestación de servicios. Los casos fueron seleccionados de manera aleatoria para que fuesen representantitos de la población de 441 jóvenes. Los evaluadores realizaron 114 entrevistas semiestructuradas para recoger los datos, y un análisis temático de las transcripciones de estas entrevistas. Los resultados Cuanti sugieren que el programa está bien implantado, llega a las personas apropiadas y, según lo previsto, proporciona servicios procedentes de distintas organizaciones. Los resultados Cuali sugieren que los resultados del programa son positivos en términos de satisfacción de los jóvenes, de sus familias y de los profesionales; por ejemplo, los padres reportaron una mejora en el acceso y la calidad de los servicios

7. Los métodos mixtos

127

ofrecidos. En el segundo nivel, se seleccionó una muestra de cuatro equipos de tal manera que reflejara los diferentes tipos de equipos en términos de composición, funcionamiento y clientela. Se recogieron datos adicionales para cada uno de ellos a través de entrevistas individuales con los coordinadores, los oficiales de enlace y los responsables de los servicios, y también mediante la realización de un focus group. Los evaluadores hicieron un análisis temático de las transcripciones de las entrevistas y de los focus groups, teniendo en cuenta los datos de “primer nivel”. Los resultados sugieren, por ejemplo, que el coordinador tenía una función de facilitador central para el buen funcionamiento de los equipos. Un ejemplo de diseño concomitante • Evaluación cuantitativa (Grad et al., 2005). Hemos elaborado un método para evaluar sistemáticamente los efectos de las búsquedas de información en los recursos electrónicos. Evaluamos un recurso, InfoRetriever, con una cohorte de 26 residentes. InfoRetriever es un motor de búsqueda que combina siete bases de datos, incluyendo un manual de referencia, directrices, sistemas expertos y sinopsis de artículos de investigación seleccionados por su pertinencia y validez en medicina familiar. Estos profesionales respondieron a un cuestionario electrónico de evaluación para informar de los efectos percibidos de cada elemento de información encontrado en InfoRetriever. El cuestionario permitió evaluar 2495 elementos de información. Los informes de efectos positivos más frecuentes fueron: “mi práctica mejoró” y “aprendí algo nuevo”. • Evaluación cualitativa concomitante (Pluye et al., 2007). Nuestro método permitió evaluar sistemáticamente la pertinencia situacional de los recursos electrónicos. Identificamos, en primer lugar, siete razones por las que los profesionales buscan información: cuatro objetivos cognitivos (por ejemplo, responder a una pregunta clínica) y tres objetivos organizativos (por ejemplo, intercambiar información con otros profesionales). Acto seguido, realizamos un estudio de casos múltiple. Los casos consistían en investigaciones efectuadas en InfoRetriever por 17 residentes durante dos meses. Las entrevistas con estos profesionales (recolección de datos cualitativos) fueron guiadas por los datos del cuestionario mencionado anteriormente (recolección concomitante de datos cuantitativos). Nuestro análisis concomitante de los datos cualitativos y cuantitativos se centró en 156 investigaciones críticas (contexto y consecuencias claramente descritos) relacionadas con 877 elementos de información. Para cada caso, se asignaron los datos cualitativos a un objetivo cognitivo u organizativo (análisis temático). Los residentes alcanzaron sus objetivos en el 85,8% de los casos (pertinencia situacional). Los resultados apoyan los objetivos propuestos y sugieren niveles de pertinencia. • Evaluación cuantitativa modificada. Gracias a los resultados del diseño concomitante, nuestro cuestionario integra los siete objetivos anteriores para evaluar sistemáticamente los efectos y la pertinencia situacional de la información. Fuentes: Grad, R. M. et al. (2005). Assessing the impact of clinical information-retrieval technology in a family practice residency. Journal of Evaluation in Clinical Practice, 11(6). Pluye, P. et al. (2007). Seven reasons why family physicians search clinical information-retrieval technology: Toward an organizational model. Journal of Evaluation in Clinical Practice, 13(1).

128 Enfoques y prácticas en la evaluación de programas Las técnicas

Las técnicas movilizadas en los MM para evaluar los programas pueden inspirarse en todos los tipos de combinaciones de técnicas para la recolección y el análisis de datos Cuali y Cuanti. Bryman (2006) hizo una recensión de escritos, incluyendo 232 artículos en ciencias sociales que reportaron la utilización de MM. Llegó a la conclusión de que la entrevista estructurada o cuestionario, tiende a predominar por el lado de las técnicas Cuanti (encuestas transversales) y que la entrevista abierta o semiestructurada tiende a predominar por el lado de las técnicas Cuali. Según su síntesis de los escritos, las principales técnicas de recolección de datos asociadas a los MM son, por orden alfabético: las entrevistas individuales (no estructuradas, semiestructuradas, estructuradas), los grupos de discusión (con o sin respuestas abiertas), la observación participante (de tipo etnográfico) y la recensión de documentos. Según esta síntesis de los escritos, las principales técnicas de análisis de datos asociadas a los MM son, por orden alfabético: el análisis temático cualitativo, los análisis estadísticos y el análisis de contenido o la cuantificación de datos cualitativos (por ejemplo, la cuantificación de las respuestas proporcionadas por los entrevistados). Además, una proporción sustancial de los artículos menciona que la recolección de datos Cuanti y Cuali no se basó, como cabría esperar, en instrumentaciones independientes. Tal combinación de técnicas corresponde al diseño concomitante presentado anteriormente. Esta combinación supone, por ejemplo, que las entrevistas etnográficas pueden analizarse utilizando estadísticas textuales (MM léxicosemánticos). Esta combinación de técnicas ilustra una vez más cómo los MM sugieren tipos metodológicos diferentes respecto a los tipos ideales empirismo lógico y constructivismo. Esta descripción general de los enfoques, los diseños y las técnicas permite planificar los MM en evaluación de programas y abordar la cuestión de la calidad de los MM. La planificación y la calidad de los métodos mixtos en evaluación de programas

Existen pocas recomendaciones específicas para planificar los MM en evaluación de programas (Greene, Caracelli y Graham, 1989; Greene, 2006), pero los evaluadores pueden inspirarse en las recomendaciones existentes para planificar las investigaciones MM (Creswell y Plano Clark, 2010). En el momento en que escribimos este capítulo, aún no existe ninguna norma de aceptación general para planificar un MM de “buena calidad”, o para evaluar la calidad metodológica de

7. Los métodos mixtos

129

los MM. Según Creswell et al. (2004) y O’Catahin (2010), es necesario trabajar para precisar los criterios de calidad de los MM. A partir de nuestra recensión de escritos (Pluye, Gagnon, Griffiths & JohnsonLafleur, 2009), de un estudio piloto (Pace et al., 2012), de talleres y deliberaciones con expertos (Pluye et al., 2011), proponemos concebir la calidad metodológica de los MM de la manera como se ve en el cuadro 7.2. Los MM deben reconciliar los tipos ideales empirismo lógico y constructivismo resumidos anteriormente. La teoría constructivista de Hacking (1999) permite, a nuestro juicio, esta reconciliación. Los MM crean un “efecto bucle” entre las pruebas procedentes de estudios Cuali y Cuanti, y construyen así un nuevo “tipo mixto” de pruebas. Esta concepción de los MM apoya la utilización de distintos criterios para diferentes métodos. Por lo tanto, proponemos: 1) evaluar la calidad metodológica de los componentes Cuali de los MM a partir de los criterios utilizados para evaluar los métodos Cuali; 2) evaluar los componentes Cuanti de los MM a partir de los criterios utilizados en epidemiología para evaluar los métodos Cuanti; y 3) evaluar la calidad general de los MM en función de lo que hemos presentado en la sección anterior sobre los enfoques, los diseños y las técnicas de los MM.2 Es preciso señalar que la evaluación de la calidad de los métodos Cuali es controversial y que, por lo tanto, la de los componentes Cuali de los MM lo es también al menos por tres razones: independientemente de su calidad, algunos estudios Cuali pueden iluminar, es decir, aclarar o mejorar la comprensión de los fenómenos observados (Sandelowski, 1993); pocos métodos Cuali corresponden a criterios de calidad explícitos generalmente aceptados por una comunidad de investigadores (Sandelowski et al., 2007). Por último, los métodos Cuali no son entidades fijas, como se presentan en las herramientas de evaluación de la calidad, y son muchos los que critican la premisa de que existe claramente una manera correcta y otra equivocada de aplicar los métodos Cuali.

2 Basada en esta concepción, una herramienta de evaluación de la calidad de los métodos mixtos está disponible

gratuitamente en internet: http://mixedmethodsappraisaltool-public.pbworks.com. Esta herramienta ocupa una sola página y se proporciona con un manual que facilita su uso.

130 Enfoques y prácticas en la evaluación de programas Cuadro 7.2. Calidad de los métodos mixtos en evaluación de programas Examinar

Criterios de calidad para métodos mixtos • Fuente de datos pertinentes para responder la pregunta.

1. Componente cualitativo

• Análisis de los datos pertinentes para responder a la pregunta. • Consideración del contexto de recopilación de datos. • Reflexión de los evaluadores sobre su método y sus resultados. • Aleatorización (o generación de secuencia) adecuada.

2. Componente cuantitativo aleatorizado

• Asignación adecuada (por ejemplo, a ciegas). • Resultados completos. • Baja tasa de deserción. • Reclutamiento que minimice el seso.

3. Componente cuantitativo no aleatorizado

• Medidas adecuadas (validadas o estándar). • Participantes similares en los dos grupos (o diferencias consideradas en el análisis). • Resultados completos, tasas de respuesta y seguimiento aceptables. • Muestreo apropiado para responder la pregunta.

4. Componente cuantitativo descriptivo

• Muestra representativa de la población en estudio. • Medidas adecuadas (validadas o estándar). • Tasa de respuesta aceptable. • Diseño MM pertinente para responder las preguntas.

5. Componente mixto

• Integración de los datos y/o resultados Cuali y Cuanti. • Discusión de los límites asociados a esta integración (por ejemplo, diferencias Cuali vs. Cuanti).

Por consiguiente, mientras se desarrollan los MM, hay que tratar de promover la calidad con base a criterios de rigor, y no cortar la creatividad y los descubrimientos asociados a los componentes cualitativos de los MM mediante la imposición de criterios estrictos que, precisamente, impedirían beneficiarse de la riqueza que puede ofrecer la combinación de los métodos Cuali y Cuanti. Para esto, sería posible utilizar los criterios propuestos en el cuadro 7.2 para analizar por separado, en la evaluación de programas, los estudios y los componentes Cuali o Cuanti de buena calidad metodológica vs. aquellos de baja calidad metodológica. Para ilustrar la utilización de esta herramienta, resumimos aquí la descripción y la discusión de los métodos utilizados en el capítulo 21 para evaluar un programa. Acto seguido, aplicamos los criterios presentados anteriormente para evaluar su calidad metodológica. Ridde et al. (capítulo 21) muestran la utilización de un diseño explicativo secuencial para: a) medir los gastos realizados por las mujeres durante un parto natural en una maternidad de primera línea de un distrito de

7. Los métodos mixtos

131

Burkina Faso por medio de una encuesta de prevalencia; y b) comprender estos resultados mediante un estudio de caso cualitativo. Presentaron los resultados cuantitativos sobre la diferencia observada entre el importe oficial (norma) y los pagos declarados por las mujeres (práctica), y luego los resultados cualitativos para entender esta diferencia. Además de las lecciones aprendidas con estos resultados para mejorar la política nacional de atención primaria en salud, los autores hacen recomendaciones para reducirla diferencia de implementación de políticas públicas similares (que pretenden promover la equidad). Componente cuantitativo descriptivo: dada la realización de una encuesta en los hogares, el muestreo era adecuado para responder a las preguntas sobre los gastos. La muestra era representativa de la población estudiada, puesto que incluía prácticamente toda la población (el 98,7% de las mujeres que dieron a luz y registradas en las maternidades). Los autores señalan que el cuestionario fue adaptado de una investigación anterior. Para ser sistemáticos y verificar que las medidas eran apropiadas, podríamos ponernos en contacto con los autores y pedirles hacer precisiones sobre la validez y la adaptación del cuestionario. Componente cualitativo: las fuentes de datos eran pertinentes para responder a la pregunta (grupos focales y entrevistas individuales). Los autores justifican de manera convincente las razones de la selección de los informantes clave entre los trabajadores de primera línea en los centros de salud, los responsables de las maternidades o de los centros de salud y los miembros del equipo directivo del distrito. Los resultados cuantitativos fueron presentados por los investigadores y se llevó a cabo un debate para examinar las pistas explicativas. El análisis temático inductivo de los datos era pertinente para responder a la pregunta. Los autores explican cómo tuvieron en cuenta el contexto de la recopilación de datos, y proporcionan una descripción detallada del lugar, la población, la organización piramidal (jerárquica) de la sociedad, el sistema de salud (poder importante de los profesionales) y la implementación del programa evaluado. La reflexión de los evaluadores sobre su método y sus resultados es ampliamente discutida. Por ejemplo, cómo los sesgos inherentes a las discusiones de grupo (control social) se redujeron al recurrir también a las entrevistas individuales a profundidad que se realizaron en las maternidades identificadas como “casos extremos” mediante el análisis de los datos cuantitativos (que tienen el promedio más alto en términos de pagos declarados por las mujeres). Componente mixto: el diseño mixto es pertinente para responder las preguntas. El diseño explicativo secuencial se justifica de la siguiente manera: tras el análisis de los datos cuantitativos sobre los gastos realizados por las mujeres, se han formulado cuatro pistas cualitativas de explicación de la diferencia observada entre

132 Enfoques y prácticas en la evaluación de programas

el importe oficial y el pago declarado por las mujeres. La integración de los datos se realizó entre las etapas cuantitativa y cualitativa (selección de casos extremos), y luego los resultados cualitativos se integraron a los resultados cuantitativos en el momento de la interpretación de los resultados por parte de los investigadores. Finalmente, los autores han debatido los límites asociados a esta integración en términos de fortalezas y debilidades de los componentes cuantitativos y cualitativos; por ejemplo, respecto a la falta de medición de la importancia y el significado del vínculo de causalidad entre las diferencias observadas y las explicaciones de estas diferencias. Una recensión mixta de escritos para las evaluaciones de programa

En todo proceso de evaluación el análisis de escritos constituye un elemento esencial que permite precisar los objetivos de la evaluación en función de lo ya conocido, o discutir sus resultados. Conocemos la metasíntesis de los estudios Cuali (por ejemplo, las meta-etnografías) y las revisiones sistemáticas de los estudios Cuanti (por ejemplo, las revisiones de los ensayos controlados aleatorizados con metaanálisis). Sin embargo, conocemos menos lo que denominamos la recensión mixta de escritos, es decir, las revisiones concomitantes de estudios Cuali, Cuanti y MM (Pluye, Gagnon et al., 2009). Por ejemplo, una recensión mixta permite hacer una síntesis de todo tipo de conocimientos empíricos en torno a los programas a ser evaluados o en proceso de evaluación. Se pueden encontrar ejemplos en educación, salud, gestión y ciencias sociales. En el siguiente recuadro resumimos una recensión mixta que realizamos para mejorar nuestro método de evaluación de las tecnologías. También hemos examinado una muestra de 59 recensiones mixtas de escritos pertenecientes al campo de las ciencias de la salud. Estas recensiones constituyen un tipo de MM cuyos datos son documentales (documentos que se refieren a evaluaciones o estudios Cuanti, Cuali y MM). Cada recensión mixta examina en promedio 26 estudios Cuanti, 17,9 estudios Cuali y 3,7 estudios MM. Los tres enfoques antes mencionados son utilizados por las recensiones mixtas. Los resultados Cuali y Cuanti son complementarios en el 54% de los casos, están en tensión dialéctica en el 7% de los casos, y se asimilan o transforman en resultados Cuanti o Cuali en el 36% de los casos. Favorecidas por el desarrollo de los MM, las recensiones mixtas surgieron recientemente como una nueva forma de recensión de escritos. De las 59 recensiones examinadas en el campo de la salud, 56 (el 95%) han sido publicadas desde el año 2000. Según nuestra muestra, las recensiones mixtas son útiles para explorar nuevos conocimientos (por ejemplo, descubrir las tendencias actuales relativas

7. Los métodos mixtos

133

al programa evaluado) y para confirmar conocimientos (por ejemplo, justificar las premisas del programa evaluado). Las recensiones mixtas se utilizan con fines exploratorios (el 62%) o de validación (el 19%), o con estos dos fines a la vez (el 19%). Hemos identificado tres tipos de recensiones mixtas (sistemáticas, reproducibles y de conveniencia), según cumplan o no con las características de las recensiones sistemáticas de escrito (Moynihan, 2002): formulación de una pregunta; identificación de los estudios potencialmente pertinentes; selección de los estudios pertinentes; evaluación de la calidad de los estudios seleccionados; síntesis de los resultados de los estudios elegidos por su pertinencia y su calidad. Hemos identificado 17 recensiones sistemáticas (el 29%) que cumplen con las cinco características mencionadas, y 23 recensiones reproductibles (el 39%) que cumplen con cuatro características (pregunta, identificación, selección y síntesis) y no evalúan la calidad de los estudios seleccionados por su pertinencia. Por su parte, las 19 recensiones de conveniencia (el 32%) cumplen únicamente con dos características (pregunta y síntesis), ya que la identificación y la selección no pueden reproducirse a partir de la información disponible y porque no hay una evaluación de la calidad de los estudios seleccionados. Si los evaluadores deciden realizar una recensión sistemática, pueden utilizar el cuadro 7.2 para evaluar la calidad de los estudios Cuali, Cuanti y MM seleccionados por su pertinencia.

134 Enfoques y prácticas en la evaluación de programas Una recensión mixta de escritos en evaluación de tecnologías • La evaluación de tecnologías es compleja y está abierta al pluralismo metodológico. Hemos identificado, seleccionado, evaluado y hecho síntesis de todos los tipos de estudios empíricos que examinan el impacto de los recursos electrónicos en los profesionales. • Métodos. Hicimos el recuento de los escritos científicos internacionales desde 1960 hasta 2004. Dos revisores identificaron de forma independiente los estudios potencialmente pertinentes tras escrutar respectivamente 3368 y 3249 referencias (título, autores, revisión, resumen) utilizando dos estrategias de búsqueda con base a datos bibliográficos. Se identificaron estudios adicionales a mano (investigación en los archivos personales y las revistas especializadas) y a través de una búsqueda de artículos citando los seleccionados a través de la base de datos bibliográfica ISI Web of Sciences. Se examinaron los textos completos de 605 artículos para determinar su pertinencia. Entre estos, 40 (el 6,6%) fueron evaluados de forma independiente por dos revisores para establecer su pertinencia y calidad metodológica. Estos artículos hacían relación de las investigaciones evaluativas cuantitativas, cualitativas o mixtas. De estas últimas, se seleccionaron 26 (el 4,3%), consideradas pertinentes y de calidad aceptable para hacer una síntesis. De cada artículo seleccionado, dos equipos hicieron un análisis temático cualitativo para hacer la síntesis de los resultados cuantitativos y cualitativos. • Resultados. Los estudios observacionales cuantitativos sugieren que aproximadamente una tercera parte de las búsquedas de información en los recursos electrónicos tienen un impacto positivo entre los médicos y otros profesionales de la salud. Los estudios experimentales cuantitativos o realizados en laboratorios informáticos (simulaciones) son contradictorios en cuanto al impacto de los recursos electrónicos en comparación con otras fuentes de información, como el material educativo impreso. Los resultados cualitativos y la calificación de los resultados cuantitativos apoyan y complementan los tipos de impacto que hemos propuesto en un estudio piloto. Fuente: Pluye, P. et al. (2005). The Impact of Clinical Information-Retrieval Technology on Physicians: A Literature Review of Quantitative, Qualitative and Mixed-method Studies. International Journal of Medical Informatics, 74(9).

Conclusión

Los investigadores y los evaluadores que utilizan los métodos mixtos rechazan la tesis de la inconmensurabilidad que separa el constructivismo y el empirismo lógico en dos tipos ideales metodológicos incompatibles (Johnson, 2007). Este capítulo muestra cómo las propuestas de Hacking (construccionismo) pueden ayudar a conceptualizar los MM y las pruebas mixtas, y a partir de esta conceptualización, describe tres enfoques metodológicos MM para la evaluación de programas, tres tipos de diseños MM y diversas combinaciones de técnicas de recopilación y análisis de datos para los MM. Además, propone criterios para evaluar la calidad de los MM. De acuerdo con nuestra experiencia, los MM deberían ser planificados, implantados y evaluados por un experto en métodos Cuali y Cuanti, o por al menos dos expertos que tengan conocimientos complementarios en métodos Cuali y Cuanti. Por ejemplo, nuestra evaluación de las técnicas y nuestra recensión de escritos fueron realizadas por un investigador con formación en

7. Los métodos mixtos

135

epidemiología y con conocimientos en MM y en métodos Cuali, y por investigadores especializados en métodos Cuanti. En conclusión, proponemos un programa de estudios para enseñar los MM que pueden ser útiles para los evaluadores, los estudiantes y los profesores en el campo de la evaluación de programas. Este curso se implantó en el año 2008. Aunque esté destinado a los estudiantes del campo de la salud, se construyó sobre la base de otros programas de Educación, Psicología y Sociología norteamericanos. El curso es dirigido por un investigador Cuali (sociólogo), un investigador Cuanti (epidemiólogo) y un investigador con formación en epidemiología especializado en MM y en métodos Cuali. La enseñanza de los métodos mixtos: programa de estudios • Curso 1. Introducción: con el fin de preparar a los estudiantes para los estudios mixtos, se proporciona una breve introducción a cada tipo de investigación. • Curso 2. Proyecto de investigación: los estudiantes elaboran un proyecto de investigación utilizando los métodos mixtos. • Curso 3. Recensión mixta de escritos: los estudiantes aprenden las técnicas para realizar un análisis documental que incluye estudios cualitativos, cuantitativos y mixtos. • Cursos 4 y 5. Diseños mixtos: se presentan los diseños mixtos, y cada estudiante aplica un diseño apropiado para su proyecto. • Curso 6. Muestreo e instrumentación: los estudiantes construyen el muestreo y la instrumentación apropiados, con componentes cualitativos y cuantitativos, para aplicar su diseño de investigación. • Curso 7. Recopilación de datos y reflexión sobre la instrumentación: los estudiantes aplican su instrumentación y la presentan a sus compañeros y discuten con ellos al respecto. • Curso 8. Diferencias: los estudiantes utilizan tres estrategias para analizar las diferencias entre los datos cualitativos y los cuantitativos. • Curso 9. Análisis de palabras y números: los estudiantes organizan y analizan sus datos cualitativos y cuantitativos. • Curso 10. Evaluación de la calidad metodológica de los estudios utilizando los métodos mixtos: se presentan los diferentes métodos para evaluar la calidad de los estudios cualitativos, cuantitativos y mixtos. • Curso 11. Sesión de lectura crítica: los estudiantes evalúan de manera crítica un artículo que utiliza un diseño mixto. • Curso 12. Proyectos individuales: los estudiantes presentan sus proyectos (comunicación oral) y reciben los comentarios y las sugerencias de los instructores y compañeros. Fuente: Levine, A., B. Nicolau y P. Pluye, “Applied Mixed Methods in Health Research”, programa de estudios, Universidad McGill.

136 Enfoques y prácticas en la evaluación de programas Para profundizar en el tema

Creswell, J. W., y Plano Clark, V. L. (2010). Designing and conducting Mixed Methods Research. Thousand Oaks: Sage Publications.3 Greene, J. C., Caracelli, V. J., y Graham, W. F. (1989). Toward a conceptual framework formixed-method evaluation designs. Educational Evaluation and Policy Analysis, 11(3), 255-274.4 Tashakkori, A., y Teddlie, C. (2010). Handbook of Mixed Methods in Social and Behavioral Research. Thousand Oaks: Sage Publications.5

Internet

Mixed Methods for Health Research: Overview of mixed methods research design & review. Disponible en: www.warwick.ac.uk/fac/med/research/hsri/primary_care/research_/cen-trepatexp/complexityhealth/mixedmethods.6 Journal of Mixed Methods Research. Disponible en: www.sagepub.com/journalsProdDesc.nav ?prodId=Journal 201775.7

3 Este libro contiene las propuestas más recientes de John Creswell (autor del exitoso libro Research Design)

y Vicki Plano Clark sobre los tipos de diseño de investigación y evaluación que utilizan métodos mixtos. Incluye también recomendaciones prácticas para elaborar, paso a paso, un diseño de evaluación utilizando métodos mixtos. Este libro es un manual básico suficiente para llevar a buen término una evaluación mixta.

4 En este artículo pionero se propone un marco conceptual de los métodos mixtos en el campo de la evaluación a partir de la literatura y el análisis de 57 investigaciones evaluativas que utilizan métodos mixtos. Se identifican

cinco estrategias de evaluación que utilizan métodos mixtos: la triangulación, la complementariedad, el desarrollo, la iniciación y la expansión.

5 Este libro presenta los fundamentos de la utilización de los métodos mixtos. Los retos teóricos están muy bien

desarrollados y se ilustran con ayuda de ejemplos concretos. Los autores fundamentales en este campo abordan todos los aspectos de los métodos mixtos. La obra ofrece una síntesis muy completa de los métodos mixtos. En rela-

ción con el manual de Creswell y Plano Clark (2010), constituye una referencia indispensable para los evaluadores, estudiantes e investigadores que quieren utilizar los métodos mixtos de manera más avanzada.

6 Este libro, de acceso gratuito en línea, contiene una lista de recursos actualizados por Frances Griffiths y Felicity

Boardman de la Universidad de Warwick (glosario, bibliografía, expertos, cursos y formación, programas informáticos, sitios de internet, conferencias y redes).

7 La publicación internacional de referencia para los artículos que versan sobre los métodos mixtos en todas

las disciplinas. Con el apoyo de los líderes en este campo, cada edición explora las investigaciones y evaluaciones originales que utilizan métodos mixtos, y presenta artículos metodológicos y teóricos que contribuyen a mejorar los conocimientos sobre dichos métodos.

8. La evaluación centrada en la utilización Michael Quinn Patton y Francine LaBossière

La evaluación centrada en la utilización se basa en el principio según el cual las evaluaciones deben juzgarse en función de su utilidad. De tal manera, un evaluador debería diseñar y realizar una evaluación teniendo en cuenta, desde el comienzo hasta el final, su utilización futura. Para ello, debe entender lo que los solicitantes de una evaluación y los usuarios finales quieren saber y cómo piensan disponer de la información derivada de ella. Así pues, la atención se centra en la utilización prevista de los resultados de la evaluación por parte de personas identificadas con antelación, los usuarios previstos. En toda evaluación hay varios usuarios potenciales y diversas utilizaciones posibles. La evaluación centrada en la utilización exige que se pase de lo general y ambiguo —es decir, de los públicos potenciales y las utilizaciones posibles— a lo específico y concreto: usuarios bien identificados y un compromiso manifiesto de su parte para utilizar la evaluación con fines específicos. La utilidad de una evaluación es demasiado importante para no ser más que esperada o presunta. Por tanto, es necesario preverla y reforzarla a lo largo del proceso evaluativo. Un error que se comete con frecuencia es suponer que una evaluación contribuirá forzosamente a la mejora de un programa o a la toma de decisiones en torno a él. Sin embargo, los encargados de tomar decisiones y los participantes en un programa no necesariamente se alegran al recibir los resultados de una evaluación. Entre las críticas más usuales, se encuentran las siguientes: •

El informe llega tarde, las decisiones ya fueron tomadas.

•

Las preguntas hechas no son las adecuadas.

• • •

El informe es muy voluminoso, nadie lo leerá.

El informe no nos dice lo que queríamos saber.

El lenguaje utilizado hace que el informe sea aburrido y difícil de entender.

La evaluación centrada en la utilización no aboga por un solo tipo de evaluación, de modelo, de método ni de teoría; ni siquiera por un solo tipo de utilización.

138 Enfoques y prácticas en la evaluación de programas

Se trata más bien de un proceso que pretende ayudar a los usuarios de la evaluación a tomar estas decisiones en función de sus necesidades. Como puede observarse en los diferentes capítulos de este manual, en la actualidad existen diversas opciones en el campo de la evaluación. El enfoque centrado en la utilización puede aplicarse a todo tipo de objetivos, objetos de evaluación, diseños y datos. Independiente del tipo de evaluación elegido, este enfoque tiene por objeto garantizar su utilización óptima. ¿Cómo se puede aumentar la utilidad de una evaluación? Entre otras formas, haciendo las preguntas adecuadas, sabiendo cuáles son las verdaderas necesidades de información, haciendo coincidir los resultados de la evaluación con los momentos de toma de decisiones y trabajando en estrecha colaboración con los usuarios previstos de estos resultados. La clave de una evaluación útil es precisar muy bien las necesidades de información y preguntarse sobre la pertinencia de la evaluación a lo largo del proceso: ¿por qué estamos haciendo esto? ¿De qué sirve hacerlo? ¿Nos proporcionará este enfoque información útil? ¿Cómo vamos a utilizar los datos en concreto? Si los usuarios previstos planean utilizar los resultados para “mejorar una intervención”, es necesario ayudarlos a ser más precisos: ¿queremos un programa más eficaz? ¿Mejor percibido por la población? ¿Que preste servicios a un mayor número de personas? ¿Qué aspectos de la intervención queremos mejorar? Al hacer este tipo de preguntas, el evaluador y los usuarios aumentan las posibilidades de que la evaluación responda de manera eficiente a sus necesidades y sea verdaderamente útil. Si una evaluación fue solicitada con miras a contribuir en la toma de decisiones, hay que saber cuáles son las preguntas que realmente se plantean los responsables de tomarlas. ¿Quieren saber si un programa local debería extenderse a un mayor número de regiones? ¿Quieren conocer los efectos de un programa sobre algunos indicadores específicos? O bien, en un contexto de restricciones presupuestarias, ¿la pregunta se refiere a la posibilidad de hacer lo mismo con menos? Al conocer las preguntas de interés para los tomadores de decisión y el contexto en que debe tomarse una decisión, un evaluador puede asegurarse de ir a buscar los datos que serán relevantes para los encargados de tomar las decisiones. Sin embargo, no basta con proporcionar información adecuada a los responsables de tomar decisiones, también es preciso transmitírselas en el momento adecuado. Un evaluador debe saber cuándo se tomarán las decisiones y garantizar que la información requerida esté disponible en el momento oportuno. Sin esta constante preocupación por la pertinencia y las fechas límite, los responsables de tomar decisiones podrían encontrarse frente a resultados de evaluación que pueden considerar interesantes, pero que no serán oportunos para la toma de decisiones.

8. La evaluación centrada en la utilización

139

Finalmente, la investigación en el campo de la psicología ha demostrado que una persona será más apta para utilizar una evaluación si ha participado activamente en ella (Patton, 1997). Una participación activa favorece la apropiación de la evaluación y una mejor comprensión de los resultados, lo que aumenta la probabilidad de que estos sean utilizados. Al trabajar en estrecha colaboración con los usuarios a lo largo del proceso, el evaluador prepara el terreno para una utilización más concreta de los resultados y refuerza la utilidad de la evaluación.

El factor personal

En el curso de una evaluación deben tomarse varias decisiones importantes. Entre otras cosas, es necesario determinar el objetivo de la evaluación, elegir los métodos a utilizar y ponerse de acuerdo sobre las fechas límite de entrega. ¿Quiénes son las personas que deben tomar estas decisiones? En la evaluación centrada en la utilización, son los principales usuarios previstos de la evaluación quienes deben tomar estas decisiones, con el apoyo del evaluador. Toda persona que esté dispuesta a utilizar una evaluación y que esté en condiciones de hacerlo, puede considerarse como usuario de la misma. Los principales usuarios previstos son las personas o los grupos que tienen el poder y la capacidad de contribuir de forma activa en su realización, y que tienen la intención de utilizarla con fines concretos. Colaboran con el evaluador a lo largo del proceso para garantizar que la evaluación sea pertinente y responda a sus necesidades. Estas personas son consideradas partes interesadas en la evaluación, aunque no sean las únicas. Las partes interesadas en la evaluación son las personas y los organismos para los que los resultados de la evaluación presentan un interés particular. Toda persona que deba tomar decisiones sobre el programa o desee obtener información sobre este puede considerarse como parte interesada. Se trata, entre otros, de los proveedores de fondos, los gestores del programa, el personal y los beneficiarios. Otros interesados, pero indirectamente, en la eficacia del programa, también pueden ser partes en la evaluación; entre estos encontramos los medios de comunicación, los investigadores o los contribuyentes, en el caso de un programa público. Sin embargo, las distintas partes interesadas pueden tener intereses muy diversos y a veces contradictorios. Dado que ninguna evaluación puede satisfacer adecuadamente todas sus necesidades de información, es preciso adoptar un proceso que permita elegir las preguntas de evaluación prioritarias. En la evaluación centrada en la utilización este proceso se inicia mediante la identificación de los usuarios potenciales y la determinación, entre ellos, de los principales usuarios previstos. Sus necesidades de información específicas orientarán la evaluación.

140 Enfoques y prácticas en la evaluación de programas

Por consiguiente, la evaluación basada en la utilización comienza por la identificación explícita de una persona o de un grupo de personas específicas que se comprometen a utilizar una evaluación con fines precisos. Esto difiere de lo que tradicionalmente se ha recomendado, es decir, identificar “los públicos” contemplados por una evaluación. Un público es una entidad bastante vaga y anónima, y no se tiene seguridad alguna acerca de su compromiso con la utilización de la evaluación. Así pues, no basta con identificar una agencia o una organización como la destinataria del informe de evaluación. Son las personas, y no las organizaciones, las que utilizan los resultados de las evaluaciones; de ahí la importancia del factor personal. Dicho factor personal se refiere a la existencia de un individuo o de un grupo de personas específicas que están interesadas en la evaluación y en sus resultados. Estos actores se sienten interpelados por la evaluación y desempeñan un papel activo en la misma. El evaluador centrado en la utilización facilita este compromiso, que por lo general se traduce en usos concretos. Cuando el factor personal falta, el impacto de la evaluación puede ser mucho menor. Las etapas de una evaluación centrada en la utilización

Las cinco etapas principales de una evaluación centrada en la utilización son las siguientes: 1) identificar los principales usuarios; 2) precisar con ellos los objetivos y usos de la evaluación; 3) elegir los métodos; 4) analizar e interpretar los datos; 5) utilizar y difundir los resultados.

1. En primer lugar, es necesario determinar los principales usuarios previstos de una evaluación. Desde luego, los solicitantes de una evaluación figuran entre ellos, pero ¿hay otros? Un análisis esmerado de las partes interesadas en la evaluación y de los usuarios potenciales debería servir de base para este ejercicio. Una vez identificados los usuarios previstos, es preciso determinar su nivel de participación adecuado en la evaluación (véase el cuadro 8.1). Por lo general estas decisiones las toman los solicitantes de la evaluación —guiados por el evaluador—, teniendo en cuenta consideraciones políticas, éticas y prácticas propias de cada situación. Finalmente, es necesario decidir cómo trabajarán los principales usuarios previstos con el evaluador y cómo participarán en la toma de decisiones sobre la evaluación (por ejemplo, en un grupo de trabajo). 2. En segundo lugar, el evaluador y los principales usuarios previstos se pondrán de acuerdo sobre el objetivo de la evaluación y sobre sus usos prioritarios. El evaluador trabaja con los usuarios para determinar sus necesidades

8. La evaluación centrada en la utilización

141

de información específicas y para precisar los objetivos y las preguntas de evaluación.

3. La tercera etapa del proceso se refiere a la elección de los diseños, los métodos y las herramientas. Los principales usuarios previstos participan en la toma de decisiones con el objetivo de comprender las fortalezas y limitantes de los resultados de la evaluación. Se pueden considerar varias opciones metodológicas, y el evaluador destaca las ventajas y desventajas de cada una. En esta etapa, la discusión se centra en cuestiones relacionadas con la exactitud metodológica, la validez de los datos, la viabilidad, la pertinencia y los costos. Como siempre, la preocupación que prima es la de la utilidad. ¿Los resultados obtenidos mediante estos métodos serán útiles y realmente utilizados? 4. Una vez que se han recogido y compilado los datos, comienza la cuarta etapa del proceso centrado en la utilización. Los usuarios participan activamente en la interpretación de los datos y la elaboración de recomendaciones.

El alcance de la promesa y el compromiso del evaluador

Cuadro 8.1. Los grados de participación de los diferentes usuarios previstos Información

Consulta

Implicación

Colaboración

Lo mantendremos informado del

Lo mantendremos

Trabajaremos

Incorporamos la

Esta evaluación

informado del

con usted para

mayor parte de

es suya. Nosotros

progreso de la

desarrollo de la

asegurarnos

sus consejos y

le ofreceremos

evaluación y

evaluación, le

de que sus

sugerencias en

opciones para

los resultados

escucharemos y

preocupaciones

la evaluación.

que usted pueda

obtenidos.

le diremos cómo

se tengan en

Le daremos

transmitirnos

sus comentarios

cuenta y se vean

oportunidades

sus decisiones.

Empowerment

y sugerencias

reflejadas en

significativas para

Usted tomará

han influido en la

las opciones

tomar parte en el

las decisiones

evaluación.

consideradas. Nos

proceso de toma

y nosotros lo

aseguramos de

de decisiones.

apoyaremos en su

que pueda revisar y comentar las opciones posibles y le diremos cómo se han tenido en cuenta sus comentarios en la evaluación.

implementación.

Funciones previstas de los usuarios

142 Enfoques y prácticas en la evaluación de programas Información

Consulta

Implicación

Colaboración

Difundir los resultados de

Anticipar posibles

Afirmar la

Actuar como

Realizar la

problemas,

importancia, la

principales

evaluación y

la evaluación y

identificar

exactitud y la

usuarios

apropiarse de

generar interés

obstáculos,

utilidad de la

previstos, dado

ella, además de desarrollar sus

por ellos.

Empowerment

sugerir

evaluación; llamar

su alto interés en

prioridades

la atención sobre

la evaluación, su

capacidades.

y mejorar la

los resultados

disponibilidad, sus

La evaluación

credibilidad de la

y establecer su

posiciones o redes

se utiliza para

evaluación.

credibilidad.

de influencia y

fortalecer su

su sentimiento

capacidad para

de apropiación

comprometerse

respecto a la

con el

evaluación.

pensamiento y con el fortalecimiento del programa.

Con el evaluador pueden formular estrategias específicas para optimizar la utilización de la evaluación teniendo en cuenta los resultados reales que han obtenido. 5. Finalmente, los usuarios previstos de la evaluación utilizan los resultados para los fines previstos. Más allá del compromiso inicial y de las utilizaciones que se han planificado, una difusión más general de los resultados puede generar usos previstos, pero no necesariamente esperados.

En teoría, la evaluación centrada en la utilización es un proceso relativamente sencillo que se hace etapa por etapa. En realidad, rara vez es así de fácil y lineal. Por ejemplo, el evaluador puede observar que nuevos usuarios se vuelven importantes o que surgen nuevas preguntas de evaluación en el momento de la toma de decisiones sobre los métodos de evaluación. Por otra parte, no siempre existe una distinción clara entre la elección de las preguntas de evaluación y la elección de los métodos; las preguntas guían la elección de los métodos, pero las preferencias metodológicas o la disponibilidad de datos pueden a su vez guiar la elección de las preguntas. La mayoría de los responsables de tomar decisiones se preocupan mucho por la calidad de una evaluación; quieren que esté “bien hecha”. A veces son reacios a contribuir activamente en su realización porque, precisamente, dicen que no tienen los conocimientos necesarios para “hacerla bien”. La creencia de que solo hay una manera correcta de hacer las cosas es a veces difícil de vencer. En una evaluación centrada en la utilización, la forma correcta es aquella que es útil y pertinente para los usuarios previstos. Para lograr esto, la negociación y el análisis situacional son

8. La evaluación centrada en la utilización

143

necesarios. La expresión “activo-reactivo-interactivo-adaptativo” describe el enfoque que adopta un evaluador centrado en la utilización para asegurarse de que una evaluación es útil. Es activo, en primer lugar, cuando trabaja con los solicitantes de la evaluación para precisar el objetivo de la misma y para dirigirse a los principales usuarios previstos. Es reactivo cuando escucha a los usuarios y reacciona ante lo que aprende sobre el contexto particular en el que se desarrolla la evaluación. Es interactivo cuando promueve un diálogo y un proceso de negociación abierto. Por último, es adaptativo cuando permite la modificación del plan de evaluación en función de su creciente comprensión de la situación y de sus condiciones cambiantes. Un evaluador activo-reactivo-interactivo-adaptativo no impone fórmulas de evaluación preestablecidas ni hace lo mismo en todas sus evaluaciones. Figura 8.1. Trabajar con los principales usuarios esperados: un ciclo dinámico ACTUAR

Evaluación

REACCIONAR

ADAPTAR

gociación

INTERACTUAR

Se encuentra realmente inmerso en los desafíos que plantea cada nueva situación y responde de forma personalizada a los usuarios de cada nueva evaluación. El enfoque activo-reactivo-interactivo-adaptativo reconoce de manera explícita la importancia de la experiencia, de los conocimientos y de la contribución del evaluador al poner énfasis en la acción. Un evaluador debe ser sensible a la situación, pero esto no quiere decir que se deje manipular por las partes interesadas en una evaluación, por sus intereses y necesidades. Así como un evaluador centrado en la utilización no debe imponer unilateralmente un objetivo y un conjunto de métodos a una evaluación, los usuarios no deben imponer sus preferencias de manera unilateral. Para llegar a un plan de evaluación final, es necesario un proceso de negociación que permita integrar los valores y las capacidades del evaluador a los de los usuarios previstos.

144 Enfoques y prácticas en la evaluación de programas La utilidad del proceso de evaluación

Por lo general, los debates sobre la utilidad de las evaluaciones solo se centran en la utilidad de los resultados. No obstante, el simple acto de participar en el proceso también puede ser útil. Si el hecho de haber participado activamente en el ejercicio lleva a los integrantes a razonar como un evaluador y a adherirse a los valores propios de la disciplina, la evaluación ha generado mucho más que resultados. Aquellos que tienen una formación en métodos de investigación o en evaluación pueden fácilmente dar por sentada la lógica que los sustenta. En cambio, para los responsables de tomar decisiones y la gente común, esta lógica puede ser más difícil de comprender o aplicar. Pensar en función de lo que es específico y mensurable no es necesariamente fácil para quienes muchas veces deben contentarse con imprecisiones y datos informales para pasar a la acción. Por ejemplo, cuando un programa llega a su fin y es necesario determinar su futuro, los responsables de tomar decisiones deben pronunciarse, incluso si no tienen a su disposición toda la información que habrían querido o las pruebas sobre los efectos del programa. Los datos de evaluación son solo uno de los muchos factores que ellos tienen en cuenta para tomar una decisión, y su capacidad de utilizar estos datos en la toma de decisiones puede ser muy variable. El proceso de evaluación ofrece numerosas oportunidades de aprendizaje a quienes participan en él. Pueden desarrollar su capacidad de encontrar pruebas, de evaluar las conclusiones de los estudios y de utilizarlos con mayor facilidad en la toma de decisiones. Estas competencias van mucho más allá de la evaluación en curso y les serán útiles a lo largo de su vida profesional. El ejercicio también pude llevarlos a desarrollar un pensamiento más analítico, a plantearse nuevas preguntas sobre sus prácticas de intervención y a promover una gestión iluminada por las pruebas en el seno de sus respectivos organismos. En pocas palabras, el hecho de familiarizarse con el proceso evaluativo puede tener un impacto significativo en los participantes, impacto que puede durar más tiempo que los resultados que se derivan de la evaluación. No obstante, la utilidad del proceso de evaluación no se limita al fortalecimiento de las capacidades y al desarrollo de un pensamiento evaluativo en las personas que participan en él. Un proceso de evaluación participativo también puede, entre otras cosas, fomentar la comprensión común de un programa entre las distintas partes; aumentar el compromiso y el sentido de apropiación de los participantes; fomentar un diálogo abierto entre los responsables de tomar decisiones y la gente común, reforzar la credibilidad de un programa, y contribuir al desarrollo de las organizaciones que participan en la evaluación.

8. La evaluación centrada en la utilización

145

Desde luego, toda evaluación puede tener este tipo de efectos, y con frecuencia es así. Pero en la evaluación centrada en la utilización, la participación activa de los usuarios aumenta la probabilidad de que se produzcan estos impactos. No se les considera como repercusiones oficiosas; por el contrario, se le presta especial atención a la utilidad del proceso e incluso se puede hacer de esto un objetivo explícito de la evaluación.

Los principios de la evaluación centrada en la utilización

Una serie de principios sustentan el enfoque de la evaluación centrada en la utilización. Podemos resumirlos de la siguiente manera: •

•

La fuerza motriz de una evaluación, la que guía todo el proceso, debe ser el compromiso firme de los usuarios previstos de utilizarla. En el momento de tomar cada una de las decisiones —ya sea que estas atañan a las preguntas, a los diseños, a los métodos, al análisis o al informe—, el evaluador examina con los usuarios cómo su uso de la evaluación afectará la decisión.

La preocupación por la utilización es permanente y continua, y ello desde el inicio de la evaluación. No es algo que solo interese al final del proceso. El potencial de utilización ya se ha determinado en gran medida una vez que la evaluación está a punto de concluir.

•

Las evaluaciones deben estar orientadas específicamente a los intereses y las necesidades de información de personas concretas, y no de clientes vagos.

•

No toda información es necesariamente útil. Para ser útil, la información debe ser creíble, pertinente y estar presentada de forma accesible y comprensible para los usuarios.

•

Las limitaciones de tiempo y recursos son las que generalmente hacen que una evaluación no pueda responder a las preguntas de todos aquellos que tienen un interés en el programa. Por tanto, las principales partes interesadas deben negociar la elección de las preguntas prioritarias.

Cuando la información está bien enfocada, hay mejores oportunidades de que se utilice. Puede ser difícil saber con antelación qué información exactamente será más útil para la toma de decisiones. Así, pues, la evaluación centrada en la utilización tiene por objetivo aumentar la probabilidad de que la información recogida sea pertinente, al centrarse en las decisiones a tomar y tener en cuenta los plazos reales. De esta manera, la evaluación centrada en la utilización minimiza la diferencia entre el uso potencial y el real y entre los conocimientos y la acción.

146 Enfoques y prácticas en la evaluación de programas

•

• •

Las personas difieren en su capacidad y su voluntad de utilizar la información. Esto significa que la información es más poderosa en las manos de aquellos que saben utilizarla y que son favorables a su uso. Por tanto, el reto consiste en hacer llegar la información correcta a las personas adecuadas.

Es más probable que los usuarios previstos de una evaluación la utilicen realmente si han contribuido de forma activa a realizarla y comprenden sus diferentes etapas.

Es la calidad de la participación, y no su volumen, lo que es importante. El tiempo empleado en las reuniones con los usuarios puede ser inversamente proporcional a la calidad del proceso, si estos encuentros son ineficaces. Los evaluadores que hacen evaluaciones centradas en la utilización deben ser expertos en la facilitación de grupos.

•

Una evaluación debe ser personalizada y adaptarse al contexto. Los enfoques basados en modelos preestablecidos no funcionan.

•

Un evaluador no debe asumir que la persona o el organismo que solicitó la evaluación se compromete de forma automática a utilizarla. Por el contrario, este compromiso debe crearse (o revitalizarse, si ha existido antes) y consolidarse a lo largo del proceso.

•

Los factores que pueden perjudicar la utilidad de los resultados de la evaluación son tan importantes como aquellos que pueden perjudicar su validez. Los responsables de tomar decisiones quieren datos que sean a la vez sólidos y útiles.

La utilización de una evaluación es diferente de la elaboración de los informes y de la difusión de los resultados. Estos son medios para facilitar la utilización, pero no deben confundirse con los usos concretos, tales como la toma de decisiones, la mejora de un programa o la producción de conocimientos. Un evaluador centrado en la utilización debe tener capacidades que vayan más allá de la pericia técnica y metodológica. Para asegurarse de que una evaluación no se vea amenazada por destructivos procesos de grupo o juegos de poder, debe tener cierto savoir-faire político, ser experto en facilitación de grupos y ser un comunicador eficaz. Una evaluación centrada en la utilización puede implicar tiempo y costos que distan mucho de ser despreciables. Sin embargo, los beneficios que pueden obtenerse de tal inversión, o de una utilización más eficaz de la evaluación,

8. La evaluación centrada en la utilización

147

también distan mucho de ser insignificantes. Estos costos deben explicitarse en los presupuestos de evaluación, de modo que la preocupación por la utilización no se descuide o abandone por causa de la falta de recursos.

Los retos de la evaluación centrada en la utilización

El enfoque de una evaluación centrada en la utilización implica cierto número de desafíos relacionados con la calidad técnica, los cambios frecuentes de los usuarios, las diversas funciones del evaluador, la utilización abusiva de la evaluación y las cuestiones éticas. La participación de los usuarios y la calidad de la evaluación

La participación activa de los usuarios en la elección de los métodos no debería poner en peligro la calidad o el rigor de la evaluación. Los usuarios de una evaluación quieren información que sea útil y válida a la vez. La participación de los usuarios, independiente de sus capacidades técnicas, aumenta la utilidad de los resultados. Un evaluador calificado debe poder ayudar a los no científicos a juzgar por ellos mismos las ventajas y desventajas de las diferentes opciones metodológicas, para que estos puedan elegir la que más se ajuste a sus necesidades. También hay que reconocer que la validez y la solidez de los datos de evaluación pueden variar de una situación a otra. La cuestión no es alcanzar siempre una norma absoluta de calidad científica o metodológica; se trata más bien de garantizar que las medidas y los métodos elegidos sean los adecuados para las necesidades de validación de una situación particular. El evaluador y los usuarios deben determinar el grado de validez apropiado a la luz de lo que proyectan hacer con los datos. El cambio frecuente de los usuarios

El talón de Aquiles de la evaluación centrada en la utilización es el cambio frecuente de los principales usuarios. Dado que este enfoque depende, en gran medida, de la participación de los usuarios previstos, si algunos de ellos abandonan el proceso a lo largo del camino, la utilización de la evaluación puede sufrir las consecuencias. Las personas que participan en una evaluación en una etapa tardía del proceso, no necesariamente llegan con las mismas expectativas que aquellas que han estado presentes desde el comienzo. La mejor manera de contrarrestar los efectos de estos cambios es trabajar con un grupo diversificado de usuarios. De este modo, la eventual salida de uno o dos usuarios será menos perturbadora. Por el contrario, en presencia de cambios importantes en el grupo de usuarios,

148 Enfoques y prácticas en la evaluación de programas

puede ser necesario iniciar de nuevo el proceso: negociar el plan de evaluación y los compromisos respecto a su utilización. No siempre es fácil para un evaluador poner la mira en los usuarios adecuados, llevarlos a dedicar su tiempo y sus esfuerzos a la evaluación, gestionar las dinámicas políticas, establecer una credibilidad y realizar una evaluación de manera ética. Todos estos retos están vinculados de una u otra manera a la relación entre el evaluador y los usuarios previstos. Cuando nuevos usuarios remplazan a otros que han salido, es necesario desarrollar nuevas relaciones. Esto puede ocasionar retrasos en el proceso de evaluación, pero vale la pena si con ello se aumenta la probabilidad de utilización de la evaluación. Un rol que varía en función del objetivo de la evaluación

La función del evaluador varía de acuerdo con el objetivo buscado y el tipo de evaluación. Si se trata de generar conocimientos generalizables sobre los vínculos causales entre una intervención y sus efectos, es preciso aplicar métodos rigurosos tomados de las ciencias sociales. En este caso, el rol principal del evaluador es el de experto en metodología. Cuando es necesario determinar el valor global de un programa, el evaluador debe desempeñar el papel de juez. Si la evaluación se encargó con el fin de responder preguntas relacionadas con la imputabilidad pública, el evaluador asume el papel de auditor, inspector o investigador independiente. Cuando la mejora del programa es el principal objetivo del ejercicio, el evaluador desempeña el papel de asesor y facilitador ante el personal del programa. Por último, como miembro de un equipo de diseño de programas, el evaluador puede desempeñar un papel de carácter más consultivo. No obstante, hay un rol que el evaluador centrado en la utilización siempre debe asumir: el de negociador. Al comienzo de la evaluación, el evaluador debe negociar con los principales usuarios previstos los papeles que tendrá que desempeñar. Todos los roles están disponibles, así como todos los métodos son opciones posibles. La selección de la función del evaluador depende de los usos previstos de la evaluación. La utilización abusiva de las evaluaciones

Un evaluador centrado en la utilización siempre tiene como objetivo optimizar el uso de los resultados y del proceso, pero también debe prestar atención a la posibilidad de que una evaluación sea utilizada de manera abusiva. Alkin y Coyle (1988) hicieron una distinción importante entre una “mala evaluación”, en la que el evaluador no hace bien su trabajo o no se adhiere a los principios y las normas de la profesión, y una “mala utilización”, en la que los usuarios manipulan la evaluación

8. La evaluación centrada en la utilización

149

para tergiversar los resultados o corromper la investigación. La mala utilización a veces escapa al control del evaluador, pero este siempre tiene un control directo sobre la calidad de su trabajo para evitar una mala evaluación. Los retos éticos

La posibilidad de que un evaluador centrado en la utilización se deje influenciar demasiado por las distintas partes interesadas en una evaluación puede constituir una preocupación para algunos. ¿Cómo pueden los evaluadores mantener su integridad si trabajan en estrecha colaboración con los responsables de tomar decisiones? ¿Cómo puede un evaluador tener en cuenta los factores políticos de una situación sin convertirse en un instrumento político de una o de varias partes interesadas en la evaluación? Los evaluadores se encuentran frente a un dilema: una relación demasiado estrecha con los responsables de tomar decisiones puede poner en peligro la credibilidad científica de la evaluación, mientras que una colaboración demasiado remota puede obstaculizar su utilización óptima. Las relaciones estrechas con los responsables de tomar decisiones plantean desafíos éticos relacionados con la integridad, la objetividad y la corruptibilidad del evaluador. El hecho de seleccionar a los actores que participan activamente en la evaluación conlleva desafíos éticos relacionados con el acceso a la información y el poder asociado a tales conocimientos. Estos dos retos giran en torno a una pregunta ética fundamental: ¿al servicio de quién están la evaluación y el evaluador? Los evaluadores deben prestar especial atención a los intereses representados en la evaluación y al acceso a la información que deriva de ella. La parte “activo” de la expresión “activo-reactivo-interactivo-adaptativo”, significa que los evaluadores deben llevar sus preocupaciones, preguntas y valores a la mesa de negociación. El evaluador es también parte interesada en una evaluación, ya que su reputación y credibilidad están en juego. El proceso “activo-reactivo-adaptativo” implica una obligación, de parte del evaluador, de representar los principios y las normas de la profesión, así como sus propios valores y su integridad, dentro del respeto de las creencias y preocupaciones de los demás usuarios primarios. Un segundo desafío tiene que ver con la forma en que están representados los intereses de las partes interesadas en un proceso centrado en la utilización. En la medida de lo posible, ellas se representan a sí mismas en las negociaciones y el proceso de evaluación. Cuando están en juego los intereses de personas desfavorecidas, estas no deben ser representadas por los grupos más favorecidos de manera potencialmente condescendiente o paternalista. Más bien, se deben

150 Enfoques y prácticas en la evaluación de programas

explorar maneras de hacerlos participar de forma activa y equitativa a lo largo del proceso de evaluación. Conclusión

El principio fundamental de la evaluación centrada en la utilización —trabajar con los principales usuarios previstos para lograr el uso deseado— ha adquirido un papel central en la práctica de la mayoría de los evaluadores profesionales. Cousins y sus colegas (2006) realizaron una encuesta entre 564 evaluadores y 68 profesionales, todos miembros de asociaciones profesionales de evaluación en Canadá y Estados Unidos. La encuesta incluía una lista de creencias posibles con las que los encuestados podían estar de acuerdo o no. El mayor consenso se obtuvo para la afirmación: “los evaluadores deberían formular las recomendaciones a partir del propio estudio”. La proposición que generó el segundo mayor consenso (71%) fue: “la función principal del evaluador es maximizar los usos previstos de los datos de la evaluación por parte de los usuarios previstos”. Por lo tanto, se puede decir que, desde la primera edición de Utilization-Focused Evaluation, hace treinta años, su principio de base pasó de la condición de idea controvertida (Alkin, 1990) a la de una filosofía de evaluación común. Para profundizar en el tema

Cousins, J. B., & Shulha, L. M. (2006). A Comparative Analysis of Evaluation Utilization and Its Cognate Fields of Inquiry: Current Issues and Trends. In: I. F. Shaw, J. C. Greene & M. M. Mark (dirs.), The Sage Handbook of Evaluation: Policies, Programs and Practices (pp. 266-291). Thousand Oaks: Sage Publications.1 Cousins, J. B. (dir.). (2008). Process Use in Theory, Research and Practice: New Directions for Evaluation no 116. USA: Jossey-Bass/American Evaluation Association.2 Patton, M. Q. (2008). Utilization-Focused Evaluation. Thousand Oaks: Sage Publications.3

1 Un excelente examen de toda la literatura sobre la utilidad de la evaluación, con una perspectiva interdisciplina-

ria que incluye las investigaciones sobre la utilización de los conocimientos y varias teorías elaboradas en prácticas relacionadas.

2 En este libro se encuentran, por un lado, los resultados de las investigaciones más recientes sobre la utilización

de los conocimientos y, por otro, las variaciones conceptuales en la consolidación de capacidades en materia de evaluación y en la utilización de los resultados de las evaluaciones.

3 Esta edición fue revisada con el fin de incluir las investigaciones y teorías más recientes. Además de encontrar

ejemplos de todo el mundo, se profundiza en los desarrollos recientes de los sistemas de pensamiento y de las ciencias de la complejidad en el campo de la evaluación.

8. La evaluación centrada en la utilización

151

Patton, M. Q. (2012). Essentials of Utilization-Focused Evaluation. Thousand Oaks: Sage Publications.4 Internet

Centers for Disease Control: CDC Evaluation Working Group. En: www.cdc.gov/eval/ resources.htm#logic5 Resources for Methods in Evaluation and Social Research. En: http:// gsociology.icaap. org/methods/

4 Basado en la obra Utilization-Focused Evaluation, este libro, más sintético y condensado, presenta un marco general y una lista revisada de etapas esenciales para diseñar y realizar evaluaciones centradas en la utilización.

5 Excelentes recursos en línea para la evaluación de la salud pública, que dan acceso a los métodos y a la ética,

además de ofrecer enlaces a otros sitios relevantes.

colección gerencia y políticas de salud

Su finalidad es contribuir a la reflexión, al análisis y al debate de los temas y problemas más urgentes sobre la salud y el desarrollo de los sistemas de salud.

Otros títulos de esta colección

Derechos de propiedad del seguro obligatorio de salud en Colombia Jaime Ramírez Moreno

Igualdad y Desigualdad: un enfoque crítico de la justicia social en salud

Román Vega Romero

Medicamentos esenciales y propiedad intelectual. Análisis para países en desarrollo Luis Edgar Parra Salas

Autores

Ligia de Salazar, Ph.D Directora Fundesalud Profesora titular (jubilada) Escuela de Salud Pública Universidad del Valle Colombia

Facultad de Ciencias Económicas y Administrativas

Enfoques y prácticas en la evaluación de programas Valéry Ridde Christian Dagenais compiladores

Enfoques y prácticas en la evaluación de programas

Valéry Ridde Christian Dagenais Aristide Bado

Kadidiatou Kadio

Michael Bamberger

Seni Kouanda

Murielle Bauchet

Francine LaBossière

Diane Berthelette

Miri Levin-Rozalis

Pierre Blaise

Isabelle Marcoux

François Bowen

Pierre McDuff

François Chagnon

Frédéric Nault-Brière

Nadia Cunden

Bernard Perret

Pierre-Marc Daigneault

Pierre Pluye

Luc Desnoyers

Nancy L. Porteous

Didier Dupont

Michael Quinn Patton

Julie Dutil

Emilie Robert

Françoise Fortin

Patricia Rogers

Pierre Fournier

Christine Rothmayr

Marie Gervais

Jim Rugh

Anne Guichard

Caroline Tourigny

Robert R. Haccoun

Josefien Van Olmen

Janie Houle

Sophie Witter

Françoise Jabot

Maurice Yameogo

Steve Jacob

Robert K. Yin