EGCREG MÓDULO 2

Page 1

LA EVALUACIÓN Y LA GESTIÓN DEL CONOCIMIENTO EN LA COOPERACIÓN INTERNACIONAL

MÓDULO 2

LOS MÉTODOS DE EVALUACIÓN


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

Autor del curso Banco Interamericano de Desarrollo (BID) (www.iadb.org), a través de su Sector de Integración y Comercio (INT). Coordinador del curso Banco Interamericano de Desarrollo (BID) (www.iadb.org), a través de su Sector de Integración y Comercio, el Instituto para la Integración de América Latina y el Caribe (INTAL) (www.iadb.org/es/intal), el Instituto Interamericano para el Desarrollo Económico y Social (INDES) (www.indes.org), así como el Consejo Suramericano de Infraestructura y Planeamiento (COSIPLAN) de la UNASUR. Autora del módulo Virginia Oliveros, Profesora asistente de Ciencia Política en la Universidad de Tulane (New Orleans, Estados Unidos). Coordinación pedagógica y de edición El Instituto Interamericano para el Desarrollo Económico y Social (INDES) (www.indes.org), en colaboración con la Fundación Centro de Educación a Distancia para el Desarrollo Económico y Tecnológico (CEDDET) (www.ceddet.org).

Copyright ©2017 Banco Interamericano de Desarrollo. Esta obra se encuentra sujeta a una licencia Creative Commons IGO 3.0 Reconocimiento-NoComercial-SinObrasDerivadas (CC-IGO 3.0 BY-NC-ND) (http://creativecommons.org/licenses/by-ncnd/3.0/igo/legalcode). Este documento es propiedad intelectual del Banco Interamericano de Desarrollo (BID). Cualquier reproducción parcial o total de este documento debe ser informada a: BIDINDES@iadb.org Cualquier disputa relacionada con el uso de las obras del BID que no pueda resolverse amistosamente se someterá a arbitraje de conformidad con las reglas de la CNUDMI (UNCITRAL). El uso del nombre del BID para cualquier fin distinto al reconocimiento respectivo y el uso del logotipo del BID no están autorizados por esta licencia CC-IGO y requieren de un acuerdo de licencia adicional. Note que el enlace URL incluye términos y condiciones adicionales de esta licencia. Las opiniones incluidas en los contenidos corresponden a sus autores y no reflejan necesariamente la opinión del Banco Interamericano de Desarrollo. Los presentes materiales han sido revisados a la luz de las decisiones ministeriales tomadas en el marco de la Novena Conferencia Ministerial de la Organización Mundial del Comercio celebrada en Bali, Indonesia, en diciembre de 2013. Los ajustes fueron realizados con la finalidad de reflejar un mayor alineamiento entre la temática del curso y las prioridades identificadas en la Declaración Ministerial y decisiones de Bali, en la que participaron todos los miembros del BID. Declaración de Bali

2


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

Tabla de contenidos Índice de figuras .............................................................................................................. 4 Índice de tablas ............................................................................................................... 4 Glosario de términos ....................................................................................................... 5 Acrónimos ....................................................................................................................... 6 Presentación del módulo ................................................................................................ 6 Objetivo general del módulo .......................................................................................... 6 Preguntas orientadoras de aprendizaje ......................................................................... 7 UNIDAD I. EL PROBLEMA FUNDAMENTAL DE LA INFERENCIA CAUSAL .................... 8 Objetivos de aprendizaje ................................................................................................ 8 I.1. Introducción a la unidad ............................................................................................ 8 SÍNTESIS DE LA UNIDAD ................................................................................................ 17 UNIDAD II. CORRELACIÓN Y CAUSALIDAD ..................................................................18 Objetivos de aprendizaje .............................................................................................. 18 II.1. Introducción a la unidad ......................................................................................... 18 SÍNTESIS DE LA UNIDAD ............................................................................................... 23 UNIDAD III. DATOS OBSERVACIONALES Y EXPERIMENTALES .................................. 24 Objetivos de aprendizaje .............................................................................................. 24 III.1. Introducción a la unidad ........................................................................................ 24 SÍNTESIS DE LA UNIDAD ............................................................................................... 35 UNIDAD IV. MÉTODOS CUANTITATIVOS DE EVALUACIÓN DE PROYECTOS ............. 36 Objetivos de aprendizaje .............................................................................................. 36 IV.1. Introducción a la unidad ........................................................................................ 36 SÍNTESIS DE LA UNIDAD ............................................................................................... 46 3


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

UNIDAD V. MÉTODOS CUALITATIVOS DE EVALUACIÓN DE PROYECTOS................. 47 Objetivos de aprendizaje .............................................................................................. 47 V.1. Introducción a la unidad ......................................................................................... 47 SÍNTESIS DE LA UNIDAD ............................................................................................... 53

Bibliografía citada ......................................................................................................... 54 Bibliografía recomendada ............................................................................................ 54

Índice de figuras Figura 1. Comic sobre correlación y causalidad.............................................................. 9 Figura 2A. Llega al tren .................................................................................................. 13 Figura 2B. Pierde el tren ................................................................................................. 13 Figura 3. El contrafactual .............................................................................................. 15 Figura 4. Ejemplo de relación espuria .......................................................................... 20 Figura 5. Correlación y causalidad ................................................................................ 20 Figura 6. Representación de una asignación aleatoria................................................ 27 Figura 7. Producción de arroz en fincas grandes y pequeñas antes de la implementación del programa ............................................................................ 42 Figura 8. Producción de arroz en fincas grandes y pequeñas luego de la implementación del programa ............................................................................ 43 Figura 9. La importancia de entender el cómo y el por qué en una evaluación de impacto ........................................................................................... 52

Índice de tablas Tabla 1. Participación en programa de capacitación laboral y salario luego de un año ....................................................................................................................... 10 Tabla 2. Participación en programa de capacitación laboral y cambio salarial ........... 12 4


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

Glosario de términos n Asignación aleatoria: Asignación al azar (por sorteo), en la cual todas las unida-

des tienen la misma probabilidad de ser seleccionadas para el tratamiento o programa. n Causalidad: “X” causa “Y” quiere decir que en ausencia de “X” no observaría-

mos “Y”, u observaríamos un valor diferente de “Y”. n Contrafactual: Aquello que no ha sucedido en el mundo real, pero podría haber

sucedido. En relación a la evaluación de impacto, alude al hecho de que establecer causalidad/impacto implica inferir qué hubiese pasado si el programa/tratamiento no hubiese sido implementado (el contrafactual). n Control: La ausencia de tratamiento. n Endogeneidad: Una relación de causalidad entre variables, pero la dirección de

la causalidad es en la dirección opuesta a la que pensábamos o va en ambas direcciones. n Relación espuria: Cuando dos variables no tienen conexión aparente, pero hay

una variable “escondida” que explica la correlación. n Sesgo de selección: El sesgo de selección se produce cuando las razones por

las cuales un individuo decide participar en un programa están correlacionados con el efecto que se quiere medir, incluso en ausencia del programa en cuestión. n Tratamiento: Aquello que nos interesa evaluar (por ejemplo, un programa de

capacitación laboral). n Validez externa: Refiere a la validez de aplicar las conclusiones de un estudio

(en nuestro caso, una evaluación de impacto) más allá del contexto en el cual se realizó el estudio. n Validez interna: Refiere a la correcta implementación del tratamiento y de la

asignación aleatoria en el contexto de un experimento.

5


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

Acrónimos n RCT (siglas en inglés): Randomized Control Trial, ensayo aleatorio contro-

lado o experimento de campo.

Presentación del módulo El objetivo general de este módulo es introducir métodos cuantitativos y cualitativos para la evaluación de impacto1. Con este fin, comenzaremos por discutir cómo se puede medir el impacto de un programa, cómo podemos estimar qué es lo que hubiese pasado en la ausencia de un programa. Para poder contestar estas preguntas nos centraremos en el concepto de contrafáctico. Al realizar la evaluación de impacto de un programa, sólo podemos observar un estado del mundo en el cual el programa fue efectivamente implementado, pero establecer causalidad implica inferir qué hubiese pasado si el programa no hubiese sido implementado (el contrafactual). El principal desafío entonces para poder identificar el impacto de un programa es crear un grupo de comparación válido que tenga características lo más parecidas posibles al grupo de tratamiento en ausencia del programa. Si bien la asignación aleatoria representa la solución “ideal” a este problema, cada uno de los métodos presentados en este módulo logra este objetivo de manera diferente.

Objetivo general del módulo n Introducir métodos cuantitativos y cualitativos de evaluación de impacto de

proyectos.

1

En este módulo nos centraremos solamente en evaluaciones de impacto, aquellas que, como se vio en el Módulo I, responden a la pregunta: “¿Contribuye el proyecto al logro del objetivo?”.

6


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

Preguntas orientadoras de aprendizaje n ¿Cómo podemos medir el impacto de un programa? ¿Cómo podemos estimar

qué hubiese pasado en ausencia del programa? n ¿Cuál es la diferencia entre correlación y causalidad? ¿Por qué esta diferencia

importa a la hora de medir el impacto de un programa? n ¿Cuáles son las características de una evaluación de impacto basada en la asig-

nación aleatoria? n ¿Cuáles son las ventajas de la asignación aleatoria de los participantes/benefi-

ciarios? ¿Por qué este método se considera el estándar de oro para evaluar? n ¿Cuáles son los principales métodos cualitativos y cuantitativos para la evalua-

ción de impacto? ¿Cuáles son sus características, ventajas y desventajas?

7


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

UNIDAD I EL PROBLEMA FUNDAMENTAL DE LA INFERENCIA CAUSAL

Objetivos de aprendizaje n Establecer una noción de causalidad basada en el concepto de contrafáctico. n Entender la evaluación de impacto como la comparación entre lo que pasó y lo

que hubiese pasado sin la intervención/programa (el contrafáctico).

I.1. Introducción a la unidad En esta unidad se expondrá una noción de causalidad basada en el concepto de contrafáctico y la imposibilidad de “repetir la historia”. A partir de este concepto se expondrá el problema fundamental de la inferencia causal. Al realizar la evaluación de impacto de un programa, sólo podemos observar un estado del mundo en el cual el programa fue efectivamente implementado, pero establecer causalidad implica saber qué hubiese pasado si el programa no hubiese sido implementado (el contrafactual). El problema fundamental de la inferencia causal se refiere al hecho de que sólo podemos observar un estado del mundo en el cual el programa fue implementado. Pero para poder evaluar el efecto/impacto de dicho programa necesitamos inferir qué hubiese pasado sin él. El siguiente cómic es una buena síntesis de los contenidos de esta unidad y la unidad siguiente. 8


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

Figura 1. Comic sobre correlación y causalidad. Fuente: https://es.xkcd.com/strips/correlacion/

I.1.1. La noción de causalidad basada en el contrafáctico En el lenguaje cotidiano nos referimos frecuentemente a causas y efectos. Pero ¿qué queremos decir exactamente cuando decimos que “X” causa “Y”? ¿Qué queremos decir, por ejemplo, cuando decimos que un programa de capacitación laboral causa un incremento en el salario o tiene un impacto en el salario? ¿Qué queremos decir cuando decimos que la cooperación internacional causa una mejora en la calidad de vida de la población de los países participantes? La idea en estos casos es que en ausencia de “X” no observaríamos “Y”. Esto no quiere decir que “X” sea la razón principal o la única razón de “Y”. Que “X” cause “Y” quiere decir simplemente que sin “X”, “Y” no sería observada o tendría un valor diferente (mayor o menor) del que hubiésemos observado con “X” presente2. Volviendo al ejemplo anterior, sin la capacitación laboral los salarios no hubiesen aumentado (o hubiesen aumentado menos). Sin la cooperación internacional, la calidad de vida de la población no hubiese mejorado (o hubiese mejorado menos).

2

En otras palabras, “X” puede tener un efecto sobre “Y” incluso cuando “X” no es condición ni necesaria ni suficiente para observar “Y”. Por eso, en general, cuando hablamos de evaluaciones de impacto, o en ciencias sociales en general, solemos hablar en términos probabilísticos: la probabilidad de que “Y” suceda es mayor (o menor) cuando “X” está presente.

9


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

Veamos un ejemplo en detalle para ilustrar esta idea. Supongamos que queremos hacer una evaluación de impacto (medir el efecto causal) de un programa local de capacitación laboral en el salario. El gobierno implementa un programa de capacitación laboral para todos aquellos que quieran inscribirse. Algunos deciden participar, otros no. Al final del programa se miden los salarios de aquellos que participaron y de aquellos que no participaron. Asumiendo que esta información estuviese disponible, luego de un año de finalizado el programa podemos comparar los salarios:

¿Participó en el programa?

Salario luego de un año

María

$25.000

Juan

No

$36.000

Alejo

No

$34.000

Enrique

$30.000

Rosario

$40.000

Pablo

$14.000

Susana

No

$60.000

Josefina

No

$28.000

Tabla 1. Participación en programa de capacitación laboral y salario luego de un año. Suponiendo que contamos solamente con esta información, ¿cómo podríamos estimar el impacto del programa de capacitación laboral en el salario? Una aproximación “inocente” al problema sería tomar el promedio salarial de aquellos que participaron en el programa y aquellos que no y luego hacer una substracción3. Al hacer esto, obtenemos: n Promedio participantes: (25.000 + 30.000 + 40.000 + 14.000) /4 = $27.250

3

Como veremos en la Unidad IV, este método se denomina “diferencia simple”.

10


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

n Promedio no participantes: (36.000 + 34.000 + 60.000 + 28.000)/4 = $39.500 n Participantes-no participantes: 27.250 - 39.500 = -$12.250

Con este resultado, y olvidándonos por un momento que tenemos solamente ocho casos, concluimos que la capacitación laboral no solamente no aumenta el salario, sino que lo reduce. ¿Existe alguna explicación plausible para este resultado? Si no creemos que la capacitación genera una baja de salarios, ¿existe alguna otra explicación por la cual los salarios de aquellos que participaron en el programa sean más bajos luego de un año? Por supuesto. Una explicación razonable es que quienes se anotaron en el programa de capacitación ganaban menos desde el comienzo. Si uno está satisfecho con su trabajo y salario, ¿cuál sería el incentivo para participar en un programa de capacitación laboral? Este problema se llama “sesgo de selección”. Se refiere al hecho de que los individuos que eligen participar en un programa pueden ser diferentes de aquellos que deciden no participar. Ahora imaginemos que los datos del cuadro están invertidos y que al calcular los promedios obtenemos el resultado opuesto: un aumento promedio de salario al año de la capacitación laboral de $12.250. Según este resultado, la capacitación genera un aumento de salarios. ¿Existe alguna explicación por la cual, luego de un año, los salarios de aquellos que participaron en el programa sean mayores que los de quienes no participaron en el programa? Es posible que el programa funcione y la gente aprenda nuevas herramientas y con ellas progrese en su trabajo o consiga un trabajo nuevo con un mejor salario. Sin embargo, también es posible que aquellos que eligen inscribirse en el programa sean individuos más motivados desde un principio y que esa motivación sea la causa tanto de la inscripción al programa como del aumento salarial. Nuevamente un problema de “sesgo de selección”. ¿Y si tuviésemos más datos? Por ejemplo, el salario de todos los participantes y no participantes al inicio del programa y luego de un año como muestra la tabla 2.

11


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

¿Participó en el programa?

Salario al inicio del año

Salario a fin del año

CAMBIO EN EL SALARIO

María

$24.000

$25.000

$1.000

Juan

No

$34.000

$36.000

$2.000

Alejo

No

$32.000

$34.000

$2.000

Enrique

$31.000

$30.000

-$1.000

Rosario

$38.000

$40.000

$2.000

Pablo

$12.000

$14.000

$2.000

Susana

No

$56.000

$60.000

$4.000

Josefina

No

$27.000

$28.000

$1.000

Tabla 2. Participación en programa de capacitación laboral y cambio salarial. n Aumento salarial promedio participantes: (1.000 - 1.000 + 2.000 + 2.000) /4 =

$1000 n Aumento salarial promedio no participantes: (2.000 + 2.000 + 4.000 + 1.000) /4

= $2250 n Participantes-no participantes: $1.000 - $2.250 = -$1.2504

Ahora que tomamos en cuenta el salario inicial de participantes y no participantes, ¿podemos decir que el programa tiene un impacto negativo sobre el salario (-$1250)? No, seguimos teniendo el mismo problema. Participantes y no participantes pueden ser distintos en otras características (además del salario inicial) que expliquen tanto la inscripción en el programa como el nivel salarial al término de un año. En otras palabras, el grupo que decide no participar en el programa de capacitación laboral no proporciona una buena estimación del contrafactual. Si pudiésemos observar el mismo sujeto (por ejemplo, María) y su salario al término de un año luego de participar de la capacitación y sin participar de la capacitación, podríamos comparar los dos 4

Este método de evaluación de impacto se denomina “diferencias en diferencias” y se discute en la Unidad IV.

12


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

mundos y obtener el efecto causal. Algo así sucede en la película “Sliding Doors” (traducida como “Vidas paralelas”), en la cual Gwyneth Paltrow (la protagonista de la película) intenta tomar el tren a su casa después de haber perdido el trabajo. Ver el siguiente video (el tráiler de la película): https://www.youtube.com/watch?v=BvUbv4iwbDs El siguiente esquema sintetiza el resto de la película luego de que la protagonista toma/ pierde el tren:

Figura 2A. Llega al tren.

Figura 2B. Pierde el tren.

Figura 2A: Llega al tren a tiempo èLlega temprano a la casa y encuentra al novio con otra èDeja al novio, encuentra otro mejor è “Vive feliz por siempre”. Figura 2B èPierde el tren, intenta tomar un taxi, la asaltan, va al hospital, llega tarde a la casa, el novio ya está solo èEl novio la sigue engañando è “Vive triste por siempre”5. ¿Cuál es el efecto causal de perder el tren? ¿Cuál es el impacto en la felicidad de la protagonista de perder el tren? En este caso, podemos observar perfectamente el efecto de perder/alcanzar el tren. Más específicamente, podemos observar el escenario contrafáctico. Pero en el mundo real, la historia sólo sucede una vez. Y nunca podemos observar los dos estados del mundo al mismo tiempo. La clave para poder estimar el contrafactual consiste en desplazarse del nivel individual al nivel grupal. No 5

La película, efectivamente, parece atribuir la felicidad de la protagonista a lo que sucede con el novio. No es una buena trama, pero sirve para ejemplificar el concepto de contrafactual.

13


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

es posible estimar el efecto causal de la capacitación laboral sobre el salario de, por ejemplo, María, porque fuera de la película, la historia sólo sucede una vez. Una persona participa del programa de capacitación o no participa, una persona toma el tren o lo pierde, no es posible que la misma persona haga ambas cosas al mismo tiempo. No existen clones perfectos de las personas tampoco. Pero al pasar del nivel individual al grupal, podemos encontrar grupos comparables, lo suficientemente parecidos, para poder funcionar como “clones” del grupo que participa en la capacitación o toma el tren. Volveremos sobre este punto en las unidades siguientes.

I.1.2. El problema fundamental de la inferencia causal El problema fundamental de la inferencia causal se refiere justamente a que la historia sólo sucede una vez y el contrafactual no existe. En otras palabras, la dificultad para medir el efecto o impacto de un programa o intervención es que, en el mundo real, sólo podemos observar lo que ocurrió, no lo que hubiese ocurrido sin la intervención. Usando algunos términos más técnicos, definimos: n Tratamiento: Aquello que nos interesa evaluar (por ejemplo, el programa de

capacitación laboral o la cooperación internacional). n Control: La ausencia de tratamiento.

El problema fundamental de la inferencia causal se puede expresar entonces en términos más precisos. Para cada sujeto (unidad de análisis), sólo podemos observar lo que sucede cuando recibe el tratamiento o cuando no lo recibe (control), pero no podemos observar los dos estados al mismo tiempo. No podemos observar directamente el contrafáctico. Lo cual quiere decir que no podemos observar directamente el efecto causal, lo tenemos que inferir. Esto es lo que se denomina inferencia causal, refiere al hecho de que para medir el impacto de un programa, para entender su efecto, hay que imaginarse qué hubiese pasado sin el programa. En definitiva, la causalidad es fundamentalmente acerca de hacerse preguntas contrafácticas: ¿qué pasaría con nuestra variable dependiente en ausencia de la variable independiente? ¿Cuál hubiese sido el salario sin la capacitación laboral? ¿Cuál hubiese sido la calidad 14


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

de vida de la población sin la cooperación internacional? La figura 2 grafica este concepto. En azul aparece representada la realidad. En rojo, el contrafactual, lo que hubiese pasado sin la intervención. El impacto (efecto causal) es la diferencia entre lo que pasó y lo que hubiese pasado sin la intervención.

Intervención

Impacto

Contrafactual

Figura 3. El contrafactual. Fuente: Elaboración propia a partir de la adaptación de Figura de J-PAL.

Pero ¿por qué el problema fundamental de la inferencia causal es un problema? Si lo que nos interesa es describir, no lo es. Por ejemplo, si lo que queremos decir es: “Enrique participó de la capacitación laboral y su salario creció” o “El país X firmó un acuerdo de cooperación internacional y la calidad de vida de su población aumentó”, no tenemos un problema. Pero ¿debería el gobierno financiar programas de capacitación laboral? ¿Funcionan? ¿Tiene la cooperación internacional un impacto sobre la calidad de vida de la población? Para poder contestar estas preguntas necesitamos saber si el programa de capacitación laboral impacta o no en el salario, si la cooperación internacional causa o no un aumento en la calidad de vida. Necesitamos poder establecer el impacto/efecto del programa.

15


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

Volviendo al ejemplo de la capacitación laboral. ¿Cómo podemos estimar el efecto de la capacitación laboral evitando el “sesgo de selección”? ¿Cuál es la “solución” al problema fundamental de la inferencia causal? La solución “ideal” es la asignación aleatoria de los sujetos6. Si podemos asignar a la gente al grupo de tratamiento y al grupo de controI de manera aleatoria, podemos estar seguros de que no hay correlación entre quien integra cada grupo y el efecto en el salario. En otras palabras, características como la motivación o el salario inicial de los participantes no afectan la participación en el programa ya que los sujetos son asignados aleatoriamente (no se “autoseleccionan” en el programa). Esto garantiza que, en promedio, el grupo que participa en el programa (grupo de tratamiento) y el que no (grupo de control) son iguales tanto en características observables como no observables. Como la única diferencia entre los grupos es la participación en el programa, podemos atribuir cualquier diferencia en el salario observada después de un año al efecto del programa de capacitación laboral. En términos generales, como el contrafactual no existe, ya que es lo que hubiese pasado si el programa no se hubiese implementado, la evaluación de impacto consiste implícita o explícitamente en construir una estimación del contrafactual para poder comparar con la realidad (con aquello que sí ocurrió). ¿Cuál hubiese sido el efecto/impacto en un estado alternativo del mundo? ¿Cuál hubiese sido el resultado en ausencia de la variable independiente central? El objetivo es generar una estrategia de evaluación convincente que pueda mostrar el efecto del programa implementado. Y de eso se trata este módulo, de presentar las distintas alternativas que se pueden utilizar a la hora de evaluar el impacto de un programa específico.

6

Ya mencionamos que el primer paso es desplazarse al nivel grupal, a nivel individual no hay “solución” posible.

16


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

SÍNTESIS DE LA UNIDAD La causalidad (efecto causal o impacto) se puede entender como la diferencia entre lo que sucedió luego de la implementación de un programa/ intervención/ tratamiento y lo que hubiese sucedido sin él. El problema fundamental de la inferencia causal se refiere al hecho de que no podemos observar el contrafactual, con lo cual la causalidad hay que inferirla. La solución a la imposibilidad de observar el contrafactual es la asignación aleatoria que genera grupos similares en promedio ("clones” que nos permiten comparar).

17


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

UNIDAD II CORRELACIÓN Y CAUSALIDAD

Objetivos de aprendizaje n Distinguir entre correlación y causalidad. n Discutir los conceptos de sesgo de selección, relación espuria y endogeneidad.

II.1. Introducción a la unidad En esta unidad se discutirá la diferencia entre correlación y causalidad, así como las diversas situaciones que pueden generar que dos variables que aparecen correlacionadas no estén relacionadas de manera causal. A partir de la comprensión de esta distinción fundamental, se expondrán los conceptos de sesgo de selección, endogeneidad y relación espuria como distintas explicaciones para entender las diversas maneras en las cuales dos variables pueden estar relacionadas.

II.1.1. Correlación y causalidad El ejemplo de la capacitación laboral de la unidad anterior ilustra un problema más general. El análisis de los datos observacionales puede ser engañoso. El hecho de que dos variables estén relacionadas no significa necesariamente que exista una relación

18


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

causal. Una correlación entre participación en el programa de capacitación laboral y cambio salarial no necesariamente indica una relación causal; no indica necesariamente que la capacitación laboral tenga un impacto en el salario. La afirmación “X” e “Y” están correlacionadas refiere a una afirmación sobre la realidad existente. La afirmación “X” causa “Y” refiere a una relación entre la realidad y el contrafactual (lo que hubiese pasado en ausencia de “X”). Un ejemplo muy citado es la “Teoría de la paz de McDonald’s”, que en su enunciación original estipulaba: “Dos países con restaurantes McDonald’s nunca entran en guerra uno contra el otro”7. Por rara que suene la teoría, no había ninguna excepción a ella hasta 2008, año en el cual Rusia y Georgia (ambos con McDonald’s) tuvieron un conflicto bélico. De todas maneras, sigue siendo absolutamente cierto que los países con McDonald’s muy raramente entran en guerra. ¿Esto quiere decir que McDonald’s tiene un impacto sobre la paz mundial? ¿Que McDonald’s tiene un efecto causal sobre las relaciones de paz (o guerra) entre los países? Por supuesto que no. La correlación es casi perfecta, pero no implica causalidad. McDonald’s no tiene un impacto en la paz mundial. Sin embargo, hay en este caso una explicación a la correlación. Los países con McDonald’s suelen ser más desarrollados y más abiertos al comercio que los países sin McDonald’s y sabemos que los países con más relaciones comerciales tienden a tener relaciones más pacíficas entre ellos. En definitiva, en este caso la correlación aparente entre dos variables (McDonald’s y paz) no implica una relación causal entre esas variables, pero sí es indicativa de otra relación causal con una variable que no habíamos considerado. Esto es lo que se llama una relación espuria, que es cuando dos variables no tienen conexión aparente, pero hay una variable “escondida” que explica la correlación. En algunos casos, sin embargo, existen correlaciones absurdas que muy probablemente sean simplemente casualidad, y no haya ninguna variable escondida (como el comercio en el caso de los McDonald’s) que explique la correlación. Por ejemplo, la

7

Este ejemplo fue difundido por primera vez por Thomas L. Friedman en un artículo en el New York Times en 1996 y ha sido usado innumerables veces en clases y libros de metodología de la investigación. Friedman, Thomas L. (1996). “Foreign Affairs Big Mac 1”. New York Times, 8 de diciembre de 1996. https://www.nytimes.com/1996/12/08/opinion/foreign-affairs-big-mac-i.html

19


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

figura 3 muestra la correlación entre el consumo de queso per cápita y la cantidad de gente que muere ahorcada por sus propias sábanas.

Figura 4. Ejemplo de relación espuria. Fuente: http://tylervigen.com/spurious-correlations, sobre datos de U.S. Department of Agriculture and Centers 8

for Disease Control & Prevention .

Por último, un ejemplo sencillo para no volver a confundir correlación y causalidad:

Figura 5. Correlación y causalidad. Fuente: http://www.asandiford.com/comic/correlation-causation/

8

Ver : http://tylervigen.com/spurious-correlations para más ejemplos divertidos.

20


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

I.1.2. Endogeneidad, sesgo de selección y relación espuria ¿Por qué la correlación y la causalidad no necesariamente coinciden? En algunos casos, dos variables aparecen correlacionadas porque, de hecho, hay una relación causal entre ellas. Pero como los ejemplos de la sección anterior muestran, esto no siempre es así. Volviendo al ejemplo de la capacitación laboral, la correlación observada en la tabla 1 (ver página 9) entre participar en la capacitación laboral y un salario menor al de los no participantes al término de un año se podía explicar por el sesgo de selección de los participantes. Aquellos que elegían participar en el programa probablemente tenían un salario menor al de los no participantes al inicio del programa, lo cual explicaba la diferencia en el salario al término de un año. El sesgo de selección se produce cuando las razones por las cuales un individuo decide participar en un programa están correlacionados con el efecto que se quiere medir (el salario, en este caso), incluso en ausencia del programa en cuestión. La variable escondida “salario al inicio del programa” explicaba entonces tanto la decisión de participar en el programa de capacitación laboral como el salario al término de un año. Cuando dos variables, A y B, aparecen empíricamente correlacionadas, es posible que exista una relación de causa y efecto, pero también hay otras posibilidades: 1. A causa B. 2. B causa A. 3. A causa B y B causa A al mismo tiempo. 4. Existe una variable C que causa tanto A como B. 5. La correlación es simple coincidencia. En los casos 1, 2 y 3 existe efectivamente una relación causal en los términos explicados anteriormente. La pregunta es entonces acerca de la dirección de esa relación de causalidad. ¿Existe un impacto de A sobre B, B sobre A, o ambos suceden al mismo tiempo? El término endogeneidad se usa para referirse a estos casos cuando la relación causal es en la relación opuesta a la que pensábamos o va en ambas direcciones.

21


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

Poder establecer la dirección de la relación causal no es simplemente un ejercicio académico, tiene una importancia fundamental para la implementación de políticas públicas. Por ejemplo, una de las correlaciones más fuertes que se puede encontrar es la correlación entre democracia y desarrollo. Los países más democráticos tienden a ser más ricos. Y los países más ricos tienden a ser democráticos. Ambas afirmaciones tienen implicancias muy diferentes. Por ejemplo, si el desarrollo genera democracia, una estrategia para combatir los regímenes autoritarios es darle ayuda económica a sus gobiernos y colaborar con su desarrollo. Si el desarrollo económico genera democracia es entonces sólo cuestión de tiempo. Pero si esto no fuese así, se estaría simplemente ayudando a un gobierno autoritario a permanecer en el poder. Los casos 4 y 5 son casos de relaciones espurias, la relación entre A y B parece causal, pero no lo es. Un ejemplo del caso 4 es el mencionado anteriormente en relación a la capacitación laboral. La variable C (la variable escondida) era la motivación que tenía un impacto tanto en la probabilidad de optar por tomar parte en el programa de capacitación laboral como en el salario luego de un año. El caso de la teoría de “la paz de McDonald’s” también entra en esta categoría. La “variable escondida”, en este caso, era el comercio o la apertura comercial. Un ejemplo del caso 5, donde la correlación es simple coincidencia, es la correlación que muestra la figura 4 entre el consumo de queso per cápita y la cantidad de gente que muere ahorcada entre sus propias sábanas. En suma, la existencia de una correlación entre variables no necesariamente indica una relación causal. Establecer el tipo de relación existente entre las variables (causal o no) requiere de un diseño de investigación riguroso. En el caso ideal, la asignación aleatoria nos permite resolver el problema fundamental de la inferencia causal e identificar el impacto de A sobre B de manera fehaciente. Pero esta posibilidad no siempre está disponible. En los casos en los cuales la asignación aleatoria no es posible implementar, los distintos métodos proponen distintas maneras de construir o imitar el contrafactual. La siguiente unidad aborda la diferencia fundamental entre contar con datos experimentales (derivados de una asignación aleatoria) u observacionales.

22


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

SÍNTESIS DE LA UNIDAD La correlación no implica causalidad. La afirmación “X e Y están correlacionadas” refiere a una afirmación sobre la realidad existente. La afirmación “X causa Y” refiere a una relación entre la realidad y el contrafactual. El sesgo de selección, la endogeneidad y las relaciones espurias pueden ser las causantes de que relaciones que aparentan ser causales no lo sean, o sean causales en la dirección inversa a la esperada.

23


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

UNIDAD III DATOS OBSERVACIONALES Y EXPERIMENTALES

Objetivos de aprendizaje n Describir el método experimental como el método ideal para la evaluación de

impacto. n Contrastar las características de los datos observacionales y experimentales. n Identificar las implicancias de contar con uno u otro tipo de dato para la eva-

luación.

III.1. Introducción a la unidad En esta unidad abordaremos las diferencias fundamentales entre los datos observacionales y experimentales. La unidad comienza con una descripción del método experimental como método ideal para la evaluación de impacto. Se describen las características fundamentales del método, así como las razones por las cuales se lo considera el estándar de oro para la evaluación de impacto. La unidad también describe los diferentes tipos de experimentos. Se concluye con una breve discusión acerca de cómo establecer el efecto causal (impacto) de un programa o una política pública cuando la asignación aleatoria no es posible ya sea por razones prácticas, logísticas o éticas. 24


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

III.1.1. Datos experimentales ¿Qué es un experimento? Un experimento tiene cuatro características básicas: 1. Los sujetos se dividen en un grupo de tratamiento y un grupo de control. 2. La asignación de las unidades (individuos, organizaciones, regiones, países) al grupo de tratamiento y al de control se realiza de manera aleatoria (al azar). •

Una forma sencilla de pensar en la asignación aleatoria es equipararla a tirar una moneda, si toca cara, se asigna el sujeto al tratamiento, si toca seca, no se lo asigna (o al revés, por supuesto). En definitiva, es un sorteo9.

3. La administración del tratamiento —la intervención— está bajo el control de quien administra el programa. 4. Concluido el experimento, la respuesta de los sujetos asignados al grupo de tratamiento se compara con la respuesta de los sujetos en el grupo de control. La asignación aleatoria (el ensayo aleatorio controlado) es el “gold standard” (regla de oro) de las evaluaciones de impacto. Es la mejor forma de crear un contrafactual que nos permita estimar de manera sólida el impacto de un programa. Al mismo tiempo, es posible argumentar que se trata también de una manera justa y transparente de asignar recursos. Una vez definida la población objetivo, a quién está destinado el programa (por ejemplo, mujeres embarazadas, hogares por debajo de la línea de pobreza o jóvenes desempleados), la asignación al azar permite que todas las unidades elegibles tengan igual probabilidad de ser seleccionadas y evita el uso de criterios arbitrarios o subjetivos. Además, es sumamente habitual que los programas tengan un exceso de demanda (una población objetivo mayor que la que los recursos disponibles puede cubrir). En estos casos, la asignación aleatoria provee una regla sencilla y justa para seleccionar participantes que todas las partes involucradas pueden comprender (Gertler et al., 2017, págs. 72-75).

9

Tirar una moneda garantiza que cada sujeto tiene una probabilidad igual de recibir el tratamiento (o participar en el programa) o no (0,5). Pero hay otras maneras de realizar la asignación al azar que pueden resultar más convenientes. Véase Dolan (https://egap.org/methods-guides/10-things-youneed-know-randomization) para un menú de opciones.

25


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

Muchas políticas públicas utilizan de manera regular el sorteo como herramienta para seleccionar a los participantes/beneficiarios del conjunto de todos los individuos elegibles. Por ejemplo, el programa de vivienda del gobierno de Brasil que otorga créditos de vivienda subsidiados, “Minha Casa Minha Vida”, utiliza un sorteo público para elegir a los beneficiarios (entre aquellos, por supuesto, que cumplan con los requisitos básicos). Otro ejemplo interesante es el programa contra la pobreza Progresa/Oportunidades del gobierno de México. Se trata de un programa de asistencia condicional que transfiere dinero a las madres de familia a condición de que sus hijos permanezcan en la escuela y se realicen chequeos médicos periódicos. El programa, hoy mucho más difundido, fue inicialmente implementado en etapas. En 1998, familias en 320 pueblos que cumplían con los requisitos mínimos para ser beneficiarios del programa (por ejemplo, estar por debajo de cierto nivel de pobreza y tener acceso a una escuela) fueron seleccionadas al azar para beneficiarse con el programa. Otros 186 pueblos fueron excluidos del programa hasta el año 2000 (De la O, 2015). Esta implementación en etapas ha permitido realizar numerosas evaluaciones de impacto comparando los pueblos que recibieron los beneficios primero (grupo de tratamiento) con los pueblos que lo recibieron luego (grupo de control). III.1.1.1. ¿Por qué la asignación aleatoria genera un buen contrafactual? El grupo de comparación ideal es aquel lo más parecido posible al grupo de tratamiento en todos los sentidos (una especie de “clon”), excepto con respecto a la participación en la política pública o programa que se quiere evaluar. Es decir, antes de la implementación del programa, los grupos deberían ser equivalentes. Siempre y cuando el número de sujetos sea lo suficientemente grande, la asignación aleatoria, en la que cada unidad elegible tiene la misma probabilidad de ser seleccionada para el tratamiento, producirá grupos que serán, en promedio, equivalentes tanto en características observables como no observables. La figura 6 sirve de ilustración a este punto. Imaginemos que cada persona en la figura representa 100 personas. Volvamos entonces al ejemplo de la capacitación laboral. Supongamos que la población de sujetos elegibles (participantes potenciales) es 26


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

la que aparece representada en la parte superior de la figura y consiste en 1.800 personas (18 “personitas”). De estas 1.800 personas, 900 son asignadas de manera aleatoria a participar en el programa de capacitación laboral y 900 son asignadas al grupo de control (no participan en la capacitación laboral)10. Población elegible

Grupo de control

Grupo de tratamiento

Figura 6. Representación de una asignación aleatoria. Fuente: Elaboración propia con ilustraciones de Clip art de Word.

Como ilustra la figura, 1.200 de los 1.800 participantes potenciales son mujeres (67%), la asignación aleatoria genera que tanto en el grupo de tratamiento como en el de control también haya un 67% de mujeres (600/900). Lo mismo se puede afirmar de

10

En este ejemplo, para simplificar, todos los participantes potenciales son asignados a un grupo (control o tratamiento), pero esto no es necesario para poder evaluar un programa. En muchos casos, basta con seleccionar una muestra aleatoria del universo posible y realizar la evaluación sobre esa muestra. Si la muestra estuvo correctamente seleccionada, las conclusiones pueden luego extrapolarse al resto de la población.

27


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

otras características. Por ejemplo, si el 25% de los participantes potenciales tienen títulos universitarios, la asignación al azar genera dos grupos (tratamiento y control) en los cuales en cada uno de ellos vamos a tener un 25% de personas con títulos universitarios. En términos más generales, siempre que la población sea lo suficientemente grande, todas las características del grupo de potenciales participantes aparecerán en la misma proporción en el grupo de tratamiento y en el grupo de control. Y esto es cierto tanto para características fácilmente observables (como el sexo o la educación, que se puede preguntar) como para aquellas más difíciles de medir o de observar (como la motivación). En promedio, con números suficientemente grandes, ambos grupos serán iguales en características observables y no observables. Es decir, un contrafactual ideal. A la hora de implementar una evaluación y para estar seguros que la asignación aleatoria se realizó sin inconvenientes, se utilizan los datos de la línea de base (la información recogida antes de comenzar con la implementación del programa) para verificar que efectivamente los grupos son, en promedio, equivalentes. Esto, por supuesto, se puede realizar solamente con aquellas variables medibles y que fueron incluidas en la línea de base, pero no hay razones para suponer que si los grupos son similares en variables observables, no lo sean también en variables no observables. Una vez verificada entonces que la asignación aleatoria fue exitosa y que ambos grupos son, en promedio, iguales, la diferencia que se observe entre los grupos luego de la implementación del programa que se quiere evaluar puede ser atribuida al programa. La certeza de que el cambio en el grupo de tratamiento se debe al programa y no a otros factores viene del hecho de que los dos grupos eran idénticos al inicio del programa (lo cual fue verificado con los datos de la línea de base) y que el tiempo pasa para ambos grupos, ambos grupos están expuestos a los mismos factores externos a través del tiempo. Volviendo al ejemplo del impacto de la capacitación laboral en el salario, esto quiere decir que luego de un año el salario de participantes y no participantes puede ser afectado por factores tales como la inflación o la tasa de desempleo.

28


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

La evaluación de impacto realizada a través de la asignación aleatoria del programa o tratamiento requiere tener una estrategia clara de evaluación antes del inicio del programa. La mayor parte del trabajo del evaluador es diseñar esta estrategia e implementar los pasos necesarios para que la evaluación sea exitosa (por ejemplo, asegurarse de que la línea de base incluya todas las variables relevantes o que la asignación aleatoria se realice correctamente). Una gran ventaja de la evaluación de impacto basada en la asignación aleatoria es que una vez concluido el proyecto, el análisis es relativamente sencillo. Se trata de comparar a los participantes/beneficiarios del programa (grupo de tratamiento) con el grupo de control (el contrafactual). Gracias a la asignación aleatoria, las diferencias encontradas luego del programa entre ambos grupos (por ejemplo, en el salario) puede ser atribuida al programa en evaluación. En la sección siguiente se presenta un ejemplo en detalle.

III.1.1.2. Ejemplo: Programa para mejorar la educación en Kenia11 En los últimos años, Kenia ha aumentado significativamente la cantidad de niños que asisten a la escuela, lo cual ha generado varios desafíos. Uno de ellos es que la cantidad de maestras/os se ha tornado insuficiente. En 2005, en la muestra de escuelas incluidas en el experimento que se describe a continuación, por ejemplo, el tamaño promedio de las clases de primer grado era de 83 estudiantes. Las clases, además, eran muy heterogéneas. En particular, los estudiantes variaban mucho en edad, cuán preparados estaban para empezar la escuela (la educación preescolar no era ni obligatoria ni gratuita en Kenia) y el apoyo con el que contaban en la casa. En 2005, para combatir estos problemas, 140 escuelas primarias en Kenia recibieron fondos de la ONG International Child Support Africa (ICS) para contratar un/a maestro/a adicional. El objetivo era poder reducir el tamaño de las clases. Pero el programa también presentaba una oportunidad única para evaluar el efecto de la heterogeneidad de las clases en el aprendizaje de los niños.

11

Esta sección se basa en el experimento descrito en Dufflo et al. (2008). Para más detalles, consultar el artículo.

29


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

La separación de los estudiantes en clases según sus aptitudes es una práctica sobre la cual ni académicos ni funcionarios encargados de políticas educativas logran ponerse de acuerdo. Por un lado, si la homogeneidad facilita el trabajo de los maestros, la agrupación por aptitudes académicas podría mejorar la efectividad de la enseñanza. Por otra parte, si los estudiantes aprenden en parte de sus compañeros, la agrupación por aptitudes podría convertirse en una desventaja para los estudiantes con menores aptitudes académicas previas y un beneficio para los que tienen mejores aptitudes, lo cual exacerbaría la desigualdad. La pregunta es importante y la evidencia existente contradictoria (Dufflo et al., 2008). El principal obstáculo para identificar el impacto de la separación de estudiantes de acuerdo a sus aptitudes es que las escuelas que hacen eso suelen ser diferentes de las escuelas que no lo hacen. Por ejemplo, suelen atraer tanto a estudiantes como a maestros/as diferentes (Dufflo et al., 2008), lo cual por supuesto afecta el rendimiento escolar12. El programa para disminuir el tamaño de las clases presentaba entonces una oportunidad única. Con el objetivo de evaluar el impacto de la subdivisión por aptitudes académicas en la performance de los estudiantes, ¿cómo se implementó entonces el programa? De las 140 escuelas que recibieron fondos, 121 tenían solamente una clase de primer grado y dividieron esa clase en dos secciones. En 60 escuelas seleccionadas de manera aleatoria (de las 121), los estudiantes fueron asignados a secciones de acuerdo a sus notas durante el primer período del año (el programa comenzó en el segundo período). En las restantes 61 escuelas, los estudiantes fueron asignados al azar a una de las dos secciones. Salvo en los casos de repetición, los estudiantes permanecieron en la misma sección con la/el misma/o maestra/o durante el resto del año y durante

12

El problema es similar al descrito en la Unidad I en relación al programa de capacitación laboral. Aquellos que deciden participar en un programa de ese tipo suelen ser diferentes de aquellos que deciden no participar, y estas diferencias suelen estar asociadas al salario que era aquello en lo cual nos interesaba medir el impacto. El problema es similar en este caso. Se trata de otro caso de sesgo de selección.

30


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

todo el siguiente año. Luego de 18 meses, todos los estudiantes tomaron un primer examen. Un año más tarde los estudiantes tomaron un segundo examen. La asignación aleatoria de las escuelas al tratamiento (subdivisión por aptitudes académicas) y control (asignación al azar), permite asegurar que, en promedio, las escuelas de tratamiento y control son similares en características observables y no observables. Algo, por supuesto, que los evaluadores se encargan de mostrar con datos. Dado que los grupos son, en promedio, similares, las diferencias en rendimiento escolar que se encuentren entre los grupos pueden ser asignadas con seguridad al efecto de la homogeneidad o heterogeneidad de la clase. La evaluación de impacto encuentra que la subdivisión por aptitudes académicas tiene un efecto positivo. Luego de 18 meses, los estudiantes en escuelas con clases divididas por aptitudes académicas recibieron mejores notas en los exámenes que los estudiantes con clases heterogéneas, y el efecto se mantuvo en el nuevo examen que se efectuó al término de un año. Usando otra metodología (que se discute en la Unidad IV), denominada regresión discontinua, la evaluación mostró además que los estudiantes de todos los niveles se beneficiaron con la división por aptitudes académicas. Los evaluadores concluyen que esto indica que la separación por aptitudes académicas es beneficiosa porque ayuda a las/os maestras/os a ajustar su enseñanza al nivel que la mayoría de los estudiantes en la clase necesita.

III.1.1.3. Validez interna y externa La implementación de evaluaciones de impacto con asignación aleatoria del tratamiento o programa requiere, como ya se mencionó, de una cuidadosa metodología y un riguroso seguimiento. Para que la evaluación sea realmente útil a la hora de determinar si un programa funciona o no funciona hay que asegurarse que el experimento (la asignación del tratamiento de manera aleatoria) tenga tanto validez interna como externa.

31


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

La implementación aleatoria de un programa tiene validez interna cuando es implementada de acuerdo a lo planeado. ¿La asignación aleatoria resultó realmente aleatoria? ¿Los grupos de tratamiento y control son efectivamente semejantes? ¿Los participantes se tomaron el tratamiento seriamente? ¿Algo sucedió fuera del control del evaluador que pudo haber afectado el resultado? Por ejemplo, es posible que el dispositivo para realizar la asignación aleatoria falle o que aquellos elegidos aleatoriamente para participar decidan luego no hacerlo o que no se lo tomen seriamente. Supongamos, por ejemplo, en el caso del programa de capacitación laboral, que los seleccionados para participar faltan mucho o no prestan atención en clase. En ese caso, es difícil argumentar que efectivamente han recibido el “tratamiento” (la capacitación laboral). La validez externa refiere al mundo externo al experimento o implementación aleatoria de un programa. Asumiendo que todo salió de acuerdo a lo planeado (validez interna) y que los evaluadores encuentran un impacto del programa en cuestión sobre la población estudiada, ¿qué nos dice esto sobre el mundo real, fuera del escenario de la implementación aleatoria? El secreto en este caso es que la muestra que se utilizó para la evaluación sea representativa de la población elegible para el programa13. En ese caso, los resultados de la evaluación se pueden generalizar a la población elegible (potenciales participantes).

III.1.1.4. Otros tipos de experimentos El experimento descrito en la sección III.1.1.2 se denomina experimento de campo o ensayo aleatorio controlado (RCT = randomized control trial, por sus siglas en inglés). Son experimentos (con las cuatro características descritas más arriba) que se realizan “en el campo”, es decir sobre la población a la cual se quiere impactar. El programa educativo de Kenia, por ejemplo, se realizó en escuelas de Kenia, con estudiantes y

13

Muestra representativa significa, al igual que en el caso de las encuestas de opinión pública, por ejemplo, que todos los potenciales participantes tienen igual probabilidad de ser seleccionados (la selección es aleatoria). Para ser representativa, una muestra además tiene que ser lo suficientemente grande.

32


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

maestras/os de Kenia. El evaluador, sin embargo, estuvo a cargo de la asignación aleatoria y la administración del tratamiento. Hay otros tipos de experimentos, llamados experimentos naturales, que se utilizan también regularmente para realizar evaluaciones de impacto. Este tipo de experimentos comparten muchas de las características de los experimentos descritos hasta aquí en esta unidad, con la diferencia de que el evaluador no es quien hace la asignación, sino que aprovecha una asignación aleatoria “hecha por la naturaleza”. La clave en estos casos es que hay razones para creer que la variación en el tratamiento es “como si fuera” aleatoria (as if random). No es por supuesto “la naturaleza” la que realiza la asignación, sino que puede ser la forma de implementación de una política o programa o, a veces, algún hecho azaroso. Por ejemplo, en su estudio de un programa de reintegración de excombatientes implementado en Burundi luego de la guerra civil (1993-2004), Gilligan et al. (2013) aprovechan el hecho de que una NGO a cargo del programa tuvo que suspender sus operaciones, lo cual resultó en un grupo de control (generado “naturalmente”) que debería haber participado en el programa, pero no participó. Otro caso de experimento natural se da en los programas que asignan beneficiarios por sorteo, como el caso mencionado previamente del programa Minha Casa Minha Vida, que provee hipotecas altamente beneficiarias para los participantes. A veces también las evaluaciones de impacto miden algún aspecto utilizando experimentos de encuesta o experimentos de laboratorio en el campo. Pero la utilización de estos dos tipos de experimentos, muy habitual en estudios académicos, es menos usual en el mundo de las políticas públicas.

III.1.2. Datos observacionales y causalidad Datos observacionales son aquellos en los cuales las “unidades” se asignan a sí mismas a los grupos de tratamiento y control, o la asignación la hacen otros por algún método no aleatorio. Además del problema fundamental de que cada unidad sólo recibe el tratamiento o el control (problema fundamental de la inferencia causal), los datos observacionales tienen el problema adicional de que no se puede controlar 33


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

quién recibe el tratamiento y quién el control, lo cual muchas veces puede generar un sesgo de selección. Por ejemplo, en el caso del programa de capacitación laboral descrito en la Unidad I, los participantes decidían por sí mismos si deseaban participar o no del programa. Esta situación en la cual el evaluador no tiene control sobre la participación o no en el programa es muy común (de hecho, es la situación más habitual). Existen muchísimos programas en los cuales el evaluador/investigador no tiene control sobre el mecanismo de asignación al programa (o tiene algún control, pero la asignación no es aleatoria). A veces hay razones económicas, prácticas o éticas por las cuales la asignación aleatoria no es factible. Frecuentemente también, el programa a evaluar fue implementado sin una asignación aleatoria del tratamiento. Sin embargo, también nos interesa poder estimar el impacto de esos programas. Y ¿cómo se logra esto? El desafío es identificar un grupo de comparación válido que tenga características similares a las del grupo de tratamiento en ausencia del programa. En otras palabras, “controlando” por otros factores (variables) que creemos que pueden importar a la hora de estimar el impacto. Volviendo al ejemplo de la capacitación laboral, una variable fundamental a tener en cuenta a la hora de estimar el impacto en el salario luego de un año de la capacitación laboral es, por supuesto, el salario inicial de los participantes. Una forma sencilla entonces de generar un grupo de comparación en este caso sería comparar los salarios de los participantes en el programa luego de un año con el salario de no participantes que tuviesen salarios similares al inicio del programa. En términos más generales, ¿cómo se logra esto? En los casos discutidos en la sección anterior se usa una asignación aleatoria del programa para crear un grupo de control. En ausencia de asignación aleatoria del tratamiento o participación en el programa, ¿cómo se construye un contrafactual que nos permita comparar? Los distintos métodos proponen distintas soluciones. El objetivo en todos los casos es buscar un grupo de comparación (de control) que nos ayude a pensar en el efecto contrafáctico. ¿Qué hubiese pasado en ausencia de la intervención/programa?

34


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

SÍNTESIS DE LA UNIDAD El método de asignación aleatoria del tratamiento es el método ideal de evaluación de impacto porque genera un grupo de control igual al de tratamiento (un contrafactual ideal), salvo por el hecho de no haber recibido el tratamiento. Pero la asignación aleatoria no siempre es posible.

35


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

UNIDAD IV MÉTODOS CUANTITATIVOS DE EVALUACIÓN DE PROYECTOS

Objetivos de aprendizaje n Examinar enfoques cuantitativos para la evaluación de proyectos. n Identificar el método más adecuado a cada caso/contexto y sus limitaciones.

IV.1. Introducción a la unidad Recordemos que el principal desafío para poder identificar el impacto de un programa es crear un grupo de comparación válido que tenga características lo más parecidas posibles al grupo de tratamiento en ausencia del programa. Cada método logra este objetivo de manera diferente. Recordemos entonces para los métodos que vimos en la unidad anterior: Experimentos (RCTs) n ¿Con qué grupo comparamos? ¿Cómo se construye el contrafactual? Con los

participantes que han sido asignados al azar a no participar en el programa. n El método funciona bien si la asignación aleatoria estuvo bien hecha, el expe-

rimento fue correctamente implementado (validez interna) y los dos grupos son idénticos (en promedio) en factores observables y no observables.

36


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

Experimentos naturales n ¿Con qué grupo comparamos? ¿Cómo se construye el contrafactual? Con los

participantes que han sido asignados (por “la naturaleza”) al azar a no participar en el programa. n El método funciona bien si la asignación aleatoria (o casi aleatoria) es indepen-

diente del resultado que se quiere medir y genera dos grupos que son idénticos (en promedio) en factores observables y no observables. En esta unidad se examinarán los principales métodos cuantitativos para la evaluación de proyectos, estableciendo en cada caso cuál es el grupo de comparación, las condiciones necesarias para que el método sea efectivo y las principales limitaciones de cada método. En particular, nos centraremos en: evaluaciones pre-post, diferencia simple, diferencias en diferencias, regresión discontinua, pareamiento (matching) y regresión múltiple.

IV.1.1. Evaluaciones pre-post y diferencia simple Las evaluaciones pre-post miden cómo los participantes o beneficiarios de un programa mejoran (o cambian) a través del tiempo. Es decir, se usa el pasado como grupo de control. Por ejemplo, en el programa de la capacitación laboral descrito más arriba, una evaluación pre-post consistiría en medir los salarios de los participantes antes de comenzar con la capacitación (línea de base) y compararlo con los salarios de los participantes luego de la capacitación. El contrafactual, o grupo de comparación, en este caso, son los mismos sujetos antes del inicio del programa que se quiere evaluar. Para poder atribuir el cambio salarial al programa de capacitación, sin embargo, hay que mostrar que el programa fue lo único que tuvo impacto en el salario, que no hubo ningún otro factor interviniente. En otras palabras, que sin el programa de capacitación, el salario de los participantes hubiese sido el mismo al inicio y al final del período de estudio. Este requisito se vuelve más y más difícil de sostener cuanto más tiempo pasa entre que se toma la línea de base y se miden los resultados.

37


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

¿Cómo se construye el contrafactual? n Con los mismos participantes del programa, antes del inicio del mismo.

El método funciona bien si: n El programa fue el único factor que impactó sobre el resultado que nos in-

teresa medir en el tiempo. Limitaciones fundamentales: n En la práctica, es muy difícil poder aislar el impacto del programa en el resul-

tado estudiado de otros factores intervinientes. El método de diferencia simple consiste en comparar a los participantes con los no participantes al término de la implementación del programa. Esto sólo es posible siempre y cuando se tenga información tanto de los participantes como de los no participantes para poder comparar. Como se discutió en la Unidad I en referencia al ejemplo de la capacitación laboral, uno de los problemas fundamentales de utilizar no participantes como contrafactual es el sesgo de selección. Quienes eligen participar y quienes eligen no participar pueden ser diferentes en características relevantes a la hora de ver el impacto de un programa. En el caso de la capacitación laboral, tanto el salario inicial como la motivación eran ejemplos de características que era razonable esperar que difieran entre participantes y no participantes. El problema es que luego de la implementación del programa, la diferencia que se observa entre los grupos puede ser producto del programa, producto de la diferencia inicial entre los grupos o una combinación de ambas. ¿Cómo se construye el contrafactual? n Con individuos que no participaron en el programa, pero sobre los cuales se

recolectó información al término del programa (o hay información disponible). El método funciona bien si: n Los participantes y no participantes son idénticos, excepto por la participación

en el programa. 38


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

Limitaciones fundamentales: n Por el sesgo de selección es muy difícil que participantes y no participantes

sean similares, menos aún idénticos. En suma, tanto las evaluaciones pre-post como las evaluaciones que usan diferencia simple no son particularmente buenas soluciones al problema fundamental de la inferencia causal. En ambos casos, la construcción del contrafáctico es altamente problemática.

IV.1.2. Diferencias en diferencias Un método un poco más sofisticado que los anteriores, pero que combina características de ambos, es el método de diferencias en diferencias. Básicamente consiste en comparar la diferencia pre-post entre el grupo de tratamiento con la diferencia prepost en el grupo de control. Más específicamente, se mide el cambio pre-post en resultados para aquellos que participaron en el programa, a lo cual se le sustrae el cambio pre-post de los no participantes. Volviendo al ejemplo de la capacitación laboral, con la información de la tabla 2 (ver página 11), teníamos que: n Aumento salarial promedio participantes: (1.000 - 1.000 + 2.000 + 2.000) /4 =

$1.000 n Aumento salarial promedio no participantes: (2.000 + 2.000 + 4.000 + 1.000) /4

= $2250 Con lo cual el impacto de la capacitación laboral (la estimación diferencias en diferencias) se puede calcular como: n Participantes - no participantes: $1.000 - $2.250= -$1.250

En definitiva, lo que se obtiene es el cambio relativo en el salario para los participantes de la capacitación.

39


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

Si bien este método soluciona algunas de las limitaciones de los métodos anteriores, el problema del grupo de control que puede resultar diferente persiste. En otras palabras, el sesgo de selección puede hacer que, al igual que en el caso del método de la simple diferencia, quienes deciden participar sean diferentes de quienes deciden no participar. ¿Cómo se construye el contrafactual? n Con individuos que no participaron en el programa, pero sobre los cuales se

recolectó información al inicio y al término del programa (o hay información disponible). El método funciona bien si: n Se puede mostrar que en ausencia del programa, participantes y no participan-

tes hubiesen tenido trayectorias iguales (paralelas) durante el periodo de estudio. Limitaciones fundamentales: n No soluciona el sesgo de selección. Es posible que los dos grupos hubiesen

evolucionado de manera diferente, incluso en ausencia del programa.

IV.1.3. Diseño de regresión discontinua (DRD) El método de regresión discontinua es un método que, cuando se puede utilizar, proporciona una herramienta poderosa para evaluar proyectos. El método funciona de la siguiente manera. Imaginemos un programa que estará disponible para un grupo de potenciales beneficiarios que cumplan ciertos criterios. Los potenciales beneficiares son rankeados y ordenados según algún criterio específico (índice de elegibilidad) que permita dar un orden. Un umbral específico decide quién se convierte en beneficiario del programa y quién no. Los programas de asistencia social, por ejemplo, suelen identificar los hogares pobres con índices de pobreza que indican que los hogares por arriba de cierto umbral no serán considerados pobres (y por lo tanto dejados

40


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

fuera del programa de asistencia). El método se basa en el hecho de que los participantes que quedan justo por arriba del umbral y los que quedan justo por abajo son muy parecidos. La evaluación de impacto consiste entonces en comparar a los individuos justo debajo del umbral (que no reciben el programa) con los individuos justo encima del umbral (que sí reciben el programa). ¿Cómo se construye el contrafactual? n Los individuos que quedan justo por debajo del umbral de participación en el

programa sirven de contrafactual a los individuos que quedaron justo por arriba y sí participan del programa. El método funciona bien si: n Los individuos por arriba del umbral son efectivamente muy similares a los in-

dividuos por abajo del umbral. n El umbral ha sido respetado estrictamente y no hay manipulación.

Limitaciones fundamentales: n Las conclusiones de la evaluación son aplicables (en sentido estricto) sola-

mente a los individuos cerca del umbral.

IV.1.3.1. Ejemplo: Subsidio para fertilizantes14 Imaginemos un programa cuyo fin es aumentar la producción de arroz subsidiando la compra de fertilizantes a los agricultores. El programa está destinado específicamente a fincas pequeñas y medianas con menos de 50 hectáreas. Es decir, las fincas por debajo de 50 hectáreas son elegibles para recibir subsidios para fertilizantes, y las fincas de 50 o más hectáreas no lo son. La figura 7 muestra la producción de arroz, antes de la implementación del programa, en fincas de diferentes tamaños. Claramente, se puede ver que las fincas más grandes, como era de esperar, producen más arroz que las fincas más pequeñas. Sin embargo, el gráfico también muestra que la 14

Este ejemplo está tomado de Gertler et al. (2017).

41


programa está destinado a fincas pequeñas y medianas con menos de 50 hectáreas. Antes del comienzo del programa, se puede esperar que las fincas más pequeñas tengan una producción menor que las grandes, como se en eldel gráfico 6.1, que ilustra tamaño de Internacional la finca y la producción de La Evaluaciónmuestra y la Gestión Conocimiento en la el Cooperación Módulo 2 arroz. En este caso, la puntuación de elegibilidad es el número de hectáreas de la finca, y la puntuación límite es de 50 hectáreas. Las reglas del programa establecen que las fincas por debajo de 50 hectáreas son elegibles para recibir subsidios para y las48 fincas de hectáreas 50 o más hectáreas no diferencia entre la producción defertilizantes, las fincas de o 49 y la producción de lo son. Entonces, se puede prever que participará del programa una cantilas fincas dedad 50de o 51 hectáreas muy pequeña. Sin bien el gráfico sólo presenta datos fincas de 48, 49es o incluso 49,9 hectáreas. Y habrá otro grupo con 50, 50,1 y 50,2 hectáreas que no participará del programa, porque esas fincas sobre la producción y el tamaño de las fincas, es plausible asumir que las fincas de 48 superan la puntuación límite. Es probable que el grupo de fincas con 49,9 hectáreas muy similar al agrupo de aquellas tienen 50,1 La hectáreas en y 49 hectáreas son sea muy similares las de 50 y 51que hectáreas. metodología de la todos los aspectos, salvo que un grupo recibió el subsidio para fertilizantes y regresión discontinua se basaque justamente cerca dellímite umbral (en este caso, 50 el otro no. A medida nos alejamosen deeso, la puntuación de elegibilidad, hay más diferencias entre las fincas elegibles. Sin embargo, la extensión hectáreas) de laslasunidades se parecen significativamente, lo cual las convierte en un fincas es una buena medida de sus diferencias, y permite controlar por una buena parte de esas diferencias. buen contrafactual.

Producción de arroz (fanegas por hectárea)

Gráfico 6.1 Producción de arroz, fincas pequeñas vs. fincas grandes (línea de base) 20

19

18

17

16

15 20

30

40

50

60

70

80

Hectáreas de terreno = producción de las fincas > 50 hectáreas = producción de las fincas < 50 hectáreas 128

La evaluación de impacto en la práctica

Figura 7. Producción de arroz en fincas grandes y pequeñas antes de la implementación del programa. Fuente: Gráfico 6.1 (p. 128) en Gertler et al., 2017.

La figura 8 muestra los resultados de la evaluación de impacto. El diseño de regresión discontinua calcula el impacto del programa de fertilizantes en la producción de arroz a ambos lados del umbral de 50 hectáreas. Las fincas de más de 50 hectáreas, pero lo “suficientemente cercanas” a 50 hectáreas como para parecerse lo suficiente a las de “un poco menos de” 50 hectáreas, proporcionan el contrafactual para poder evaluar el impacto del programa. Dado que cerca del umbral (como muestra la figura 7) las fincas un poco por arriba de 50 hectáreas y las fincas un poco por debajo de 50 42


fincas del grupo de tratamiento que eran justo lo suficientemente pequeñas para inscribirse. Dado que estos dos grupos eran muy similares en la línea de base y están expuestos al mismo conjunto de factores externos a lo largo del La Evaluación ytiempo la Gestión delelConocimiento en ladeCooperación Módulo 2 (como clima, los shocks precios y lasInternacional políticas agrícolas locales y nacionales), el único motivo plausible de la diferencia en los resultados tiene que ser el propio programa. Dado que el grupo de comparación está compuesto por fincas que eran similares antesladepuntuación la implementación del el programa y estuvieron expuestas a las superan de elegibilidad, impacto dado por un DRD es válido solo “a nivel local”, es decir, en la cercanía del límite de elegibilimismas variables externas (clima, precios, etc.), el diseño permite dad. De esta manera, se obtiene una estimación de un efecto local atribuir prome- la diferendio del tratamiento (LATE) (véase el capítulo 5). El impacto del programa cia en la producción observada (la distancia entre A y B en la figura 8) al programa de de subvenciones de fertilizantes es válido para las fincas más grandes

subsidio de fertilizantes.

Producción de arroz (fanegas por hectárea)

Gráfico 6.2 Producción de arroz, fincas pequeñas vs. fincas grandes (seguimiento) 20

19 A

18

17 B

A = Impacto

16 B 15 20

30

40

50

60

70

80

Hectáreas de terreno = producción de las fincas > 50 hectáreas = producción de las fincas < 50 hectáreas 129

Diseño de regresión discontinua

Figura 8. Producción de arroz en fincas grandes y pequeñas luego de la implementación del programa. Fuente: Gráfico 6.2 (p. 129) en Gertler et al., 2017.

El ejemplo pone en evidencia también uno de los límites fundamentales de esta metodología. No es posible medir el impacto en las fincas que están muy lejos del umbral. Cuán “lejos” es lejos no tiene una respuesta inmediata y depende tanto del tipo de programa que se quiera implementar como de la cantidad de unidades que se encuentran “cerca” del umbral. Sin embargo, mirando simplemente el gráfico que muestra la producción de arroz antes del inicio de programa es razonable asumir que las fincas de 20 hectáreas (por lo tanto, incluidas en el programa) probablemente sean bastante diferentes de las fincas de 50 (excluidas). Si bien el gráfico muestra claramente que para las fincas medianas (cerca de 50 hectáreas) el programa ha sido

43


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

muy exitoso (y la producción aumentó), no podemos saber con este diseño si el programa también es efectivo en fincas chicas.

IV.1.4. Pareamiento (matching) Con el método de matching, el contrafactual se construye “emparejando” individuos que participaron en el programa con individuos lo más parecidos posible, pero que no participaron. El matching construye un grupo estadísticamente idéntico al grupo de tratamiento en características observables antes del programa. En la forma más sencilla de matching, para cada participante (individuo en el grupo de tratamiento) se identifica un no participante (individuo en el grupo de control) con las mismas características observables (por ejemplo, sexo, edad, educación, etc.). Para estimar el impacto del programa se comparan ambos grupos. Dado que los grupos tenían las mismas características observables al inicio del programa, se puede atribuir cualquier diferencia encontrada entre los grupos luego del programa al impacto del programa. Volviendo al ejemplo de la capacitación laboral, por ejemplo, la implementación de esta metodología implicaría encontrar no participantes que antes del programa se parezcan a los participantes en todas aquellas características que pueden estar relacionadas con el resultado que nos interesa (el salario). Para que el método nos provea de una estimación válida es fundamental pensar (e incluir) todas las variables relevantes. En este caso, variables a incluir serían, por ejemplo: salario, nivel educativo, sexo, edad, nivel de motivación (medido de alguna manera). La mayor limitación del matching es que nunca puede controlar por variables no observables, difíciles de medir, o que el evaluador no consideró incluir. Si alguna de esas variables no incluidas influye en el resultado, el método no resuelve el problema del sesgo de selección15.

15

Uno de los primeros y más conocidos ejemplos de la utilización de este método es un artículo que justamente estudia el impacto de un programa de capacitación laboral en el salario (Dehejia y Wahba, 1999).

44


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

¿Cómo se construye el contrafactual? n Con individuos similares a los participantes en características seleccionadas y

observables, pero que no participaron del programa. El método funciona bien si: n Los no participantes son, en promedio, iguales a los participantes “empareja-

dos”, excepto por la participación en el programa. Limitaciones fundamentales: n La estrategia depende de que no exista alguna otra característica (observable

o no observable) que no fue incluida en el matching (ya sea por dificultades de medición o porque el evaluador no la tuvo en cuenta) y que tenga un efecto en el resultado o sea diferente entre participantes y no participantes.

IV.1.5. Regresión múltiple A pesar de que los métodos experimentales y cuasi experimentales son cada vez más utilizados en las evaluaciones de impacto, la tradicional regresión múltiple sigue siendo uno de los métodos más populares. El método consiste en comparar participantes y no participantes y estimar el efecto del programa “controlando” por características observables que puedan explicar las diferencias en los resultados entre participantes y no participantes. Por ejemplo, en el programa de capacitación laboral, la regresión debería, al menos, controlar por salario inicial, educación, nivel de motivación, edad y sexo. En suma, todas aquellas variables que el evaluador sospecha podrían afectar el salario de participantes y no participantes en el programa. El método entonces depende fuertemente de que el evaluador pueda identificar y medir todas las potenciales variables relevantes para incluir en la regresión. En la práctica, es muy difícil tener seguridad de que no existe ninguna otra variable (observable o no observable) que pueda afectar el resultado.

45


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

¿Cómo se construye el contrafactual? n Con individuos que no participaron en el programa, pero sobre los cuales se

recolectó información al inicio y al término del programa (o hay información disponible). El método funciona bien si: n Las variables que no fueron incluidas en la regresión (ya sea porque no son

observables o por “olvido” del evaluador) no afectan el resultado o no difieren entre participantes y no participantes. Limitaciones fundamentales: n Es virtualmente imposible tener certeza absoluta de que todas las variables re-

levantes han sido incluidas en la regresión.

SÍNTESIS DE LA UNIDAD El principal desafío para poder identificar el impacto de un programa es crear un grupo de comparación válido que tenga características lo más parecidas posibles al grupo de tratamiento en ausencia del programa. Cada método presentado en esta unidad (evaluaciones pre-post, diferencia simple, diferencias en diferencias, regresión discontinua, matching y regresión múltiple) intenta lograr este objetivo de manera diferente. Las distintas formas de recrear el contrafactual implican distintos requerimientos para que cada método sea efectivo y generan diversas limitaciones.

46


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

UNIDAD V MÉTODOS CUALITATIVOS DE EVALUACIÓN DE PROYECTOS

Objetivos de aprendizaje n Examinar los principales métodos cualitativos y las diversas estrategias para

recolectar datos cualitativos. n Identificar el método más adecuado a cada caso/contexto.

V.1. Introducción a la unidad En la unidad anterior se presentaron diferentes métodos cuantitativos para la evaluación de programas. Los métodos presentados utilizan diferentes estrategias para resolver el problema fundamental de la inferencia causal y poder estimar el impacto de un programa. En esta unidad se examinarán los principales métodos cualitativos que se pueden utilizar, no tanto para la estimación del efecto causal sino más bien para una aproximación a los mecanismos causales. Los métodos de esta unidad son frecuentemente utilizados a la hora de intentar establecer no ya si un programa funciona o no funciona, sino cómo funciona.

47


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

V.1.1. Estudio de un caso, método comparado Un estudio de caso es un estudio intenso de un solo caso con el objetivo, al menos en parte, de poder explicar una “clase” de casos (Gerring, 2006). La misma lógica aplica al estudio de unos pocos casos, pero pasado cierto número ya no es posible que el estudio se “intenso”. ¿En qué circunstancias este método puede ayudar a la evaluación de impacto de un programa? Por ejemplo, supongamos que utilizamos algún método de los descritos en la unidad anterior y podemos mostrar con certeza que el programa de capacitación laboral implementado no ha tenido un efecto positivo en el salario. Imaginemos que, en el mejor de los casos, logramos hacer una evaluación de ese programa con una asignación aleatoria que nos permite la mayor certeza posible en nuestras conclusiones. La asignación aleatoria nos permite tener certeza de la falta de impacto del programa, pero nos ayuda poco para entender el porqué. ¿Por qué no funcionó? ¿No fue eficiente el contenido del programa? ¿Los instructores no eran buenos? ¿Tal vez fue muy corto? Una forma de tener una aproximación a una respuesta es estudiar en profundidad un caso. Por ejemplo, centrarse en el seguimiento de una clase específica del programa. Se puede pensar en estrategias tales como presenciar el entrenamiento, entrevistar a los participantes o entrevistar a los instructores. Todo aquello que nos pueda ayudar a entender por qué el programa no funcionó y así estar en mejores condiciones de proponer cambios en futuros programas si fuera posible. Una alternativa interesante al estudio de un caso es el estudio comparado de dos casos (o unos pocos). En el método comparado lo fundamental es encontrar casos “comparables” que nos sirvan para explorar el impacto del programa que nos interesa evaluar. Por ejemplo, imaginemos un programa de reforma administrativa que se aplica a varios organismos del Estado. En algunos funciona perfectamente y se obtienen los resultados esperados, en otros no. Una evaluación interesante sería estudiar dos organismos similares que hayan tenido tasas de éxito muy diferentes con el programa de reforma. Este método de comparar casos similares con resultados dife-

48


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

rentes se denomina “método de semejanzas”. Al elegir casos similares podemos descartar algunas de las variables que podrían explicar los resultados divergentes. La comparación puede ayudar a identificar cuál fue el factor que explica que en un organismo el programa de reforma fue exitoso cuando no lo fue en otro organismo similar.

V.1.2. Seguimiento de procesos (Process Tracing) Process tracing puede usarse para evaluar el impacto de un programa utilizando información sobre el proceso causal que conecta el tratamiento (la intervención, el programa) con el resultado o utilizando información del contexto en el cual ese proceso causal se desarrolla (Humphreys y Jacobs, 2015). Típicamente, esto consiste en hacer predicciones sobre la evidencia que debería observarse si el programa tuviese efectivamente el impacto esperado y luego ver si esa evidencia se encuentra o no presente. Cada pieza de evidencia sirve para aumentar o disminuir la confianza del evaluador sobre si el programa en evaluación ha tenido o no el impacto buscado. En general, este método se utiliza en combinación con otros. Por ejemplo, puede utilizarse en combinación con evaluaciones pre-post o de diferencia simple para aumentar nuestra confianza en las conclusiones de la evaluación.

V.1.3. Estrategias para recolectar datos cualitativos Las entrevistas son una herramienta fundamental para entender el “cómo” en una evaluación. Hablar con los actores involucrados puede ser fundamental para comprender, por ejemplo, cuándo un programa no funcionó, o describir qué aspecto del programa funcionó mejor, o cuál es el mecanismo causal que explica el efecto/impacto del programa. También es una herramienta fundamental antes de comenzar con una evaluación. Por ejemplo, antes de diseñar una encuesta para tener una línea de base es fundamental asegurarse de que las preguntas son entendidas por los sujetos que participaran (o no) del programa de la misma manera que el evaluador cree que son entendidas. Las entrevistas pueden ayudar a prevenir problemas que pueden 49


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

ser muy costosos de solucionar una vez que la encuesta ya se implementó. Una pregunta mal hecha en una línea de base significa que algún aspecto de la evaluación no podrá ser medido de manera precisa. A veces, además, no es posible realizar una línea de base con una encuesta (y recolectar datos cuantitativos) por cuestiones de plazos o de presupuesto. En estos casos, las entrevistas se tornan aún más importantes. También las entrevistas pueden ser utilizadas a la hora de intentar tener una comprensión más acabada de los resultados de una evaluación. Son una herramienta central para poder establecer el mecanismo causal. Existen diversos tipos de entrevistas: n Estructuradas. El entrevistador realiza las mismas preguntas (redactadas y or-

denadas previamente) en el mismo orden a todos los entrevistados. Este tipo de entrevista puede ser particularmente útil cuando se cuenta con entrevistadores inexpertos o con un grupo grande de entrevistadores y se quiere minimizar la variación en las preguntas que cada entrevistador pueda hacer. La limitación fundamental de este enfoque es que requiere mucho conocimiento previo sobre el tema a tratar para poder elaborar la lista de preguntas. n Semiestructuradas, conversacionales. En estas entrevistas, el entrevistador

cuenta con una guía de preguntas a explorar durante la entrevista para garantizar la obtención de información similar en todas las entrevistas, pero tienen flexibilidad para que el entrevistador pueda profundizar en temas concretos, cambiar el orden de las preguntas o agregar preguntas que puedan surgir de la conversación. Este tipo de entrevista tiene la ventaja de crear una atmósfera más relajada que puede ayudar a que el entrevistado se sienta cómodo para compartir sus opiniones. n Sin estructura, una conversación más informal que permite total flexibilidad

para improvisar preguntas de acuerdo a lo que surja en la conversación. Este tipo de entrevistas suelen ser útiles cuando aún se sabe poco sobre el tema en cuestión. La mayor limitación de este tipo de entrevistas es que, dado que cada entrevista será diferente, el análisis es más difícil.

50


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

También es posible realizar entrevistas en pequeños grupos, denominados grupos focales. Los grupos focales tienen la ventaja de crear un ambiente natural, que replica la forma social en la cual muchas de las decisiones son tomadas; además de tener la ventaja de poder llegar a más gente en menos tiempo. Dependiendo del tema a tratar, la entrevista en grupo puede ayudar a crear un clima más relajado y natural que la entrevista uno a uno. Al mismo tiempo, también es posible que la presión de grupo afecte las respuestas, sobre todo si el tema es un tema sensible. Otra estrategia cualitativa que puede ser muy útil es la observación. La observación como método implica observar, registrar y analizar lo que ocurre durante el programa o intervención. Por ejemplo, en el caso de la capacitación laboral implicaría sentarse en una clase y observar la capacitación que los participantes del programa efectivamente reciben. Los grupos focales pueden ser útiles para entender el contexto y las actitudes y comportamientos de los participantes, e identificar aspectos centrales para poder luego profundizar con entrevistas o encuestas. Los datos cualitativos tienen algunas desventajas en relación con los cuantitativos. A veces son considerados “menos objetivos” y son más limitados en el tipo de análisis que se puede realizar con ellos, pero en combinación con alguna otra metodología cuantitativa pueden contribuir de manera fundamental a la calidad de la evaluación. Las metodologías cuantitativas producen conclusiones más sólidas en cuanto al impacto o efecto de un programa, las metodologías cualitativas son fundamentales al inicio de toda evaluación y luego de ella para poder examinar el cómo y el porqué del impacto (o falta de impacto) del programa. En particular, las entrevistas de todo tipo pueden ser utilizadas en combinación con otros métodos en dos momentos fundamentales: n Antes de comenzar con el programa

o Pueden ayudar en el diseño de las preguntas a incluir en la línea de base.

51


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

o Ayudan a entender la problemática en mayor profundidad, lo cual puede facilitar tanto la implementación del programa como la recopilación de los datos necesarios para la línea de base y la evaluación. n Luego del programa

o Sirven para tener un mejor entendimiento de los procesos. ¿Por qué funcionó el programa? ¿Qué aspectos fueron los más relevantes? ¿Por qué no funcionó? ¿Pueden los participantes ayudarnos a entender lo que sucedió durante la implementación del programa? Se trata de identificar los aspectos claves que explican el impacto o la falta del mismo. o En definitiva, como ejemplifica la figura 9, las entrevistas pueden ser centrales para entender el cómo y el por qué un programa funcionó o no funcionó. Más allá de poder establecer el impacto de un programa

Federación Internacional de Sociedades de la Cruz Roja y de la Media Luna Roja

Guía para el seguimiento y la evaluación de proyectos y programas

(el efecto causal), nos interesa poder establecer el mecanismo causal.

Todos los proyectos y programas financiados por la Secretaría deben incluir algún tipo 9. deLa estudio de base9. Ade menudo se lleva cabo una Figura importancia entender elacómo y elencuesta durante la puesta en práctica de un estudio de base, pero éste no siempre tiene que ser cuantitativo, cuando node resulta práctico para el prepor qué ensobre unatodo evaluación impacto. supuesto o los plazos del proyecto o programa. A veces tal vez sea preferible utilizar métodos cualitativos, como entrevistas y grupos focales (temáticos), o una combinación métodos de cuantitativos cualitativos (véase la sección Fuente: “Guía para el seguimiento y ladeevaluación proyectos y yprogramas” (Federación Internacional de Socie2.2.3). En ocasiones, en un estudio de base puede utilizarse la información obdades de la Cruz Roja y de la Media Luna Roja 2011). tenida a partir de una evaluación de las necesidades o de un análisis de la vulnerabilidad y la capacidad (AVC). Independientemente del método utilizado, resulta de importancia crítica que tanto los estudios de base como los estudios 52 definitivos apliquen los mismos indicadores y metodologías de medición, de modo que puedan ser replicados de manera confiable y uniforme en distintos momentos a fin de efectuar comparaciones10.


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

SÍNTESIS DE LA UNIDAD Los métodos cualitativos y las distintas estrategias para recolectar datos cualitativos son herramientas fundamentales para poder entender cómo y por qué un programa funcionó o no funcionó. También son fundamentales al inicio de un programa, tanto a la hora del diseño como antes de comenzar con la evaluación, para lograr un conocimiento más profundo del tema, los potenciales participantes y mejorar la implementación e instrumentos de evaluación (como la línea de base).

53


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

Bibliografía citada n De la O, Ana L. (2015). Crafting Policies to End Poverty in Latin America. New

York: Cambridge University Press. n Dehejia, Rajeev H. y Sadek Wahba (1999). "Causal effects in nonexperimental

studies: Reevaluating the evaluation of training programs". Journal of the American statistical Association, 94 (448): 1053-1062. n Dolan, Lindsey. “10 Things to Know about Randomization” Disponible en:

https://egap.org/methods-guides/10-things-you-need-know-randomization n Duflo, Esther, Pascaline Dupas, y Michael Kremer (2008). "Peer Effects and the

Impact of Tracking: Evidence from a Randomized Evaluation in Kenya. NBER Working Paper No. 14475". National Bureau of Economic Research. n Federación Internacional de Sociedades de la Cruz Roja y de la Media Luna

Roja. 2011. “Guía para el seguimiento y la evaluación de proyectos y programas”. Ginebra. n Gerring, John (2006). “What is a case study?". En Case Study Research. New

York: Cambridge University Press,cap. 2: 17-36. n Gertler, Paul J., Sebastián Martínez, Patrick Premand, Laura B. Rawlings y Chris-

tel MJ Vermeersch (2017). La evaluación de impacto en la práctica. Washigton DC: BID y Banco Mundial. Segunda edición. n Gilligan, Michael J., Eric N. Mvukiyehe y Cyrus Samii (2013)."Reintegrating re-

bels into civilian life: Quasi-experimental evidence from Burundi". Journal of Conflict Resolution 57, 4: 598-626. n Humphreys, Macartan y Alan M. Jacobs (2015). "Mixing methods: A Bayesian

approach". American Political Science Review, 109(4): 653-673.

Bibliografía recomendada n Dunning, Thad (2012). Natural experiments in the social sciences. New York:

Cambridge University Press. Capítulo 1.

54


La Evaluación y la Gestión del Conocimiento en la Cooperación Internacional

Módulo 2

n Gerber, Alan S. y Donald P. Green (2012). Field Experiments: Design, Analysis,

and Interpretation. New York: W.W. Norton. n Gertler, Paul J., Sebastián Martínez, Patrick Premand, Laura B. Rawlings y Chris-

tel MJ Vermeersch (2017). La evaluación de impacto en la práctica. Washington DC: BID y Banco Mundial. Segunda edición. n Humphreys, Macartan, “10 Strategies for Figuring out if X caused Y”. Disponi-

ble online en: https://egap.org/methods-guides/10-strategies-figuring-out-if-xcaused-y n Humphreys, Macartan, “10 Things to Know about Causal Inference.” Disponi-

ble online en: https://egap.org/methods-guides/10-things-you-need-knowabout-causal-inference n Imbens, G. y D. Rubin (2008). “Rubin Causal Model”. En: S. N. Durlauf y L. E.

Blume (eds.), The New Palgrave Dictionary of Economics (2ª edición). New York: Palgrave. n J-PAL. “Introducción a las evaluaciones”. Disponible en https://www.povert-

yactionlab.org/es/research-resources/introduction n J-PAL. “Impact Evaluation Methods. What are they and what assumptions

must hold for each to be valid?” Disponible en https://www.povertyactionlab.org/sites/.../2016.08.31-Impact-Evaluation-Methods.pdf n Pomeranz, Dina (2017). "Impact evaluation methods in public economics: A

brief introduction to randomized evaluations and comparison with other methods". Public Finance Review, 45(1): 10-43.

55


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.