Introducción a Evaluación de la Prevalencia de Desnutrición mediante Estimados de Áreas Pequeñas utilizando el Programa de Mapa de Pobreza (PovMap Program)
Beatrice Lorge Rogers, James Wirth, Parke Wilde, Kathy Macías Facultad de Ciencias y Políticas de Nutrición “Friedman” (Friedman School of Nutrition Science and Policy) Universidad Tufts (Tufts University, Boston, Massachusetts) Marzo del 2007
Agradecimientos Este informe es resultado de la colaboración entre la Oficina para América Latina y El Caribe del Programa Mundial de Alimentos de la Organización de Naciones Unidas y la Facultad de Ciencias y Políticas de Nutrición “Friedman” de la Universidad Tufts de Boston. Los autores expresan su profundo agradecimiento por el asesoramiento y apoyo brindado a nuestros oficiales de proyecto Judith Thimke, Carlos Acosta, y Mahadevan Ramachandran. Hemos recibido consejos útiles sobre el método PovMap de parte de Qinghua Zhao y de Peter Lanjouw del Banco Mundial.
2
Índice de Contenido Introducción................................................................................................................................ 1 SECCIÓN I: TEORÍA DE MAPEO DEL HAMBRE Y ESTIMADOS DE ÁREAS PEQUEÑAS ............................................................................................................................... 2 1.0 Necesidad de Mapeo del Hambre.................................................................................. 2 1.1 Estimados de Áreas Pequeñas ´..................................................................................... 3 1.2 Necesidades de Información .......................................................................................... 4 1.3 Desarrollo del Modelo .................................................................................................... 8 1.3.1.1 Variables al Nivel Individual................................................................................ 9 1.3.1.2 Variables al Nivel de Hogares ................................................................................ 9 1.3.1.3 Variables al Nivel de la Comunidad..................................................................... 10 1.3.1.4 Variables Geográficas .......................................................................................... 11 1.3.2 Variables de Modelos .............................................................................................. 11 1.4 Ejecución del Modelo ................................................................................................... 12 1.4.1 Evaluar el Acuerdo de las Variables de Encuestas y Censos .................................. 12 1.4.2 Especificación del Modelo ...................................................................................... 15 1.4.3 Selección de Casos para Incluir en el Modelo......................................................... 17 1.4.4 Elección del Nivel Geográfico al Cuál Desarrollar los Estimados.......................... 18 1.5 Evaluación del Modelo ................................................................................................. 18 1.6 Procedimientos Estadísticos para Estimados de Áreas Pequeñas (SAE) ................ 21 SECCIÓN II: MANUAL DEL PROGRAMA POVMAP PARA MAPEO DEL HAMBRE.. 25 2.0 Visión General del Programa PovMap....................................................................... 25 2.0.1 Configuración .......................................................................................................... 25 2.0.2 Cargar la Data.......................................................................................................... 26 2.1 Pantalla 1: Corrector ................................................................................................... 26 2.2 Pantalla 2: Modelo de Consumo ................................................................................. 29 2.3 Pantalla 3: Efecto de Agrupación (Efecto Conglomerado)....................................... 31 2.4 Pantalla 4: Modelo Idiosincrático ............................................................................... 34 2.5 Pantalla 5: Efectos en el Hogar ................................................................................... 29 2.6 Pantalla 6: Simulación ................................................................................................. 36 2.7 Pantalla 7: Resultado de Simulación .......................................................................... 38 Conclusión y Recomendaciones............................................................................................... 39 Fuentes...................................................................................................................................... 41 APÉNDICE: Requerimientos Técnicos ................................................................................... 44
3
Introducción El alivio de la desnutrición es esencial para promover el desarrollo económico y el bienestar humanos; entender la distribución de la desnutrición dentro de un país y los factores fundamentales asociados con su prevalencia es clave para desarrollar políticas y programas orientados a reducirla. El presente documento ofrece una introducción y guía para el cálculo y mapeo de la prevalencia de desnutrición a niveles desagregados geográficamente dentro de un país, utilizando la técnica estadística conocida como Estimados de Áreas Pequeñas (siglas en inglés: SAE), implementada a través de un programa desarrollado por el Banco Mundial, que realiza los cálculos necesarios, denominado PovMap. Este documento está dividido en dos secciones; la primera detalla la teoría que sustenta el SAE y el mapeo del hambre; y, la segunda, constituye un manual de cómo utilizar el Programa PovMap en futuros esfuerzos para el mapeo del hambre. La guía está basada en nuestra reciente experiencia de mapeo del hambre utilizando indicadores antropométricos de niños en tres países: República Dominicana, Ecuador y Panamá. A lo largo de este documento se utilizan ejemplos de estos tres países. Estos ejemplos son representativos de problemas que surgen al realizar el mapeo del hambre en estos y en otros países. Estos esfuerzos representan una cooperación continua entre la Oficina para América Latina y El Caribe del Programa Mundial de Alimentos de las Naciones Unidas y el Equipo de Investigación sobre el Atlas del Hambre de la Facultad de Ciencias y Políticas de Nutrición “Friedman” de la Universidad Tufts de Boston, en Massachussets.
1
SECCIÓN I: TEORÍA DE MAPEO DEL HAMBRE Y ESTIMADOS DE ÁREAS PEQUEÑAS 1.0 Necesidad de Mapeo del Hambre Generalmente la desnutrición en los niños se mide utilizando indicadores antropométricos: talla para edad, peso para edad, y peso para talla. La recopilación de data sobre desnutrición es una actividad que requiere de mucho tiempo para llevarla a cabo; exige el uso de equipos especiales y capacitación para el pesaje y medición de los miembros de cada familia; y a menudo incluye cuestionarios detallados a efectos de medir los factores asociados con la desnutrición. Por esta razón, habitualmente la información sobre nutrición no es recogida de poblaciones nacionales (por ejemplo: en un censo); los estimados nacionales sobre la situación nutricional se obtienen mediante encuestas con muestras representativas de ámbito nacional las cuales estiman la prevalencia en unidades geográficas de gran agregado, tales como estratos o provincias. Sin embargo, los estimados del hambre y la desnutrición a niveles tan agregados no son adecuados para orientar políticas y programas de nutrición de cobertura nacional pues la incidencia de la desnutrición varía, a menudo ampliamente, dentro de una determinada provincia (Fujii 2003; 2005; Balk et al. 2005; Larrea et al 2005; Simler 2006, Benson 2006). Conforme ha podido advertirse en los estimados de la pobreza, a medida que la incidencia de la misma decrece en el ámbito nacional, la desagregación se torna más importante para la determinación de políticas debido a la necesidad de seleccionar las áreas más pequeñas restantes en donde el problema es grave (Kam et al 2005). Los estimados de desnutrición más desagregados permiten a los responsables del diseño de políticas, orientarse a programas enfocados en la nutrición de las poblaciones más necesitadas, y diseñar políticas más eficaces a fin de llegar a distintos grupos entre quienes padecen desnutrición, realizando un mejor uso de los escasos recursos públicos. Una vez desarrollados los estimados sobre prevalencia de desnutrición, desagregados geográficamente, estos pueden ser presentados en forma de mapas que muestren la distribución de los indicadores de desnutrición en un país. Los mapas constituyen poderosas herramientas para visualizar la naturaleza y amplitud del problema, ilustrando de forma gráfica el nivel de necesidad en las diferentes regiones y localidades. Puesto que son fáciles de entender, son útiles para fines de reivindicar y respaldar las políticas para combatir el hambre. El relacionar la prevalencia de desnutrición con las características geográficas puede sugerir la importancia de ciertas causas básicas del problema en distintas regiones. Además, los resultados del mapeo del hambre brindan información sobre la desnutrición que afecta al país en su conjunto y que es estadísticamente representativo del país y de las áreas pequeñas. A lo largo de la década pasada se ha dedicado gran esfuerzo en la utilización de estimados de áreas pequeñas para el mapeo de la pobreza a niveles geográficamente desagregados (Alderman et al. 2002; Benson et al 2005; Demombynes et al 2002; Hentschel et al 2000; Ver también CIESIN Revisión 2006), pero ha habido menor esfuerzo para desarrollar y mapear tales estimados de desnutrición (Larrea 2005; Fujii 2003, 2005; Gilligan et al. 2003; Simler 2006; Benson 2006; Haslett et al, en preparación). Sin embargo, la pobreza es un indicador
2
imperfecto de la desnutrición: las áreas con alta prevalencia de pobreza no se sobreponen o traslapan exactamente con las áreas de alta desnutrición, y apostar por programas de nutrición basados únicamente en mediciones de la pobreza hace que corramos el riesgo de incurrir en errores significativos tanto de exclusión como de inclusión. Las comparaciones entre estimados de pobreza y de desnutrición en la República Dominicana, por ejemplo, indican que la elección de programas de nutrición al nivel de municipios basados en la prevalencia de la pobreza en el cuartil más alto, daba como resultado la falta de cobertura a una proporción importante de niños en áreas con elevada prevalencia de desnutrición (cuartil más alto) (Rogers et al 2007). 1.1 Estimados de Áreas Pequeñas 1.1.1 ¿Cómo Funciona? 1 El Estimado de Áreas Pequeñas (Siglas en inglés: SAE), es una técnica que permite desarrollar estimados desagregados geográficamente sobre la prevalencia de una determinada condición (pobreza, desnutrición) combinando una encuesta muestral, estadísticamente representativa, conteniendo información sobre dicha condición, con un censo nacional que cubra la población en su conjunto. Se ha desarrollado un modelo estadístico utilizando un análisis de regresión de los datos de la encuesta con la finalidad de predecir 2 el estatus nutricional de cada niño individualmente para luego aplicar los resultados del análisis de regresión a todos los niños incluidos en el censo, produciendo un valor anticipado para cada indicador antropométrico para cada niño. El porcentaje de niños que se ubica por debajo del rango de valores para desnutrición en cualquier área geográfica en el censo puede calcularse a partir de las medidas antropométricas individuales previstas. El nivel de desagregación está limitado únicamente por la necesidad de precisión estadística y por el número de niños en el área. El uso de dos fuentes de información a la par, se beneficia plenamente de las ventajas de cada fuente de datos: la presencia de datos antropométricos en la encuesta y la cobertura total de la población en el censo. El método funciona estimando una ecuación de regresión para predecir el resultado de interés, en la forma siguiente: 1)
Y = β0 +β1W + β2 X + β3 Z + u
En dónde: Y es el resultado de interés (talla para edad, peso para edad, peso para talla)
1
Las estadísticas básicas para el SAE se presentan en detalle en: Elbers et al 2002; Elbers et al 2004; Hentschel et al. 2000; Zhao 2005. 2 ^. Predicción es un término estadístico. Se refiere al valor calculado de Y, o sea Y
3
W es un vector de las variables relacionadas a cada niño individualmente, incluyendo edad, sexo y posiblemente otras características según estén disponibles (Ver la Sección 1.3.1.1 al desarrollar el modelo predictivo); X es un vector de las variables relacionadas al hogar y a la familia, incluyendo, por ejemplo, las características del cabeza de familia (edad, estado civil, educación, raza/etnicidad); composición del núcleo familiar; indicadores de la situación económica en el hogar y de las condiciones de la vivienda; Z es un vector relativo a las características de la comunidad (también conocidas como el conglomerado o “cluster”), incluyendo por ejemplo, la infraestructura de mercadeo (por ejemplo, acceso a vías pavimentadas que dan acceso en toda estación), indicadores medio-ambientales, disponibilidad de servicios sociales, y contexto social y económico. u es el término de error asociado con la ecuación de regresión. Los resultados de la regresión estimados utilizando los datos de la encuesta son luego aplicados al censo, de acuerdo con la ecuación siguiente: 2)
^ =β ^ o +β ^1W+β ^2X+β ^3Z Y
En dónde W, X, y Z, constituyen variables al nivel individual, núcleo familiar/hogar, y comunitario (del conglomerado) extraídas del censo; y las β’s estimadas constituyen parámetros obtenidos de la regresión de la encuesta. La aplicación de los parámetros de la primera regresión produce un único estimado para la variable de interés resultante, sin término de error asociado con la regresión. Puesto que no existe medición alguna de la variable de resultado en el censo, tampoco puede haber un estimado de alguna desviación entre el resultado previsto y el resultado real en esta etapa. Utilizando el valor predictivo de Y para cada niño, resulta inequívoco poder calcular un nivel promedio de Y en cada unidad geográfica. El análisis se hace algo más complicado si buscásemos también estimar la distribución de Y en la unidad geográfica, a efectos de calcular el porcentaje de niños ubicados por debajo del rango de valores de desnutrición o a efectos de calcular los errores estándares (Siglas en inglés: “SE”) de los estimados. En tal caso, se requieren técnicas SAE que toman en cuenta los efectos al nivel de conglomerados. Describimos estas técnicas SAE para tratar sobre los efectos al nivel de conglomerados más adelante con mayor detalle, pero en primer término centramos nuestra atención al desarrollo de los estimados. 1.2 Necesidades de Información 1.2.1 Fuentes Principales de Información: Encuestas y Censo El enfoque de SAE depende tanto de una encuesta que contenga la variable de interés del resultado (Estatus antropométrico) como de un censo; ambos conjuntos de información deben
4
incluir suficientes variables comunes a fin de que sea posible desarrollar un modelo razonablemente predictivo a partir de la encuesta y aplicado al censo. Existen dos consideraciones cruciales para la selección de los mencionados conjuntos de información.
Año de Implementación – La encuesta y el censo deberán llevarse a cabo en fechas cercanas una de la otra, a fin de asegurar que los factores causales de la desnutrición no hayan cambiado en el tiempo transcurrido entre el censo y la encuesta. De modo típico, los estudios que aplican las técnicas SAE utilizan data de encuesta y censo realizados con 0-4 años de alternancia (Fujii et al. 2004; Simler 2006; Benson 2006; Hentschel et al 2000), de manera que las variables “no sean sólo similares por períodos sino también por significado” (Haslett y Jones 2005, 552). Igualmente importante es que no se hayan producido cambios económicos importantes en los años transcurridos entre la realización de la encuesta y del censo. Utilizando el caso de Ecuador como ejemplo, una encuesta nacional llevada a cabo en el año 1998 no sería comparable con el censo del año 2001, a pesar del corto tiempo que separa ambas acciones, debido al proceso de dolarización ocurrido en el año 2000 en este país.
Variables Comparables – Teniendo en cuenta que deberá construirse un modelo causal tanto en el caso de la encuesta como en el caso del censo, ambos deberán incluir un número suficiente de variables comparables. En los casos en los cuales la encuesta simplemente hubiese copiado las preguntas utilizadas en el censo, existirán muchas variables comparables. En otros casos las variables que fuesen similares en ambos casos –la encuesta y el censo— deberán ser recodificadas a fin de poder crear variables idénticas. El Gráfico 1 ilustra la forma cómo una variable para materiales de techado, utilizada en el censo del Año 2000 en Panamá, varía de la variable comparable en la Encuesta ENV del Año 2003 realizada en Panamá, y cómo la variable fue recodificada dividiéndola en tres variables dicotómicas casi idénticas. La aplicación de la técnica SAE dependerá de que se cuente con un número suficiente de variables comparativas que sean relevantes a la predicción del estatus nutricional. Gráfico 1: Proceso de equiparar una variable para materiales de techado cuyos valores varían entre el censo y la encuesta Variable Materiales de Techado
Censo (c) 1. losa 2. asbestos 3. zinc 4. teja 5. paja 6. otros
Encuesta (s) 1. paja, desechos o latas 2. zinc, eternit 3. losa, teja 8. otros
Equiparado t_lostej: (c) 1. losa, 4. teja (s) 3. losa, teja t_zincas: (c) 2. asbestos, 3. zinc (s) 2. zinc, eternit t_pajaotr: (c) 5. paja, 6. otros (s) 1. paja, desechos o latas, 8. otros
La información sobre niños individuales y otros miembros del núcleo familiar y las características del hogar, se encuentra presente a menudo en las encuestas y en el censo. Sin
5
embargo, no todas las variables deseadas pueden estar disponibles en ambos conjuntos de data. Por ejemplo, las encuestas de nutrición por lo regular asocian los niños con sus respectivas madres, de modo tal que la educación y edad de la madre pueda vincularse con los resultados específicos del niño. Sin embargo, en los censos, es más frecuente que los individuos sean identificados por su relación con el cabeza de familia, y podría no ser posible saber con seguridad cuál mujer adulta en el núcleo familiar es la madre de un determinado niño. Como otro ejemplo, tanto en la data de los censos en Ecuador como en Panamá encontramos que la edad estuvo registrada en años completos, mientras que la encuesta sobre nutrición recopiló la información sobre edad en meses en el caso de los niños pequeños. Esto significó que la ecuación predictiva estuvo limitada a utilizar la edad en años completos codificándose a todos los niños menores de un año como cero 3 . En la República Dominicana, la información relativa a raza/etnicidad de las personas (específicamente, los casos de origen haitiano) fue recogida por el censo más no por la encuesta, no pudiéndose en consecuencia incluirla como una variable al nivel individual o de núcleo familiar. Además de la información al nivel de personas y al nivel de hogares que puede compararse directamente entre la encuesta y el censo, la información sobre la comunidad en la cual el niño vive podrá deducirse del censo. Cada segmento representado en la encuesta también estará representado en el censo, de forma tal que la información sobre el segmento o sobre la comunidad en la cual se ubique el segmento podrá deducirse del censo y agregarse a la data de la encuesta. Como ejemplos de tal información se incluyen el porcentaje de hogares en el segmento que tenga acceso al servicio de agua corriente o acceso a letrinas, el porcentaje de hogares con jefes de familia con educación, el porcentaje de minorías étnicas en la población o el porcentaje de niños en edad escolar matriculados en la escuela. Estas variables ofrecen un contexto para las variables al nivel de personas y de núcleos familiares. Estas variables no tienen que ser medidas en la encuesta, puesto que la información censal puede ser enlazada a cada conglomerado de la encuesta. No toda encuesta muestral utiliza el marco muestral del censo. En tales casos, podría no ser posible concordar los segmentos del censo con los segmentos de la encuesta (Ver, por ejemplo, Simler 2006). En tales casos, la información podrá ser calculada al nivel de la unidad de menor tamaño con la cual la encuesta y los segmentos de la muestra puedan concordarse – la comunidad, el distrito. En todos los países incluidos en el presente estudio, los segmentos de la encuesta y los segmentos censales pudieron ser concordados. Considerando que los límites oficiales de las unidades administrativas pueden cambiar de tiempo en tiempo, un paso clave en la preparación del análisis consiste en asegurar que los mismos límites sean utilizados para estas unidades tanto en el censo como en la encuesta.. Más adelante trataremos acerca de la decisión sobre el nivel apropiado de desagregación al cual podrán hacerse los estimados de prevalencia de la desnutrición; sin embargo, las variables que representan el contexto de la comunidad deberán calcularse al nivel más pequeño posible –segmento o conglomerado— a fin de ofrecer una indicación útil del 3
En nuestro análisis hemos limitado la población a niños entre las edades de 1 y 5. Normalmente, la desnutrición no se manifiesta en el estatus antropométrico de niños menores de seis meses de edad, período durante el cual la leche materna es suficiente para su adecuado crecimiento. Si se incluyera a niños menores de seis meses de edad se sesgaría en sentido regresivo los estimados de desnutrición. .
6
contexto local dentro del cual vive el niño y la familia, inclusive si los estimados son producidos a un nivel de mayor agregación. 1.2.2 Data Secundaria de Fuentes Gubernamentales o Institucionales La predicción del estatus de nutrición puede mejorar mediante la inclusión de información sobre servicios sociales, condiciones económicas, instalaciones de salud pública, o indicadores de salud en la comunidad o conglomerado. Los Ministerios del gobierno y los institutos de investigación regional, a menudo han compilado listas de tales datos, cuya utilidad depende del nivel de desagregación al que están disponibles. Las variables útiles podrán incluir la disponibilidad de centros de salud, escuelas y programas de nutrición; estadísticas de salud pública; experiencias relativas a inundaciones, sequías u otras perturbaciones climáticas. En nuestro análisis de Ecuador, por ejemplo, nosotros incorporamos la tasa de mortalidad infantil por parroquias a partir del Sistema Integrado de Indicadores Sociales del Ecuador (SIISE). Recogiendo y compilando información de los Ministerios y de proyectos públicos, el SIISE incluye numerosos indicadores que están asociados con el estatus nutricional de los niños y en consecuencia mejora el ajuste (R2) del modelo nutricional. Cada país será diferente en los tipos y cantidad de información que pudiera recoger, y en lo que concierne al nivel de desagregación. Cuando se da inicio a un proyecto de mapeo del hambre, la disponibilidad de data complementaria de fuentes gubernamentales y de otras fuentes, deberá ser investigada. 1.2.3 Información Geográfica Existe una amplia gama de fuentes a disposición del público conteniendo información geográfica (espacial) relevante a la predicción de la desnutrición, que reflejan vulnerabilidad, potencial de recuperación y resistencia, y recursos. La información geográfica que puede resultar útil para el mapeo del hambre incluye los usos de la tierra relacionados con medios de subsistencia (porcentaje de tierras dedicadas a la agricultura, ganadería, bosques, pantanos), ubicación sobre la zona del litoral, productividad (calidad de suelos, elevación y pendientes de terrenos, cantidad de lluvias), y acceso a caminos, mercados y áreas urbanas. El utilizar datos geográficos puede mejorar enormemente el ajuste del modelo y la capacidad explicativa, pero requiere de una considerable inversión en tiempo y de recursos. Una razón es que los límites de las unidades administrativas más pequeñas de un país son a menudo muy inestables con el paso del tiempo. Para fusionarse con el censo y con los conjuntos de datos de la encuesta, la información geográfica requiere estar disponible para las mismas unidades, con límites constantes. Esto exige una cuidadosa verificación antes de que algún conjunto de datos pueda utilizarse, y puede significar fusionar o redefinir áreas, o utilizar la data a un nivel de agregación más amplio (por ejemplo: distritos en lugar de corregimiento en Panamá), si los límites de estos niveles más amplios fuesen más estables a lo largo del tiempo. Asimismo, la información geográfica está disponible en diferentes formatos (llamados proyecciones) y éstas necesitan hacerse más constantes antes de que tal información pueda ser utilizada. Sin embargo, la experiencia, tanto con el mapeo de la pobreza como del hambre, ha mostrado que la información geográfica contribuye de manera
7
significativa en muchos casos, al poder de predicción del modelo (Simler 2006, Fujii et al 2004) 1.3 Desarrollo del Modelo 1.3.1 Variable Dependiente En el mapeo del hambre, el resultado de interés es la desnutrición de la niñez, medida en términos del estatus antropométrico (talla para edad, peso para talla, y peso para edad) de los niños menores de cinco años de edad. Un niño ubicado por debajo de dos desviaciones negativas de la media respecto de la norma para el indicador, es considerado desnutrido según este indicador 4 . Cada indicador antropométrico tiene una interpretación diferente. La baja talla para la edad (TPE), o retardo de crecimiento, es un indicador de desnutrición crónica, resultado de insuficiencia alimentaria de larga duración, a menudo combinada con otras condiciones (bajo peso al nacer, enfermedades frecuentes). El bajo peso para la talla es una medida de delgadez que en caso fuese grave, indicaría desnutrición aguda: falta de alimentos durante un período corto. El bajo peso para la edad (PPE), o desnutrición global, identifica como desnutridos a niños si estuvieran caquécticos o con retraso en su crecimiento; cualquiera de estas condiciones daría por resultado, niños con bajo peso para su edad. En consecuencia, el PPE es menos útil como herramienta de diagnóstico comparado con cualquiera de los otros indicadores, debido a que no brinda información alguna acerca de las probables causas subyacentes. El PPE, sin embargo, es el indicador elegido para medir el logro de la Meta de Desarrollo del Milenio que se ha impuesto reducir el hambre a la mitad para el año 2015. De las tres mediciones el PPE es la medición recopilada con mayor frecuencia (probablemente porque no requiere la medición de la talla/longitud del niño, que es la más engorrosa para medir en el campo) El Programa PovMap produce estimados del valor promedio del estatus antropométrico, y un estimado de la prevalencia de desnutrición que se define de forma convencional como un valor de -2 DE (Desviaciones Estandar) o menor. La variable indicadora para la prevalencia producida por el PovMap es la media de las probabilidades para cada unidad geográfica, de que los niños estarán desnutridos, de acuerdo a este indicador. 1.3.1 Variables Predictivas Un punto de partida para desarrollar un modelo predictivo es identificar las causas inmediatas, básicas y subyacentes de la desnutrición (UNICEF 1991), y echar mano de la amplia literatura existente sobre factores asociados con la desnutrición (por ejemplo, UNICEF 1991; Smith y Haddad 2000), pero reconociendo que no todas las variables deseadas estarán disponibles. 4
Estos indicadores se calculan haciendo referencia a las curvas de crecimiento estandarizadas para niños menores de cinco años de edad (OMS 2006]. La trayectoria de crecimiento en los niños saludables, bien nutridos es similar en las poblaciones, independientemente de su nacionalidad o etnicidad, de modo tal que las normas internacionales son adecuadas para evaluar el estatus nutricional al nivel de población en todos los países [Ibíd.].
8
De acuerdo con el modelo mostrado anteriormente (ecuaciones 1, 2), las variables predictivas están divididas en variables al nivel individual, hogares/núcleos familiares y de comunidades (conglomerados). 1.3.1.1 Variables al Nivel Individual Las variables al nivel individual frecuentemente coincidentes en las encuestas y censos, incluyen edad, sexo y la relación con el jefe de familia. Dependiendo del lugar donde se realice el estudio, y de la frecuencia de hogares de crianza para niños, la relación con el jefe de familia podrá ser o no ser factor importante en el estatus nutricional del niño. Idealmente, la edad del niño será presentada, tanto en la encuesta como en el censo, expresada en meses, lo cual permitirá un análisis según la literatura sobre nutrición infantil, que indica que los niños típicamente empiezan a desviarse de su trayectoria de crecimiento hacia los seis meses de edad; la prevalencia de desnutrición se estabiliza habitualmente alrededor de los 24-30 meses de edad. El grupo-objetivo en los programas de nutrición del PMA, y el grupo-objetivo identificado en las Metas de Desarrollo del Milenio son los niños menores de cinco años de edad; en consecuencia, la prevalencia de desnutrición fue calculada para este grupo etáreo. Si la información sobre edad estuviese disponible únicamente en años (como ocurrió en los censos de Panamá y Ecuador), recomendamos dejar de lado a los niños menores de un año de edad en el análisis debido a la baja prevalencia de desnutrición en los niños menores de seis meses lo cual puede inducir a error. El incluir a niños por debajo de esta edad podría hacernos correr el riesgo de sesgar los resultados hacia abajo restando importancia al problema nutricional. Algunos estudios han mejorado el ajuste del modelo añadiendo términos de interacción entre la edad de los niños y otras características en el hogar cuyo impacto podría variar con la edad de los niños. Estos ejemplos incluyen las variables relacionadas con el acceso al agua y a la higiene, y posiblemente variables relativas a la composición del núcleo familiar. También han sido ensayadas estimaciones separadas para niños menores de 2 años y de 2 o más años de edad (Gilligan et al 2003). La información sobre consumo de alimentos es potencialmente muy útil para analizar el estatus nutricional, pero rara vez se encuentra disponible en las encuestas sobre nutrición y jamás en los censos (según nuestro entender). 1.3.1.2 Variables al Nivel de Hogares Las variables calculadas al nivel de hogares incluyen la composición del núcleo familiar, las características del jefe de familia, indicadores del estatus socioeconómico, indicadores del entorno de limpieza e higiene en el hogar, y cualquier información sobre fuentes de ingresos y medios de vida. Las variables sobre la composición de núcleos familiares utilizadas en el estudio realizado por Tufts incluyen el número de personas adultas de sexo femenino en el hogar (como una medida de recursos para el cuidado y supervisión de niños), el número de niños entre 0-59 meses de edad (como una medida de la carga objeto de cuidado y supervisión), el número total de 9
miembros de la familia, hacinamiento (miembros del núcleo familiar/habitaciones) y razón de dependencia (entre los que no trabajan y el total). Las características importantes del jefe de familia incluidas en nuestros análisis fueron: sexo, estado civil, y nivel de educación. En donde fue posible se incluyó raza/etnicidad. (En el DR, no se recogió el origen étnico en la encuesta nutricional.) La literatura sobre nutrición señala una fuerte relación entre las características del progenitor y el estatus nutricional del niño. En el mejor de los casos el modelo predictivo debería incluir variables tales como nivel educativo, estatus laboral, e índice de masa corporal (IMC) de la madre del niño. Sin embargo, es raro, encontrar datos censales que vinculen individualmente a los niños con sus padres. Por esta razón, se han incluido otros parámetros como sustitutos de capital humano materno o paterno. Gilligan et al (2003) utilizaron una técnica para asignar a los niños de un hogar a una mujer en particular, basándose en la edad y en la relación del niño con el cabeza de familia o si éste fuera varón, con su mujer; este método asignó con éxito más del 92% de los niños a su madre, con seguridad, y al resto, con probabilidad razonable. Las encuestas y los censos varían ampliamente en lo que respecta a la cantidad de información que recogen sobre la actividad laboral de las personas. Rara vez, si acaso, se miden los ingresos en un censo debido a que toma mucho tiempo y es difícil realizar esta tarea con confiabilidad. Si se carece de información sobre ingresos o gastos, la propiedad de activos en el núcleo familiar y la calidad de la vivienda (por ejemplo: materiales utilizados en los techos, paredes y pisos) pueden dar indicaciones del estatus económico de un determinado hogar, lo cual sería útil si estuvieran disponibles listas parecidas de activos y atributos tanto en el censo como en la encuesta. Además, algo de información sobre la estabilidad económica podría estar incluida en variables tales como el razón de dependencia (número de personas sin empleo dividido entre el total de miembros de la familia), sector de empleo del jefe de familia (agricultura versus otros) y personas que reciban remesas del exterior. Las variables que describan fuentes de agua potable, recojo de basura e instalaciones sanitarias, proporcionan información sobre las condiciones de higiene al nivel de hogares. (Adviértase que las variables de segmentos o de nivel comunitario que describan el porcentaje de hogares que cuenten con estos servicios brindan información acerca del nivel de saneamiento del entorno familiar dentro del cual vive el niño). 1.3.1.3 Variables al Nivel de la Comunidad El estatus nutricional de los niños está determinado no solamente por sus núcleos familiares individuales sino por las características de las comunidades en las cuales viven. Las variables de segmentos o de conglomerados, pueden deducirse de los datos del censo para medir el porcentaje de hogares o de personas con características particulares que reflejen las condiciones sociales, económicas y ambientales de la comunidad. La adición de variables de segmentos/vecindades capta las condiciones socioeconómicas y sanitarias del hogar relativas a la vecindad donde viven. Entre las variables al nivel de conglomerados es utilizadas en nuestros análisis podemos mencionar el porcentaje de hogares con varios indicadores de calidad de la vivienda, higiene, y servicios, al igual que el porcentaje de personas de minorías raciales/étnicas, y el porcentaje de hogares en los cuales las mujeres son jefes de familia
10
Según lo descrito anteriormente, las variables que reflejan las características de la comunidad del niño deberán calcularse para la unidad geográfica más pequeña (conglomerado, segmento), aún si los estimados de desnutrición se hicieran a un mayor nivel de agregación. El segmento o conglomerado refleja en forma más precisa el entorno del niño. 1.3.1.4 Variables Geográficas Es posible que la información geográfica no esté siempre disponible en forma desagregada al nivel de conglomerado o de la comunidad. Sin embargo, la información geográfica capta las características que se relacionan con los medios de vida y con la seguridad económica. Entre los ejemplos de variables que reflejan medios de vida se incluyen el tipo de tierras, su elevación y pendientes, la calidad del suelo, pluviosidad, y la experiencia de desastres de la naturaleza tales como sequías e inundaciones. La disponibilidad de caminos 5 , acceso a mercados 6 y distancias que hay que recorrer para llegar a las ciudades principales, reflejan posibilidades económicas para las familias. Existen numerosas fuentes de información geográfica; la inclusión de variables específicas dependerá, por supuesto, de aquello que esté disponible en un determinado país. La riqueza de información proporcionada por los datos geográficos está balanceada por el hecho de que estos datos provienen de una variedad de fuentes en una variedad de formatos y a menudo puede ser difícil trabajar con los mismos. El administrar la data geográfica con proyecciones geográficas, unidades de medición, y niveles de detalle múltiples puede en conjunto complicar su uso. Por esta razón, la disponibilidad de información detallada acerca de la fuente y calidad de la data geográfica (por ejemplo, metadata) resulta necesaria. 1.3.2 Variables del Modelo 1.3.2.1 Identificador Único Cada conglomerado, tanto en el censo como en la encuesta, deberá tener una clave única que permita identificar el mismo conglomerado en ambos conjuntos de data. El identificador de conglomerado deberá ser parte del (ID) identificador individual, y deberá incluir dígitos que representen todos los niveles geográficos de interés (coherentemente con el marco muestral): Región o estrato; provincia; segundo nivel administrativo; tercer nivel administrativo; conglomerado o segmento; estatus rural/urbano. La estructura jerárquica del identificador único permite la agregación de los resultados a cualquier nivel elegido. Un identificador único aplicable por igual a la encuesta y al censo resulta crucial para realizar la SAE. 1.3.2.2 Factores de Ponderación y de Ampliación en los Casos
5
El acceso a los caminos puede modelarse como porcentaje del área de un conglomerado dentro de una distancia de 5 o 10 Km de carretera pavimentada o accesible en toda estación, o en kilómetros de tales caminos por kilómetro cuadrado en el conglomerado. . 6 El CIAT ha desarrollado estimados de “acceso” para varios países de América Latina.
11
Las encuestas de nutrición utilizan comúnmente un diseño muestral de conglomerado en etapas multiples, y es frecuente excederse en la muestra de algunas áreas geográficas para asegurar una adecuada representación estadística de todas las unidades al nivel deseado (como una provincia, por ejemplo). Aún si la muestra estuviese diseñada para que sea autoponderante, los índices de respuesta divergentes en diferentes conglomerados pueden hacer que cada conglomerado requiera de una ponderación de caso distinta para garantizar representatividad. La ponderación de casos puede ser expresada como factores de ponderación o de ampliación. La ponderación de casos es lo inverso de la fracción muestral para la unidad geográfica específica; el factor de ampliación es el número de personas que el individuo incluido en la muestra representa; multiplicado por el factor de ampliación y resumiendo los casos se obtiene la población total. En una regresión, se recomienda utilizar la ponderación de los casos que da como resultado el número ponderado de los casos que son similares al número no ponderado de casos 7 . Producir estimados de las características de una muestra al nivel nacional (por ejemplo, la media del TPE, PPE o del PPT. o cualquier otra característica de interés) de los datos de una encuesta, requiere por supuesto, de la ponderación de los casos. Se pueden realizar los análisis de regresión utilizando casos ponderados o no ponderados; cuando se utilice la ponderación para corregir fracciones de muestreo desiguales, se deberá aplicar la regresión ponderada (Deaton 1997, 71). El Cuadro 1 resume los tipos de información que pueden estar incluidos en el modelo. 1.4 Ejecución del Modelo 1.4.1 Evaluar el Acuerdo de las Variables de la Encuesta y del Censo Antes de proceder a la estimación de cualquier modelo, se deberá comparar todas las variables comunes entre la encuesta y el censo para asegurar que midan las mismas cosas en ambos conjuntos de datos. Las medias de todas las variables de la encuesta y del censo deberán ser comparadas (con las medias de la encuesta ponderadas apropiadamente, para producir estimados al nivel nacional). Si las medias al nivel nacional del censo y de la encuesta fuesen significativamente diferentes, se deberá considerar descartar la variable o analizar por qué no existe coherencia entre los dos conjuntos de datos y recodificarlas para hacerlas homogéneas (Simler 2006). Si se calculan los términos de interacción, sus medias también deberán ser comparadas, puesto que podrían ser diferentes aún si las dos variables sujetas a interacción no lo fuesen (Banco Mundial 2006a).
7
Los distintos paquetes estadísticos manejan la ponderación de casos de manera diferente; en algunos casos, utilizando factores de expansión en lugar de resultados ponderados con un significado estadístico excesivamente elevado de los parámetros debido al aparente número de casos artificialmente vasto. En algunos casos, se trata casos fraccionales (ponderaciones menores de 1.0) eligiendo al azar un subconjunto de los casos en la muestra, lo cual implica pérdida parcial de información. El analista deberá investigar cómo se maneja la ponderación de casos en el programa utilizado para desarrollar el modelo-beta (modelo predictivo) antes de decidir en que forma aplicar la ponderación de casos.
12
Además, la distribución de las variables deberá verificarse para descartar errores obvios o valores atípicos, y estos casos deberán eliminarse antes de aplicar el modelo. (Por ejemplo, se deberá eliminar valores biológicamente inverosímiles de la variable indicadora de la desnutrición antes de aplicar el modelo).
13
Cuadro 1. Necesidades de Información y Fuentes para el SAE Nivel Individual
Variable
Fuente Posible
Edad en meses Género Orden en nacimientos
Censo, Encuesta Censo, Encuesta Encuestas; raramente en los censos Rara vez en encuestas; nunca en censos Encuestas; no en censos
Consumo de alimentos Enfermedad Hogares
Tamaño del Hogar Número de niños menores de 5 años de edad. Número de adultos mujeres Número de personas por habitación hacinamiento
–
Nivel de educación de la madre del niño Niveles de educación de las personas adultas en el hogar Estatus económico, patrimonio – propiedad de bienes de consumo claves. Consumo de alimentos: Suficientes Diversos Fuentes: comprados, producidos en el hogar, etc. Calidad de la vivienda Fuente de agua en el hogar Saneamiento en el Hogar: letrina, eliminación de basura Electricidad, combustibles, teléfono Ingresos, total, por fuente, sostén de la familia Medios de subsistencia: Fuentes de ingresos, personas que son sostén de la familia Cabeza de familia Mujer/Hombre Etnicidad de los miembros de la familia Ubicación: urbana/rural Inseguridad alimentaria en el hogar Comunidad/Conglomerad o
Desigualdad Económica Infraestructura de Comercialización: Acceso a caminos Infraestructura de Transporte Volatilidad de precios Servicios: Acceso a servicios de salud Acceso a matrículas en las escuelas Medios de subsistencia locales: Dependencia en la agricultura Desempleo Remesas del exterior Distancia en kilómetros a centros urbanos y mercados Diversidad étnica
Provincia/Región
Tipos, calidad y usos de la tierra
14
Clima: Precipitación, Sequías; Inundaciones Topografía Elevación o pendientes del terreno
Censo, Encuesta Censo, Encuesta Censo, Encuesta Censo, Encuesta Encuestas; usualmente sin vínculos con la madre en los censos Censo, Encuesta Censo, Encuesta Rara vez, sí acaso, disponibles en las encuestas; nunca en los censos Censo, Encuesta Censo, Encuesta Censo, Encuesta Censo, Encuesta Datos rara vez recogido en encuestas o censos Información limitada de cualquier fuente Censos, encuestas Por lo general disponible en los censos y en las encuestas Censos, encuestas Rara vez recogida en encuestas o censos Puede calcularse del patrimonio hh GIS GIS Fuentes secundarias, rara vez disponible. Fuentes gubernamentales
Datos variables, a menudo carentes de coherencia entre las encuestas y los censos GIS Censos GIS GIS GIS
1.4.2 Especificación del Modelo El desarrollo del modelo predictivo está basado en material bibliográfico empírico sobre factores asociados con la desnutrición infantil, y está limitado por la disponibilidad de información que puede incluirse en los conjuntos de datos, tanto de los censos como de las encuestas, y por el número de casos comparados con el número de variables. En el material bibliográfico, se recomienda mantener el modelo con relativa prudencia, con 20-50 variables dependiendo del número de casos (Banco Mundial 2006a) Se conocen algunas variables o puede esperarse que tengan una relación no lineal con el resultado de interés. Por ejemplo, se sabe que la edad del niño tiene una relación curvilínea con el estatus nutricional: el estatus nutricional declina con la edad aproximadamente a partir de 6 meses y hasta cerca de los 24 meses de edad; posteriormente, el aumento de edad tiende a no relacionarse tan estrechamente con cambios en el estatus antropométrico. Las relaciones no lineales pueden modelarse introduciendo términos de orden cuadrático o mayores para captar la no-linealidad. Una alternativa es modelar la variable como una serie de variables mudas (En inglés “dummies”): con 12-23 meses de edad; 24-35 meses de edad; 36-59 meses de edad. El uso de estas variables permite una relación no-lineal sin especificar la forma funcional de la relación. En nuestro análisis utilizamos variables mudas para las edades antes descritas en los tres países. La educación es otra variable que a menudo tiene una relación no lineal con el resultado, ya sea debido a retornos decrecientes, o debido a efectos umbral. En nuestros análisis modelamos el nivel de educación del cabeza de familia, como una serie de variales mudas para distintos niveles de educación completa, pero esto significó introducir cinco o seis variables en lugar de solamente dos términos para la variable y su cuadrática. Las otras variables de educación fueron puestas en el modelo en forma continua: educación en años y educación elevada al cuadrado. Antes hemos mencionado que la propiedad de los bienes de consumo y la calidad de la vivienda se constituyen en indicadores de estatus económico; estas son variables críticas a ser incluidas en el modelo, considerando carencia de ingresos o falta de información sobre consumo/gastos. Normalmente, tanto la encuesta como el censo incluirán una relación de las características y servicios disponibles en la vivienda: disponibilidad de electricidad y servicio telefónico, y una lista de bienes de consumo de propiedad del núcleo familiar: por ejemplo, refrigeradora, receptor de radio, televisor, computadora. Como se ha mencionado anteriormente, primero es necesario asegurarse que las categorías variables sean comparables en las dos fuentes de datos, y recodificarlas para lograr coherencia entre ellas en caso no la tuvieran (Ver la Sección 1.2.1). Hay algunas opciones a elegir acerca de la forma cómo incorporar estas variables en un modelo predictivo. Una forma de hacerlo es simplemente incluir cada variable como una variable muda (con una categoría de cada una seleccionada como “caso base”, es decir, la categoría omitida). De este modo, por ejemplo, los tres tipos de techado mencionados en el anterior Gráfico 1, serían incluidos en el modelo como dos variables mudas con respuesta si/no, con la tercera categoría omitida. Esta especificación no implica ninguna suposición respecto de la naturaleza de la relación de las variables respecto del resultado. Una segunda forma de manejar esta información es intentar definir las categorías como “buenas” o
15
“malas”, reflejando condiciones económicas más altas o más bajas. De esta forma, varios códigos de respuesta podrían plegarse en dos: todos los materiales de techado “buenos” y todos los “malos” o materiales de baja calidad. Esto requiere de dos condiciones: conocer cuales materiales son buenos y cuales malos dentro del contexto nacional, y suponer que esta categorización es válida para todas las áreas del país o de la zona objeto de estimación. Saber cuales materiales son buenos y cuales malos en el contexto nacional, y la hipótesis previa de que esta categorización es igual para todas las áreas de un país o de una zona que esté siendo objeto de estimación. A menudo, estas dos condiciones no se cumplen. A menos que podamos tener confianza en la correcta categorización de “buenos” y “malos”, sería preferible incluir todas las categorías de respuestas como variables mudas (omitiendo una categoría). Por ejemplo, en la República Dominicana, la disponibilidad de servicios sanitarios fue categorizada en “letrinas compartidas”, “letrinas privadas”, “cuartos de baño compartidos”, “cuartos de baño privados”. No pudimos elaborar una hipótesis sobre si un cuarto de baño moderno compartido era preferible a una letrina privada, de manera que no tratamos de asignar estas respuestas a las categorías “buenas” y “malas”, sino simplemente las incluimos como variables mudas. A pesar de todo, cuando evaluamos las ventajas de mantener tales variables mudas en el modelo final, todos los detalles relacionados con alguna característica en particular (techados, paredes, pisos, servicios de agua o eliminación de desperdicios) deberán ser mantenidos o eliminados al mismo tiempo, basándose en su significación conjunta. Si hubieran cuatro variables mudas para materiales de techado, por ejemplo, se deberá mantenerlos en el modelo o eliminarlos basándose en su significación conjunta; si se eliminara un variable, entonces sencillamente se lo añadiría a la categoría omitida, posiblemente afectando los resultados. Un enfoque alternativo sería combinar varias respuestas en una escala única; por ejemplo, utilizando bienes de consumo doméstico para reflejar el estatus económico de un hogar. En una lista de posesiones caseras se puede asumir que las preferencias individuales podrían afectar la elección de poseer una refrigeradora o un televisor, por ejemplo; pero que generalmente, la posesión de dos bienes duraderos indica un nivel económico más alto que la posesión de uno sólo. En tales casos, es posible combinar varios bienes de este tipo en una escala única. La construcción de escalas plantea sus propios retos, y hay muchos libros de texto que describen métodos para elaborar y validar escalas que garanticen que los detalles se ajustan entre sí efectivamente y miden una sola dimensión de fondo (por ejemplo, DeVellis 2003). Simplemente, no se puede combinar varios elementos dentro de una escala sin validarlos y someterlos a prueba. La ventaja de utilizar una escala es que esto construye una variable única de muchas variables, y puede facilitar una medida mejor y más significativa del concepto subyacente de patrimonio familiar o control de recursos comparado a una larga lista de variables sí/no para bienes específicos. El material impreso da cuenta de una variedad de enfoques relativos a la especificación del modelo. El Programa PovMap ofrece un mecanismo para elegir un modelo basado en regresión por etapas, poniendo a prueba todos los términos de interacción posibles y formas de variables continuas elevadas al cuadrado y al cubo, con eliminación hacia atrás y hacia adelante (eliminando variables con un valor p. previsto de F). Este enfoque rinde valores R2 elevados pero presenta el riesgo de desarrollar un modelo que esté sobre adaptado a las
16
peculiaridades de un conjunto de datos de la encuesta en particular, creando un modelo que no sea generalizable para la población subyacente representada por el censo. El adaptar el modelo para mejorar su ajuste es un paso necesario en el proceso SAE, pero deberá tenerse cautela si se permite al programa seleccionar el modelo: los resultados deberán ser analizados tanto en lo que respecta a una sobre adaptación como en lo que respecta a la lógica básica de las relaciones previstas 8 . 1.4.3 Selección de Casos para su Inclusión Antes de aplicar el modelo predictivo utilizando datos de la encuesta sobre nutrición, se deberá eliminar cualquier caso inverosímil del conjunto de datos. La literatura sobre el tema no es perfectamente uniforme respecto de aquello que constituya indicadores antropométricos biológicamente inverosímiles. El Programa Mundial de Alimentos (PMA - 1995) recomienda puntos de corte de -5 y de +5 DE (Desviaciones Estándar); y estos fueron los que se utilizaron para el análisis de la Encuesta de Niveles de Vida (Bermúdez 2006) en Panamá. En nuestros análisis de tres países, experimentamos con valores de +/- 6 DE y de +/- 5 DE, y encontramos que solamente un muy pequeño número de casos fue sustraido al conjunto de datos con intervalo más amplio. Cualquiera fuese la elección hecha, los resultados extremos, que serán más probablemente resultado de medición o de error incurrido, deberán ser eliminados. Los conglomerados de la encuesta que incluyan muy pocos casos, producirán estimados de prevalencia no confiables. No tiene sentido calcular prevalencia de desnutrición en un conglomerado con tan sólo uno o dos niños. Solamente incluimos conglomerados que contenían un mínimo de tres casos de niños entre 1-5 años de edad 9 . Los estimados de desnutrición deberán hacerse en niños mayores de seis meses de edad. Conforme mencionamos anteriormente, por lo general los niños no empiezan a decaer en sus trayectorias de crecimiento hasta alrededor de los seis meses de edad; la prevalencia de desnutrición tiende a incrementarse casi a partir de los seis meses y hasta cerca de los 24 meses de edad, y luego se estabiliza, inclusive declinando ligeramente más allá de los 24-30 meses de edad (PMA 1995). Si se cuenta con la información relativa a edades expresada en meses, tanto en la encuesta como en el censo, entonces se puede incluir a los niños en análisis si tienen más de seis meses de edad. Si tal información estuviera disponible expresada únicamente en años completos, sería aconsejable excluir a todos los niños menores de un año puesto que incluir a aquellos cuyas edades oscilen entre 0-11 meses tenderá a que se subestime la prevalencia de desnutrición.
8
En el Programa PovMap es posible “encerrar” las variables claves que sean intuitivamente importantes para la predicción de desnutrición, y utilizar un procedimiento por etapas a fin de evaluar y mantener o descartar otras variables basándose en su significación, precisión del estimado del parámetro (SE) o contribución a R2 9 En versiones anteriores, el Programa PovMap retornaba un mensaje de “error fatal” si los datos de la encuesta incluían conglomerados es que fuesen demasiado pequeños. La nueva versión elimina en forma automática los conglomerados con una simple observación; sin embargo, nosotros excluimos conglomerados con menos de tres observaciones. En los casos de Panamá y de Ecuador la exclusión estuvo basada en niños entre 1-5 años de edad; en el caso de la República Dominicana, se basó en niños entre 6-59 meses de edad.
17
1.4.4 Elección del Nivel Geográfico al Cuál Desarrollar los Estimados En la literatura sobre mapeo de la pobreza, y en la literatura – más limitada — sobre mapeo de la nutrición, la mayoría de estudios desarrollan sus estimados aplicando regresiones separadas por estrato o zona muestral del país. La ventaja de esto es que permite que los estimados del parámetro sufran cambios para cualquier variable cuyo efecto en la desnutrición sea diferente en las distintas zonas agro-ecológicas, sin introducir una serie de términos de interacción para la zona (Ver como ejemplo, Demombynes et al 2002; Simler 2006). Aplicar regresiones separadas por zonas tiene el mismo efecto que introducir términos de interacción por zona, con cada variable. Sería difícil adivinar anticipadamente qué variables deberían interactuar con las zonas. Aplicar ecuaciones al nivel de zonas y desarrollar estimados al nivel de conglomerado en forma separada para cada zona elimina la necesidad de tal hipótesis. Un gran inconveniente para desarrollar estimados al nivel de zonas es el tamaño de la muestra. Cuanto más pequeña sea la población de la unidad, los estimados serán más proclives al efecto de sólo unos pocos casos de valores atípicos, y estos casos pueden afectar la precisión de los estimados. El tamaño de una muestra más pequeña en la encuesta, reduce además, la precisión de los estimados del parámetro. En nuestros análisis de los datos de Panamá, encontramos que los estimados basados en regresiones separadas al nivel de zonas no eran consistentes; resultaron estimados que fueron muy imprecisos y a menudo inverosímiles. Los estimados basados en regresiones aplicadas a un muestreo nacional y aplicadas a la población nacional probaron ser más precisos y muy cercanos a la prevalencia real derivada de la encuesta nutricional al nivel de provincias (dominio) 10 , nivel al cual la encuesta apuntaba a ser representativa. Es posible explicar las diferencias al nivel zonal en una regresión al nivel nacional incluyendo un abundante conjunto de variables que reflejen las condiciones en las distintas zonas. Se debe reflexionar cuidadosamente para incorporar términos adecuados de interacción cuando exista razón para creer que el efecto de una variable en particular será diferente en distintas zonas. El Programa PovMap permite poner a prueba los términos de interacción en una gama de variables por su trascendencia y por su contribución al ajuste global del modelo. 1.5 Evaluación del Modelo 11 1.5.1 Ajuste del Modelo 12 El objetivo de la regresión es producir los estimados más confiables y precisos posibles. La predicción inexacta puede originarse en tres fuentes de error: error idiosincrático es el término de error del modelo predictivo (beta); los resultados de error del modelo producidos por especificaciones deficientes del modelo; y el error computacional, debido a cálculo inexacto de los términos de perturbación (Demombynes et al 2002; Zhao 2006a). Se podrá reducir el primer tipo de error si el tamaño de la muestra es más amplio; cuanto más fino sea el nivel de desagregación al cual se produzcan los estimados, mayor será el error 10
Los dominios o dominios de muestreo no fueron totalmente congruentes con las provincias; ver informes al nivel del país. 11 Para un análisis detallado de la construcción del modelo-beta deberá hacerse referencia a Zhao 2006a. 12 Este análisis se ha beneficiado de útiles comentarios de Peter Lanjouw.
18
idiosincrático. El tercer tipo de error podrá reducirse incrementando el número de operaciones (repeticiones) que la computadora efectúe para realizar las estimaciones. Una medida de la especificación del modelo (relativa al segundo tipo, error de modelo) es el ajuste del modelo, medido por R2 o porcentaje de la varianza explicada por el modelo. Las regresiones que utilicen data de una muestra representativa, tienen por lo general, R2 menores que los datos longitudinales o de panel; Más aún, se supone que los modelos que expliquen o hagan pronósticos de la desnutrición, tendrían R2 más bajas que los modelos de pobreza puesto que un componente importante de la causalidad de desnutrición puede ser explicado por los factores no medidos y los no-medibles como la atención considerada de quienes brindan cuidados (Simler 2006; Gilligan et al 2003). Es razonable anticipar R-cuadradas de .25 con datos de una muestra representativa sobre estatus nutricional. Algunos estudios han desarrollado modelos de desnutrición con R-cuadradas tan altas como .6 y .7 (Larrea 2005; Fujii 2003a), pero algunos investigadores expresan preocupación por una sobre adaptación con R-cuadradas inclusive por encima de .35 (Gilligan et al 2003). Sin embargo, la R2 no es el único criterio para un buen modelo. En el Programa PovMap (La Sección II trata este punto detalladamente) es posible ajustar un modelo mediante regresión por etapas, con variables hacia adelante o hacia atrás, y este enfoque puede producir valores de R2 muy altos a expensas de tener un modelo cuyo poder explicativo y de ajuste resulten subordinados a las idiosincrasias de la muestra en particular. Esto significa que los parámetros del modelo podrían no ser aplicables a otras muestras de la misma población implícita. El enfoque SAE estima los errores estándares basándose en la distribución implícita de los términos de perturbación; si el ajuste del modelo es altamente dependiente de una muestra en particular, entonces los errores estándares producidos por el Programa PovMap podrían no ser representativos de la población que esté siendo medida. La preocupación es por la sobre adaptación del modelo: el modelo se ajusta a la data con bastante detalle pero su capacidad para una predicción confiable se ve limitada por la naturaleza idiosincrásica del modelo 13 . Probablemente sería preferible desarrollar el modelo basándonos en la comprensión de factores que tengan probabilidad de estar asociados con la desnutrición al nivel individual, de hogares y de la comunidad, y perfeccionar el modelo basándonos en una combinación de los resultados en particular y del entendimiento teórico de la causalidad de la desnutrición. Los modelos pueden ser puestos a prueba para verificar su sobre adaptación eliminando selectivamente conglomerados aleatorios para ver si los estimados del parámetro varían basándonos solamente en uno o dos conglomerados (Ver la Sección 2.2). 1.5.2 Precisión del Estimado Gran parte del trabajo de recodificación y fusión de los conjuntos de datos, desarrollando el modelo predictivo y operando el Programa SAE, debe completarse antes de que existan estimados que puedan ser evaluados en procura de verosimilitud o precisión. Por tanto, refinar el modelo basándonos en los resultados es un proceso repetitivo: una vez producidos los estimados, podría surgir la necesidad de realizar modificaciones en el manejo de la data, en el modelo o al nivel de desagregación. 13
Una función del Programa PovMap permite efectuar una prueba de sobre adaptación en el modelo. Ver la Sección 2.
19
Una prueba clave de la verosimilitud del modelo es realizar la SAE y observar si los estimados de prevalencia producidos mediante el procedimiento SAE se acercan a los producidos por la encuesta muestral, al nivel en que la encuesta pretendía ser representativa. Se puede tener gran confianza en los estimados si la mayor parte de los estimados de la SAE coincide con los estimados de la encuesta dentro de +/- 2 veces respecto del estimado de los errores estándares o de la SAE (por ejemplo, Haslett et al en prensa, 39; Minot y Baulch 2005). Un segundo enfoque para evaluar la precisión de los estimados es analizar los errores estándares de los estimados producidos mediante el procedimiento SAE. Estos errores estándares se derivan de la regresión de la encuesta conforme lo explica la sección siguiente. Los errores estándares son la base para establecer un intervalo de confianza alrededor del estimado; cuanto más amplio sea mayor será el margen de error sobre el estimado. Varios factores pueden contribuir a la falta de precisión en la estimación puntual de la prevalencia de desnutrición. Si los parámetros del modelo son estimados de forma imprecisa, tal imprecisión se verá reflejada en los errores estándares de los estimados; descartar algunas de estas variables del modelo reforzará la precisión. Una advertencia, sin embargo, es que teóricamente las variables importantes no deberían ser eliminadas del modelo simplemente por no ser estadísticamente significativas. Del mismo modo, si se divide una sola variable entre varias partes (edad y edad-al cuadrado, por ejemplo, o varias variables mudas para diferentes tipos de paredes o de suelos), puesto que esto puede alterar la forma de la relación: es un error eliminar los términos insignificantes y dejar los demás; si alguno es significativo todos los demás deberán mantenerse en el modelo. El objetivo de la regresión es una predicción precisa. Para los analistas acostumbrados a desarrollar modelos explicativos esto requiere de una adaptación para reconocer que la interpretación de los parámetros de regresión no constituye el objetivo de la ecuación predictiva. En los análisis de regresión que buscan explicar las causas fundamentales, el analista estará preocupado acerca de la endogeneidad y omitirá el sesgo variable; pero cuando el objetivo es la predicción, la correcta interpretación de los coeficientes individuales es menos importante (Zhao 2006ª; Desmombynes et al 2002). Reforzar el ajuste del modelo mediante la incorporación de variables que sean colineales con otras variables en el modelo podría no representar un problema puesto que el objetivo no es la interpretación de los parámetros del modelo específico. Sin embargo, si la colinearidad diera como resultado que una o ambas variables fuesen no-significativas, y que los parámetros medidos con un alto grado de inseguridad (por ejemplo, amplios errores estándares), la inseguridad en el parámetro individual se traducirá en menor grado de precisión en los estimados producidos en la segunda etapa del procedimiento SAE. En consecuencia, el modelo, deberá ser teóricamente sostenible, deberá tener un ajuste razonable (R2), y deberá producir estimados útiles sobre la prevalencia de desnutrición. Después de poner en marcha la regresión de primera etapa en los datos de la encuesta, será posible identificar los valores atípicos multivariantes: aquellos puntos de información en donde la diferencia entre la predicción y el resultado realmente medido es extrema. El
20
Programa PovMap proporciona un diagrama de valores previstos frente a valores reales, y un diagrama de los residuales, y proporciona la posibilidad de eliminar estos casos o de analizar los datos básicos asociados con los mismos. No existe marco teórico básico para eliminar los valores atípicos y estadísticamente no se justifica eliminar estos valores atípicos basándonos en el tamaño del residual. Con un tamaño más grande de la muestra, la influencia de los valores atípicos se reduce. Otra forma de abordar los valores atípicos multivariantes sería realizar un procedimiento de regresión consistente (por ejemplo, varios estuvieron disponibles en Stata y en SAS) que identifique de manera correcta y quite peso a los valores atípicos multivariantes, y elimine estos casos de importancia disminuida antes de comprobar los datos de la encuesta mediante el Programa PovMap. 1.5.3 Nivel de Desagregación Cuanto más grande sea la población para la cual se esté realizando un estimado de prevalencia de desnutrición, mayor será la precisión del estimado. Las poblaciones más grandes también reducen la influencia de algunos pocos casos de valores atípicos. Algunos estudios (Hentschel et al 2000; Elbers 2000) señalan que los estimados puntuales de prevalencia de desnutrición deberán hacerse en unidades de poblaciones de al menos 500 en el censo. Estudios posteriores indican un mínimo mayor, 1000-2000 (Demombynes et al. 2002) 14 . Este criterio afecta al nivel de desagregación al que puedan hacerse estimados. Podría resultar deseable producir estimados al nivel administrativo terciario (por ejemplo, sección en la República Dominicana; parroquia en el Ecuador; y corregimiento en Panamá); sin embargo, podría no ser posible producir estimados lo suficientemente precisos para que sean útiles si la población de niños menores de cinco años de edad en muchas de estas unidades fuese demasiado pequeña. En nuestros análisis encontramos que debido a la inquietud sobre precisión fuimos capaces de producir estimados de desnutrición al nivel secundario: el siguiente nivel por debajo del provincial. Para la mayor parte de fines administrativos, esto podría resultar suficiente. (En cualquier caso, una vez se identifique un área pequeña con elevadas tasas de desnutrición, aún se recomienda centrarse en el núcleo familiar en la mayoría de las instancias, debido al elevado nivel de variabilidad al interior de los congomerados en cuanto a desnutrición (Morris 2000; Fenn et al., Elbers et al 2007). 1.6 Procedimientos Estadísticos para Estimaciones de Áreas Pequeñas (SAE) 1.6.1 Estimación de varianzas responsables de la configuración de conglomerados Uno de los retos en la aplicación de los procedimientos SAE es ofrecer una medida de la distribución del estimado puntual. Anteriormente se mencionó que necesitamos de tal información para predecir la prevalencia de desnutrición, y para estimar la precisión, o sea los errores estándares de los estimados. Para estos fines, necesitamos tener en cuenta el efecto al nivel de conglomerados, el cual es una forma estadística de reconocer el hecho de que los niños en el mismo conglomerado pueden parecerse más entre ellos que los niños en 14
Esta población mínima es sugerida para la estimación del consumo (pobreza). Una población de 1,000 indica un número mínimo de hogares en el rango de 200-250. No resulta claro en que forma esto podría aplicarse a los estimados de desnutrición en donde únicamente una submuestra de hogares tienen niños en el rango apropiado de edad.
21
conglomerados diferentes. El efecto al nivel de conglomerados refleja características no observadas del conglomerado, que influencian los resultados de la nutrición en los niños de dicho conglomerado. Anteriormente, mencionamos la ecuación de regresión básica: 3)
Yci = ß o + ß 1 Wci + ß 2 Xci + ß 3 Zc + uci
El modelo de regresión produce un término de error que nosotros hemos representado como u en el modelo. A este hemos añadido subíndices para dejar en claro que cada estimado del estatus nutricional de un niño determinado se relaciona a un niño en particular (i) dentro de un conglomerado específico (c). La variabilidad en el resultado proviene de dos fuentes: variación entre conglomerados (variación ínter-conglomerados), y variación entre niños individualmente dentro de un conglomerado (variación intraconglomerado). El término de error uci puede ser desagregado en estos dos componentes, conforme aparece en la ecuación siguiente. 4)
u ci = η c + ε i
En donde: u ci es el término de error total para la ecuación, η c es el efecto al nivel de conglomerado, y ε i es el efecto al nivel del niño individualmente. El Programa PovMap en la estimación de la prevalencia de la desnutrición toma en cuenta la agrupación de datos (“clustering”) en el término de error al nivel individual y al nivel de conglomerado. No toma en cuenta el grado de agrupación causado por el hecho que pueden existir múltiples niños en un solo núcleo familiar. 15 . La omisión de dar cuenta de este nivel adicional de clustering podría resultar en la sobreestimación de la precisión de los estimados resultantes. El grado de esta sobreestimación no es conocido, pero sería posible verificar si existe correlación de estimados dentro de núcleos familiares utilizando un modelo de efectos fijos (añadiendo una variable muda a cada núcleo familiar y probando la significancia compartida de los parámetros en los variables mudas del núcleo familiar) a un paquete estadístico estándar como por ejemplo Stata. 16 . El efecto al nivel conglomerado y el efecto al nivel de niños individuales, son independientes estadísticamente, de manera que sus varianzas estimadas tienen una descomposición sencilla que permite que la varianza total estimada del término de error sea la suma de las varianzas estimadas de los dos efectos: 5)
^ 2u=σ ^2η+σ ^2ε σ
15
Conforme se tratará con mayor detalle en la sección sobre la aplicación del Programa PovMap,”i” en el PovMap significa “núcleo familiar”. Esto es debido a que el Programa PovMap fue desarrollado para realizar el SAE de los índices de pobreza, y la pobreza es un fenómeno al nivel de hogares mas no al nivel individual. 16 Gracias a Peter Lanjouw por esta sugerencia. El PMA viene colaborando actualmente con el Banco Mundial para desarrollar un procedimiento en el Programa PovMap que permitirá al programa explicar la agrupación al nivel de hogares.
22
En la Ecuación (5) estas varianzas están desarrolladas bajo la hipótesis de que son constantes, y reflejan una varianza homoscedástica. En realidad, el procedimiento SAE permite que esta hipótesis sea distendida, en parte, permitiendo un tipo de heteroscedasticidad en donde se permite que la varianza del efecto al nivel del niño individual cambie con algunas variables explicatorias. Además de estimar los parámetros beta descritos anteriormente, el procedimiento SAE estima un segundo conjunto de parámetros que describe la forma cómo las variables explicativas seleccionadas influencian a σ2 ε:. 6)
σ2 ε = e α0 + α1 X1 + α2 X2 …
en donde las α’s son una medida de cómo el valor de una variable afecta la varianza del término de error. Las α’s se infieren de los resultados de regresión de la encuesta. Un valor de α cercano a cero, significa que el término de error es homoscedástico con respecto a tal variable. Los valores positivos de α significan que a medida que la variable del valor aumenta, también aumenta la varianza del término de error; valores negativos de α significa que existe una relación inversa. Esto permite que la varianza de ε varíe (la variación al nivel ^ 2 ε representa la distribución peculiar de σ ε. individual), de manera que σ 1.6.2 “Bootstrapping” (Métodos de Monte Carlo) Después que todos los parámetros tratados hasta el momento (incluyendo los betas, los errores estándares de los betas, los alfas, y las varianzas al nivel de conglomerados es y los efectos al nivel individual en los niños) han sido estimados utilizando los datos encuestales, el siguiente paso es predecir tanto el valor promedio de Y como la distribución de Y para cada unidad geográfica en los datos del censo. A diferencia de los procedimientos de regresión lineal al nivel hogares, no se conoce ninguna ecuación que permita computar directamente la distribución de Y en esta aplicación SAE. El término “Bootstrapping” se refiere al procedimiento que permite generar una varianza sobre el estimado del estatus antropométrico a fin de computar la prevalencia de desnutrición y los errores estándares que buscamos. La estrategia consiste en generar aleatoreamente, para cada observación en el censo, efectos al nivel de conglomerados y al nivel de los niños individualmente, que obedezcan las mismas varianzas y patrones de heteroscedasticidad que fueron anteriormente estimados utilizando la data de la encuesta. Utilizando estos efectos, se ^ ci para cada niño individualmente en cada puede utilizar la Ecuación (3) para predecir Y ^ ci fuesen exactamente correctos, conglomerado del censo. Si estos valores previstos para Y entonces nosotros podríamos responder a preguntas sobre la prevalencia de desnutrición. ^ ci son valores simulados posibles en lugar de Por supuesto, estos valores previstos para Y valores exactamente correctos, de forma tal que la página siguiente del procedimiento “bootstrapping” es repetir este proceso de generación aleatoria 100 o 1000 veces, y estimar la prevalencia de desnutrición en cada unidad geográfica del censo cada vez. Estas 1000 repeticiones garantizan que nuestros estimados sobre la prevalencia de desnutrición en las unidades del censo no serán resultado de una inusual elección aleatoria generada por computadora, sino por el contrario, reflejarán toda la distribución de los estimados que se podrían observar probablemente de muchas muestras. De esta distribución, es posible 23
calcular el mejor estimado de la prevalencia del índice de desnutrición en cada unidad geográfica del censo y al mismo tiempo, en forma simultánea, el error estándar para dicho mejor estimado. Estas funciones son relativamente fáciles de aplicar en el Programa PovMap que a continuación abordaremos.
24
SECCIÓN II: MANUAL DEL PROGRAMA POVMAP PARA MAPEO DEL HAMBRE 2.0 Visión General del Programa PovMap Creado por el Banco Mundial 17 , el Programa PovMap es una aplicación informática (software) utilizada para ofrecer técnicas estadísticas SAE (Siglas en inglés de: Estimados de Áreas Pequeñas) los cuales de otro modo requieren de programas avanzados de cómputo y de capacitación en econometría. A pesar de estar diseñado para producir estimados sobre pobreza al nivel de unidades geográficas desagregadas, el Programa PovMap puede muy bien emplearse para producir estimados sobre desnutrición 18 . El presente documento enfoca la aplicación del Programa PovMap para estimados sobre prevalencia de desnutrición, reconociendo que este instrumento no fue diseñado con tal propósito Al momento de redactar este manual, PovMap 2.0 (la versión que aquí se trata) se encuentra en su fase final de desarrollo. Se continúa añadiendo atributos y funciones a esta versión 2.0 del Programa PovMap, y el Equipo de Mapeo del Hambre de Tufts viene activamente proporcionando a los programadores de PovMap retroalimentación para mejorar su funcionalidad y rendimiento. Gráfico 3. Diseño de PovMap
2.0.1 Configuración El Programa Povmap contiene siete pantallas: Corrector, modelo de consumo, efecto de agrupación (conglomerado o ‘conglomerado’), modelo idiosincrático, efectos en el hogar, simulación, y resultado de simulación (Ver Gráfico 3). Las pantallas deberán completarse en forma consecutiva pero se permite la alternancia entre las páginas una vez completada una página. Más adelante se brinda una idea general de cada pantalla. Esta visión global permitirá familiarizar al usuario con el propósito de la página y su función Dentro del proceso SAE. La visión global es seguida por detalles específicos de cada página. Las secciones sobre estos detalles tratan de temas comunes identificados durante el proceso de mapeo 17
Al momento de redactar este informe, el Programa PovMap. V.2.0 (versión beta) puede ser descargado a través del Portal Web del Banco Mundial: http://iresearch.worldbank.org/PovMap/index.htm 18 El Programa PovMap fue desarrollado para el mapeo de la pobreza, un fenómeno al nivel de hogares. En consecuencia, el Programa PovMap utiliza terminología coherente con este enfoque. Por ejemplo, el ModeloBeta es llamado “modelo de consumo” porque los estimados de pobreza están basados en el consumo en los hogares puesto que los hogares y no los niños, constituyen las unidades de observación en el proceso de estimación de la pobreza. En su estimación de los términos de error, el Programa PovMap da cuenta del agrupamiento (“clustering”) en dos niveles: el “individual” y el del “clúster” (del conglomerado o de la comunidad). En la estimación de desnutrición, existe un tercer nivel de agrupamiento o “clustering”, el de múltiples niños dentro del núcleo familiar. El Programa PovMap no está actualmente configurado para tomar en cuenta este tercer nivel de “clustering”. Este tema es abordado en la anterior Sección 1.6.
25
del hambre, y sobre los métodos usados para manejar cualquier problema que pudiera surgir. Según corresponda, el método utilizado por el Equipo de Tufts también se incluirá en el presente documento. 2.0.2 Cargar la Data A fin de hacer posible el proceso de SAE, el Programa PovMap utiliza sus propios tipos de archivos y estructuras. Por tal razón, los archivos de datos deben ejecutarse en PovMap y convertirse en archivos compatibles de vectores de data del Programa PovMap. El tutorial “Quick Start” de PovMap detalla los archivos de data aceptados y los pasos necesarios para interpretar la data dentro del Programa PovMap. 2.1 Pantalla 1: Corrector (“Checker”) Resumen El Corrector permite a los usuarios recodificar/generar variables, comparar estadísticas descriptivas de datos de la encuesta y del censo, editar propiedades variables, y definir las variables que serán utilizadas en el modelo. La concordancia de variables independientes en la , o podrá hacerse encuesta y en el censo, podrá lograrse en forma manual, utilizando “en bloque”, insertando las variables independientes en la ventana . A fin de ser fijadas (incluidas) en el modelo, las variables de la encuesta y del censo deberán tener el mismo nombre y tipo. Una vez incluidas en el modelo las variables serán denominadas “concordadas”. Las variables concordadas a incluirse en el modelo aparecen al lado derecho de la pantalla Corrector en el Gráfico 4. La identificación de un tipo de variable (continua o categórica) es un atributo singular del Programa PovMap, y es presentado para cada variable en el Corrector. El tipo de variable . Utilizando la función podrá ser cambiado cuando sea necesario, utilizando la ventana “extraer” se podrá realizar una comparación virtual de las variables con el mismo nombre, de la encuesta y del censo, mostrando las frecuencias y distribuciones acumuladas, respectivamente, para las variables categóricas y continuas. El Gráfico 4 muestra la Pantalla “Corrector” comparando las frecuencias de la variable edad1223 en la encuesta y en el censo. La representación visual permite a los usuarios identificar y excluir las variables . “concordadas” que tengan distribución y medios disímiles, utilizando el botón .
26
Gráfico 4. Pantalla “Corrector” del Programa “PovMap’
Detalles El designar los tipos de variables (continuas o categóricas) permite a los usuarios de manera fácil: 1) cuantificar la similitud entre las variables de la encuesta y del censo; e, 2) incorporar términos de interacción y variables polinómicas al modelo. 1. Al visualizarse en la encuesta y en el censo variables categóricas de igual denominación, el Programa PovMap muestra la estadística chi-cuadrada la misma que compara las frecuencias de la encuesta con las frecuencias del censo. La trascendencia de la estadística chi-cuadrada indica si la encuesta y el censo tienen distribuciones de frecuencia similares, y constituye un método para determinar si la variable debe ser incluida en el análisis. Para el caso de las variables continuas de igual denominación, el Programa PovMap calcula la estadística Kolmogorov-Smirnov (KStwo), que es una medida de la correlación entre las funciones de distribución de probabilidad acumuladas de la encuesta y del censo. La medida de distancia proporcionada mediante el Kstwo es la distancia máxima entre la distribución de la encuesta y del censo; los valores pequeños indican que la variable de la encuesta es representativa de la variable del censo. El valor Kstwo representa la trascendencia de la medida de distancia, la cual cuando es significativa, señala en teoría que la encuesta no es representativa de la población para la variable elegida 19 .
19
Para un análisis detallado de la forma cómo interpretar las estadísticas chi-cuadradas y KWtwo, se deberá hacer referencia al Capítulo 14.3 en Recetas Numéricas en la Página Web C: http://www.nrbook.com/a/bookcpdf.php
27
2. Es posible añadir términos de interacción al modelo utilizando la ventana siguiente . La opción “all-compound” (totalmente compuesta) interactúa cada variable “concordada” con las variables “concordadas” listadas (inclusive con ella misma.) Esto genera una serie de términos de interacción que pueden seleccionarse y “concordarse” manualmente, o que pueden insertarse al modelo de acuerdo a un umbral pre-especificado en la ventana “auto-select” (Ver el Gráfico 6). El umbral para las variables de “auto-selección” está basado en un valor-p y puede ser configurado por el usuario. En el Gráfico 6, el valor-p está configurado como 0.00005. Un valor de umbral más riguroso está justificado, puesto que la complejidad genera a menudo abundantes términos de interacción. Gráfico 5. Ventana Compuesta
.
3. Además de interactuar las variables “concordadas”, la ventana “compound” permite a los usuarios crear términos polinómicos de cada variable continua utilizando la opción de “sólo base polinómica”. Los usuarios pueden especificar hasta qué grado o potencia se calcularán los polinomios y seleccionar los términos de entrada al modelo utilizando la ventana “auto select”. Por ejemplo, configurar el grado polinómico al número tres generará, tanto términos al cuadrado como al cubo los cuales pueden luego agregarse manualmente o de acuerdo a los criterios anteriormente tratados. En cuanto a las compuestas las variables polinómicas pueden ser configuradas en el modelo manualmente o de acuerdo al umbral del valor-p prefijado (Ver Gráfico 6. )
28
Gráfico 6. Ventana de Auto Selección
2.2 Pantalla 2: Modelo de Consumo Resumen
Gráfico 7. Modelo Beta
A la segunda página del Programa PovMap, modelo de consumo, también se la denomina modelo “beta”. Constituye el modelo predictivo estimado en los datos de la encuesta en la primera etapa (Ver la Sección 1.3). Esta página permite a los usuarios elegir la opción del lado izquierdo (En inglés: LHS), o variable dependiente 20 ,
20
Por lo general el estatus nutricional se mide en términos de los resultados antropométricos: talla y peso para la edad, y peso para la talla. Estas medidas son comparadas con una distribución referencial; los niños clasificados por debajo de 2 desviaciones estándares negativas a la norma (-2 DE) del valor referencial para la edad y sexo, son considerados desnutridos. El estatus nutricional es normalmente adecuado para los niños hasta la edad de 46 meses cuando la lactancia maternal deja de ser suficiente para mantener un crecimiento adecuado, los niños empiezan a declinar en su trayectoria de crecimiento. Las tasas de desnutrición se estabilizan por lo general alrededor de los 24 meses de edad e inclusive declinan ligeramente a edades mayores. Idealmente, el rango de
29
al igual que la opción del lado derecho (En ingles: RHS), o variables independientes. Las variables RHS o regresoras, aparecerán en la pantalla en forma diferenciada dependiendo del formato de cada variable, con las variables continuas asignadas con un “recuadro de verificación” (En ingles: “check box”) y variables categóricas con tantos “check boxes” asignados como valores existan. Conforme lo ilustra el Gráfico 7, las variables categóricas llevan un sufijo con los valores que contienen. La indicación de cada valor de una variable categórica como su propia variable “seleccionable” es una ventaja especial del Programa PovMap y está basada en la construcción de archivos vectores de data de PovMap y en el hecho de que PovMap define de manera explícita los tipos de información. La disposición de la data en esta manera facilita la generación de términos polinómicos y de interacción sin que el analista tenga que construir tales términos manualmente. Preste atención al Gráfico 7 donde solamente se ha seleccionado un valor de las variables EDAD2435 y EDAD3659. La selección de ambos valores indicará un mensaje de error: “La Matriz es no-invertible”, puesto que el modelo estaría sobre especificado impidiendo que el Programa PovMap calcule los estimados del parámetro. Siempre tiene que haber una categoría omitida cuando las variables categóricas son incluidas en el modelo. También aparecerá un mensaje de error: “La Matriz es no-invertible” si las variables tuviesen insuficiente varianza. A pesar de que el Programa PovMap intentará excluir todas las variables con insuficiente varianza cuando estas sean “importadas” al “verificador”, la aceptación de algunas variables con varianza insuficiente dentro del modelo es virtualmente inevitable. Cuando se hagan concordar las variables manualmente en el verificador, el Programa PovMap no tratará de detectar varianzas insuficientes. Una vez seleccionadas las regresoras el usuario podrá hacer funcionar el modelo. Como quiera que el Equipo de Tufts eligió los modelos por adelantado, se seleccionaron regresiones ordinarias de los cuadrados mínimos (Siglas en inglés: “OLS”) como el tipo de modelo en esta página. Los resultados mostrados son resultados de regresión ponderada, y serán iguales que los resultados de regresión ponderada en los paquetes estándares de análisis estadístico. Detalles No obstante que el Equipo de Tufts activó una regresión OLS para el modelo-beta, están disponibles otras opciones de regresión. Del menú a descargar:“Procedimientos Estadísticos” se podrá seleccionar técnicas de regresión hacia adelante, hacia atrás y por etapas. El Gráfico 8 ilustra una regresión por etapas con criterios de ingreso y permanencia del modelo constituyéndose en el valor P de la estadística del parámetro F.
edad para estimar la prevalencia de desnutrición deberá tomar nota de este patrón mediante la inclusión de niños desde los 6 meses de edad y no mayores de cinco años..
30
Gráfico 8. Procedimientos estadísticos disponibles
Además de los procedimientos de regresión, el menú a descargar “Procedimientos Estadísticos” permite a los usuarios visualizar los medios variables RHS, las matrices de correlación y las pruebas de sobre-adaptación del modelo (En inglés: Overfitting.) Para determinar si el poder explicativo del modelo-beta es dependiente de las idiosincrasias de la muestra en particular (Ver la Sección 1.5.1) se empleará la prueba de sobre-adaptación. La prueba de sobre-adaptación (“overfitting”) activa una serie de regresiones extrayendo muestras aleatorias de las observaciones excluyendo al mismo tiempo un valor de la variable categórica (frecuentemente el Identificador Clúster). Este procedimiento produce estadísticas de resultado de la regresión (R2, MSE, etc.) y estimados de parámetro para una serie de regresiones. Cuando no se presente una sobre-adaptación, las estadísticas de regresión y los parámetros deberán seguir siendo más o menos similares. Sin embargo, grandes diferencias entre los modelos indicarían que el modelo estaría sobre-adaptado para una característica específica. Por ejemplo, si el Identificador Clúster fuese la variable categórica puesta a prueba, diferencias amplias en los coeficientes de R2 y del parámetro indicarían que el ajuste del modelo de toda la muestra dependerá de las idiosincrasias dentro de un conglomerado o conglomerados específicos 2.3 Pantalla 3: Efecto de Agrupación (Efecto Clúster [Conglomerado]) Resumen Esta página muestra los componentes del efecto al nivel conglomerado y permite a los usuarios inhabilitar el “efecto de ubicación” y determinar la distribución del modelo que será aplicado a los datos del censo en la pantalla de simulación. Concretamente, esta pantalla muestra: 1) un cuadro con estimados del parámetro del modelo-beta por conglomerado; 2) residuales del modelo trazados por conglomerados; 3) un diagrama de puntos de (Y) valor real y de (Y) valor estimado para cada niño; y, 4) una distribución acumulada de los valores estimados. El Gráfico 9 muestra el diseño de la pantalla. 1) El cuadro con estimados al nivel de conglomerados puede ser clasificado, formateado, impreso y exportado haciendo un click derecho sobre las cabeceras de la columna. 2) El Trazo Residual organiza los residuales del modelo por conglomerado. La residual media y la residual mediana para cada conglomerado se muestran mediante líneas verticales verdes y rojas, respectivamente. La distribución de los residuales aparece por percentiles en una gradiente con tres tonos de color salmón. De los tonos más claros a los tonos más oscuros, las distribuciones mostradas representan percentiles de 0-100, 10-90, y 25-75.
31
^) 3) El Trazo de Predicción es un diagrama de puntos de los valores (Y) real e (Y estimado para cada niño, en donde el eje-y representa la variable dependiente real y el eje-x representa la variable dependiente estimada. ^) 4) La ilustración de la distribución acumulada de los valores previstos del modelo (Y permite a los usuarios identificar y elegir visualmente una distribución normal o t utilizando la barra de desplazamiento: . Los usuarios deben elegir la distribución que coincida de forma más cercana con la forma de distribución acumulada de su modelo. Representando la suma de la diferencia entre las distribuciones acumuladas previstas y las pre-configuradas (normal o t) la estadística de probabilidad (likelihood statistic) es una herramienta para elegir la distribución más apropiada. En términos generales, cuanto más pequeña sea la estadística de probabilidad más similares serán las distribuciones. La distribución seleccionada será almacenada por el Programa PovMap y utilizada en el proceso de simulación. Puesto que los indicadores antropométricos para una población son, por lo general, distribuidos normalmente el Equipo de Tufts ha utilizado una distribución normal en sus análisis. Gráfico 9. Pantalla de Efecto clúster
Detalles Al navegar en la pantalla de “Efectos Clúster” o de conglomerados, los usuarios deberán estar atentos a dos puntos principales: la aplicación del efecto de ubicación y la identificación de valores atípicos multivariantes.
32
1)
En lo que se refiere al “efecto de ubicación”, en la página de efectos clúster (conglomerado) también se dan tres medidas de modelo: sigma eta ( ), varianza de sigma eta, y el ratio de varianza de eta respecto del error al cuadrado medio (Sigla en ingles: MSE). Recuérdese que eta es el efecto clúster (el término de perturbación asociado con la variabilidad entre conglomerados). El signo (+/-) del ratio de la varianza de eta respecto del MSE determina si el “efecto de ubicación” podrá ser incluido en el análisis. El “efecto de ubicación” se refiere al residual del modelo-beta que incluye la varianza de ubicación (Zhao 2005). Un valor positivo del ratio de la varianza de eta respecto del MSE indicaría que existen diferencias significativas en las varianzas en todos los conglomerados. El ratio de la varianza de eta respecto del MSE es negativo cuando no existen, o existen en cantidad insignificante, diferencias en las varianzas de los conglomerados. Si el ratio de la varianza de eta respecto del MSE fuese negativo, el “efecto de ubicación” deberá ser desactivado a fin de continuar a la siguiente página del Programa PovMap. Si el “efecto de ubicación” es desactivado se supondrá que el residual del modelo es igual a la varianza al nivel individual del niño i dentro del conglomerados c, o u ci = ε i. En la experiencia del Equipo de Tufts los modelos aplicados al nivel subnacional (por ejemplo, zona o región) a menudo carecen de efectos de ubicación en tanto que los modelos nacionales tienden a mostrar diferencias en la varianza entre conglomerados. Esto guarda coherencia con las expectativas puesto que las causas de desnutrición dentro de una región son más similares que las causas de desnutrición en el conjunto de regiones. Gráfico 10: Identificar Valores Atípicos
2) Los usuarios están en condiciones de identificar visualmente y descartar manualmente los casos que tengan gran cantidad de residuales. Esto mejorará el ajuste del modelo; sin embargo, este no es un procedimiento estadísticamente sostenible. Se deberá descartar los valores atípicos de la data, si los hubiera, basándose en la aplicación de un análisis de regresión previo a la aplicación del modelo-beta en el Programa PovMap. Los valores atípicos basados en el trazo residual pueden removerse. Los valores atípicos basados en trazos residuales pueden eliminarse haciendo click derecho sobre un punto en el trazo de predicción y configurando el punto como valor atípico. El Gráfico 10 ilustra las opciones disponibles. El número que se muestra representa el valor real de la variable indicador de resultado 21 . Una vez que un punto previsto es configurado como valor atípico, los usuarios pueden retornar a la pantalla 2 y analizar los datos reales sin procesar para tal caso y podrán descartar los valores atípicos.
21
El valor para el punto ilustrado en el Gráfico 9 representa un puntaje z de talla para edad de -1.8639. El Equipo de Tufts simplemente añadió 10 a todos los puntajes z para hacer que la variable dependiente tuviera valores positivos.
33
Sin embargo, la eliminación de casos sobre esta base resulta estadísticamente cuestionable puesto que los estimados de la variable dependiente ya incluyen la influencia de distintos casos de valores atípicos. Si la línea de regresión es sesgada por valores atípicos en la etapa inicial, los casos con grandes residuales podrían ser casos “buenos” que aparecen como valores atípicos sólo debido a la influencia de los valores atípicos “malos” en la estimación. La aplicación de técnicas de regresión consistentes en la estimación del modelo-beta, para luego descartar o disminuir el peso de los casos identificados como valores atípicos, de acuerdo con un procedimiento estadístico, es un enfoque preferible a tener que ocuparse de valores atípicos. 2.4 Pantalla 4: Modelo Idiosincrático Resumen También conocido como modelo-alfa, el modelo idiosincrático estima el efecto individual al nivel de niños, o varianza intra- conglomerados. Puesto que la varianza intra-conglomerado es no-constante, y es permitido que varíe con algunas variables explicativas, se la considera un modelo de heteroscedasticidad. La variable dependiente, explicada como _ALPHALHS_ (o sea, variable alfa del lado izquierdo), es afectada únicamente por variables cuyo valor afecte la varianza del término de error, y no tenemos base para decidir a priori cuáles variables tendrán varianzas que varíen en forma sistemática del valor de la variable. En consecuencia, es lógico estimar los parámetros utilizando regresiones por etapas, a diferencia del modelo-beta. Emulando los modelos de heteroscedasticidad (Demombynes et al., 2002; Banco Mundial 2006b), las potenciales variables independientes incluyen variables ^oY ^2 concordadas incluidas en el modelo-beta y en los términos de interacción, en donde Y son relacionadas con el conjunto de variables concertadas en el Corrector. El Gráfico 11 presenta el diseño en la pantalla y los criterios del modelo utilizados por el Equipo de Tufts en sus análisis. Gráfico 11. Pantalla del Modelo Idiosincrático
34
Detalles Si se considera a priori variables específicas como heteroscedásticas u homoscedásticas, los usuarios pueden asegurar su inclusión o exclusión en una regresión por etapas reteniendolas dentro o fuera del modelo usando “lock it” 22 . Haciendo un click derecho y seleccionando “lock it” en una variable revisada, una regresora es “locked” (o sea, retenido) dentro del modelo de forma efectiva. El mismo procedimiento en una variable no revisada, la retendrá hacia afuera de la regresión de modo efectivo. El Gráfico 12 ofrece la ilustración pertinente. Gráfico 12. Retener la variable dentro del modelo idiosincrático
2.5 Pantalla 5: Efectos en el Hogar (considerado Efecto Individual en el Mapeo del Hambre) 23 Resumen La pantalla de efectos en el hogar estudia los efectos individuales, mostrando: 1) un cuadro incluyendo los estimados del modelo-beta y del modelo-alfa por individuo; 2) los residuales de alfa trazados por conglomerado; 3) un diagrama de dispersión del término de error real de ^ ) para cada niño; y, 4) distribución acumulada del término (alphaY) y del estimado de (alphaY de error estimado. No obstante toda la información proporcionada, solamente se podrá hacer ajustes menores al modelo en la pantalla de efectos en el hogar. Concretamente, sólo podrá determinarse la distribución del término de error, utilizando la barra de desplazamiento . El Gráfico 13 muestra el diseño de la pantalla de efectos en el hogar.
22
Si se desease, las variables podrían ser mantenidas dentro del modelo-beta utilizando el mismo procedimiento. Conforme a lo mencionado anteriormente, la terminología relacionada a la pobreza (por ejemplo: efectos en el hogar”) supone que la unidad de análisis es el núcleo familiar. Puesto que en el mapeo del hambre la unidad de análisis es el niño, los efectos al nivel de hogares no se toman en cuenta. En consecuencia, la pantalla de efectos en el hogar representa efectos al nivel individual. 23
35
Gráfico 13. Pantalla de Efectos en el Hogar
Detalles Al igual que en el efecto conglomerado (clúster) advertir la estadística de probabilidades puede ayudar a determinar cuál distribución es la apropiada. La estadística de probabilidades tiene el mismo significado que en el efecto conglomerado, mostrando la sumatoria de la diferencia entre las distribuciones acumuladas previstas y pre-configuradas (normal o t). 2.6 Pantalla 6: Simulación Resumen El proceso de simulación en el Programa PovMap se refiere al punto en el SAE en donde los estimados de error y del parámetro de la encuesta son aplicados a la data del censo. La pantalla de simulación permite a los usuarios modificar el proceso de simulación mediante: 1) ^ en marcha; 2) recortando las estimaciones Y ^ del censo; 3) cambiando la distribución de Y modificando la simulación; 4) especificando el resultado deseado (por ejemplo, la variable dependiente); y, 5) definiendo las características y resultados de la variable LHS (variable dependiente). El Gráfico 14 es un ejemplo de una simulación del análisis del Equipo Tufts en el Ecuador 24 .
24
Nótese que la variable de resultado varía de 5 a 15. El Programa PovMap no acepta valores negativos en la variable dependiente, en tanto que las medidas antropométricas varían en torno a la media de cero. Hemos añadido 10 a cada valor antropométrico para asegurar que todos los valores incluidos en la ecuación fuesen positivos.
36
Gráfico 14. Pantalla de Simulación
1) Las distribuciones de los efectos conglomerado y de los efectos en el hogar elegidos anteriormente se muestran aquí. No se muestran los efectos conglomerado debido a que no existe una diferencia significativa en las varianzas de los conglomerados es (por ejemplo, el efecto de ubicación fue desactivado en la pantalla del modelo conglomerado). El modelo de efectos individuales ha distribuido normalmente la varianza. Si se deseara, aquí podría cambiarse la distribución a estadísticas no ^ no estuviera distribuida normalmente. paramétricas si el usuario considerase que Y ^ fuera de un rango 2) El recortado (En inglés: “trimming”) o la exclusión de estimados Y específico, mejora aún más la precisión de los estimados del censo. Conforme lo ilustra el Gráfico 14, los valores mínimos y máximos imputados están configurados en números enteros entre 5 y 15, representando de -5 a +5 desviaciones estándares del ^ han sido recortados a indicador antropométrico. No obstante que los estimados Y ^ derivado de los estimados del censo podrían exceder en +/- 5 debido +/- 5, el valor Y a la adición de los dos términos de perturbación. El recortado de las distribuciones beta y alfa se logra utilizando una distribución por percentiles. Un valor recortado de 0.99 para las distribuciones beta y alfa implica que el 1% más grande o más pequeño de todos los valores asignados extraídos de beta y de alfa será descartado.
37
3) En la “sección de simulación”, los usuarios podrán personalizar el diseño de la muestra alterando el número de repeticiones o ciclos (Ver la Sección 1.6.2 Bootstrapping o Métodos de Monte Carlo), configurando un número aleatorio (En inglés: “random seed”) desde el cual se determinarán los trazos aleatorios configurando niveles de agregación del identificador jerárquico y seleccionando un proceso de bootstrapping estadístico. 4) En la Sección Índices, los usuarios podrán especificar la línea de pobreza 25 y el resultado deseados. Puesto que nuestros análisis se interesan en la prevalencia, el denominado Índice FGTO (Índice de Prevalencia de Pobreza Foster-GreerThorbecke [Foster et al 1984]) será el índice deseado. Considerando que el Programa PovMap prevé calcular la tasa de pobreza per-cápita, esta sección requiere que el tamaño del núcleo familiar esté determinado. Conforme lo mencionado anteriormente, la unidad de análisis en el mapeo del hambre es el niño, y no se conoce de ningún efecto al nivel hogares al estimar la prevalencia de desnutrición en el PovMap. Por esta razón el tamaño del núcleo familiar está fijado como una constante igual a 1, indicando que cada niño esté ubicado en su propio “hogar”. 5) Es posible obtener mayor detalle sobre el proceso de simulación a través de la Sección Misceláneas. Es de máxima importancia que el recuadro con la “Y en la forma logarítmica” no deberá marcarse. Considerando que la distribución de los indicadores antropométricos tiende a parecer como normal, ninguna transformación logarítmica de la variable dependiente será necesaria. Detalles Los niveles de agregación dependen de la construcción del Identificador Jerárquico identificado en la lectura de los archivos de data en el Programa PovMap. Los niveles de acumulación especificados en el Gráfico 14, funcionan al eliminar el número de dígitos especificado en el Identificador Jerárquico. Consideremos el Identificador Jerárquico de 5140150 para el Ecuador, donde 5 representa la zona, 14 representa la provincia, 01 representa el cantón y 50 representa la parroquia. En consecuencia, los niveles de acumulación o agregación definidos como 0,2,4,6, calculan una prevalencia de desnutrición para cuatro agregados; 5140150, 51401, 514, y 5. A medida que el número de niños en cada agregado se incrementa, los estimados de mayores agregados están basados en números de mayor tamaño. 2.7 Pantalla 7: Resultado de Simulación Resumen La pantalla de resultado de la simulación tiene dos etiquetas: 1) resumen; y, 2) resultados.
25
En nuestro caso la “línea de pobreza” es en realidad un punto de corte) de –2 SD para un indicador elegido. Debido a que el Programa PovMap no puede manejar valores negativos en la variable dependiente, hemos añadido 10 a cada indicador de forma que el punto de corte de la desnutrición sea 8, igual a –2 DE por debajo de la media.
38
1) La página de resumen ofrece una revisión de los Gráfico 15. Etiquetas con Resultado de Simulación pasos dados a lo largo de las seis primeras pantallas del Programa PovMap incluyendo un informe detallado de los procesos realizados durante el proceso de simulación 2) La página de resultados contiene un cuadro con resultados por conglomerado, incluyendo el número de niños en cada uno, el mínimo/máximo de Ys imputadas, y los errores promedio y estándar de la variable de resultados, y la prevalencia por debajo del valor del punto de separación (“cut-off”) con el estimado del error estándar de esta prevalencia. El Gráfico 16 presenta el diseño de la pantalla de efectos en el hogar. Gráfico 16. Página de Resultados de la Simulación
Detalles Los resultados de la página de simulación están presentados por identificador jerárquico de conglomerado y cualquier nivel agregado especificado en la pantalla de simulación. El Gráfico 16 ilustra el resultado para Guayaquil, una ciudad del Ecuador y zona de nuestro análisis. La etiqueta incluye estadísticas generales tales como el número de niños en el censo por identificador jerárquico, el número de simulaciones, el valor mínimo/máximo repetido de Y, y la media de Y estimada y su error estándar. Además, también se incluyen la prevalencia de niños con puntajes-z estimados por debajo de -2 (Promedio FGTO) y el correspondiente error estándar (se_FGTO) {se ha descartado algunos niños... explicación más adelante}. Los datos en este cuadro se almacenan de forma independiente 26 , y pueden leerse con programas como MS Excel y otros que administran bases de datos, en caso de requerirse un procesamiento ulterior. Conclusión y Recomendaciones Han habido varios esfuerzos orientados a validar el mapeo de la pobreza a través de mediciones de campo empíricas (Fujii 2003b). Considerando que la práctica de mapeo del hambre se encuentra en sus etapas iniciales, existe gran necesidad de valores referenciales con pruebas de campo (En inglés: “ground-truthing”), o una validación de estimados subprovinciales producidos por el programa estadístico mediante verificación de campo. La 26
El cuadro en los resultados de la simulación es guardado como un archivo POU, que funciona de manera parecida a un archivo de base de datos (dbf) o como un archivo de MS Excel (xls).
39
substanciación de los estimados dará mayor credibilidad a la práctica de mapeo del hambre y permitirá a los responsables de la formulación de políticas basar sus decisiones en tal práctica. Asimismo, también permitirá poner a prueba la solidez de los estimados sobre desnutrición frente a las variaciones en las especificaciones de los procedimientos SAE. Se tiene prevista una modificación del Programa PovMap que permitirá dar cuenta de los agregados tanto al nivel de hogares como al nivel individual. Esto hará que el Programa PovMap sea más sostenible respecto de la estimación de los resultados sobre desnutrición; será posible evaluar la sensibilidad de los resultados (adjudicación de áreas a categorías basadas en la prevalencia de desnutrición) a este cambio. Sería conveniente agregar al Programa PovMap, un sistema, dentro del propio programa, que se ocupe de los valores atípicos multivariantes en forma sostenible, sistemática y estadísticamente correcta. El Programa PovMap es una herramienta poderosa con gran potencial para facilitar el desarrollo de “mapas del hambre”. La ventaja de tener un programa-paquete que logre manejar procedimientos estadísticos complejos que tengan que ver con el desarrollo de estimados y errores estándares es que esta técnica puede, subsecuentemente, estar al alcance de personas quienes, aún siendo conocedoras de las disciplinas de econometría y estadísticas, carezcan de la capacidad para emprender ellas mismas la programación que se necesite. El Programa PovMap sí permite un uso más amplio de los mapas del hambre con fines de elaboración de políticas, programas y de apoyo.
40
Fuentes Amarasinghe, U., Samad, M., Anputhas, M., 2005. Spatial clustering of rural poverty and food insecurity in Sri Lanka. Food Policy. 30, 493 – 509. Balk, D; A.Storeygard; M.Levy; J.Gaskell; M.Sharma; R. Flor, 2005. Child Hunger in the Developing World: An Analysis of Environmental and Social Correlates. Food Policy 30:5-6 Oct/Dec 2005, 584-611 Benson, T. 2006. Insights from poverty maps for development and food relief program targeting. International Food Policy Research Institute. Food Consumption and Nutrition Division Discussion Paper 205. Benson, T.; J.Chamberlin; I.Rhinehart, 2005. A Investigation of the Spatial Determinants of the Local Prevalence of Poverty in Rural Malawi. Food Policy 30:5-6 Oct/Dec 2005, 532-50. Bermudez, Odilia 2006. Situación Nutricional, Patrón de Consumo y Acceso a Alimentos: Informe Final de Consultoría. Panama: Min. de Economia y Finanzas, Dirección de Políticas Sociales, April. CIESIN 2006. Where the Poor Are: An Atlas of Poverty. New York: Earth Institute, Columbia University. Deaton, Angus 1997. The Analysis of Household Surveys: A microeconometric Approach to Development Policy. Washington DC: Johns Hopkins University for the World Bank. Demombynes, G.; C.Elbers; J. Lanjouw; P.Lanjouw; J.Mistiaen; B.Ozler, 2002. Producing an Improved Geographic Profile of Poverty: Methodology and Evidence from Three Developing Countries. WIDER Discussion Paper 2002-39. DeVellis, Robert, Scale Development: Theory and Applications. Sage Publications, Applied Social Research Methods Series, 2003 Elbers, C.; J.O.Lanjouw; P.Lanjouw, 2002; Micro Level Estimation of Welfare. Washington DC World Bank Policy Research Paper WPS2911, October. Elbers C., Lanjouw J. and Lanjouw P. 2003. “Micro-level estimation of poverty and inequality”, Econometrica, 71, 355-364. Elbers, C., J.O.Lanjouw, P. Lanjouw, 2004. Imputed Welfare Estimates in Regression Analysis. Washington DC: World Bank Policy Research Paper WPS 3294, April. Elbers, C., Fujii, T., Lanjouw, P., Ozler, B., Yin, W. 2007. Poverty alleviation through geographic targeting: How much does disaggregation help? Journal of Development Economics 83, 198 – 213.
41
Farrow, A., Larrea, C., Hyman, G., Lema, G., 2005. Exploring the spatial variation of food poverty in Ecuador. Food Policy. 30, 510 – 531. Fenn, B.; S.Morris; C.Frost., 2004. Do Child Growth Indicators in Developing Countries Cluster? Implications for Intervention Strategies. Public Health Nutrition, 7, (7), 829-834(6), October Foster, J., J.Greer, E. Thorbeck, 1984, A class of Decomposable Poverty Measures. Econometrica 52:761-66 Fujii, T. 2005, Microlevel Estimation of Child Malnutrition Indicators and its Application in Cambodia. Washington DC: World Bank Policy Research Working Paper 3662, July 2005 Fujii, T. 2003a. Micro-Level Estimation of the Prevalence of Stunting and Underweight Among Children in Cambodia. Report to Ministry of Health, Royal Government of Cambodia (preliminary report). UN World Food Programme, March (mimeo). Fujii, T. 2003b. Commune level poverty estimates and ground truthing. Report for UN World Food Programme (mimeo), April. Fujii, T., Lanjouw, P., Alayon, S., Montana, L., 2004. Micro-level Estimation of Prevalence of Child Malnutrition in Cambodia. Washington DC: World Bank WPS Discussion Paper Gilligan, D.; A. Veiga; M.H.D.Benicio; C.A.Monteiro, 2003. An Evaluation of Goegraphic Targeting in Bolsa Alimentação in Brazil: Report Submitted to the Government of Brazil. Washington DC: International Food Policy Research Institute, April. Haslett, S., Jones, G. 2005. Small area estimation using surveys and censuses: some practical and statistical issues. Statistics in Transition. 7(3), 541 – 555. Haslett, S.; G.Jones; with D. Parajuli, forthcoming. Small Area Estimation of Poverty, Caloric Intake, and Malnutrition in Nepal. Kathmandu: Government of Nepal, Central Bureau of Statistics. World Food Programme and World Bank. Hentschel, J.; J.O.Lanjouw; P.Lanjouw; J. Poggi, 2000. Combining Census and Survey Data to Trace the Spatial Deminasions of Poverty. World Bank Economic Review 14:1, (January) 147-165. Kam, S-P; M.Hossain; M.L.Bose; L.S.Villano 2005. Spatial Patterns of Rural Poverty and their Relationship with Welfare Influencing Factors in Bangladesh. Food Policy 30:5-6 Oct/Dec 2005, 551-67 Hyman, G.; C.Larrea; A.Farrow, Methods, Results and Policy Implications of Poverty and Food Security Mapping Assessment. Food Policy 30:5-6 Oct/Dec 2005, 453-60
42
Larrea, C., 2005. Poverty, Food Poverty, and Malnutrition Regression Models for Ecuador. Taken from the EcuaMapAlimentaria website on August, 18, 2006. http://www.ecuamapalimentaria.info/ Larrea, C.; P.Montalvo; A.M.Ricaurte, 2005. Child Malnutrition, Social Development, and Health Services in the Andean Region. Ecuador: FLACSO, April. Minot, N.; B.Baulch, 2005. Spatial Patterns of Poverty in Vietnam and their Implications for Policy. Food Policy 30:5-6 Oct/Dec 2005, 461-75 Morris, S. 2000. Targeting Urban Malnutrition: A Multicity Analysis of the Spatial Distribution of Childhood Nutritional Status. Washington DC: International Food Policy Research Institute, Food Consumption and Nutrition Division Discussion Paper #94, September. Rogers, B., Macias, K., Wilde, P., 2007. Atlas of hunger and malnutrition in the Dominican Republic ver 2. Report submitted to World Food Programme Latin America Regional Office, Panama City, Panama. Simler, K. 2006. Nutrition Mapping in Tanzania: An Exploratory Analysis. Washington DC: International Food Policy Research Institute, Food Consumption and Nutrition Division Discussion Paper #204, March. Smith, L.; L.Haddad, 2000. Overcoming Child Malnutrition in Developing Countries: Past Achievements and Future Choices. Washington DC: International Food Policy Research Institute. Agriculture, Food and Environment Discussion Paper #30. UNICEF (United Nations Children’s Fund), 1991. Strategy for improved nutrition for children and women in developing countries. UNICEF Policy Review. New York: UNICEF. World Bank., 2006a. General guidelines for consumption model estimation. The World Bank (mimeo). World Bank 2006b. General guideline in modeling heterskedasticity. The World Bank. (mimeo). WHO (World Health Organization) WHO Child Growth Standards: Length/Height-for-age, Weight-for-age, Weight-for-length, Weight-for-height and Body Mass Index-for age Methods and Development. Geneva: World Health Organization 2006 WHO (World Health Organization) 1995. Physical Status: The Use and Interpretation of Anthropometry. Geneva: WHO. Zhao, Q., 2005. User Manual for PovMap 1.1a. Development Research Group. From the World Bank website, August 12, 2006. http://iresearch.worldbank.org/PovMap/index.htm
43
APÉNDICE: Requerimientos Técnicos Los párrafos siguientes tratan acerca de los requerimientos técnicos para la implementación del mapeo del hambre utilizando el Programa PovMap. Necesidades de “Software” y de “Hardware” Quienes deseen hacer un mapeo del hambre deben entender la capacidad técnica que se necesita para manejar y administrar data de diversas fuentes. Se requieren paquetes estadísticos, aplicaciones informáticas para la conversión de “software”, el Software GIS, capacidad/espacio de cómputo de tamaño adecuado (por ejemplo, Memoria RAM), y capacidad de almacenamiento de datos para una construcción, manejo y análisis eficientes de los conjuntos de datos censales y de encuestas. Paquetes Regulares de Software A pesar de que el Programa PovMap tiene la capacidad de recodificar variables, probablemente sea más fácil utilizar paquetes regulares de análisis estadísticos para la construcción y “concordancia” de los conjuntos de datos de las encuestas y censos y para el desarrollo del modelo predictivo. Entre los paquetes estadísticos estándar utilizados con mayor frecuencia se incluyen los siguientes SPSS, SAS, y Stata. Tanto el SPSS como Stata fueron utilizados por el Equipo de Tufts para recodificar y organizar los conjuntos de datos y desarrollar y poner a prueba el modelo utilizado para el mapeo del hambre en la República Dominicana, el Ecuador y Panamá. Utilización de la data Los conjuntos de datos vienen en una variedad de tipos de archivos. Cada tipo de archivo (por ejemplo: dbf, sav, ascii) lleva sus propias especificaciones y tiene sus propias limitaciones. A pesar de que muchos paquetes estadísticos son capaces de leer archivos de distintas fuentes, los softwares para la conversión de archivos pueden constituirse en una herramienta valiosa. El Equipo Tufts utilizó el Programa Stat/Transfer 27 para transferir rápidamente los archivos dbf y sav al formato dta de Stata. El tamaño considerable de los conjuntos de datos también puede causar problemas. Por lo general, los datos del censo contienen millones de casos. Llevar a cabo numerosas recodificaciones y cálculos en los datos del censo puede tomar mucho tiempo y resultar engorroso. A fin de facilitar la construcción del conjunto de datos del Ecuador (que contiene aproximadamente 12 millones de observaciones) el Equipo de Tufts utilizó el Programa Stata sobre un conglomerado de servidor/computadora central (mainframe) de 64-bits. La mayor potencia de cómputo del mainframe mejoró enormemente la eficiencia del proceso de recodificación. Los usuarios de SAS, SPSS y Stata podrán realizar las mismas operaciones en sus computadoras personales de 32-bits; sin embargo, el rendimiento y la velocidad se verán limitadas por la capacidad de procesamiento y memoria de cada computadora. Aceptabilidad de Bases de Datos en el Programa PovMap El Programa PovMap acepta archivos en formatos ascii, dbf, o dta. Guardar archivos en estos formatos puede hacerse fácilmente utilizando los paquetes de software aludidos 27
http://www.stattransfer.com/
44
anteriormente. Vale la pena mencionar que cada tipo de archivo conlleva sus propias restricciones. Por ejemplo, los archivos en formato dbf, permiten únicamente variables con ocho o menos caracteres. Por esta razón, los usuarios que planifican la interpretación o lectura de archivos dbf al Programa PovMap deben pensar en restringir los nombres de las variables a ocho caracteres durante el proceso de recodificación con el propósito de dar claridad al usar el Programa PovMap. Los paquetes SAS y SPSS a menudo restringen la extensión de los nombres de las variables limitándolos a ocho caracteres inicialmente (dependiendo de la versión); sin embargo, Stata permite variables de hasta 14 caracteres de extensión. Requerimientos del Sistema Debido a la potencia computacional necesaria para administrar grandes conjuntos de datos, manejar información de carácter geográfico y hacer funcionar el Programa PovMap, el Equipo Tufts recomienda el uso de computadoras con los siguientes requerimientos de sistemas. A pesar de que la mayoría de procesos puede completarse utilizando sistemas menos potentes, los requerimientos descritos a continuación permitirán reducir significativamente el tiempo que se necesita para realizar los cálculos en archivos que contienen datos en abundancia.
Procesador de 2GHz o de mayor velocidad Memoria de Acceso Aleatorio (o RAM) de 1GB o mayor Disco Duro de 60 GB o de mayor capacidad
45