4 minute read
3.3.3. Análisis de correlación
from 105380
precipitación o muy baja como se mencionó anteriormente, por lo cual se realiza un corte de todos los rasters con la extensión de los límites de las comunas (ver Figura 3).
Debido a la no accesibilidad a las variables de temperatura y humedad relativa, se recurre a los datos obtenidos y modelados por WorldClim a nivel mensual para la variable de temperatura (máxima y mínima). Se generan los raster trimestrales para cada variable, realizando la sumatoria de los tres meses para la precipitación acumulada y el promedio para la temperatura máxima o mínima. Para la simbología de los raster de estas variables climáticas se determinó el valor mínimo y máximo para todos los trimestres y se generaron intervalos iguales.
Advertisement
3.3.3. Análisis de correlación
Posteriormente se evaluó la correlación de las variables con la presencia de los casos trimestralmente para el año 2018 a través de una regresión de mínimos cuadrados ordinarios o OLS por sus siglas en inglés (Ordinary least squares).
El análisis de regresión permite entender que factores contribuyen a un fenómeno y determinan la medida en que cada factor contribuye a ese fenómeno. Para realizar esta regresión se realizó el siguiente procedimiento (1) se identificaron que se deseaba analizar, intentando resolver la pregunta ¿Las variables climáticas pueden explicar la variabilidad de los casos del dengue en Villavicencio?; (2) se identificaron las variables explicativas potenciales, en este caso precipitación y temperatura; (3) se corrió el análisis de regresión por medio de mínimos cuadrados ordinarios (OLS); (6) se evalúan los seis chequeos estadísticos; por último se testea el impacto geográfico que tienen estas variables.
Para realizar el proceso de regresión se hizo una preparación de los datos para que sirvieran como insumos, el modelo OLS realizado en ArcGIS pro requiere que todos los datos se encuentren en una misma capa. Para los datos de dengue se realizó un proceso de resumir dentro (Summarize within) en el cual se asignó a los polígonos el número de casos presentes para cada trimestre. Para los datos climáticos, luego de que ya se tenían los raster para cada trimestre de precipitación acumulada y temperatura promedio se realizaba una estadística zonal, donde se asignó el valor promedio del raster a cada polígono por cada variable. Luego que ya se obtienen todos los datos en una misma capa se procede a realizar la regresión.
La regresión OLS es el punto de inicio del análisis de regresión, OLS es un modelo de regresión que asigna una ecuación a todas las variables que se está queriendo predecir o analizar. La regresión OLS ayudará a encontrar el mejor set de variables explicativas para la variable dependiente.
Los seis chequeos estadísticos para la prueba OLS que se realizaron fueron los siguientes:
1. ¿Las variables explicativas están aportando al modelo?
El modelo OLS calcula un coeficiente para cada variable, si este se encuentra con asterisco cerca a cada coeficiente, la variable es estadísticamente significativa para el modelo 2. ¿Son las relaciones esperadas?
A cada coeficiente se le asigna un signo para indicar el tipo de relación de cada variable explicativa con la variable dependiente. Signos positivos indican que cuando la variable dependiente aumenta, aumenta la variable explicativa. Signos inesperados indican que hay algún problema con el modelo. 3. ¿Alguna de las variables explicativas es redundante?
En este punto se asegura que ninguna de las variables explica aspectos similares de la variable dependiente. Cuando una o más variables son redundantes se llama multicolinealidad, esto conduce a un sesgo de recuento excesivo y un modelo poco fiable. La mejor práctica es eliminar una de las variables con un valor VIF superior a 7,5 y volver a ejecutar el OLS. 4. ¿Está el modelo sesgado?
Un modelo sesgado es aquel que predice bien una parte del área de estudio, pero no tan bien en otra. Si el valor de Jarque-Bera es estadísticamente significativo, con un asterisco al lado del valor p, entonces el modelo está sesgado y no se puede confiar en las predicciones de éste. 5. ¿Están todas las variables explicativas incluidas en el modelo?
Después de ejecutar el modelo OLS en algunos se observará una advertencia que indica que la auto correlación espacial es necesaria. Si la autocorrelación espacial es estadísticamente significativa (hay agrupación de residuos) es un síntoma de especificación incorrecta, esto quiere decir que faltan variables explicativas clave. 6. Por último, se observó ¿Qué tan bien está el modelo explicando la variable dependiente?
El último chequeo que se debe consiste en el rendimiento del modelo. El valor de R2 ajustado describe que parte de la variable dependiente se explica por las variables explicativas (expresado como porcentaje), los mejores modelos incluyen número más altos. El criterio de Akaike (AIC) es otra medida del rendimiento, este es solo comparable para modelos que analizan la misma variable dependiente.