3 minute read
3.6.2 Distribución de los datos
from 105095
El box plot utiliza el concepto de cuartil de un conjunto de datos. Consiste en una “caja” que representa el 50% de los datos (Figura 11). El límite superior de la caja será el cuartil
75 que se extiende hasta el valor máximo y el límite inferior de la caja sería el final del
Advertisement
cuartil 25 ya que el mismo comienza desde el valor mínimo. La línea que aparece dentro de
la caja representa la mediana y cuando hay valores atípicos aparecen como puntos afuera
de la caja.
Figura 11. Ejemplo de un boxplot.
Fuente: Cabrera (2016).
También el diagrama de cajas permitió comparar visualmente cómo se comporta la
profundidad del nivel freático en los diferentes años.
3.6.2 Distribución de los datos
El análisis geoestadístico, como muchos procedimientos estadísticos, suponen que la
distribución de los datos es normal (Samira et al., 2014). Existen diferentes procedimientos
para evaluar si la variable se distribuye de forma normal. Una es el método gráfico a través
de histogramas y diagramas QQ y el método numérico como las pruebas de normalidad de
Shapiro-Wilk (SW) test, Kolmogorov-Smirnov (KS) test, Lilliefors (LF) test y Anderson-
Darling (AD) test (Razali y Wah, 2011).
El diagrama QQ y las pruebas de normalidad SW y LF fueron los métodos utilizados para
verificar la normalidad de los datos. El diagrama de QQ plot grafica una recta que
representa la distribución normal y unos puntos que representan la distribución de los
datos medidos (Figura 12). Mientras más alejados estén los puntos de la recta, menos
siguen una distribución normal. Se realizó un diagrama QQ plot para los datos semanales
de los pozos de observación en las dos haciendas, siendo 47 datos para Catay y 41 datos
para San Miguel.
Figura 12. Prueba de normalidad gráfica correspondiente a semana 8 del 2018 en Catay.
Las pruebas inferenciales de normalidad de SW y LF se emplearon para determinar el valor
de probabilidad. Un valor de P>0.05 indica la normalidad de los datos (Parada, 2019; Samira
et al., 2014; Yañez-Vazquez, Samano-Abonce, Santos-Olvera, y Ruiz-Barcenas, 2018). Por
ende, valores menores a 0.05 indican que la variable presenta una distribución no normal.
Se utilizaron las pruebas SW y LF porque son pruebas potentes para todos los tipos de
distribución y tamaño de muestra, siendo SW la mejor (Razali y Wah, 2011). Es importante
mencionar que estas pruebas no funcionan bien para muestras pequeñas, menor a 30
datos.
Una vez revelada la no normalidad de los datos se realizaron transformaciones logarítmicas
ln(x), siendo una de las más ampliamente utilizadas en el campo científico (Samira et al.,
2014). También se utilizó la transformación de Jonhson el cual selecciona de manera
óptima una de las tres familias de distribución para transformar los datos a fin de que sigan
una distribución normal (yañez-vazquez et al., 2018). La transformación de Jonhson generó
los siguientes resultados: datos transformados, la función utilizada en la transformación
con variable limitada (SB), variable lognormal (SL) o variable ilimitada (SU), el valor de probabilidad, los valores de lamda (λ), épsilon (ε), eta (η), gamma (γ) de las variables en la función de transformación (Figura 13). Según Fernández (2015), la variable transformada a
menudo tiene un buen ajuste a la distribución normal.
Figura 13. Algoritmo para la transformación de Johnson.
Fuente: Minitab (2020).
Una vez realizada las transformaciones tanto logarítmica como de Johnson, se procedió a
realizar las pruebas de normalidad para los valores transformados. Se realizó la prueba
gráfica de QQ plot y pruebas numéricas de SW y LF.
Finalmente, el análisis de interpolación se realizó con los datos sin transformar. Las
transformaciones logarítmicas y de Johnson no generaron un comportamiento normal de
los datos y los valores de probabilidad de SW y LF fueron similares a los datos primarios.