3 minute read

3.6.2 Distribución de los datos

El box plot utiliza el concepto de cuartil de un conjunto de datos. Consiste en una “caja” que representa el 50% de los datos (Figura 11). El límite superior de la caja será el cuartil

75 que se extiende hasta el valor máximo y el límite inferior de la caja sería el final del

Advertisement

cuartil 25 ya que el mismo comienza desde el valor mínimo. La línea que aparece dentro de

la caja representa la mediana y cuando hay valores atípicos aparecen como puntos afuera

de la caja.

Figura 11. Ejemplo de un boxplot.

Fuente: Cabrera (2016).

También el diagrama de cajas permitió comparar visualmente cómo se comporta la

profundidad del nivel freático en los diferentes años.

3.6.2 Distribución de los datos

El análisis geoestadístico, como muchos procedimientos estadísticos, suponen que la

distribución de los datos es normal (Samira et al., 2014). Existen diferentes procedimientos

para evaluar si la variable se distribuye de forma normal. Una es el método gráfico a través

de histogramas y diagramas QQ y el método numérico como las pruebas de normalidad de

Shapiro-Wilk (SW) test, Kolmogorov-Smirnov (KS) test, Lilliefors (LF) test y Anderson-

Darling (AD) test (Razali y Wah, 2011).

El diagrama QQ y las pruebas de normalidad SW y LF fueron los métodos utilizados para

verificar la normalidad de los datos. El diagrama de QQ plot grafica una recta que

representa la distribución normal y unos puntos que representan la distribución de los

datos medidos (Figura 12). Mientras más alejados estén los puntos de la recta, menos

siguen una distribución normal. Se realizó un diagrama QQ plot para los datos semanales

de los pozos de observación en las dos haciendas, siendo 47 datos para Catay y 41 datos

para San Miguel.

Figura 12. Prueba de normalidad gráfica correspondiente a semana 8 del 2018 en Catay.

Las pruebas inferenciales de normalidad de SW y LF se emplearon para determinar el valor

de probabilidad. Un valor de P>0.05 indica la normalidad de los datos (Parada, 2019; Samira

et al., 2014; Yañez-Vazquez, Samano-Abonce, Santos-Olvera, y Ruiz-Barcenas, 2018). Por

ende, valores menores a 0.05 indican que la variable presenta una distribución no normal.

Se utilizaron las pruebas SW y LF porque son pruebas potentes para todos los tipos de

distribución y tamaño de muestra, siendo SW la mejor (Razali y Wah, 2011). Es importante

mencionar que estas pruebas no funcionan bien para muestras pequeñas, menor a 30

datos.

Una vez revelada la no normalidad de los datos se realizaron transformaciones logarítmicas

ln(x), siendo una de las más ampliamente utilizadas en el campo científico (Samira et al.,

2014). También se utilizó la transformación de Jonhson el cual selecciona de manera

óptima una de las tres familias de distribución para transformar los datos a fin de que sigan

una distribución normal (yañez-vazquez et al., 2018). La transformación de Jonhson generó

los siguientes resultados: datos transformados, la función utilizada en la transformación

con variable limitada (SB), variable lognormal (SL) o variable ilimitada (SU), el valor de probabilidad, los valores de lamda (λ), épsilon (ε), eta (η), gamma (γ) de las variables en la función de transformación (Figura 13). Según Fernández (2015), la variable transformada a

menudo tiene un buen ajuste a la distribución normal.

Figura 13. Algoritmo para la transformación de Johnson.

Fuente: Minitab (2020).

Una vez realizada las transformaciones tanto logarítmica como de Johnson, se procedió a

realizar las pruebas de normalidad para los valores transformados. Se realizó la prueba

gráfica de QQ plot y pruebas numéricas de SW y LF.

Finalmente, el análisis de interpolación se realizó con los datos sin transformar. Las

transformaciones logarítmicas y de Johnson no generaron un comportamiento normal de

los datos y los valores de probabilidad de SW y LF fueron similares a los datos primarios.

This article is from: