I
II
TRATAMIENTO DE DATOS
III
IV
Cástor Guisande González Catedrático de Universidad del área de Ecología
Aldo Barreiro Felpeto, Isabel Maneiro Estraviz, Isabel Riveiro Alarcón, Alba Ruth Vergara Castaño Investigadores del área de Ecología
Antonio Vaamonde Liste Catedrático de Universidad del área de Estadística e Investigación Operativa Universidad de Vigo
TRATAMIENTO DE DATOS
V
© Cástor Guisande González Reservados todos los derechos. «No está permitida la reproducción total o parcial de este libro, ni su tratamiento informático, ni la transmisión de ninguna forma o por cualquier medio, ya sea electrónico, mecánico por fotocopia, por registro u otros métodos, sin el permiso previo y por escrito de los titulares del Copyright.» Ediciones Díaz de Santos Internet: http//www.diazdesantos.es/ediciones E-mail: ediciones@diazdesantos.es ISBN: 84-7978-736-8 Depósito Legal: M. 4.798-2006 Fotocomposición: P55 Servicios Culturales Diseño de cubierta: P55 Servicios Culturales Impresión: Fernández Ciudad Encuadernación: Rústica-Hilo Printed in Spain - Impreso en España
VI
Índice de contenido
PRÓLOGO .........................................................................................
XIII
I. REPRESENTACIÓN DE DATOS .......................................................... I.1. Coordenadas polares ............................................................... I.1.1. Estandarización de los datos ............................................. I.1.2. Asignación de ángulos a las variables ................................ I.1.3. Representación de las coordenadas polares ........................ I.2. Representación de las coordenadas polares en el programa SigmaPlot .....................................................................................
1 1 2 2 6 10
II. ESTADÍSTICA DESCRIPTIVA ........................................................... II.1. Medidas de posición ............................................................... II.1.1. Medidas de posición central ............................................. II.1.1.1. Media aritmética ..................................................... II.1.1.2. Media geométrica .................................................... II.1.1.3. Media armónica ....................................................... II.1.1.4. Moda ...................................................................... II.1.1.5. Mediana ................................................................. II.1.1.6. Media ponderada ..................................................... II.1.2. Otras medidas de posición ............................................... II.2. Medidas de dispersión ............................................................ II.2.1. Amplitud ........................................................................ II.2.2. Varianza y cuasivarianza ................................................. II.2.3. Desviación típica y cuasidesviación típica .......................... II.2.4. Coeficiente de variación .................................................. II.2.5. Error estándar ................................................................ II.2.6. Recorrido intercuartílico .................................................. II.3. Estadística descriptiva con el programa STATISTICA ..................
15 15 15 15 16 16 17 17 19 21 23 23 24 24 25 25 25 27
III. DISTRIBUCIÓN ............................................................................ III.1. Distribuciones para variables continuas ................................... III.1.1. Normal .........................................................................
31 32 32
VII
III.1.1.1. Aplicaciones de la distribución Normal ...................... III.1.1.2. Asimetría .............................................................. III.1.1.3. Apuntamiento o curtosis ......................................... III.1.2. t de Student ................................................................. III.1.3. χ-cuadrado ................................................................... III.1.4. F de Fisher-Snedecor ..................................................... III.2. Distribuciones para variables discretas ................................... III.2.1. Binomial ....................................................................... III.2.2. Hipergeométrica ............................................................ III.2.3. Poisson ......................................................................... III.3. Métodos para determinar el tipo de distribución ....................... III.3.1. χ-cuadrado ................................................................... III.3.2. Test G (razón de verosimilitud) ....................................... III.3.3. Test de Kolmogorov-Smirnov .......................................... III.3.4. Contraste de normalidad de Shapiro-Wilk ........................
33 37 38 39 40 42 43 43 44 45 47 47 51 54 56
IV. INTERVALOS DE CONFIANZA ......................................................... IV.1. Intervalo de confianza de la media de una población Normal ......................................................................................... IV.1.1. Desviación típica conocida ............................................... IV.1.2. Desviación típica desconocida .......................................... IV.1.2.1. Tamaño de muestra grande (' 30) ............................ IV.1.2.2. Tamaño de muestra pequeño (< 30) ......................... IV.2. Intervalo de confianza de la diferencia de medias de dos poblaciones Normales .................................................................... IV.2.1. Varianzas conocidas ....................................................... IV.2.2. Varianzas desconocidas .................................................. IV.2.2.1. Tamaño de muestra grande (' 30) ............................ IV.2.2.2. Tamaño de muestra pequeño (< 30) ......................... IV.2.2.2.1. Varianzas iguales ............................................. IV.2.2.2.2. Varianzas diferentes ......................................... IV.3. Intervalo de confianza de la varianza y desviación típica de una población Normal .................................................................... IV.4. Intervalo de confianza de la razón de varianzas de dos poblaciones Normales ....................................................................
59 59 60 60 60 60 61 61 61 62 63 63 64 64 66
V. CONTRASTE DE HIPÓTESIS ............................................................ V.1. Tipos de hipótesis ................................................................... V.2. Estadístico de contraste .......................................................... V.3. Tipos de errores ..................................................................... V.4. Regiones críticas y de aceptación ............................................. V.5. Tipos de contrastes .................................................................
71 71 71 72 72 73
VI. CONTRASTE DE HIPÓTESIS EN VARIABLES CUALITATIVAS ............... VI.1. Bondad de ajuste ..................................................................
75 75
VIII
VI.2. Pruebas de homogeneidad de muestras .................................. VI.2.1. Muestras independientes ................................................ VI.2.1.1. χ-cuadrado ............................................................ VI.2.1.2. Razón de verosimilitud (Test G) ................................ VI.2.1.3. Prueba exacta de Fisher .......................................... VI.2.2. Muestras relacionadas .................................................... VI.2.2.1. Prueba de McNemar ................................................ VI.2.2.2. Q de Cochran ......................................................... VI.3. Pruebas de independencia de variables ................................... VI.3.1. χ-cuadrado de Pearson y test G de razón de verosimilitud ............................................................................ VI.3.2. Medidas de asociación .................................................... VI.3.2.1. Phi y V de Cramer ................................................... VI.3.2.2. Coeficiente de Contingencia ..................................... VI.3.2.3. Coeficiente de Incertidumbre ...................................
77 78 78 83 83 87 87 88 90
VII. CONTRASTE DE HIPÓTESIS EN VARIABLES CUANTITATIVAS ............ VII.1. Pruebas paramétricas ........................................................... VII.1.1. Requisitos .................................................................... VII.1.2. Transformaciones ......................................................... VII.1.3. t-test ........................................................................... VII.1.3.1. Muestras independientes ........................................ VII.1.3.2. Muestras dependientes .......................................... VII.1.4. Análisis de varianza ........................................................... VII.1.4.1. Análisis de varianza univariante de un factor ................ VII.1.4.2. Análisis de varianza univariante con varios factores ................................................................................... VII.1.4.3. Análisis de varianza multivariante ................................ VII.1.5. Análisis de covarianza ....................................................... VII.2. Pruebas no paramétricas ...................................................... VII.2.1. Contraste de bondad de ajuste ...................................... VII.2.2. Contraste de homogeneidad de muestras ....................... VII.2.2.1. Contrastes para dos muestras independientes .......... VII.2.2.1.1. Prueba U de Mann-Whitney ............................ VII.2.2.1.2. Test de rachas de Wald-Wolfowitz ................... VII.2.2.1.3. Prueba de Kolmogorov-Smirnov para dos muestras ........................................................................ VII.2.2.2. Contrastes para k-muestras independientes ............. VII.2.2.1.1. Contraste de la mediana ................................ VII.2.2.2.2. ANOVA de Kruskal-Wallis ................................ VII.2.2.3. Contrastes para dos muestras dependientes ............ VII.2.2.3.1. Contraste de los signos .................................. VII.2.2.3.2. Prueba de Wilcoxon para pares relacionados ................................................................... VII.2.2.3. Contrastes para k-muestras dependientes ...............
97 97 97 98 98 98 103 106 107
91 92 92 93 93
113 120 120 127 127 127 128 128 129 130 133 133 133 137 137 137 140
IX
VII.2.3. Independencia de variables ........................................... VII.2.3.1. Coeficiente de correlación de Spearman (rs) ............. VII.2.3.2. τ de Kendall .......................................................... VII.2.3.3. Gamma (γ) ........................................................... VII.2.3.4. Coeficiente de concordancia de Kendall ...................
143 143 144 144 144
VIII. REGRESIONES ........................................................................... VIII.1. Modelos de regresión para variables dependientes cuantitativas ................................................................................. VIII.1.1. Requisitos ................................................................... VIII.1.2. Regresión simple ......................................................... VIII.1.3. Regresión múltiple lineal .............................................. VIII.1.4. Otras regresiones simples o múltiples no lineales ........... VIII.1.4.1. Curva logística ..................................................... VIII.1.4.2. Curva de crecimiento de von Bertalanffy ................. VIII.1.4.3. Curva de crecimiento de Gompertz ........................ VIII.1.4.4. Relación entre tasas y variables ............................. VIII.2. Modelos de regresión para variables dependientes cualitativas ................................................................................... VIII.2.1. Regresión logística binomial ......................................... VIII.2.2. Regresión logística multinomial .....................................
149 149 149 150 165 172 172 173 173 174 180 180 193
IX. ANÁLISIS MULTIVARIANTE ............................................................ IX.1. Análisis Cluster ..................................................................... IX.1.1. Árbol jerárquico (Conglomerado jerárquico) ..................... IX.1.2. Conglomerado de K-medias (Algoritmo de K-medias) ........ IX.2. Análisis Discriminante ............................................................ IX.3. Análisis Factorial y Análisis de Componentes Principales ........... IX.4. Correlación Canónica ............................................................. IX.5. Análisis de Correspondencias .................................................
207 207 208 215 221 235 253 261
X. MODELOS DE SIMULACIÓN ............................................................ X.1. El uso de modelos .................................................................. X.2. Pasos a considerar para el desarrollo de un modelo ................... X.3. Introducción al modelado con el programa Stella ...................... X.3.1. Significado de los iconos y menús específicos de la barra de herramientas en Map/Model level .......................... X.3.2. Ejemplo de funcionamiento de los iconos y menús básicos ......................................................................... X.4. Ejemplo de modelado con el programa Stella: desarrollo conceptual y manejo práctico ......................................................... X.4.1. Dinámica poblacional de la presa ...................................... X.4.2. Dinámica poblacional del depredador y su influencia sobre la presa .......................................................................... X.4.3. Influencia de la explotación sobre la población del depredador ..............................................................................
275 275 276 278
X
279 283 295 296 297 299
XI. ÍNDICES ...................................................................................... XI.1. Estabilidad ........................................................................... XI.1.1. Índice de fluctuación ...................................................... XI.2. Similitud .............................................................................. XI.2.1. Índices binarios ............................................................. XI.2.1.1. Jaccard .................................................................. XI.2.1.2. Sorensen ............................................................... XI.2.2. Índices cuantitativos ...................................................... XI.2.2.1. Distancia Euclídea ................................................... XI.2.2.2. Morisita ................................................................. XI.3. Diversidad ............................................................................ XI.3.1. Índice recíproco de Simpson ........................................... XI.3.2. Índice de diversidad de Shannon-Wiener .......................... XI.4. Tróficos ................................................................................ XI.4.1. Selección del alimento .................................................... XI.4.2. Amplitud nicho trófico ....................................................
301 301 301 304 304 305 307 307 307 311 313 313 313 316 316 317
BIBLIOGRAFÍA ..................................................................................
321
APÉNDICES ....................................................................................... Tabla 1. Áreas bajo la curva Normal estándar ....................................... Tabla 2. Valores críticos de la distribución t de Student ......................... Tabla 3. Valores críticos de la distribución χ-cuadrado ........................... Tabla 4. Valores críticos de la distribución F Fisher-Snedecor ................. Tabla 5. Valores críticos de la distribución del estadístico de Kolmogorov-Smirnov ......................................................................... Tabla 6. Valores críticos de la distribución del estadístico de Lilliefors ...... Tabla 7. Valores críticos de la distribución del estadístico del contraste Durbin-Watson ....................................................................
325 325 326 327 331 337 338 339
ÍNDICE DE CONCEPTOS .....................................................................
341
GUÍA RESUMEN .................................................................................
351
XI
XII
Prólogo
Uno de los principales problemas a los que nos enfrentamos los investigadores es la selección de la herramienta estadística adecuada, para la interpretación de los datos obtenidos fruto de la experimentación o del trabajo de campo y/o interpretar la información que se obtiene del método empleado. Nuestro libro intenta ayudar en ambos aspectos. Hemos seleccionado ejemplos sencillos y se han explicado con diversos paquetes estadísticos, ya que en muchas ocasiones la dificultad reside no solo en qué tipo de tratamiento estadístico aplicar y cómo interpretarlo, sino en todo el proceso matemático que implica. Por lo tanto, otra contribución del libro es facilitar el tratamiento de los datos explicando cómo se realiza el proceso de análisis en algunos programas estadísticos que existen disponibles. Con el libro se facilita un CD con todos los ficheros de datos usados en los ejemplos. Los ejemplos pueden ser reproducidos para diversos campos de la ciencia, ya que los métodos y los ejemplos son prácticamente idénticos para las distintas aplicaciones. Por lo tanto, no está restringido a un ámbito científico específico, sino a cualquier tipo de persona que quiera realizar un tratamiento de datos. Este manual está estructurado en diversos capítulos en los que se tratan la representación de datos, contraste de hipótesis, el uso de herramientas multivariantes, etc. Finalmente se incluye una guía resumen en la que se pretende facilitar la aproximación a los distintos tipos de análisis, a partir del tipo de datos con los que se cuenta, la hipótesis de la que se parte y el tipo de solución que se busca.
XIII
XIV
I
Representación de datos
REPRESENTACIÓN DE DATOS
I.1. Coordenadas polares Un paso obligado previo a la realización de cualquier tratamiento de datos es representar los datos gráficamente. Esto es necesario por muchos motivos: por ejemplo, para ver el tipo de relación que existe entre dos variables (lineal, logarítmica, exponencial, etc.); para identificar posibles «outliers», datos que son muy diferentes del resto y que se pueden deber simplemente a que hemos introducido mal los datos en el ordenador; para ver el tipo de distribución y variabilidad de los datos, etc. Existen muchos tipos de gráficas que permiten hacer representaciones, que son bien conocidas y de uso común por la mayoría de las personas que trabajan con datos. En este capítulo solo vamos a tratar un tipo de representación que no es tan conocido, el gráfico de coordenadas polares. Un problema frecuente que surge a la hora de mostrar gráficamente los resultados obtenidos es que es necesario representar más de dos ejes de coordenadas. Sin embargo, en un plano bidimensional lo máximo que se puede dibujar son tres ejes. Las coordenadas polares permiten representar en un gráfico bidimensional cualquier número de ejes de coordenadas. Supongamos que se quiere representar el nicho de varias especies de árboles considerando como variables del nicho el pH medio del suelo en el que aparece la especie, la temperatura media, la salinidad media del suelo, la pluviosidad media y la concentración media de nitratos en el suelo. Las coordenadas polares consideran las diferentes variables como vectores de fuerza, de tal forma que las coordenadas polares X e Y de cada especie serían el punto de equilibrio de todos los vectores es decir, de todas las variables (Figura I.1).
Figura I.1 Esquema de un sistema de coordenadas polares donde el círculo gris indica el centro de gravedad o punto de equilibrio de todas las variables. Las coordenadas de ese punto gris serían las coordenadas X e Y de la especie.
1
Capítulo I
El módulo de cada vector sería el valor de la variable y el ángulo de cada vector tendría un valor convenido asignado a cada variable. Por lo tanto, cada especie tendría unas coordenadas X e Y, lo cual permite su representación en un plano bidimensional y, además, estas coordenadas X e Y vendrían determinadas por el efecto conjunto de todas las variables consideradas para definir el nicho de las especies. Es decir, cada especie ocuparía una posición en el plano en función de las variables del nicho, lo cual permitiría ver gráficamente qué especies tienen un nicho más parecido. Debido a que la representación polar se basa en vectores de fuerza, solo se puede utilizar con variables que tengan igual peso, es decir, que los valores de las variables puedan ser comparables. En el caso de que las variables no sean equiparables es necesario realizar una estandarización previa de los datos. En un análisis multivariante de componentes principales, las puntuaciones obtenidas en cada eje para cada caso serían un ejemplo de variables que son en general equiparables. Los porcentajes de alimento consumido por varias especies también serían otro caso de variables equiparables, así como, por ejemplo, el porcentaje granulométrico del suelo. Por el contrario, si por ejemplo queremos una representación de varias lagunas, para ver gráficamente qué lagunas tienen unas características fisicoquímicas semejantes, considerando la temperatura, conductividad, pH, oxígeno, etc., estas variables no serían equiparables y sería necesario realizar una estandarización previa.
I.1.1. Estandarización de los datos Como ejemplo de estandarización previa al cálculo de las coordenadas polares vamos a trabajar con datos fisicoquímicos de distintas lagunas, para las que, en algunas de ellas, existen varias estaciones de muestreo. En la Tabla I.1 (Cuadro I.1) se muestran los datos y en el Archivo Cuadro I.1.xls, además de los datos, se muestran todos los pasos a seguir para estandarizar los datos, los cuales también se describen en el Cuadro I.1. En el Cuadro I.2 hay otro ejemplo a modo de práctica, del método para estandarizar datos.
I.1.2. Asignación de ángulos a las variables Un paso previo al cálculo de las coordenadas es asignar ángulos a las variables consideradas. Lo que se hace es dividir 360º entre el número de variables. Por ejemplo, en la matriz de datos de la Tabla I.4 (Cuadro I.2), como el número de variables es 5, el valor del ángulo de cada variable es de 72º (360º/5). Esto implica que la variable 1 tendría un ángulo de 72º, la variable 2 de 144º, la variable 3 de 216º, la variable 4 de 288º y la variable 5 de 360º.
2
1 1 2 1 2 3 1 1 1 1 1 1
29,1 28,1 28,6 28,2 28,5 28,6 27,5 26,4 23,9 32,6 31,3 32,3
Temperatura (ºC) 495 1537 1568 755 739 748 905 419 1034 217 371 1162
Conductividad (μS cm-1) 6,08 7,85 8,52 8,52 8,24 8,60 7,63 7,72 7,64 7,42 7,32 7,17
pH 0,00 0,52 0,00 0,52 0,00 0,13 0,00 0,00 0,42 0,30 0,00 0,04
Nitrato (μM)
Máximo Mínimo
32,6 23,9
1568 217
Temperatura Conductividad (ºC) (μS cm-1)
8,6 6,08
pH
0,52 0
Nitrato (μM)
Paso 1. Cálculo de los valores máximos y mínimos de las variables.
4 5 6 7 8 9
3
1 2
Laguna Estación
Tabla I.1. Datos fisicoquímicos de distintas lagunas.
1,09 0,248
Nitrito (μM)
1,090 0,280 0,253 0,275 0,348 0,386 0,893 0,708 0,301 0,843 0,697 0,248
Nitrito (μM)
2,076 0,339
Amonio (μM)
1,140 0,940 0,839 0,937 0,339 0,419 0,915 0,668 1,229 2,076 0,635 0,762
Amonio (μM)
1,811 0,258
Fosfato (μM)
0,320 0,384 0,428 0,384 0,761 0,867 1,056 0,258 0,263 0,618 0,489 1,811
Fosfato (μM)
326,63 62,78
Silicato (μM)
62,78 231,67 262,31 231,67 172,69 189,41 91,699 113,18 189,04 118,00 99,225 326,63
Silicato (μM)
EJEMPLO. La estandarización de los datos fisicoquímicos de diferentes lagunas se muestra en la siguiente tabla.
CUADRO I.1. Estandarización de datos
Representación de datos
3
4
1 1 2 1 2 3 1 1 1 1 1 1
1 2
4 5 6 7 8 9
3
Estación
Laguna
0,598 0,483 0,540 0,494 0,529 0,540 0,414 0,287 0,000 1,000 0,851 0,966
0,206 0,977 1,000 0,398 0,386 0,393 0,509 0,150 0,605 0,000 0,114 0,699
Temperatura Conductividad (ºC) (μS cm-1) 0,000 0,702 0,968 0,968 0,857 1,000 0,615 0,651 0,619 0,532 0,492 0,433
pH 0,000 1,000 0,000 1,000 0,000 0,250 0,000 0,000 0,808 0,577 0,000 0,077
Nitrato (μM) 1,000 0,038 0,006 0,032 0,119 0,164 0,766 0,546 0,063 0,707 0,533 0,000
Nitrito (μM)
0,461 0,346 0,288 0,344 0,000 0,046 0,332 0,189 0,512 1,000 0,170 0,244
Amonio (μM)
0,040 0,081 0,109 0,081 0,324 0,392 0,514 0,000 0,003 0,232 0,149 1,000
Fosfato (μM)
Tabla I.2. Valores estandarizados de los datos fisicoquímicos que se muestran en la Tabla I.1.
0,000 0,640 0,756 0,640 0,417 0,480 0,110 0,191 0,479 0,209 0,138 1,000
Silicato (μM)
donde VE es el valor estandarizado, Max y Min son los valores máximo y mínimo de cada variable, respectivamente, que se calcularon en el paso 1, y x es cada uno de los valores de cada variable (Tabla I.2).
A cada uno de los valores de las variables se aplica la siguiente fórmula:
Paso 2. Estandarización a una escala de 0 a 1 de todas las variables.
CUADRO I.1. (Continuación)
Capítulo I
Representación de datos
CUADRO I.2. Práctica para la estandarización de datos EJEMPLO. La Tabla I.3 muestra los datos morfológicos de varias especies de peces (Archivo Cuadro I.2.xls). La Tabla I.4 muestra los datos estandarizados. Tabla I.3. Variables morfológicas de diferentes especies de peces. Especie
Variable 1
Variable 2
Variable 3
Variable 4
Variable 5
1 2 3 4 5 6 7 8 9 10
93,4 96,3 140,4 111 111 25 24 31 30 31
27,8 26,7 14,5 32,1 52,2 7,5 4,9 8,6 8 11,1
13,3 14,4 24,4 20,4 22,2 3 2,5 2,4 7 4,4
12,5 11,8 4,3 12,5 26,2 4,4 2,4 3,8 14 5,75
44,4 43,3 49,3 54,4 52,3 12,6 14,7 11,5 18 14,4
Tabla I.4. Valores estandarizados de los datos mostrados en la Tabla I.3. Especie
Variable 1
Variable 2
Variable 3
Variable 4
Variable 5
1 2 3 4 5 6 7 8 9 10
0,596 0,621 1,000 0,747 0,747 0,009 0,000 0,060 0,052 0,060
0,484 0,461 0,203 0,575 1,000 0,055 0,000 0,078 0,066 0,131
0,495 0,545 1,000 0,818 0,900 0,027 0,005 0,000 0,209 0,091
0,424 0,395 0,080 0,424 1,000 0,084 0,000 0,059 0,487 0,141
0,767 0,741 0,881 1,000 0,951 0,026 0,075 0,000 0,152 0,068
Si alguna de las variables tiene valores negativos, entonces lo que se hace es dividir 360º por el doble del número de variables y a cada variable se le asignan dos ángulos, incluso a aquellas variables que no tengan valores negativos. Para cada variable, a los valores negativos se les asigna un valor de ángulo 180º mayor que el asignado a los valores positivos. Por ejemplo, supongamos que en la matriz de datos de la Tabla I.4 existiesen valores negativos. En ese caso el valor del ángulo de cada variable sería de 36º (360º/10). El ángulo de la variable 1 sería de 36º para los valores positivos y de 216º para los valores negativos, el de la variable 2 sería 72º para los valores positivos y de 252º para los valores negativos, el de la variable 3 sería 108º para los valores positivos y 288º para los valores negativos, el de la variable 4 sería 144º para los valores positivos y 324º para los valores negativos, el de la variable 5 sería 180º para los valores positivos y 360º para los valores negativos.
5
Capítulo I
I.1.3. Representación de las coordenadas polares Las coordenadas polares de cada elemento de la muestra o población se calculan determinando la resultante para cada uno de los ejes o variables, es decir, desplazando sucesivamente el punto en la dirección de cada eje una distancia igual al valor de la variable correspondiente: el ángulo resultante y la distancia al origen son las coordenadas polares. En general es más sencillo calcular y representar las correspondientes coordenadas rectangulares mediante la siguiente transformación:
donde X e Y son las coordenadas rectangulares para cada caso en el gráfico polar, z es el valor de ese caso para la variable j, α es el ángulo en grados asignado a la variable j, y n es el número de variables. En el caso de que existan valores negativos, entonces el número de variables n sería el doble de las que realmente existen, como se mencionó anteriormente. En el Cuadro I.3 se explican cuales son los pasos a seguir. Cuando se utiliza el programa EXCEL, es necesario pasar el ángulo a radianes y, por ello, las fórmulas a utilizar son las siguientes:
Otro ejemplo de cálculo de coordenadas polares se puede ver en el Cuadro I.4. En este caso se realiza la representación polar de diferentes lagunas, diferenciándolas en relación a sus características fisicoquímicas (Figura I.3). Se observa cómo aquellas lagunas con una mayor conductividad están agrupadas (lagunas 2 y 3, ver Tabla I.1), mientras que también se agrupan las lagunas con una menor conductividad (lagunas 1 y 7). Las lagunas 1 y 7 también se caracterizan por su mayor concentración de amonio (Tabla I.1). La laguna 9 se diferencia del resto por su alta concentración de silicatos y su alta temperatura (Tabla I.1, Figura I.3). Cuando existan varias réplicas, o como en este ejemplo en el que hay lagunas con varias estaciones, también es posible representar la media y la desviación de la media, en vez de los valores de cada una de las réplicas por separado. Estos valores medios para cada grupo son los que se muestran en «MEDIAS COORDENADAS X e Y» del Archivo Cuadro I.3.xls. En resumen, las coordenadas polares nos permiten ver de una forma gráfica las lagunas que tienen una composición más semejante para los parámetros que se han considerado, que en este caso eran solo 8 variables (temperatura, conductividad, pH, nitrato, nitrito, amonio, fosfato y silicato), pero podrían ser muchas más las variables a considerar.
6
Representación de datos
CUADRO I.3. Cálculo coordenadas polares EJEMPLO. En la Tabla I.5 se exponen las puntuaciones obtenidas en un análisis discriminante aplicado al porcentaje de pigmentos de distintas especies marinas del fitoplancton. Para cada especie hay varias réplicas. Tabla I.5. Puntuaciones de un análisis discriminante aplicado al porcentaje de pigmentos de distintas especies marinas de fitoplancton. Especie
Función 1
Función 2
Función 3
Función 4
1 1 1 2 2 3 3 3 3 4 4 4 5 5 6 6 7 7 8 8 9 9 9
-4,86 -5,06 -4,86 -27,12 -27,02 -24,54 -25,25 -25,31 -25,00 -8,95 -8,85 -9,38 -4,70 -4,82 -0,97 -1,39 -2,93 -2,64 102,05 104,50 2,43 0,67 4,46
21,96 21,73 23,14 -53,23 -54,25 -39,34 -41,95 -41,39 -40,01 24,19 23,97 24,85 19,20 19,41 14,67 13,07 -1,55 -0,86 -20,51 -20,57 -1,66 -0,80 -2,33
6,50 6,37 7,31 2,36 -0,51 7,76 8,11 8,78 8,81 13,55 12,44 13,58 4,24 4,39 -16,64 -17,35 -28,86 -28,50 6,71 7,01 -39,35 -42,21 -41,16
10,48 9,93 9,97 -2,84 -4,56 2,88 2,61 2,95 3,31 -26,42 -22,11 -25,05 11,32 11,54 11,77 10,94 -8,04 -7,71 0,19 -0,88 -12,69 -13,84 -13,61
Función 5 -6,92 -6,80 -6,93 -2,81 -3,18 2,17 2,21 2,48 2,50 6,04 4,25 4,67 -6,06 -6,46 27,93 26,80 -7,80 -7,83 1,02 0,35 -13,38 -14,76 -14,30
En este caso, las funciones del análisis discriminante son variables que no necesitan ser estandarizadas. Sin embargo, como existen valores negativos, es necesario aplicar dos ángulos a cada variable (a cada función discriminante). El Archivo Cuadro I.3.xls está diseñado para calcular las coordenadas polares de una matriz que contenga como máximo 1000 casos (filas) y 20 variables (columnas). Este archivo solo sirve para el caso en el que existan valores negativos. Paso 1. Introducir los códigos de los casos en «DATOS» del Archivo Cuadro I.3.xls. Paso 2. Introducir los valores de cada variable para cada uno de los casos en «DATOS» del Archivo Cuadro I.3.xls.
7
Capítulo I
CUADRO I.3. (Continuación) Paso 3. En «COORDENADAS EJE X» del Archivo Cuadro I.3.xls aparecen las coordenadas X y en «COORDENADAS EJE Y» las coordenadas Y de todos los casos. Paso 4. Cuando existan réplicas, en «MEDIAS COORDENADAS X e Y» del Archivo Cuadro I.3.xls aparecen los valores medios, desviación típica y el error para cada uno de los grupos. Los resultados que se obtienen se muestran en la Tabla I.6. La representación gráfica de las coordenadas polares obtenidas se muestra en la Figura I.2.
Tabla I.6 Coordenadas polares de las funciones discriminantes de la Tabla I.5
8
Especie
X
Y
1
-0,709
30,359
1
-0,582
29,577
1
-0,172
31,958
2
-34,019
-65,980
2
-31,599
-70,641
3
-38,910
-42,756
3
-40,222
-45,497
3
-40,848
-44,152
3
-40,491
-42,416
4
11,386
15,101
4
10,042
16,427
4
11,483
16,316
5
-2,278
26,183
5
-2,138
26,581
6
-28,564
4,473
6
-27,378
1,540
7
20,377
-35,369
7
20,480
-34,003
8
72,976
46,976
8
76,384
48,009
9
37,2533
-45,029
9
39,3010
-48,641
9
40,9174
-46,741
Representación de datos
CUADRO I.4. Práctica del cálculo de coordenadas polares EJEMPLO. Para practicar el cálculo de coordenadas polares usaremos los datos fisicoquímicos estandarizados de las lagunas que se muestran en la Tabla I.2 (Cuadro I.1 y Archivo Cuadro I.1.xls). En este caso no existen valores negativos. El Archivo Cuadro I.4.xls está diseñado para estimar coordenadas polares en aquellos casos en los que no existan valores negativos. Los pasos a seguir son los mismos que los descritos anteriormente para el caso en el que sí había valores negativos (Cuadro I.3). Las coordenadas polares se muestran en la Tabla I.7 y la representación gráfica en la Figura I.3. Tabla I.7. Coordenadas polares de los valores estandarizados de los datos fisicoquímicos de las lagunas (Tabla I.2). Laguna Estación 1 2 3
4 5 6 7 8 9
1 1 2 1 2 3 1 1 1 1 1 1
X
Y
-0,256 -0,485 0,527 -0,660 0,329 0,066 -0,211 -0,452 -0,809 -0,372 0,120 2,007
-0,568 1,385 1,697 1,008 1,053 1,043 0,000 0,237 0,483 -0,580 0,411 0,737
Figura I.2. Gráfico polar de las puntuaciones de un análisis discriminante aplicado al porcentaje de pigmentos de distintas especies marinas de fitoplancton (Cuadro I.3, Tabla I.6).
9
Capítulo I
Figura I.3. Gráfico polar de los valores estandarizados de los datos fisicoquímicos de las lagunas (Cuadro I.4, Tabla I.7).
I.2. Representación de las coordenadas polares en el programa SigmaPlot Los gráficos de coordenadas polares de las Figuras I.2 (Cuadro I.3) y I.3 (Cuadro I.4) se pueden elaborar usando alguna de las versiones del programa SigmaPlot (2002) SPSS Inc. En el Cuadro I.5 se explica el proceso de representación de este tipo de gráficos en el programa SigmaPlot.
CUADRO I.5. Representación coordenadas polares en el programa SigmaPlot EJEMPLO. Vamos a utilizar las coordenadas que se muestran en la Tabla I.7 del Cuadro I.4 que lo podemos encontrar en el archivo de SigmaPlot Cuadro I.5.jnb. Paso 1. Después de introducir los datos con el formato que se ve en la siguiente ventana, es decir, diferenciando en distintas columnas las coordenadas X e Y de las distintas lagunas, se pulsa en el icono que representa el gráfico de coordenadas polares y luego en el que indica «PolarScatter».
10
Representación de datos
CUADRO I.5. (Continuación)
Paso 2. Nos aparecerá la siguiente ventana donde es posible elegir si representar las unidades en grados, radianes, etc. y el rango. Nosotros seleccionamos «Degrees».
11
Capítulo I
CUADRO I.5. (Continuación) Paso 3. En la siguiente ventana debemos indicar el tipo de datos que introducimos, es decir, si se introduce en forma de Theta (ángulo) y R (resultante), Theta (un solo ángulo) y muchas diferentes R (resultantes), etc. En nuestro caso seleccionamos «XY Pairs»
Paso 4. En la siguiente ventana debemos seleccionar los ejes X e Y. En primer lugar solo se representan las coordenadas de la laguna 1.
Paso 5. Ahora seleccionando el gráfico y en «Graph» y «Add Plot» lo que se hace es ir añadiendo las coordenadas del resto de lagunas sobre el gráfico ya creado, introduciendo cada laguna como un nuevo gráfico.
12
Representación de datos
CUADRO I.5. (Continuación) Paso 6. Una vez introducidas las coordenadas de todas las lagunas, pulsando en el gráfico dos veces es posible modificar los símbolos de cada «Plot» como se muestra en la ventana siguiente.
13
CapĂtulo I
14
II
Estadística descriptiva
ESTADÍSTICA DESCRIPTIVA
Dentro de la estadística descriptiva se incluyen medidas de posición como las medias aritmética, geométrica, armónica, ponderada, la moda y la mediana, y medidas de dispersión o variabilidad de la muestra como la varianza, la desviación típica y el coeficiente de variación. El hecho de que sea una estadística simple y fácil de calcular no significa que no sea importante. Es necesario, por lo general, calcular algunas de las medidas citadas anteriormente para poder tener una idea preliminar de los datos antes de pasar a realizar un tratamiento más complejo de los mismos. Por ejemplo, el tipo de distribución que tengan los datos condicionará la clase de análisis estadístico que podremos utilizar. Algunos tratamientos estadísticos que se utilizan mucho, como por ejemplo el análisis de la varianza, se basan en la comparación de la media y dispersión de los datos, ambos incluidos dentro de la estadística descriptiva. Además, algunas medidas, como por ejemplo una variante de la media ponderada, pueden ser unos indicadores muy útiles por sí solos sin necesidad de tratamientos estadísticos más complejos.
II.1. Medidas de posición El primer paso a la hora de tratar unos datos es intentar buscar algún tipo de medida que nos permita caracterizar, diferenciar y distinguir las series de datos. Esto se puede hacer determinando la posición de los datos. Dentro de este grupo se diferencian las llamadas medidas de posición central y otras medidas que estiman diferentes posiciones de los datos. Unas u otras se utilizan dependiendo del tipo de datos con el que se esté trabajando.
II.1.1. Medidas de posición central II.1.1.1. Media aritmética La media aritmética (x ), que también se conoce simplemente como media o promedio, se calcula por medio de la siguiente fórmula:
15
Capítulo II
donde x son cada uno de los valores i de la variable y n el número de datos. Cuando la media es del conjunto de toda la población se suele denotar por el símbolo μ y cuando es la media de una muestra de la población se utiliza x . En el caso de datos agrupados (tabla de frecuencias) la media se calcula por medio de la siguiente fórmula:
donde m y f son el valor medio y la frecuencia (número de datos) de la clase i, respectivamente, y k el número de intervalos o clases. En el Archivo Cuadro II.1.xls se muestra un ejemplo de cómo se calcula la media aritmética de una muestra agrupando y sin agrupar los datos, el cual también está descrito en el Cuadro II.1. La media aritmética es la que se utiliza más frecuentemente porque es la que tiene un error estándar más pequeño, es la más fácil de estimar, tiende hacia una distribución Normal incluso, si los datos originales no presentan esta distribución y, por último, es más sensible a cambios en la distribución de los datos, lo cual es muy importante en estadística para poder determinar diferencias entre series de datos (Sokal & Rohlf 1981). El problema que plantea la media aritmética también deriva de su sensibilidad, ya que está más afectada por los datos raros que se salen del rango.
II.1.1.2. Media geométrica La media geométrica (MG) se utiliza en algunos casos con datos relativos como porcentajes y se calcula por medio de la siguiente fórmula:
La media geométrica es siempre inferior o igual a la media aritmética. En el Archivo Cuadro II.1.xls y en el Cuadro II.1 se muestra un ejemplo para calcular la media geométrica.
II.1.1.3. Media armónica La media armónica (MA) se utiliza, por ejemplo, en algunos casos en los que
16
Estadística descriptiva
es necesario promediar variaciones con respecto al tiempo. Se calcula de la siguiente forma:
La media armónica es siempre inferior o igual a la media geométrica y, por tanto, también inferior o igual a la media aritmética. Al igual que las otras medias descritas anteriormente, en el Archivo Cuadro II.1.xls y en el Cuadro II.1 también se muestra un ejemplo para calcular la media armónica.
II.1.1.4. Moda A veces es necesario determinar la posición de variables que no son numéricas sino cualitativas como, por ejemplo, las especies a las que pertenecen diferentes individuos. En este caso no podemos utilizar ninguna de las medias citadas anteriormente y, por lo tanto, debemos recurrir a medidas como la moda. También puede ser utilizada con variables cuantitativas. La moda de un conjunto de observaciones se define como el valor que se presenta con mayor frecuencia, es decir, un mayor número de veces. La moda se puede denotar por Mo. Ejemplo en el Archivo Cuadro II.1.xls y en el Cuadro II.1. Si solo es un valor el que se repite más veces, en ese caso se dice que la distribución es unimodal, porque solo tiene una moda. En el caso de que ningún valor se repita, entonces por definición se considera que no existe moda. Se puede dar el caso de que dos observaciones tengan la misma frecuencia, siendo en este caso la distribución bimodal. La distribución multimodal se daría en aquellas situaciones en las que existiesen más de dos valores con la misma frecuencia. Por último, en situaciones raras en las que la distribución de los datos tenga forma de U, el punto medio de la distribución se denomina «antimoda».
II.1.1.5. Mediana La mediana de un conjunto de observaciones es el valor para el cual, cuando todas las observaciones se ordenan de manera creciente, la mitad de éstas son menores que este valor, y la otra mitad son mayores. Sea x1, x2, …….xn una muestra aleatoria de n observaciones ordenadas de forma creciente, la mediana de estos datos se calcula de la siguiente manera (Cuadro II.2, Archivo Cuadro II.1.xls): si n es un número impar Mediana si n es un número par
17
18
23 22 20-25 4 22,75 4
24
26
25
26
25 29 25-30 7 26,14 11
25
32
34
34 33 30-35 5 33,2 16
33
36
-
x=
4 * 22,75 + 7 * 26,14 + 5 * 33,2 + 4 * 36,5 = 29,3 20
36 35 35-40 4 36,5 20
1 = 28,37 1 æ 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 ö + + + + + + + + + + + + + + + + + + + ç ÷ 20 è 22 23 22 24 26 25 26 25 29 27 25 32 34 34 33 33 36 36 35 39 ø
4. Media armónica
MG = 20 22 * 23 * 22 * 24 * 26 * 25 * 26 * 25 * 29 * 27 * 25 * 32 * 34 * 34 * 33 * 33 * 36 * 36 * 35 * 39 = 28,83
3. Media geométrica
MA =
27
22 + 23 + 22 + 24 + 26 + 25 + 26 + 25 + 29 + 27 + 25 + 32 + 34 + 34 + 33 + 33 + 36 + 36 + 35 + 39 = 29,3 20
2. Media aritmética agrupando los datos
x=
-
1. Media aritmética para datos sin agrupar
X 22 Rango fi mi fa
CUADRO II.1. Estimación de las medias aritmética, geométrica y armónica 39
Capítulo II
Estadística descriptiva
CUADRO II.1. (Continuación) Supongamos la misma serie de datos que se mostró en el Cuadro II.1 pero, en este caso, los datos se muestran ordenados en forma creciente. x 22 22 23 24 25 25 25 26 26 27 29 32 33 33 34 34 35 36 36 39
1. Moda La moda es 25 porque es la observación que se repite más veces (3 veces).
2. Mediana Como el número de datos es par (20 en este caso), entonces la mediana (Mn) se estima de la siguiente forma:
La mediana se suele utilizar en series de datos que tienen una distribución muy asimétrica, ya que en estos casos no siempre es adecuado utilizar la media aritmética. La mediana es también útil en aquellos casos en los que sea muy difícil obtener el número de observaciones necesarias para estimar convenientemente la media aritmética. Por último, no se ve afectada por valores raros que se salgan mucho del rango normal, como le ocurre a la media aritmética.
II.1.1.6. Media ponderada La media ponderada ( xw ) se utiliza en aquellos casos en que algunos datos son más fiables que otros, simplemente porque unos datos han sido calculados con un mayor esfuerzo o por cualquier otra razón, y por ello es necesario darle más peso a estos valores a la hora de estimar la media. Se calcula por medio de la siguiente fórmula:
19
Capítulo II
donde x son cada uno de los valores i de la variable, w el peso que se le da al dato y n el número de datos. Se utiliza, por ejemplo, cuando algunos datos son más fiables que otros y, por tanto, deben tener más peso en la media. Una aplicación de la media ponderada que merece una mención especial, porque puede dar una gran información, es la obtención del centro de gravedad de una distribución de datos de acuerdo a una determinada variable. En Ecología es un parámetro que permite cuantificar el nicho ecológico de una especie, ya que da información sobre el valor medio de su distribución para una determinada variable. Por ejemplo, se puede obtener la temperatura, la salinidad, concentración de oxígeno, etc. media en que suele aparecer una especie. En este caso, w son cada uno de los valores i de los datos de abundancia de la especie, x el valor de la variable para el valor w, y n el número de datos (véase ejemplo en el Cuadro II.2 y Archivo Cuadro II.2.xls).
CUADRO II.2. Variante de media ponderada Abundancia Especie 1 (w)
Abundancia Especie 2 (w)
Temperatura (x)
23 37 128 234 21 198 4 156
211 74 145 89 24 56 338 126
14,3 16,2 15,7 16,7 18,1 17,2 14,3 15,9
Media ponderada de la temperatura para la especie 1
Media ponderada de la temperatura para la especie 2
20
Estadística descriptiva
II.1.2. Otras medidas de posición Se definen los cuantiles de orden k como los valores de la variable, supuesta ésta ordenada de menor a mayor, que la dividen en k partes con la misma frecuencia de observaciones. Por lo tanto existirán k - 1 cuantiles de orden k. El primer cuantil de orden k deja a su izquierda la fracción 1/k de frecuencia de observaciones. El segundo cuantil de orden k deja a su izquierda la fracción 2/k de frecuencia de observaciones. El r-ésimo cuantil de orden k deja a su izquierda la fracción r/k de frecuencia de observaciones. Por ejemplo, el cuantil 15 de orden 100 deja por debajo el 15% de los valores del total de la serie completa de valores. Los cuantiles más utilizados son los percentiles, cuartiles y deciles, los cuales se describen a continuación. Los percentiles son los 99 puntos que dividen la distribución en 100 partes, tales que dentro de cada una está incluido el 1% de los valores de la distribución. Los cuartiles son los tres valores de la variable que dividen la distribución en 4 partes iguales, es decir, en 4 intervalos, dentro de cada cual está incluido el 25% de los valores de la distribución. El percentil 25 (P 25) sería igual al cuartil 1 (Q 1), el percentil 50 (P 50) sería igual al cuartil 2 (Q 2, igual también a la mediana), etc. Los deciles son los 9 puntos que dividen la distribución en 10 partes, tales que dentro de cada una está incluido el 10% de los valores de la distribución. El percentil 10 (P 10) sería igual al decil 1 (D1), el percentil 20 (P 20) sería igual al decil 2 (D2), etc. El procedimiento para encontrar el valor del cuantil j de orden k a partir de datos ordenados de menor a mayor, es el siguiente (ejemplo en el Cuadro II.3 y Archivo Cuadro II.1.xls): 1. Encontrar la posición i del cuantil j -ésimo mediante el cálculo de nj/k. 2. Si nj/k no es un entero, entonces la posición i es el siguiente entero más grande y entonces el valor del cuantil es el dato ordenado en la posición de este entero más grande. 3. Si nj/k es un entero, entonces la posición del cuantil será i = nj/k + 0,5 y así el valor del cuantil es el promedio de las observaciones ordenadas nj/ k y nj/k + 1.
21
Capítulo II
CUADRO II.3. Cálculo de los cuantiles Vamos a utilizar la serie de datos del Cuadro II.1. Continuación. 1. Percentil 25 (P25) y Cuartil 1 (Q1)
Al ser entero el valor será:
2. Percentil 75 (P75) y Cuartil 3 (Q3)
Al ser entero el valor será:
3. Percentil 10 (P10) y Decil 1 (D1)
Al ser entero el valor será:
4. Percentil 16 (P16)
Al no ser entero, el valor es el dato ordenado en la posición de este entero más grande:
22
Estadística descriptiva
II.2. Medidas de dispersión Además de la posición, es también importante la dispersión o variabilidad de los datos. La Figura II.1 muestra dos series de datos que tienen la misma media (10,55 ºC), pero la variabilidad de la temperatura es mayor en un hábitat que en el otro.
Figura II.1. Temperatura a lo largo del año en dos hábitats.
Las medidas de dispersión tienen como finalidad estudiar hasta qué punto, para una determinada distribución de datos, las medidas de posición representan bien el conjunto de datos de la distribución. Por ejemplo, si se quiere determinar si una media aritmética nos marca una tendencia central generalizable del comportamiento de todos los elementos del conjunto estudiado, tendremos que fijarnos en la separación o desviación de cada valor respecto a la media. Si todos los valores están cercanos al valor medio, éste será representativo de ellos. Es decir, será más representativa la media aritmética de una variable cuanto más agrupados en torno a ella estén los valores promediados y, por el contrario, será tanto más rechazable, por no ser representativa, cuanta mayor dispersión exista de los valores de la variable respecto a la media. Por lo tanto, para complementar la información que se obtiene a partir de la media es necesario otro tipo de parámetros que midan la dispersión o variabilidad de los datos, los cuales se muestran a continuación.
II.2.1. Amplitud El método más simple de estimar la dispersión de los datos es por medio de la amplitud, también conocida como rango, es decir, la diferencia entre el valor mínimo y el máximo de la serie de datos (Cuadro II.4 y Archivo Cuadro II.4.xls).
23
Capítulo II
II.2.2. Varianza y cuasivarianza La mejor forma de medir la dispersión de una serie de datos es comparar cada uno de ellos con la media de la serie, y esto es exactamente lo que hace la varianza (σ2) (Cuadro II.4 y Archivo Cuadro II.4.xls):
A menudo queremos utilizar la varianza de una muestra como valor aproximado o estimado de la varianza desconocida de la población de la que procede esa muestra. En estos casos, el error cometido es generalmente más pequeño si en vez de considerar como estimador la varianza de la muestra, se utiliza lo que se denomina cuasivarianza (s2), que se calcula como la anterior, pero cambiando el denominador por n - 1 (Cuadro II.4 y Archivo Cuadro II.4.xls):
En aquellos casos en los que disponemos de toda la población se debe emplear n y no (n - 1). Sin embargo, como en general nuestros datos son una muestra de una población mayor, lo correcto es usar la cuasivarianza en vez de la varianza. Muchas veces se hace referencia a la varianza cuando en realidad se está calculando la cuasivarianza (varianza estimada). La mayoría de los programas de estadística utilizan solo la cuasivarianza y no la varianza. Es frecuente también observar que )2 y s2 se usan indistintamente para indicar varianza o cuasivarianza sin un criterio definido.
II.2.3. Desviación típica y cuasidesviación típica El problema que presenta la varianza es que, para evitar valores negativos, las diferencias se elevan al cuadrado. Para poder tener la medida de dispersión en las mismas unidades que la media, se suele utilizar, en vez de la varianza, la desviación típica (σ), también llamada desviación estándar, y que se calcula simplemente como la raíz cuadrada de la varianza (Cuadro II.4 y Archivo Cuadro II.4.xls).
También al igual que ocurría con la varianza, salvo en el caso de que la muestra sea idéntica a la población, es preferible utilizar la cuasidesviación típica ( s ), en vez de la desviación típica, para lo cual se divide por el número de grados de
24
Estadística descriptiva
libertad (n - 1) en vez de por el total de datos (n) (Cuadro II.4 y Archivo Cuadro II.4.xls) como se muestra en la siguiente fórmula:
Es necesario mencionar que la mayoría de los programas estadísticos solo utilizan la cuasidesviación típica y, al igual que ocurría con la varianza, es frecuente observar que se hace mención a la desviación típica cuando en realidad se ha calculado la cuasidesviación típica. También se observa con frecuencia que ) y s se usan indistintamente para desviación o cuasidesviación típica sin un criterio definido.
II.2.4. Coeficiente de variación Cuando se comparan series de datos que tienen medias un poco diferentes, la desviación típica no permite comparar cuál de las dos series de datos presenta una mayor variación, ya que normalmente la serie de datos con una mayor media también suele tener una mayor variabilidad. En este caso es más aconsejable el uso del coeficiente de variación (CV), que se calcula como el porcentaje que representa la desviación típica con respecto a la media. En el caso de que la desviación típica sea desconocida, se utiliza la cuasidesviación típica (ejemplo en la continuación del Cuadro II.4 o Archivo Cuadro II.4.xls):
II.2.5. Error estándar Proporciona una medida de la precisión de la estimación de la media poblacional a partir de una muestra, mientras que la desviación típica mide la variabilidad de los datos respecto de la media en la muestra. El error estándar se calcula a partir de la desviación típica. Cuando ésta es desconocida, se utiliza la cuasidesviación típica para obtener el error estándar estimado (ejemplo en la continuación del Cuadro II.4 o Archivo Cuadro II.4.xls):
II.2.6. Recorrido intercuartílico El recorrido intercuartílico (Q) se calcula a partir de los percentiles 75 (P75) y 25 (P25) de la siguiente forma (ejemplo en la continuación del Cuadro II.4 o Archivo Cuadro II.4.xls):
Esta medida de dispersión se utiliza cuando se expresa la posición central por medio de la mediana.
25
26
2
(22 29,3)2 (23 29,3)2 (22 29,3)2 (24 29,3)2 (26 29,3)2 ........(39 29,3)2 29,06 19
(22 29,3)2 (23 29,3)2 (22 29,3)2 (24 29,3)2 (26 29,3)2 ........(39 29,3)2 27,61 20
(22 29,3)2 (23 29,3)2 (22 29,3)2 (24 29,3)2 (26 29,3)2 ........(39 29,3)2 5,25 20
s
(22 29,3)2 (23 29,3)2 (22 29,3)2 (24 29,3)2 (26 29,3)2 ........(39 29,3)2 5,39 19
5. Cuasidesviación típica
4. Desviación típica
s2
3. Cuasivarianza
2. Varianza
1. Amplitud: 17
Como ejemplo vamos a utilizar la misma tabla de datos del Cuadro II.1.
CUADRO II.4. Estimación de las medidas de dispersión
Capítulo II
Estadística descriptiva
CUADRO II.4. (Continuación) 5. Coeficiente de variación
6. Error estándar
7. Recorrido intercuartílico Q = P75 – P25 = 34 - 25 = 9
II.3. Estadística descriptiva con el programa STATISTICA El programa STATISTICA permite calcular de forma sencilla todas las medidas de posición y dispersión descritas anteriormente, e incluso otras que se describirán en los capítulos siguientes, como el intervalo de confianza de la media, la asimetría y la curtosis. El proceso se describe en el Cuadro II.5.
CUADRO II.5. Estadística descriptiva con el programa STATISTICA Paso 1. Como ejemplo se utilizan los datos que se muestran en el Cuadro II.1 (Archivo Cuadro II.5.sta). En la sección de «Statistics» se entra en «Basic Statistics/Tables».
27
Capítulo II
CUADRO II.5. (Continuación) Paso 2. Nos debe salir la siguiente ventana, donde seleccionamos «Descriptive statistics».
Paso 3. Nos aparecerá la siguiente ventana. En ella en la pestaña «Variables» seleccionamos la variable 1. Luego se va a «Advanced» y allí se seleccionan todos los parámetros que se desean estimar.
28
Estadística descriptiva
CUADRO II.5. (Continuación) Paso 4. Por último, en la ventana anterior se pulsa en «Summary» y se obtiene la matriz de resultados que se muestra a continuación.
29
CapĂtulo II
30
III
Distribución
DISTRIBUCIÓN
Otra información importante es la relacionada con la distribución que tiene una variable. Se puede dar el caso de que dos variables tengan exactamente la misma media y la misma dispersión, pero que el tipo de distribución sea completamente diferente. Por lo tanto, además de la información sobre las medidas de posición y dispersión, que se explicaron en el Capítulo II, es necesario también conocer la distribución de los valores de la variable. Para estudiar la distribución de una variable, e incluso comparar medias y varianzas entre variables, lo que se hace es comparar las frecuencias de los valores de la variable con las probabilidades resultantes de modelos teóricos de distribuciones. El modelo teórico de distribución a utilizar variará en función del tipo de variable con la que estemos trabajando. Existen básicamente dos tipos de variables: cualitativas y cuantitativas. Las primeras no se expresan numéricamente (sexo, especie a la que pertenece un individuo, provincia de nacimiento) aunque pueden utilizarse códigos numéricos para representar sus valores (por ejemplo en la variable sexo, en vez de macho y hembra se pueden nombrar como 1 y 2). Las cuantitativas se expresan directamente en términos numéricos (número de hojas de una planta, edad, longitud, temperatura, etc.). Las variables cualitativas, a su vez, pueden ser de dos tipos: nominales, si sus valores no están ordenados de modo natural (lugar de nacimiento, especie), y ordinales, si sus valores tienen un orden (por ejemplo una variable «toxicidad» que toma los valores nada, poco, bastante y muy tóxico). Las variables cuantitativas pueden ser también de dos tipos: discretas y continuas. Son discretas cuando solo pueden tomar valores específicos, y no es posible ningún valor entre dos consecutivos (número de hijos que puede tener una familia, número de hojas de una planta, etc.). En el caso de variables discretas, a cada valor de la variable le corresponde una probabilidad, de la cual dependerá el número de veces que se repita ese valor en función de los valores restantes. A la correspondencia entre los valores y sus respectivas probabilidades se le llama función de probabilidad. Las variables cuantitativas continuas son aquellas que pueden tomar cualquier valor a lo largo de un continuo, de modo que no hay valores consecutivos,
31
Capítulo III
ya que entre dos valores cualesquiera siguen existiendo infinitos valores posibles (temperatura, longitud). Las variables continuas se pueden agrupar en categorías, pero de una forma arbitraria. Por ejemplo, la variable altura se puede dividir en categorías como pequeño, normal y alto, y los límites de cada una de estas categorías se pueden establecer de forma arbitraria. A diferencia de lo que ocurría con las variables discretas, para las variables continuas no es útil establecer la correspondencia entre valores y probabilidades. Lo que se hace es calcular la probabilidad contenida en un determinado segmento o rango de valores, que dividida por la amplitud del segmento es la densidad media de probabilidad del segmento, a partir de la cual se determina la densidad de probabilidad para cada valor. La correspondencia entre los valores y su respectiva densidad de probabilidad se llama función de densidad. La distinción entre estos cuatro tipos de variables es importante por varios motivos: 1. El cálculo de algunas medidas de posición o de dispersión no tienen sentido con variables cualitativas, por ejemplo en el caso de la variable sexo. 2. Para la aplicación correcta de técnicas de análisis estadísticos: así la mayoría de las pruebas no paramétricas requieren que la variable sea al menos ordinal, y muchos métodos de análisis multivariante exigen que las variables sean cuantitativas (por ejemplo análisis factorial o análisis discriminante). En este capítulo vamos a estudiar las funciones de probabilidad y de densidad de las distribuciones para variables discretas y continuas.
III.1. Distribuciones para variables continuas III.1.1. Normal La distribución Normal es una de las distribuciones más importantes porque se observa en muchas series de datos y, además, distintos tipos de análisis estadísticos presentan como condición para poder aplicarse a la serie de datos, que ésta presente este tipo de distribución. Varios matemáticos intervinieron en su desarrollo, entre los que figura el astrónomo del siglo XVIII Karl Gauss, por lo cual a veces es llamada en su honor «campana o distribución de Gauss». La función de densidad de la distribución Normal se describe por medio de la siguiente ecuación:
donde f(x) es la densidad de probabilidad del valor x, μ es la media y σ es la desviación típica. La forma de la distribución Normal varía en función de la media (μ) y la desviación típica (σ) (Figura III.1).
32
Distribución
Figura III.1. Distribuciones normales con diferentes medias y desviaciones típicas.
III.1.1.1. Aplicaciones de la distribución Normal La tabla de la distribución Normal N(0,1), es decir, con μ = 0 y σ = 1 (Tabla I del Apéndice II y Archivo Tabla 1.doc), nos permite calcular probabilidades relativas a cualquier otra distribución Normal con diferente μ y σ. Para ello, basta tipificar la variable, es decir, calcular el valor Z (unidades de desviación con respecto a la media) correspondiente a los valores x indicados mediante la operación:
Este valor Z que se deriva a partir de la variable Normal nos permite obtener en las tablas las probabilidades correspondientes a cualquier intervalo (véase Cuadro III.1).
CUADRO III.1. Usos de la distribución Normal EJEMPLO. La longitud del cuerpo de una especie de una determinada población se distribuye según una Normal de μ = 10,8 cm y σ = 3,7 cm. 1. Calcular la probabilidad de que un individuo tenga un tamaño mayor de 8,9 cm. Paso 1.1. Cálculo del valor Z
33
Capítulo III
CUADRO III.1. (Continuación) Paso 1.2. El paso siguiente es consultar la tabla de la distribución Normal N(0,1) (Tabla I del Apéndice II o Archivo Tabla 1.doc), que para un Z de 0,51 (se busca siempre el valor absoluto), el valor en la tabla es de 0,695. Paso 1.3. Se pueden dar cuatro situaciones: 1. El valor de x es menor que μ (en nuestro ejemplo 10,8 cm) y se pide la probabilidad de que sea superior a x. En este caso la probabilidad será el valor obtenido en la Tabla 1.doc. 2. El valor de x es menor que μ y se pide la probabilidad de que sea inferior a x. En este caso la probabilidad será 1 menos el valor obtenido en la Tabla 1.doc. 3. El valor de x es mayor que μ y se pide la probabilidad de que sea inferior que x. En este caso la probabilidad será el valor obtenido en la Tabla 1.doc. 4. El valor de x es mayor que μ y se pide la probabilidad de que sea superior que x. En este caso la probabilidad será 1 menos el valor obtenido en la Tabla 1.doc. En nuestro ejemplo, x (8,9) es menor que μ (10,8) y se pide la probabilidad de que sea superior a x. Por lo tanto, sería la situación 1 y la probabilidad de elegir un individuo al azar que tenga más de 8,9 cm de longitud será de 0,695. La probabilidad de que un individuo fuese menor de 8,9 cm sería: 1 – 0,695 = 0,305 2. Calcular la probabilidad de que un individuo tenga un tamaño entre 8,9 y 12,4 cm.
La probabilidad de que sea menor de 8,9 cm es 0,305
La probabilidad de que sea menor de 12,4 cm es 0,6664. Por lo tanto, la probabilidad de que un individuo tenga un tamaño entre 8,9 y 12,4 cm es 0,6664 – 0,305 = 0,3614. 3. Calcular la probabilidad de que un individuo tenga un tamaño entre 11,9 y 12,4 cm. La probabilidad de que sea menor de 11,9 cm es 0,6141.
34
Distribución
CUADRO III.1. (Continuación) La probabilidad de que sea menor de 12,4 cm es 0,6664. Por lo tanto, la probabilidad de que un individuo tenga un tamaño entre 11,9 y 12,4 cm es 0,6664 – 0,6141 = 0,0523. El programa STATISTICA permite realizar los cálculos que se han mostrado anteriormente. Para ello hay que entrar en «Statistics», luego en «Probability Calculator» y, por último, en «Distributions».
Nos aparecerá la siguiente ventana donde seleccionamos la distribución Normal «Z (Normal)».
35
Capítulo III
CUADRO III.1. (Continuación) En el ventana anterior hay que introducir la media («mean»), la desviación estándar («st.dev.») y el valor de X. Como ejemplo se muestra el caso del problema 1. En el caso del problema 3, primero se calcula la probabilidad de que sea menor de 11,9 cm, como se muestra en la siguiente ventana.
Luego se calcula la probabilidad de que sea menor de 12,4 cm.
El resultado, como se mostró anteriormente, sería la diferencia entre ambas probabilidades: 0,667286 – 0,61688 = 0,0504
36
Distribución
III.1.1.2. Asimetría Las medidas de asimetría tienen como finalidad el determinar si una variable se distribuye de forma simétrica con respecto a un valor central, o bien si la distribución de los datos tiene una forma diferente del lado derecho que del lado izquierdo. La distribución es simétrica si al lado derecho y al lado izquierdo del valor central la distribución de los datos es la misma. La distribución tiene asimetría positiva si las frecuencias más altas se encuentran en el lado izquierdo de la media, mientras que en el derecho hay frecuencias más pequeñas. La asimetría es negativa cuando las frecuencias más pequeñas están en el lado izquierdo (Figura III.2).
Figura III.2. Diferentes tipos de asimetrías.
Como valor central de referencia se suele usar la media aritmética, aunque también se puede utilizar la mediana. Existen muchas formas de medir la simetría y una de ellas es la fórmula que se muestra a continuación (coeficiente de asimetría), la cual utiliza como valor central la media aritmética (Cuadro III.2 y Archivo Cuadro III.2.xls):
Cuando el valor es cercano a cero la distribución es simétrica, la asimetría es positiva cuando el valor es mayor que cero y la asimetría es negativa cuando el valor es menor que cero.
37
Capítulo III
III.1.1.3. Apuntamiento o curtosis Las medidas de curtosis estudian la distribución de los datos en la zona central de la serie. La mayor o menor concentración de frecuencias alrededor de la media y en la zona central de la distribución dará lugar a una distribución más o menos apuntada. Por esta razón, a las medidas de curtosis se les llama también de apuntamiento o concentración central. Las medidas de curtosis se aplican a distribuciones cercanas a la normalidad, es decir, unimodales simétricas o con ligera asimetría. Al igual que ocurría con la asimetría, existen diversas formas de estimar la curtosis de una distribución de datos pero una de las más usadas es la que se muestra a continuación (Cuadro III.2 y Archivo Cuadro III.2.xls).
Cuando el valor es positivo se dice que la distribución está más apuntada que la Normal y se denomina leptocúrtica (Figura III.3). Cuando el valor es cero o cercano a cero, la distribución tiene el mismo apuntamiento que la distribución Normal y se le denomina mesocúrtica (Figura III.3). Por último, cuando el valor es negativo, el apuntamiento es menor que el de la distribución Normal y se le denomina platicúrtica (Figura III.3).
Figura III.3. Tipos de curtosis (barras) en comparación con la distribución Normal (línea continua).
38
Distribución
CUADRO III.2. Asimetría y curtosis Vamos a utilizar la misma serie de datos que en el Cuadro II.1 del Capítulo II. Estos cálculos se pueden realizar utilizando el programa STATISTICA, como se mostró en el Cuadro II.5 del Capítulo II.
1. Asimetría
2. Curtosis
III.1.2. t de Student Cuando una variable sigue una distribución Normal, la media de una muestra aleatoria de esa variable también tiene distribución Normal, y su media es la media poblacional desconocida μ. Esto puede ser utilizado para estimar μ. Sin embargo, a menudo no se conoce la desviación típica de la población σ (solo se trabaja con una muestra de individuos del total de la población) y, además, puede ocurrir que el número de observaciones de la muestra es pequeño (menor de 30). En estos casos, se puede utilizar la cuasidesviación típica de la muestra (s) junto con la distribución t de Student:
La función de densidad de probabilidad de la distribución t de Student viene dada por la siguiente expresión:
La distribución t de Student puede tener diferentes formas dependiendo de los grados de libertad (Figura III.4). La apariencia general de la distribución t es
39
Capítulo III
Figura III.4. Funciones de densidad de la distribución de Student para 1 ( ) y 10 ( ) grados de libertad.
similar a la de la distribución Normal estándar. Sin embargo, la distribución t tiene colas más amplias que la Normal, es decir, la probabilidad de las colas es mayor que en la distribución Normal. La distribución t se transforma en una distribución Normal cuando el número de datos tiende a infinito. Los valores críticos de distintos niveles de significación y distintos grados de libertad se muestran en la Tabla 2 del Apéndice o Archivo Tabla 2.doc. Las aplicaciones de la distribución t de Student en la inferencia estadística son: 1.
Para estimar intervalos de confianza para la media poblacional (Capítulo IV).
2. Estimar y probar hipótesis sobre una diferencia de medias (Capítulo VII). Las hipótesis o asunciones para poder aplicar la t de Student son que en cada grupo la variable estudiada siga una distribución Normal y que la dispersión en ambos grupos sea homogénea (hipótesis de homocedasticidad = igualdad de varianzas) aunque, como veremos en el Capítulo VII, este estadístico también se puede usar sin asumir igualdad de varianzas.
III.1.3. χ-cuadrado La función de densidad de la distribución χ-cuadrado (χ2) se describe por medio de la siguiente expresión:
donde
40
son los grados de libertad y x no es negativo.
Distribución
A diferencia de lo que ocurría con la distribución Normal, debido a que la distribución χ2 depende de los grados de libertad, no existe una curva típica sino que la distribución χ2 puede tener diferentes formas dependiendo de los grados de libertad (Figura III.5).
Figura III.5. Función de densidad de la distribución χ2 para 1 ( ), 5 ( ) y 10 ( ) grados de libertad.
El valor de la variable que deja a su derecha un área α bajo la curva de densidad se llama el punto crítico correspondiente al nivel de significación α y se representa por χ2. Están tabulados los puntos críticos de distintos niveles de significación y distintos grados de libertad (Tabla 3 de los Apéndices o Archivo Tabla 3.doc). Son tres las aplicaciones principales que tiene la distribución χ2: test de bondad de ajuste, test de independencia y test de homogeneidad. 1. El test de bondad de ajuste consiste en el planteamiento de hasta qué punto una muestra se puede considerar como perteneciente a una población con una distribución teórica ya conocida. Es un método que se utiliza frecuentemente para determinar si una serie de datos presenta una distribución Normal, de Poisson, etc. (véase Sección III.3 de este Capítulo). 2. El test de independencia determina si dos caracteres X e Y de una población son dependientes o independientes. Por ejemplo, queremos determinar si la supervivencia de los descendientes de las hembras de una población es independiente o dependiente de la cantidad diaria que reciben de alimento las hembras (véase Capítulo VI). 3. El test de homogeneidad permite determinar si varias muestras que estudian el mismo carácter A han sido tomadas o no de la misma población, respecto de dicha característica A. Por ejemplo, hemos seleccionado varios grupos de individuos de una población a los que hemos
41
Capítulo III
sometido a la misma dosis de diferentes metales y queremos determinar si los metales afectan de forma diferente a la supervivencia de los individuos (véase Capítulo VI).
III.1.4. F de Fisher-Snedecor La función de densidad de probabilidad de la distribución F de Fisher-Snedecor viene dada por la siguiente expresión:
donde y ϖ son grados de libertad, siendo x no negativo. Al depender de dos tipos de grados de libertad, la función de densidad puede tener muy diversas formas (Figura III.6).
Figura III.6. Funciones de densidad de la distribución F Fisher-Snedecor para distintos grados de libertad F(30,5) ( ) F(5,30) ( ).
Los valores críticos de la distribución F Fisher-Snedecor de distintos niveles de significación y distintos grados de libertad se muestran en la Tabla 4 de los Apéndices o en el Archivo Tabla 4.doc. Esta distribución se usa principalmente en dos tipos de situaciones, requiriéndose en ambos casos que la distribución de las variables sea Normal: 1. Para probar si dos muestras provienen de poblaciones que poseen varianzas iguales. Esta prueba es útil para determinar si una población Normal tiene una mayor variación que la otra (véase ejemplo de Cuadro
42
Distribución
IV.3 en el Capítulo IV) y es importante ya que, como veremos en el Capítulo VII, a la hora de comparar medias, varios estadísticos presentan como requisito la homogeneidad de varianzas. 2. También se aplica cuando se trata de comparar simultáneamente varias medias poblacionales (véase Capítulo VII).
III.2. Distribuciones para variables discretas III.2.1. Binomial Una variable presenta una distribución binomial cuando solo tiene dos posibles resultados: «éxito» y «fracaso», siendo la probabilidad de cada uno de ellos constante en una serie de repeticiones, es decir, ni la probabilidad de éxito ni la de fracaso cambian de una prueba a otra, y además el resultado de cada prueba es independiente del resultado de las demás pruebas. La probabilidad de éxito está representada por p y la probabilidad de fracaso se representa por q. Como se comentó al inicio de este capítulo, en el caso de las variables discretas en lugar de la función de densidad se utiliza la función de probabilidad o de cuantía, que da una probabilidad para cada valor de la variable. La función de probabilidad binomial viene expresada por la siguiente ecuación:
En el Cuadro III.3 se muestran aplicaciones de la distribución binomial.
CUADRO III.3. Aplicación de la distribución binomial EJEMPLO. La aplicación de un determinado tratamiento a un grupo de individuos que presentan un parásito produce una mejoría en un 67% de los casos. Si se aplica el tratamiento a 8 individuos: El valor de p = 0,67 y, por tanto, el valor de q es 0,33.
¿Cuál es la probabilidad de que mejoren 7 individuos?
43
Capítulo III
CUADRO III.3. (Continuación) ¿Cuál es la probabilidad de que al menos mejoren 3 individuos? La probabilidad de que al menos mejoren 3 individuos será 1 menos la probabilidad que mejoren 2 individuos menos la probabilidad de que mejore 1 individuo menos la probabilidad de que no mejore ninguno:
Probabilidad = 0,981
III.2.2. Hipergeométrica En la distribución hipergeométrica la variable también es aleatoria y dicotómica como la distribución binomial, pero se diferencia de esta última en dos características importantes: la población es finita, mientras que en la binomial era infinita y, además, las probabilidades cambian de una prueba a otra, ya que el resultado de cada prueba es dependiente del resultado de las demás pruebas. La función de probabilidad viene expresada por la siguiente ecuación:
donde Np y Nq son el número de elementos con probabilidad inicial p y q, respectivamente, N el número de elementos totales y n el número de elementos de la muestra extraída de los N totales. En el Cuadro III.4 se muestran aplicaciones de la distribución hipergeométrica.
44
Distribución
CUADRO III.4. Aplicación de la distribución hipergeométrica EJEMPLO. En un lote de 30 vacunas se ha comprobado que 8 están en mal estado. Ya se han utilizado 4 vacunas del lote. ¿Cuál es la probabilidad de que al menos una de las vacunas suministradas esté en malas condiciones? Se calcula la probabilidad de que ninguna de las vacunas suministradas esté en mal estado
Por lo tanto, la respuesta sería 1 – 0,267= 0,733 ¿Cuál es la probabilidad de que 3 de las vacunas suministradas estén en malas condiciones?
III.2.3. Poisson Un proceso de Poisson es un proceso de sucesos independientes que se caracteriza por: 1. El número de sucesos en dos intervalos distintos siempre es independiente. 2. La probabilidad de que un suceso ocurra en un intervalo infinitesimal es proporcional a la longitud del intervalo. 3. La probabilidad de que ocurra más de un suceso en un intervalo muy pequeño h es 0. 4. Los sucesos son expresados por unidad de área, tiempo, etc.
45
Capítulo III
La distribución de Poisson describe el número de sucesos en una unidad de tiempo de un proceso Poisson. Muchos fenómenos se modelan como un proceso de Poisson, por ejemplo los accidentes en una determinada zona de una carretera. Las diferencias más importantes con respecto a la distribución binomial son que esta distribución se aplica a sucesos que pueden tener una probabilidad muy baja y, además, el tamaño de n es infinito. En algunos casos la distribución de Poisson se utiliza como aproximación a la Binomial cuando n es muy grande y, por tanto, es difícil el cálculo de la Binomial y, además, cuando la probabilidad de alguno de los eventos es muy baja. La función de probabilidad de la distribución de Poisson se expresa por la siguiente ecuación:
donde λ es la media o promedio de sucesos por unidad de tiempo y x es la variable que indica el número de sucesos En el Cuadro III.5 se dan varios ejemplos de aplicación de la distribución de Poisson.
CUADRO III.5. Aplicación de la distribución de Poisson EJEMPLO. La abundancia de una especie es de 23 individuos 100 m2. Como se trata de sucesos por unidad de área se utiliza una Poisson. ¿Cuál es la probabilidad de no encontrar ningún individuo en 25 m2?
La probabilidad que buscamos será:
EJEMPLO. El número de tiburones blancos avistados fue de 120 en 30 días. Como se trata de sucesos por unidad de tiempo y suponemos que son independientes, se utiliza una Poisson. ¿Cuál es la probabilidad de ver solo 5 tiburones en 10 días?
La probabilidad que buscamos será:
46
Distribución
III.3. Métodos para determinar el tipo de distribución Para determinar si las variables se ajustan a alguna de las distribuciones de las que se han descrito anteriormente es necesario cuantificar si los resultados obtenidos se ajustan a ese modelo o las diferencias son debidas al azar. Los contrastes estadísticos utilizados con este fin se denominan pruebas de bondad de ajuste. Existen distintas pruebas de bondad de ajuste que se utilizan en función del tipo de datos y la distribución teórica esperada. Una clasificación de los ajustes más empleados es: 1. Muestras categorizadas (distribuciones tanto para variables continuas como discretas). a . χ 2. b. Test G. 2. Muestras no categorizadas (distribuciones continuas). a. Para todas distribuciones. Prueba Kolmogorov-Smirnov (test K-S). b. Distribución Normal. Contraste de normalidad Shapiro-Wilk.
III.3.1. χ-cuadrado Se puede aplicar tanto a distribuciones continuas (con los datos previamente agrupados en clases) como a distribuciones discretas. Se basa en cuantificar la diferencia entre las frecuencias observadas en cada clase y las esperadas, partiendo de la hipótesis nula de que los datos se ajustan a una distribución f(x) (que puede ser Normal, Poisson, etc). Para su estimación, en las n clases existentes, se contabiliza el número de casos observados (Oi) y, a través de la función teórica que se desea testar, se calcula el número de casos esperados (Ei). A partir de estos valores se calcula el valor del estadístico χ2, con la siguiente fórmula:
Se aconseja que si el número de casos esperados dentro de una clase es menor de 5 se combinen varias clases en una, hasta conseguir que todas tengan una frecuencia esperada mayor o igual a 5. No se debe utilizar cuando hay pocos datos. A continuación se deben calcular los grados de libertad ( ) de la muestra. Si los valores esperados se pueden calcular de forma previa al muestreo, el número de es n-1. Sin embargo, si para calcular los valores esperados es necesario estimar algunos parámetros mediante estadísticos obtenidos en el muestreo (como, por
47
Capítulo III
ejemplo, μ o σ para una distribución Normal) el número de es n-r-1 donde r es el número de estadísticos necesarios para calcular el valor esperado. Una vez determinados χ2 y , se busca en la tabla χ2 (Tabla 3 en el Apéndice o Archivo Tabla 3.doc) el valor crítico para esos y para el nivel de significación elegido (generalmente α = 0,05). Si el χ2 crítico es mayor que χ2 calculado se acepta la hipótesis nula de que los datos observados se ajustan a la distribución esperada, mientras que si χ2 crítico es menor que χ2 calculado la hipótesis se rechaza. En el Cuadro III.6 se muestra cómo realizar este test con el programa STATISTICA.
CUADRO III.6. Ajuste de distribuciones con el test
χ2
EJEMPLO. Se ha estimado la abundancia por m2 de caracoles en la ladera de un monte y se desea conocer si su distribución es aleatoria, es decir, si se corresponde a una distribución de Poisson (datos en el archivo Cuadro III.6.sta). Paso 1. Dentro del menú «Statistics» del programa STATISTICA se selecciona el comando «Distribution Fitting».
Paso 2. Nos aparece la ventana que se muestra a continuación donde tenemos que elegir el tipo de distribución a la que creemos se ajustan nuestros datos.
48
Distribución
CUADRO III.6. (Continuación) Paso 3. Pulsando «OK» en la ventana anterior aparece la siguiente ventana en la que se distingue una parte común y tres pestañas diferentes. En el bloque común se debe indicar la variable a analizar pulsando sobre la pestaña «Variable».
Paso 4. En la pestaña «Options», activada en el cuadro anterior, se seleccionan en la parte izquierda los contrastes que queremos efectuar. En primer lugar, debemos indicar si queremos realizar un test KolmogorovSmirnov a los datos (este test se utiliza también para variables continuas que se categorizan «Yes (categorized)»). En nuestro caso es una variable continua no categorizada «Yes (continuous)». Paso 5. En la sección inferior izquierda de la pestaña «Options» debemos marcar «Combine Categories», para que al realizar el test χ2 nos combine las categorías con frecuencias inferiores a 5. Paso 6. En la parte derecha de la pestaña «Options» marcamos «Frequency distribution» (ya que queremos un gráfico con las frecuencias de cada categoría y no la frecuencia acumulada) y «Raw frequencies» (queremos que las frecuencias aparezcan con su valor de observaciones y no como el porcentaje que representa de la muestra). Paso 7. Activamos la pestaña «Parameters», donde se puede modificar el número de categorías y el límite superior e inferior de las mismas, con respecto a lo que hace el programa por defecto. En nuestro caso no se modifica.
49
Capítulo III
CUADRO III.6. (Continuación)
Paso 8. Pulsamos sobre «Summary» para que el programa realice el cálculo de los estadísticos y los gráficos. Nos aparecerá la siguiente ventana, la cual también se puede obtener en la ventana que se mencionó en el paso 7 pulsando el icono «Quick» y luego «Summary: Observed and expected distribution».
En la tabla aparece en cada fila una categoría en la que se muestra parámetros como frecuencia observada, frecuencia acumulada, porcentaje acumulado, etc. En la parte superior aparece el valor del test χ 2 y el del test Kolmogorov-Smirnov. Como podemos observar para nuestros datos, el valor χ 2 de la muestra es 15,84 con 4 grados de libertad. En lugar de indicarnos el valor χ 2 de contraste, el programa nos indica la probabilidad de que sea una distribución aleatoria. Como p < 0,05 (valor de contraste inferior al valor calculado para α = 0,05), se rechaza la hipótesis de que la abundancia de caracoles se ajusta a una distribución aleatoria. El test de Kolmogorov-Smirnov corrobora lo antes mencionado ya que la probabilidad es < 0,05.
50
Distribución
CUADRO III.6. (Continuación) Paso 9. Activamos la ventana «Quick» para poder acceder a las gráficas. Pulsando en la pestaña «Plot of observed and expected distribution» aparece el gráfico que se muestra a continuación.
III.3.2. Test G (razón de verosimilitud) Este test es muy similar al test χ2 ya que se usa también para cuantificar diferencias entre valores esperados y observados con la hipótesis nula de que nuestra distribución de datos se ajusta a una distribución ya conocida. Además, los grados de libertad se calculan del mismo modo y el valor de contraste del test se obtiene a partir de la tabla χ2. Se recomienda la utilización del test G cuando las diferencias entre frecuencias observadas y esperadas son superiores a las frecuencias esperadas (Williams 1976) y, al igual que el test χ2, no se debe utilizar cuando hay pocos datos. La fórmula que se aplica es:
51
Capítulo III
Del mismo modo que en el test anterior, se busca en la tabla χ2 (Tabla 3 en el Apéndice o Tabla 3.doc) el valor crítico con los y el nivel de significación determinados y si χ2 critico es mayor que G se acepta la hipótesis nula de que los datos se ajustan a la distribución esperada. Debido a que el ajuste a una distribución χ2 del estadístico G no es exacto, el valor obtenido se corrige mediante la corrección de Williams (1976). La fórmula de la corrección es:
donde n es el número de datos y a las categorías en las que están clasificados. Véase ejemplo en Cuadro III.7 para la utilización de este test.
CUADRO III.7. Ajuste de una muestra a una distribución con el test G EJEMPLO. Utilizaremos el mismo ejemplo que el Cuadro III.6, aunque en este caso calcularemos el estadístico a mano. La tabla de datos es: Valores muestrales 3 4 5 1 3 5
4 5 5 6 5 6
4 4 1 2 5 5
1 5 4 2 4 3
2 5 6 3 0 4
1 3 5 3 4 5
6 5 6 4 5 5
2 5 5 4 4 1
2 0 3 1 5 4
3 4 4 2 5 6
Paso 1. Cálculo de los valores esperados. Lo primero es ordenar los datos en categorías:
52
Clase
Frecuencias observadas
0 1 2 3 4 5 6
2 6 6 8 14 18 6
Distribución
CUADRO III.7. (Continuación) Paso 2. Los valores esperados se calculan a partir de la fórmula de Poisson, tal y como se indica en el apartado III.2.3.
Clase
Frecuencias observadas
Frecuencias esperadas
0 1 2 3 4 5 >5
2 6 6 8 14 18 6
1,4 5,4 10,0 12,4 11,6 8,7 10,5
Paso 3. Calcular el estadístico de contraste. En primer lugar se deben agrupar las categorías observadas, de tal forma que el número de datos de cada clase sea mayor de 5. En nuestro caso, tendremos que agrupar las clases 0 y 1 en una clase denominada menor de 2.
Clase
Frecuencias observadas
Frecuencias esperadas
<2 2 3 4 5 >5
8 6 8 14 18 6
6,8 10,0 12,4 11,6 8,7 10,5
Con esta tabla de datos el estadístico G será:
y aplicando la corrección de Williams (con a = 6 categorías y n = 60 datos):
53
Capítulo III
CUADRO III.7. (Continuación) Paso 4. Para aceptar o no la hipótesis nula primero se debe calcular el valor χ 2 crítico de contraste, para lo que necesitamos los grados de libertad:
= n-r-1 =6 (clases)- 1 (lambda para estimar el valor esperado)- 1= 4 Para 4 grados de libertad y α = 0,05 el valor crítico de contraste es 9,488 (véase Tabla 3 del Apéndice o Tabla 3.doc). Paso 5. Como el valor crítico de contraste es menor que G se rechaza la hipótesis nula, por lo que se descarta, como hizo anteriormente en el test χ2, que los datos presenten una distribución aleatoria.
III.3.3. Test de Kolmogorov-Smirnov Se puede usar tanto para muestras grandes como pequeñas. Es un test muy conservador que se aplica a variables continuas. Se basa en la determinación de la máxima diferencia (D) entre las frecuencias acumuladas observadas (AOi) y las frecuencias acumuladas esperadas (AEi), partiendo de la hipótesis nula de que los datos se ajustan a una distribución determinada. La fórmula del test es:
Este test fue recalculado por Lilliefors (test K-S-L) para una distribución Normal estudiando las frecuencias esperadas a partir de la media y varianza de la muestra, aunque su aplicación es limitada cuando existen pocos datos (son necesarias 100 observaciones para distinguir entre una Normal con μ = 0 y σ2 = 1 de una distribución uniforme entre − 3 y
3 ).
Una vez calculado el estadístico D se contrasta con un valor D crítico para el nivel de significación elegido que aparece en la Tabla 5 del Apéndice o Archivo Tabla 5.doc (para el test K-S) y en la Tabla 6 del Apéndice o Archivo Tabla 6.doc (para el test K-S-L). La hipótesis nula se acepta cuando D observado es inferior al valor de D tabulado. En el Cuadro III.8 se indica cómo realizar este análisis con el programa STATISTICA.
54
Distribución
CUADRO III.8. Test de Kolmogorov-Smirnov EJEMPLO: Se han medido los tamaños de las larvas de peces recogidas en el interior de una laguna y queremos conocer si la distribución de estos tamaños es Normal (datos en la variable «Continuos» del archivo Cuadro III.8.sta). Paso1. Se procede del mismo modo que el explicado en el test χ2 (Cuadro III.6), pero seleccionando la distribución Normal. La tabla de resultado y el gráfico se muestran a continuación:
Paso 2. Como podemos ver el test K-S no es significativo (p = n.s.), aceptando la hipótesis nula de que los datos presentan una distribución Normal. Al haber ajustado a una distribución Normal, se nos indica la probabilidad de la corrección de Lilliefors, la cual al no ser significativa no nos indica su probabilidad exacta. También aparece el valor de χ2 para 5 grados de libertad, que coincide con el test K-S aceptando la hipótesis nula (p > 0,05).
55
Capítulo III
III.3.4. Contraste de normalidad de Shapiro-Wilk Es la prueba más recomendable para testar la normalidad de una muestra, sobre todo si se trabaja con un número pequeño de datos (n < 30). Se basa en medir el ajuste de los datos a una recta probabilística Normal (Figura III.7). Si el ajuste fuera perfecto los puntos formarían una recta de 45º (frecuencia observada igual a frecuencia esperada). El estadístico de contraste se expresa por medio de la siguiente ecuación:
donde n es el número de datos, xj es el dato en orden ascendente de muestra que ocupa el lugar j, μ es la media, h es n/2 si n es par o (n-1)/2 si n es impar y aj,n es un valor tabulado.
Figura III.7. Representación de las frecuencias esperadas y observadas de una muestra junto con la línea de ajuste perfecto a una distribución Normal.
Una vez calculado el estadístico W se contrasta con un valor W crítico para el nivel de significación elegido. Como este estadístico mide el ajuste a una recta y no la distancia a la distribución Normal (como era en los casos anteriores), la hipótesis nula se acepta cuando el valor W es superior al valor de contraste tabulado (valor de ajuste muy alto). En el Cuadro III.9 se indica cómo realizar este análisis con el programa STATISTICA.
56
Distribución
CUADRO III.9. Test de Normalidad de Shapiro-Wilk EJEMPLO: Se emplearán los mismos datos de tamaño de larvas utilizados para el test de Kolmogorov-Smirnov (datos en la variable «Continuos» del archivo Cuadro III.8.sta). Paso 1. Dentro del menú «Statistics» se selecciona el comando «Basic Statistic/Tables», donde elegimos «Descriptive statistics». Nos aparece una ventana en la que existen distintas pestañas entre las que elegimos «Normality».
Paso 2. Selección de las características del análisis. En la parte común de la ventana debemos seleccionar la variable que queremos analizar (en nuestro caso «Continuos»). Dentro del cuadro de diálogo «Normality» debemos seleccionar el número de intervalos que deseamos (que tendrá interés únicamente a nivel gráfico), así como, si queremos que nos indique las frecuencias esperadas y que el programa calcule el test Kolmogorov-Smirnov y el de Shapiro-Wilk. Paso 3. Una vez seleccionadas las opciones pulsamos sobre la pestaña «Summary» para que el programa calcule los estadísticos. Paso 4. Aceptación o rechazo de la hipótesis nula. Pulsando sobre las pestañas «Frecuency tables» y/o «Histograms» dentro del cuadro de diálogo «Normality» se obtienen los resultados de los test que se muestran a continuación.
57
Capítulo III
CUADRO III.9. (Continuación)
Paso 5. Como puede comprobarse, el test K-S y Lilliefors tienen el mismo resultado que en el caso anterior (Cuadro III.8, test de KolmogorovSmirnov), por tanto, no rechazamos la hipótesis nula. Para el caso del test Shapiro-Wilk como p > 0,05, también se acepta la hipótesis de que el tamaño de las larvas se ajusta a una distribución Normal. Como podemos comprobar a pesar de que el gráfico obtenido en el Cuadro III.8 es distinto al gráfico del Cuadro III.9 (simplemente porque el número de categorías empleado en cada caso es diferente), los estadísticos son iguales, ya que la Normal es una función continua y la categorización es únicamente para efectos gráficos.
58
IV
Intervalos de confianza
INTERVALOS DE CONFIANZA
En capítulos anteriores se ha descrito la forma de estimar determinados parámetros que nos permiten tener información sobre las variables que estamos estudiando, como por ejemplo los distintos tipos de media, varianza, desviación típica, etc. En la mayoría de los casos estos parámetros se estiman a partir de los datos de una muestra, y no del conjunto total de la población. Para poder tener una media del grado de fiabilidad de la estimación es necesario calcular el intervalo de confianza. El intervalo de confianza de un parámetro al nivel 1 - α es aquel que cumple la propiedad de que la probabilidad de que sus extremos tomen valores tales que el parámetro esté comprendido entre ellos es igual a 1 - α (Viedma 1989). Los extremos del intervalo de confianza de un parámetro se denominan límites de confianza.
IV.1. Intervalo de confianza de la media de una población Normal En el Apartado II.3 del Capítulo II se explicó cómo calcular el intervalo de confianza de la media con el programa STATISTICA. Cuando el tamaño de la muestra tiende a infinito, la t de Student tiende a una distribución Normal estándar. Por ello la mayoría de las tablas de la distribución t tienen solamente los valores correspondientes a un número de grados de libertad entre 1 y 30; cuando es mayor se utiliza directamente la tabla de la Normal como aproximación, ya que las diferencias que se obtienen son muy pequeñas. Los programas estadísticos no necesitan utilizar esta aproximación Normal, ya que pueden calcular el valor exacto de t cualquiera que sea el número de grados de libertad. Las diferencias que se pueden observar entre los intervalos que se obtienen con el programa STATISTICA y la metodología que se explica a continuación se deben por lo tanto a que, el programa no tiene en cuenta si el número de datos es pequeño (<30) o grande (' 30) ya que siempre trabaja con la distribución t de Student y nunca utiliza la aproximación Normal.
59
Capítulo IV
IV.1.1. Desviación típica conocida En el supuesto que se conozca la desviación típica de toda la población, el intervalo de confianza de la media al nivel de confianza 1- α (
) se calcula por
medio del intervalo estimador siguiente:
Los valores críticos que se utilizan son los de la curva Normal estándar (Tabla 1 del Apéndice o Archivo Tabla 1.doc). En el Cuadro IV.1 se da un ejemplo de cómo determinar ese tipo de intervalo de confianza.
IV.1.2. Desviación típica desconocida Lo más frecuente es que estemos trabajando con unos cuantos elementos del total que forman la población. Esto quiere decir que no conocemos la desviación típica del conjunto de toda la población. En este tipo de situación, el intervalo de confianza se calcula de dos formas diferentes dependiendo del tamaño de la muestra.
IV.1.2.1. Tamaño de muestra grande (' 30) Si el tamaño de la muestra es grande se usa la misma expresión descrita anteriormente, pero con la diferencia de que se utiliza la cuasidesviación típica (s) en vez de la desviación típica (σ).
Los valores críticos que se utilizan son también los correspondientes a la curva Normal estándar (Tabla 1 del Apéndice o Archivo Tabla 1.doc). En el Cuadro IV.1 se da un ejemplo de cómo determinar ese tipo de intervalo de confianza.
IV.1.2.2. Tamaño de muestra pequeño (< 30) Si el tamaño de la muestra es pequeño, en vez de utilizar la distribución Normal y, por tanto, el estadístico Z, lo que se utiliza es la distribución t de
60
Intervalos de confianza
Student con n-1 grados de libertad. El intervalo de confianza de la media al nivel de confianza 1- α (
) es:
Se utilizan los valores críticos de la distribución t de Student, que se pueden ver en la Tabla 2 del Apéndice o Archivo Tabla 2.doc. En el Cuadro IV.1 se da un ejemplo de cómo determinar ese tipo de intervalo de confianza.
IV.2. Intervalo de confianza de la diferencia de medias de dos poblaciones Normales En el Capítulo VII compararemos medias de distintas poblaciones. En este tipo de situaciones también es importante estimar el intervalo de confianza de la diferencia entre las medias. En este Capítulo VII apartado VII.1.3, cuando se explique cómo comparar dos medias con el test t usando el programa SPSS, se explicará también cómo calcular el intervalo de confianza en el caso de que las variables sean independientes (Cuadro VII.1) y dependientes (Cuadro VII.2). Por lo tanto, el ejemplo de cómo calcular el intervalo de confianza de la diferencia de medias lo daremos en el Capítulo VII.
IV.2.1. Varianzas conocidas El intervalo de confianza de μ1 - μ2 al nivel de confianza 1 - α (
) se calcula
por medio de la siguiente expresión:
Los valores críticos que se utilizan son los correspondientes a la curva Normal estándar (Tabla 1 del Apéndice o Archivo Tabla 1.doc).
IV.2.2. Varianzas desconocidas En el supuesto de que se quieran comparar dos medias, en las que las variables son independientes, con distribución Normal, pero se desconocen la varianzas
61
Capítulo IV
de la población, en este caso tenemos que aplicar otras expresiones que son diferentes dependiendo del tamaño de la muestra.
IV.2.2.1. Tamaño de muestra grande (' 30) Para muestras grandes el intervalo de confianza de μ1 - μ2 al nivel de confianza 1-α(
) se calcula por medio de la siguiente expresión:
Como vemos, la única diferencia con respecto a la situación en la que se conocían las varianzas, es que se usa la cuasivarianza en vez de la varianza.
CUADRO IV.1. Intervalo de confianza de la media de una población Normal EJEMPLO. Desviación típica conocida. Vamos a utilizar la misma serie de datos que en el Cuadro II.1 del Capítulo II (Cuadro II.1.xls) suponiendo que esa serie de datos representa el conjunto de la población. Se pretende calcular el intervalo de confianza al 95% de la media de esta serie de datos. La media aritmética muestral y la desviación típica poblacional son 29,3 y 5,25, respectivamente. En punto crítico de
, considerando un α = 0,05, es decir
y,
por tanto, p = 0,975, lo consultamos en la Tabla 1 del Apéndice (Tabla 1.doc). El valor de Z para este valor de p = 0,975 es de 1,96. Por lo tanto, el intervalo de confianza al 95% es:
EJEMPLO. Desviación típica desconocida para n ' 30. Supongamos que la concentración media en sangre de progesterona en un grupo de 42 mujeres es de 22,6 ng ml-1 y la cuasidesviación típica muestral es de 1,2 ng ml-1 ¿Cuál será el intervalo de confianza de la media al 98%?
62
Intervalos de confianza
CUADRO IV.1. (Continuación) Para un α = 0,02, es decir
y, por tanto p = 0,99,
es
aproximadamente igual a 2,33 (véase Tabla 1.doc) Por tanto el intervalo de confianza de la media al 98% es:
EJEMPLO. Desviación típica desconocida para n < 30. Supongamos que hemos calculado la estatura media de un grupo de 15 personas entre 20 y 25 años. La media fue 167 cm, y la cuasidesviación típica 4,6 cm. Se quiere saber el intervalo de confianza al 98% de la media. En punto crítico de
considerando un α = 0,02, es decir ,
, es
2,624, lo consultamos en la Tabla 2 del Apéndice (Tabla 2.doc).
El intervalo de confianza al 98% es:
Los valores críticos que se utilizan son los correspondientes a la curva Normal estándar (Tabla 1 del Apéndice o Archivo Tabla 1.doc).
IV.2.2.2. Tamaño de muestra pequeño (< 30) Cuando el tamaño de la muestra es pequeño se pueden dar dos situaciones, dependiendo de si las varianzas son iguales o diferentes.
IV.2.2.2.1. Varianzas iguales Suponiendo que desconocemos las varianzas, pero sabemos que no existen diferencias significativas entre ellas, en este caso se utiliza la distribución t de Student y el intervalo de confianza de μ1 - μ2 al nivel de confianza 1 - α (
) se
calcula por medio de la siguiente expresión:
63
Capítulo IV
Se utilizan los valores críticos de la distribución t de Student que se pueden ver en la Tabla 2 del Apéndice o Archivo Tabla 2.doc.
IV.2.2.2.2. Varianzas diferentes En aquellos casos en los que se desconocen las varianzas y, además, existen diferencias significativas entre ellas, simplemente, no se sabe si las varianzas son iguales o no, el intervalo de confianza de μ1 - μ2 al nivel de confianza 1 - α (
) se calcula de la siguiente forma:
donde f son los grados de libertad y se denomina aproximación de Welch, que se calcula del siguiente modo, tomando f el valor del entero más próximo:
Se utilizan los valores críticos de la distribución t de Student que se pueden ver en la Tabla 2 del Apéndice o Archivo Tabla 2.doc.
IV.3. Intervalo de confianza de la varianza y desviación típica de una población Normal A veces es importante estudiar la mayor o menor concentración de valores alrededor de la media. Por ejemplo, cuando se estudia el tiempo que permanece un individuo inmune después de suministrarle una vacuna, no solo es importante conocer la duración media, sino también que la variabilidad de la duración del efecto no sea muy grande de unos individuos a otros. Para ello se puede estimar la varianza o la desviación típica mediante un intervalo de confianza.
64
Intervalos de confianza
El intervalo de la varianza al nivel de confianza 1- α (
) se calcula por medio
del intervalo estimador siguiente:
El intervalo de confianza de la desviación típica al nivel de confianza 1- α (
)
se estima por medio del intervalo estimador siguiente:
Se utilizan los valores críticos de la distribución 32 que se pueden ver en la Tabla 3 del Apéndice o Archivo Tabla 3.doc. En el Cuadro IV.2 se da un ejemplo de cómo determinar ese tipo de intervalo de confianza.
CUADRO IV.2. Intervalo de confianza de la varianza y desviación típica EJEMPLO. En la tabla siguiente se muestra el tiempo (en meses) que permanecen inmunes un grupo de mujeres y hombres después de que se les suministra una vacuna. Se quiere saber el intervalo de confianza al 95% de la desviación típica de las mujeres. H 33 25,1 22,4 37,1 22,3 24 35,6 36,1 26,2 27 28,1 M 39 36,5 22,3 39,1 36,9 23 24,1 33,4 26,1 32 25,7 26
34,6
Intervalo de confianza de la desviación típica de las mujeres En la Tabla 3 del Apéndice o Archivo Tabla 3.doc se observa el valor de:
Por lo tanto, el intervalo de confianza al 95% de la desviación típica de las mujeres será:
65
Capítulo IV
IV.4. Intervalo de confianza de la razón de varianzas de dos poblaciones Normales Determinar el intervalo de confianza de la razón de varianzas es importante, por ejemplo cuando queremos comparar la variabilidad de dos métodos a la hora de realizar un análisis bioquímico o la variabilidad de dos tipos de aparatos que nos dan el mismo tipo de medida. La comparación de varianzas entre variables también es importante porque uno de los requisitos de los test paramétricos (véase Capítulo VII) es que exista homogeneidad de varianzas entre las variables que se comparan. El intervalo de la razón de las varianzas al nivel de confianza 1- α (
) se
calcula de la siguiente forma:
El intervalo de la razón de las desviaciones típicas al nivel de confianza 1- α (
) se calcula de la siguiente forma:
Se utilizan los valores críticos de la distribución F, que se pueden ver en la Tabla 4 del Apéndice o Archivo Tabla 4.doc. En el Cuadro IV.3 se da un ejemplo de cómo determinar este tipo de intervalo de confianza para contrastar la homogeneidad de varianzas. En el Cuadro IV.4 se explica cómo hacer lo mismo, es decir, determinar la homogeneidad de varianzas o desviaciones típicas entre variables, pero utilizando un procedimiento distinto, el test de Levene y el test Brown, con el programa STATISTICA.
66
Intervalos de confianza
CUADRO IV.3. Intervalo de confianza de la razón de varianzas de poblaciones Normales EJEMPLO. Utilizando el mismo ejemplo del Cuadro IV.2 se quiere determinar si la variabilidad observada en hombres es igual a la observada en mujeres.
Intervalo de confianza de la razón de las desviaciones típicas entre hombre y mujeres
En la Tabla 4 del Apéndice o Archivo Tabla 4.doc se observa el valor de:
Por lo tanto, el intervalo de confianza al 95% de la razón de las desviaciones típicas será:
Como el intervalo incluye el valor 1, que corresponde a dos desviaciones típicas iguales, podemos concluir que no hay diferencias significativas (con el nivel de confianza 95%) entre las desviaciones típicas entre hombres y mujeres, es decir, la variabilidad en el tiempo que permanecen inmunes es la misma en hombres que en mujeres.
CUADRO IV.4. Homogeneidad de varianzas entre poblaciones Normales EJEMPLO. Utilizando el mismo ejemplo del Cuadro IV.2 se quiere determinar si la variabilidad observada en hombres es igual a la observada en mujeres. Paso 1. En el programa STATISTICA se entra en «Statistics» y luego en «Basic Statistics/Tables»
67
Capítulo IV
CUADRO IV.4. (Continuación)
Paso 2. Nos aparece la siguiente ventana donde podemos entrar por dos sitios diferentes dependiendo de cómo tengamos organizados los datos. Si los tenemos organizados como se ve en la ventana anterior, es decir, las dos variables en dos columnas, entonces entramos en «t-test, independent, by variables» como se muestra en la ventana siguiente. Si los datos están organizados de tal forma que ambas variables están en una columna y en una segunda hay un código que las identifica, entonces se entraría en «ttest, independent, by groups».
68
Intervalos de confianza
CUADRO IV.4. (Continuación) Paso 3. En la ventana siguiente entramos en «Variables (groups)» para especificar las variables.
Paso 4. En la ventana que nos sale especificamos las variables que se van a comparar.
Paso 5. Por último, en la pestaña «Options» marcamos en «Levene´s test» y en «Brown & Forsythe test» y le damos a «Summary»
69
Capítulo IV
CUADRO IV.4. (Continuación) Paso 6. El resultado que nos sale muestra que tanto la probabilidad del Levene test (p = 0,393) como la del test Brown & Forsythe (p = 0,442) es mayor de 0,05, por lo tanto, se acepta la hipótesis nula de que no existen diferencias significativas entre las varianzas de hombres y mujeres, es decir, que existe homogeneidad de varianzas.
70
V
Contraste de hipótesis
CONTRASTE DE HIPÓTESIS
Uno de los aspectos más importantes en cualquier tratamiento de datos es el contraste de hipótesis, que comenzaremos a emplear en los capítulos siguientes. El contraste de hipótesis se define como el procedimiento estadístico que permite determinar la verdad o falsedad de una afirmación acerca de uno o más parámetros. Por ejemplo, cuando nos planteamos si existen diferencias entre las medias de dos variables, tenemos que proponer una hipótesis de partida y, por medio del método estadístico más apropiado, concluir en términos probabilísticos, si la hipótesis inicial se acepta o se rechaza. En este capítulo vamos a dar una serie de nociones básicas sobre el contraste de hipótesis necesarias para entender los planteamientos de problemas basados en el contraste que veremos en los capítulos que vienen a continuación.
V.1.Tipos de hipótesis Como se mencionó anteriormente, la base de los planteamientos de contraste es formular una hipótesis y determinar si es verdadera o falsa. Existen dos tipos de hipótesis: 1. La hipótesis nula (H0). Es la hipótesis básica que se formula y se quiere contrastar y, por tanto, es la hipótesis que se acepta o se rechaza. 2. La hipótesis alternativa (Ha). Es distinta de H0 e incompatible con ella. Puede haber varias hipótesis alternativas, y se elige la más adecuada a partir de la información disponible.
V.2. Estadístico de contraste Una vez planteada la hipótesis tenemos que elegir el estadístico de contraste más apropiado, el cual es una variable aleatoria que seguirá una función de probabilidad y para cada muestra de datos tomará un determinado valor, que al compararlo con los valores críticos de esa función de probabilidad, nos permitirá aceptar o rechazar la hipótesis nula.
71
Capítulo V
V.3. Tipos de errores Existen dos tipos de errores: 1. El error tipo I es el que cometemos cuando rechazamos la hipótesis nula siendo verdadera. Su probabilidad se representa generalmente por α y se conoce como nivel de significación. El valor máximo que se le suele dar a α es 0,05, lo cual significa que rechazamos un 5% de las veces la hipótesis nula siendo cierta. Se puede fijar un valor de α más bajo, como por ejemplo 0,001 ó 0,005, pero el problema es que aumentamos la probabilidad de cometer el siguiente tipo de error. 2. El error tipo II es el que cometemos cuando aceptamos la hipótesis nula siendo falsa. Su probabilidad se representa por β. Este error se tiene en cuenta determinando el tamaño de muestra necesario para garantizar el valor de β prefijado. En el supuesto de que no se tenga en cuenta el tamaño de muestra necesario y, por tanto, se omita el error de tipo II, entonces el procedimiento se suele denominar «contraste de significación», ya que solo tiene en cuenta el error de tipo I. El error de tipo II no se suele tener en cuenta porque, normalmente, se desconoce la información necesaria para ello.
V.4. Regiones críticas y de aceptación El error de tipo I (probabilidad α) nos define la región de valores del estadístico que se denomina región crítica (Figura V.1). Cuando el valor del estadístico de contraste que hemos utilizado está dentro de la región crítica se rechaza la hipótesis nula.
Figura V.1. Representación de las regiones de aceptación y crítica en la función de probabilidad de un estadístico de contraste.
72
Contraste de hipótesis
La región complementaria recibe el nombre de región de aceptación (Figura V.1). Cuando el valor del estadístico de contraste que hemos utilizado está dentro de la región de aceptación, lo que ocurrirá con probabilidad 1- α si H0 es cierta, se acepta la hipótesis nula. Para establecer correctamente la región crítica es necesario tener en cuenta la hipótesis alternativa, y el tipo de comparación que se realiza: 1. En el contraste bilateral, la hipótesis nula es que un determinado parámetro tiene un valor específico, mientras que en la hipótesis alternativa el valor del parámetro es distinto. Por ejemplo, H0: μ = μ1, frente a Ha: μ ≠ μ1. En este caso la región crítica estaría formada por las dos colas. 2. En el contraste unilateral, la hipótesis nula es que un determinado parámetro tiene un valor específico H0: μ = μ1, frente a la hipótesis alternativa de que es mayor Ha: μ > μ1 (la región crítica es la cola de la derecha) o que es menor Ha: μ < μ1 (la región crítica es la cola de la izquierda).
V.5. Tipos de contrastes La mayoría de los contrastes de hipótesis pueden agruparse en alguno de los siguientes tipos: 1. El contraste de bondad de ajuste consiste en el planteamiento de hasta qué punto una muestra se puede considerar como perteneciente a una población con una distribución teórica ya conocida. Es un método que se utiliza frecuentemente para determinar si una serie de datos presenta una distribución Normal, de Poisson, etc. (véase Sección III.3 de Capítulo III). 2. El contraste de independencia o asociación determina si dos caracteres X e Y de una población son dependientes o independientes (véase Capítulos VI y VII). Por ejemplo, queremos determinar si la presencia de pesticidas en las personas tiene alguna relación con la zona geográfica. 3. El contraste de homogeneidad permite determinar si varias muestras tomadas de la misma población o de poblaciones diferentes se diferencian en un determinado carácter A (ver Capítulos VI y VII). Por ejemplo, hemos seleccionado varios grupos de individuos de una población a los que hemos sometido a la misma dosis de diferentes metales y queremos determinar si los metales afectan de forma diferente a la supervivencia de los individuos.
73
CapĂtulo V
74
Contraste de hipótesis en variables cualitativas
VI
CONTRASTE DE HIPÓTESIS EN VARIABLES CUALITATIVAS
En este capítulo vamos a desarrollar los tratamientos estadísticos que sirven para trabajar con variables cualitativas que, como se describió en detalle al inicio del Capítulo III, son aquellas que no se expresan numéricamente y pueden ser de dos tipos: nominales y ordinales. Con las variables cualitativas se pueden realizar los 3 tipos de contrastes que vimos en el Capítulo V (Apartado V.5) y se mencionan a continuación, los cuales también se pueden hacer con las variables cuantitativas, aunque como veremos en el Capítulo VII es necesario utilizar otras pruebas estadísticas. 1. Comprobar que las frecuencias de una variable determinada se ajustan a unas frecuencias teóricas esperadas. Este tipo de contraste se denomina bondad de ajuste. 2. Comprobar que dos muestras pertenezcan a una misma población o de que dos muestras pertenecientes a una misma población no hayan sufrido alteraciones. Este tipo de análisis se denomina «pruebas de homogeneidad de muestras». 3. Determinar si dos variables en categorías estén asociadas entre sí o sean independientes. Este tipo de contraste se denomina prueba de independencia.
VI.1. Bondad de ajuste Se utiliza con variables en las que conocemos, a priori, las frecuencias esperadas. Para la determinación de la bondad de ajuste con variables cualitativas se utilizan fundamentalmente dos contrastes diferentes, el test χ2 y el test de verosimilitud (G). Operativamente, los contrastes se realizan igual que los test de bondad de ajuste de distribuciones (véase Apartado III.3). Un ejemplo de este tipo de bondad de ajuste son los experimentos genéticos de Mendel con el color y la rugosidad de los guisantes. El test G de bondad de ajuste no se puede calcular con el programa STATISTICA (su cálculo ya fue explicado en el capítulo anterior en el Apartado III.3.2) pero sí el χ2, del que se explican los pasos para su obtención en el Cuadro VI.1.
75
Capítulo VI
CUADRO VI.1. Bondad de ajuste con
χ2
EJEMPLO. Se quiere conocer si la distribución de ventas en las máquinas expendedoras de alimentos en distintas estancias de la Universidad es uniforme. Para ello, se colocan 5 expendedoras en puntos distintos de una facultad. Al día siguiente se recuentan las ventas en cada máquina. Si la venta fuese uniforme, cada máquina debería expedir un 20% (100%/5 máquinas) de los alimentos. Se vendieron 135 alimentos, por lo que se esperaría que se vendiesen 27 en cada máquina. Los datos se encuentran en el archivo Cuadro VI.1.sta. Paso 1. Dentro del menú «Statitistic», seleccionamos «Nonparametrics».
Paso 2. Marcamos el icono «Observed versus expected
76
χ2» y pulsamos OK.
Contraste de hipótesis en variables cualitativas
CUADRO VI.1. (Continuación) Paso 3. En el icono «Variables» se seleccionan las variables con los datos observados (en nuestro caso «Vendidos») y los esperados («Esperados», que se han calculado suponiendo un 20% en cada máquina).
Paso 4. Pulsamos en el icono «Summary: Obs. vs. exp. frequencies» para ver los resultados.
Como podemos ver en la tabla, aparece el valor de χ2=16,22 con 4 grados de libertad (5-1) y p < 0,05, por lo tanto, se concluye que las ventas en las máquinas expendedoras no fueron uniformes.
VI.2. Pruebas de homogeneidad de muestras Estamos interesados en conocer si los datos de mediciones de una variable en varios grupos o épocas tienen una misma distribución, o si cada medición es diferente. Podemos distinguir dos tipos de contrastes en función de la naturaleza de las variables, ya que se puede trabajar con mediciones independientes (por ejemplo, dos muestras elegidas en zonas distintas) o pareadas (por ejemplo, podemos medir la misma variable dos veces separadas en el tiempo en cada individuo para ver si hay diferencias).
77
Capítulo VI
VI.2.1. Muestras independientes Las pruebas más utilizadas para comprobar esta hipótesis son el contraste χ2 y la razón de verosimilitud (test G). Los datos se presentan en una tabla que se denomina tabla de contingencia y que está formada por filas (i) y columnas (j) en las que se introduce la frecuencia de cada categoría analizada. En la Tabla VI.1 se encuentra la tabla de contingencia para la prueba de bondad de ajuste. Los grados de libertad de estas tablas son (i-1)*(j-1) que se corresponde con el número de casillas que pueden variar de forma independiente si se conoce las frecuencia total de cada fila y columna. Tabla VI.1. Tabla de contingencia para la prueba de homogeneidad de muestras. O es la frecuencia observada, j es el número de categorías, i el número de muestras, y n el número de casos observados. Así, por ejemplo, O35 se correspondería a la frecuencia observada de la muestra 3 y clase 5, nc3 al número total de frecuencias de la clase 3 y nm2 al número total de frecuencias de la muestra 2.
VI.2.1.1. χ-cuadrado La hipótesis nula de esta prueba supone que las muestras pertenecen a la misma población y, por tanto, la proporción de frecuencias esperadas es la misma en todas las muestras. Para contrastarla se calculan los valores de frecuencia esperados para cada celda y se comparan con las frecuencias observadas. En caso de que las diferencias sean pequeñas y en consecuencia el estadístico de contraste menor que un valor crítico se acepta la hipótesis de que las muestras son homogéneas (tienen una misma distribución). La fórmula para el cálculo de los valores esperados es:
Una vez obtenidos los valores esperados se calcula el estadístico de contraste χ2 con la siguiente fórmula:
78
Contraste de hipótesis en variables cualitativas
Se busca en la Tabla χ2 (Tabla 3 del Apéndice) el valor crítico para (f1)*(c-1) grados de libertad y para el nivel de significación elegido (generalmente 0,05). Si χ2 crítico es mayor que χ2 calculado se acepta la hipótesis nula de que son homogéneas, mientras que si χ2 crítico es menor que χ2 calculado, la hipótesis se rechaza. En el Cuadro VI.2 se indica cómo realizar este test con el programa STATISTICA.
CUADRO VI.2. Contraste de homogeneidad de 2 muestras con χ2 y test G EJEMPLO. Se ha muestreado la abundancia de líquenes sobre la superficie de los árboles en un monte. Sin embargo, dentro del monte hay una fábrica de maderas y se quiere comprobar si los datos obtenidos en la zona cercana a la fábrica (zona 1) se pueden utilizar conjuntamente con los datos obtenidos en el resto del monte. Las categorías utilizadas fueron: 0 (árbol sin líquenes), 1 (menos de un 10% de cobertura de líquenes), 2 (menos de un 50% de cobertura) y 3 (más de un 50% de cobertura). Los datos aparecen en el archivo Cuadro VI.2.sta. Paso 1. Dentro del menú «Statistics», pulsamos sobre «Basic Statistics/ Tables».
79
Capítulo VI
CUADRO VI.2. (Continuación) Paso 2. Se selecciona el comando «Tables and banners» y pulsamos OK.
Paso 3. Activamos la pestaña «Crosstabulation» (tabla de contingencia) donde se nos permite seleccionar las categorías con las que queremos trabajar («Use selected grouping codes only») o usar todas las categorías de los datos («Use all integer codes in the selected vars»), que es la opción que trae por defecto el programa. Nosotros trabajaremos con todas las categorías y no modificaremos este punto.
Paso 4. Pulsamos sobre «Specify tables». Saliendo la ventana que se muestra a continuación, donde se pueden seleccionar hasta 6 variables distintas.
80
Contraste de hipótesis en variables cualitativas
CUADRO VI.2. (Continuación)
Paso 5. Pulsamos en OK y nos aparece la ventana del Paso 3, y en ésta pulsando en OK nos aparece la ventana que está a continuación, donde hay tres pestañas diferentes, de las cuales dos son de resultados, «Quick» y «Advanced», y una para seleccionar los estadísticos («Options»).
Paso 6. En la pestaña «Options» seleccionamos la opción «Pearson & ML Chi-square». Estos 2 estadísticos se corresponden con el test χ2 (Pearson chi-square) y G (Maximum Likelihood Chi-square), respectivamente Paso 7. Dentro del Cuadro de diálogo «Advanced» seleccionamos el icono «Detailed two-ways table» para que el programa nos indique el resultado de los estadísticos solicitados.
81
Capítulo VI
CUADRO VI.2. (Continuación) Paso 8. En la parte superior de la tabla se nos indica el número de categorías de cada muestra. Ya en la tabla, aparece una primera fila que contiene el estadístico χ2 y una segunda con el test G. En ambos casos, se nos indica el valor del estadístico, los grados de libertad y la probabilidad del contraste. La probabilidad es mayor de 0,05 para los 2 contrastes, por lo que se acepta la hipótesis nula de que las muestras son homogéneas, es decir, la cobertura de líquenes es igual en la zona cercana a la fábrica que en la alejada. Hay que resaltar que en este caso, el programa ni agrupa las categorías para que las frecuencias sean mayores de 5, ni aplica la corrección de Williams al test G. En el caso del agrupamiento de categorías lo debemos realizar previamente de forma manual. Paso 9. Si queremos ver la tabla de contingencia originada con nuestros datos la encontraremos marcando dentro del Cuadro de diálogo «Advanced» sobre el icono «Summary: Review summary tables».
La corrección de Yates se aplica cuando una tabla de contingencia es 2X2, es decir, dos filas y dos columnas, y la muestra tiene un número pequeño de casos (con frecuencias inferiores a 5) ya que no es posible agrupar categorías. En esta situación, el valor de χ 2 se sobreestima y, para corregirlo, se aplica la denominada corrección de Yates que modifica el cálculo del estadístico de la siguiente manera:
En este caso el valor crítico de contraste sería el χ2 para un grado de libertad.
82
Contraste de hipótesis en variables cualitativas
Si el valor obtenido es menor al valor tabulado de contraste, se acepta la hipótesis nula de que las muestras son homogéneas. Dado que este test se corresponde con una tabla de contingencia 2X2 se indicará el proceso para su estimación con STATISTICA junto con otros contrastes para tablas de estas características en el Cuadro VI.3.
VI.2.1.2 Razón de verosimilitud (Test G) Este contraste es muy similar al test χ2, ya que también cuantifica diferencias entre valores esperados y observados. Además, los grados de libertad se calculan del mismo modo que el test χ2 de homogeneidad de muestras y el valor crítico del test se obtiene a partir de la Tabla χ2 (Tabla 3 del Apéndice). De nuevo se recomienda la utilización de este test cuando |O-E|<E. La tabla de contingencia (Tabla VI.1) y el cálculo de los valores esperados son los mismos que los utilizados en el test χ2 de homogeneidad. La fórmula del estadístico de contraste es:
Del mismo modo que en el contraste anterior, se busca en la Tabla χ2 (Tabla 3 del Apéndice) el valor crítico con los grados de libertad y el nivel de significación determinados. Si χ2 crítico es mayor que G se acepta la hipótesis nula de que las muestras son homogéneas. A estos datos se les aplica la corrección de Williams para un mejor ajuste a la distribución χ2 (véase Apartado III.3.2) Este test aparece en el programa STATISTICA como «ML ratio» y los pasos para su obtención se encuentran en el Cuadro VI.2.
VI.2.1.3. Prueba exacta de Fisher Se utiliza con muestras nominales o categóricas que presentan pocos casos y en las que las variables son dicotómicas (es decir, dos únicas categorías como, por ejemplo, presencia/ausencia o mujer/hombre). La Tabla VI.2 representa una tabla de contingencia tipo para este análisis. La prueba se basa en la determinación, a partir de una distribución hipergeométrica, de la probabilidad de obtener las frecuencias observadas cuando los totales de filas y columnas son constantes, teniendo como hipótesis nula que las variables son independientes. Su cálculo con el programa STATISTICA aparece en el Cuadro VI.3.
83
Capítulo VI
Tabla VI.2. Tabla de contingencia 2X2.
Variable 2 Variable 1 1 2 Total
1
2
Total
a b a+b
c d c+d
a+c b+d n
CUADRO VI.3. Corrección de Yates y prueba exacta de Fisher EJEMPLO 1. Se hace un muestreo para determinar si la obesidad varía entre niños y niñas que asisten a un determinado colegio. La tabla de contingencia es la siguiente:
Niños Niñas Total
Obesidad SI 33 21 54
NO 22 12 34
Total 55 33 88
Paso 1. En el programa STATISTICA no es necesario introducir datos en la hoja de trabajo para analizar tablas de contingencia 2X2. En el menú «Statistics» elegimos el apartado «Nonparametrics»
84
Contraste de hipótesis en variables cualitativas
CUADRO VI.3. (Continuación) Paso 2. Seleccionamos «2X2 Tables (X2/V2/Phi2, McNemar, Fisher exact».
Paso 3. En las casillas se introducen los valores de la tabla de contingencia.
85
Capítulo VI
CUADRO VI.3. (Continuación) Paso 4. Pulsando sobre el icono «Summary 2X2 Table» podemos ver los resultados.
Aparecen distintos resultados (hablaremos de algunos de ellos más adelante), entre los que vamos a destacar los de contraste de independencia entre sexo y obesidad. 1. χ-cuadrado. El valor χ2 es 0,12 con p = 0,7345. Como p > 0,05 concluimos que no existe relación entre el sexo y la obesidad. 2. Corrección de Yates En este caso dado, las frecuencias de cada categoría son mayores de 5, y no sería necesaria esta corrección. Suponiendo que lo fuese, tendríamos un valor de contraste de 0,01 y p = 0,91, por lo que se acepta la hipótesis de que la obesidad es igual entre sexos. 3. Prueba exacta de Fisher Nos devuelve el estadístico calculado tanto con una hipótesis de unidireccional-one-tailed (la obesidad es mayor en niñas) como con una hipótesis nula bidireccional – two tailed (la obesidad es distinta). Las probabilidades serían p = 0,4568 unilateral y p = 0,8227 para bilateral. En ambos casos se acepta la hipótesis de independencia de variables, aunque con nuestros datos (no suponemos a priori si serán más obesas las niñas o los niños) debemos emplear la probabilidad bidireccional a la hora de indicar los resultados.
86
Contraste de hipótesis en variables cualitativas
VI.2.2. Muestras relacionadas VI.2.2.1. Prueba de McNemar Se utiliza con muestras a las que se les mide la misma variable dicotómica dos veces, es decir, son datos pareados. Es muy utilizado en medicina para conocer si un tratamiento tiene efecto, pudiéndose representar los datos en una tabla de contingencia 2X2 (Tabla VI.2). Se realizan dos contrastes diferentes asumiendo en el primero de ellos que las frecuencias b y c son iguales y en el segundo que las frecuencias a y d son iguales:
El valor crítico de contraste se corresponde con la distribución χ2 para 1 grado de libertad. Entre los dos contrastes se elige el más conservador para aceptar la homogeneidad de las muestras, es decir, el que presenta un menor valor χ2. Su cálculo con el programa STATISTICA aparece en el Cuadro VI.4.
CUADRO VI.4. Prueba de McNemar EJEMPLO 1. En un laboratorio se quiere conocer si tras el cambio de un aparato medidor de toxinas, los resultados obtenidos son diferentes. Para ello se analizaron diversas muestras con el aparato antiguo y con el nuevo. Los resultados aparecen en la siguiente tabla: Detección toxina
Antiguo Nuevo
+
-
Total
30 45 75
20 5 25
50 50
Pasos 1-4 Igual que en el Cuadro VI.3. En la tabla de resultados que se muestra a continuación, aunque salen diversos test nos fijamos únicamente en el de McNemar que es el adecuado para datos pareados. La tabla nos indica las dos pruebas posibles, una con el par A/D y la otra con el par B/C. En el primer caso el estadístico es 16,46 con p < 0,001, mientras que en el otro el estadístico es 8,86 con p = 0,003, es decir, ambos estadísticos rechazan la hipótesis de que los resultados son homogéneos.
87
Capítulo VI
CUADRO VI.4. (Continuación)
VI.2.2.2. Q de Cochran Es el equivalente a la prueba de McNemar cuando las mediciones se realizan más de dos veces. Para la estimación del parámetro, los datos se representan en una tabla de contingencia como la que aparece en la Tabla VI.1. Los valores de la tabla de contingencia deben ser transformados a 0 y 1. Por ejemplo, si nuestra variable fuese presencia/ausencia de un carácter, podríamos indicar presencia con 1 y ausencia con 0. El estadístico es el siguiente:
El método para la obtención de este estadístico con el programa STATISTICA aparece en el Cuadro VI.5.
88
Contraste de hipótesis en variables cualitativas
CUADRO VI.5. Q de Cochran EJEMPLO 1. Se desea conocer si el tamaño de los tanques de cultivo altera el comportamiento natatorio de los peces. Para ello se introducen 30 peces en acuarios de distinto tamaño (los mismos peces se pasan de un acuario a otro) donde se analiza su comportamiento tras 96 horas de aclimatación. Los datos se encuentran en el archivo Cuadro VI.5.sta donde se indica 1 como natación normal del individuo y 2 comportamiento natatorio alterado. Paso 1. En el menú «Statistics» elegimos «Nonparametrics».
Paso 2. Seleccionamos el apartado «Cochran Q test».
89
Capítulo VI
CUADRO VI.5. (Continuación) Paso 3. En el Cuadro de diálogo debemos seleccionar las variables que queremos incluir en el análisis pulsando el icono «Variables». En nuestro caso, todas las de la hoja de datos. Esta prueba se calcula con valores 0 y 1. En caso de que nuestros datos no estén codificados con estos valores debemos recodificarlo. En este ejemplo pondremos como valor 0 al 1 de nuestros datos y como 1 el valor 2 de nuestros datos, tal y como se muestra siguiente ventana.
Paso 4. La tabla de resultados se observa a continuación. Como podemos ver, la probabilidad del estadístico Q con 3 grados de libertad es menor de 0,05, por lo que rechazamos la hipótesis nula de que las muestras son iguales, es decir, en nuestro caso el tamaño del acuario está relacionado con el comportamiento del pez.
VI.3. Pruebas de independencia de variables Uno de los principales propósitos de la estadística es determinar si existe asociación entre dos variables, es decir, entre diferentes caracteres o variables de una misma muestra. Además de conocer si dos o varias variables son independientes o dependientes es interesante conocer, también, cuál es la fuerza de dicha asociación.
90
Contraste de hipótesis en variables cualitativas
De forma general diremos que la fórmula de aproximación para el estudio de la independencia es la medición de las diferencias entre las frecuencias observadas y las frecuencias que esperaríamos encontrar si las variables fuesen independientes.
VI.3.1. χ-cuadrado de Pearson y test G de razón de verosimilitud Son los contrastes más utilizados, aunque no se emplean con variables dicotómicas, ya que hay test específicos para ellas. Operativamente el cálculo de ambos estadísticos es igual al contraste de homogeneidad de muestras (véase Cuadro VI.2), con la salvedad de que en este caso filas y columnas se refieren a variables diferentes de una misma muestra. Es decir, la tabla de contingencia sería la Tabla VI.1 cambiando los valores de las filas por variables en lugar de muestras. Los pasos para la obtención de estos estadísticos con STATISTICA están descritos en el Cuadro VI.6.
CUADRO VI.6. Contraste de independencia de 2 muestras y test G
χ2
EJEMPLO. Se quiere determinar si en una población de peces el estadío de maduración sexual tiene alguna relación con el color de la piel del individuo. Las categorías de madurez fueron: 1 (inmaduro), 2 (maduración intermedia) y 3 (individuo en reproducción). Las categorías de color fueron: 1 (gris plateado), 2 (gris oscuro) y 3 (negro). Los datos aparecen en el archivo Cuadro VI.6.sta. Paso 1-8. Se siguen los pasos explicados en el Cuadro VI.2. A continuación se muestra la tabla de contingencia utilizada y la tabla de resultados estadísticos. 1. Tabla de contingencia
91
Capítulo VI
CUADRO VI.6. (Continuación) 2. Tabla de resultados de los estadísticos
Como podemos ver para ambos test, p > 0,05, por lo que aceptamos la hipótesis nula de que son independientes y, por tanto, no existe relación entre la madurez de los peces y su color externo.
VI.3.2. Medidas de asociación La medición de la intensidad de esta asociación puede estar basada en el cálculo de distancias entre variables o en la cantidad de variabilidad explicada si calculamos las frecuencias de una variable en función de la otra variable.
VI.3.2.1. Phi y V de Cramer Phi (φ) es una medida basada en el estadístico χ2. La fórmula es:
donde n es el número de elementos de la muestra. El problema es que, salvo que la tabla de contingencia sea 2X2, el rango de este coeficiente no es entre 0 y 1. Se utiliza entonces la V de Cramer. El estadístico es:
donde f y c son el número de categorías en filas y columnas respectivamente y n el número de casos. Un valor 0 indica independencia total de la muestra, mientras que un valor 1 indica asociación perfecta. Tiene la ventaja que permite comparar tablas de contingencia de cualquier tamaño.
92
Contraste de hipótesis en variables cualitativas
Un cálculo de estos coeficientes con el programa STATISTICA aparece en el Cuadro VI.7.
VI.3.2.2. Coeficiente de Contingencia También es una medida asociada a χ2. El estadístico es:
donde n es el número de elementos de la muestra. Al igual que en el caso de φ, el rango no es constante entre tablas de distinto tamaño, aunque nunca supera el rango máximo de entre 0 y 1. Debido a esta desventaja es preferible el uso de estadístico V de Cramer para la medida de la asociación entre variables. La obtención de este estadístico con el programa STATISTICA se describe en el Cuadro VI.7.
VI.3.2.3. Coeficiente de Incertidumbre Es una medida de asociación basada en la reducción proporcional del error, con un rango entre 0 y 1, de las mediciones de una variable basándose en el conocimiento de la otra. Es decir, nos indica el porcentaje de la variabilidad explicado por la asociación de variables. La tabla de contingencia que se utiliza es la Tabla VI.1, aunque en lugar de muestras las filas se corresponden con una variable. Existen dos métodos distintos de realizar esta prueba: 1. Considerando una variable independiente y otra dependiente. En este caso se pueden calcular dos estadísticos distintos ya que podemos considerar como variables dependientes tanto las filas como las columnas. Las medidas de asociación son:
(columnas variable dependiente)
(filas variable dependiente)
93
Capítulo VI
donde
2. Sin considerar dependencia entre variables
En el Cuadro VI.7 se explica la obtención de este estadístico con el programa STATISTICA.
CUADRO VI.7. Medidas de asociación EJEMPLO. Se quiere conocer si existe relación entre el nivel de estudios de las personas y sus ingresos mensuales. Los datos aparecen en el archivo Cuadro VI.7.sta. Paso 1-5. Se siguieron los pasos del Cuadro VI.2. Paso 6. En la pestaña «Options» seleccionamos las opciones «Phi(2X2 tables) & Cramér’s V & C» y «Uncertainty coefficients» como se indica en la tabla siguiente.
94
Contraste de hipótesis en variables cualitativas
CUADRO VI.7. (Continuación) Paso 7. Dentro de la pestaña «Advanced» seleccionamos el icono «Detailed two-ways table» para que el programa nos indique el resultado de los estadísticos solicitados.
Paso 8. En la parte superior de la tabla vemos el número de categorías de cada muestra (Filas x Columnas). Ya en la tabla, aparece una primera fila que contiene el estadístico χ2 y una segunda con el test G, concluyendo que las variables no son independientes (p < 0,05 en los dos contrastes). Los coeficientes de asociación son: coeficiente de contingencia 0,48 V de Cramer 0,38 (no consideramos phi ya que la tabla no es 2X2). El coeficiente de incertidumbre x-dependiente es 0,11 (es decir, la variable y explica un 11% de la variabilidad de la variable x); coeficiente de incertidumbre ydependiente es 0,14 (es decir, la variable x explica un 14% de la variabilidad de la variable y); y sin considerar dependencia el coeficiente de incertidumbre es 0,12 (es el valor medio de los coeficientes anteriores cuando alguna de las variables se considera dependiente). Con estos resultados podemos concluir que nuestras variables están asociadas con valor de 0,38 y si asumimos que el nivel de ingresos (variable y) depende del nivel de estudios (variable x) se puede concluir que el nivel de estudios explica un 14% de la variabilidad observada en el nivel de ingresos, el cual es un valor pequeño.
95
CapĂtulo VI
96
Contraste de hipótesis en variables cuantitativas
VII
CONTRASTE DE HIPÓTESIS EN VARIABLES CUANTITATIVAS
En el capítulo anterior se analizó el contraste de hipótesis en variables cualitativas. En este capítulo se explicarán los métodos para hacerlo con variables cuantitativas. Para el contraste de hipótesis en el caso de variables cuantitativas contamos con dos tipos de análisis, los paramétricos, que proceden de un modelo que obliga a cumplir ciertos supuestos acerca de los parámetros y la distribución de probabilidad de la población de la que se extrajo la muestra, y los no paramétricos, que son menos restrictivos para poder ser aplicados. Se debe tener en cuenta que la estadística paramétrica es más precisa, pero las posibilidades de ser aplicada, como veremos más adelante, están limitadas.
VII.1. Pruebas paramétricas Sólo analizaremos en este capítulo pruebas que tratan de detectar la existencia de diferencias o su ausencia (homogeneidad) entre grupos o poblaciones, ya que los contrastes de bondad de ajuste (ajuste a distribuciones teóricas ya conocidas) se vieron en el Capítulo III, y para el contraste de independencia o asociación, en el caso de variables cuantitativas el mejor método es la regresión (Capítulo VIII).
VII.1.1. Requisitos Antes de utilizar las pruebas paramétricas, es indispensable comprobar ciertos requisitos (supuestos) para su aplicación. Los más importantes a tener en cuenta son: 1. Distribución Normal de las poblaciones. 2. Igualdad de varianzas. Para la comprobación de la hipótesis de normalidad podemos emplear la prueba de Kolmogorov–Smirnov explicada anteriormente (Capítulo III), mientras que la hipótesis de igualdad de varianzas se verifica comúnmente como se detalló en el Capítulo IV (Cuadros IV.3 o IV.4) o como se explica en los ejemplos que veremos a continuación.
97
Capítulo VII
Si nuestros datos no cumplen la asunción de distribución Normal se puede intentar transformar la variable para que adopte una distribución Normal, como veremos en el siguiente apartado. En general, la transformación que «normaliza» los datos también consigue una igualdad de varianzas. En el caso de que no consiguiera la homogeneidad de varianzas, ni siquiera después de transformar los datos, la mejor alternativa sería utilizar un método no paramétrico, aunque a veces algunos test paramétricos se aplican no asumiendo esta igualdad, como por ejemplo el t-test modificado por Welch-Satterthwaite (véase apartado VII.1.3.1).
VII.1.2. Transformaciones Si decidimos transformar la variable, tendremos varias posibilidades según su tipo de distribución (asimétrica positiva o negativa, véase Capítulo III). La bibliografía nos habla de la llamada escalera de las transformaciones de Tukey, la cual muestra el tipo de transformación recomendada según sea la intensidad de la asimetría o la dirección en la que van los casos extremos (Sánchez 1999). La Figura VII.1 ha sido adaptada del gráfico realizado por Erickson y Nosanchuk (1977).
Figura VII.1. Escalera de transformaciones adaptada de Erickson y Nosanchuk (1977).
En distribuciones asimétricas negativas, al elevar al cuadrado o al cubo los valores, así como con la transformación exponencial, se corrige la asimetría (es decir, la corrección es más fuerte cuanto mayor sea la exponenciación). Por el contrario, para corregir distribuciones asimétricas positivas conviene utilizar raíces cuadradas, logaritmos, etc. (Sánchez 1999).
VII.1.3. t-test VII.1.3.1. Muestras independientes El t-test es el método más común para evaluar las diferencias entre las medias de dos grupos independientes, por ejemplo dos grupos de peces sometidos a dietas diferentes (véase ejemplo en Cuadro VII.1). Para esta prueba, idealmente los sujetos deben asignarse aleatoriamente a dos grupos, de forma que cualquier diferencia en la respuesta sea debida al tratamiento (o falta de tratamiento) y no a otros factores. Al aplicar este análisis debemos asegurarnos de que las diferencias en otros factores no enmascaren o resalten una diferencia significativa entre las medias.
98
Contraste de hipótesis en variables cuantitativas
La hipótesis nula (Ho) con la que comúnmente se trabaja es que las medias son iguales. En general no se exige que el número de observaciones en ambos grupos sea igual. Si la Ho es cierta y suponemos una igualdad de varianzas, el estadístico (t-test) seguirá una distribución t de Student con nx + ny - 2 grados de libertad. Existe también la opción de utilizar el estadístico t de Student asumiendo una no igualdad de varianzas, al trabajar con los grados de libertad de WelchSattherthwaite. En el Cuadro VII.1 se muestra un ejemplo del t-test para muestras independientes usando el programa SPSS.
CUADRO VII.1. t-test para muestras independientes EJEMPLO. A partir de dos grupos de juveniles de peces (A y B, Tabla VII.1.xls), tenemos valores del peso antes y después de ser sometidos a diferentes dietas (A: Rotíferos + Artemia, y B: Alimento concentrado comercial). El propósito del análisis es conocer si hay diferencias entre los dos grupos de peces como consecuencia de la dieta ingerida. Para comprobar lo anterior, debemos comparar las medias de los pesos finales de cada tratamiento, comprobando antes la distribución normal de las series de datos. Paso 1. A partir de nuestra tabla de datos configuramos una matriz de trabajo. Distribuimos los valores en dos columnas, es decir, en una sola columna colocamos los valores de peso final (variable de interés) de cada una de las poblaciones estudiadas (Grupos A y B) y en la segunda los códigos que definen el grupo al que pertenecen los valores de la columna 1 (Cuadro VII.1.sav). Paso 2. Para comprobar la distribución normal de las series de datos y la homogeneidad de las varianzas, en el menú principal vamos a «Analizar», seleccionamos «Estadísticos descriptivos» y allí la opción «Explorar»:
99
Capítulo VII
CUADRO VII.1. (Continuación) Paso 3. Pasamos nuestra variable Pesofinal al cuadro «Dependientes» y la columna Grupo a la sección de «Factores». En la parte inferior en «Mostrar» seleccionamos «Gráficos». Luego entramos en «Gráficos…» y señalamos la opción «Gráficos con pruebas de normalidad», tal como lo vemos en las siguientes ventanas:
Finalmente al «Aceptar» obtenemos los resultados:
100
Contraste de hipótesis en variables cuantitativas
CUADRO VII.1. (Continuación) Paso 4. El SPSS realiza las pruebas de normalidad a partir de los tests de Kolmogorov-Smirnov (con la corrección de la significación de Lilliefors) y Shapiro-Wilk (recomendada para series con pocos datos). Según el test de Shapiro-Wilk (Grupo A: p = 0,125, B: p = 0,157), nuestras dos series de datos tienen una distribución normal (p > 0,05). Paso 5. Aunque el SPSS al ejecutar el t-test realiza la prueba de Levene para comprobar la homogeneidad de las varianzas, si queremos comprobar este supuesto antes, lo podemos hacer durante el Paso 3, marcando en el cuadro inferior «Dispersión por nivel con prueba de Levene» pulsando la opción «No transformados». Para nuestro actual ejemplo, se han obtenido los siguientes resultados:
El estadístico de Levene, basado en la media, nos muestra que no existen diferencias significativas entre las varianzas de las dos series de datos (p = 0,233). Si nuestros datos no cumplieran los supuestos de distribución Normal y homogeneidad de las varianzas tendríamos que transformar los datos, véase apartado VII.1.2. Paso 6. Una vez comprobados nuestros supuestos de distribución Normal y homogeneidad podemos realizar el t-test, para lo cual regresamos al menú principal a «Analizar», seleccionamos «Comparar medias», y allí la opción «Prueba T para muestras independientes».
101
Capítulo VII
CUADRO VII.1. (Continuación) Y aparecerá la siguiente ventana:
Paso 7. Pasamos nuestra variable Pesofinal al cuadro «Contrastar variables» y la columna Grupo a la sección de «Variable de agrupación». En este último paso debemos entrar en «Definir grupos», para especificar en la ventana correspondiente los grupos que queremos contrastar.
Paso 8. Dentro de la ventana principal de este análisis también encontramos una sección llamada «Opciones…..», allí podemos especificar el «Intervalo de confianza» con el que queremos trabajar.
102
Contraste de hipótesis en variables cuantitativas
CUADRO VII.1. (Continuación) Finalmente al «Aceptar» obtenemos los resultados:
Paso 9. Como habíamos mencionado antes (Pasos 5 y 6), el SPSS realiza el cálculo del t-test asumiendo o no la igualdad de las varianzas. Para la comprobación de la igualdad de varianzas ejecuta la prueba de Levene (F = 1,449, p = 0,233, no hay evidencia estadística para rechazar la hipótesis de igualdad de varianzas). Una vez comprobado nuestro supuesto de igualdad de varianzas, observamos los valores del t-test y su significación (solo nos fijamos en los resultados de la fila «Se han asumido varianzas iguales»). Una vez analizados los resultados rechazamos la Ho de igualdad de medias (t = -4,983, p < 0,001), concluyendo que hay diferencias significativas entre los pesos finales de cada grupo, comprobado por un desigual crecimiento de los peces, debido en este caso a la dieta consumida.
VII.1.3.2. Muestras dependientes El t-test para muestras relacionadas compara las medias de dos variables de un solo grupo. Calcula las diferencias entre los valores de cada variable y contrasta si la diferencia media es significativamente distinta de cero (Sánchez 1999, SPSS). Este test asume que las muestras son dependientes, pareadas o relacionadas, por tanto, un requisito fundamental es tener un número igual de observaciones en ambas variables. Este t-test para muestras dependientes no exige ningún supuesto sobre las varianzas, pero sí requiere que la distribución de las diferencias de los valores
103
Capítulo VII
de cada par sea Normal. Si no lo es, pero el tamaño de la muestra es grande y la distribución no es muy asimétrica, el teorema del límite central garantiza que la distribución de probabilidad de la diferencia de las medias sea aproximadamente Normal, lo que permite utilizar la distribución Normal en lugar de la «t». Dado que ambas distribuciones son prácticamente iguales cuando el número de grados de libertad es muy grande, esto significa que con muestras grandes podemos aplicar la prueba aunque la distribución de la variable se desvíe de la normalidad. Las muestras dependientes aparecen a menudo cuando se evalúa una misma variable más de una vez en cada sujeto de la muestra (por ejemplo en intervalos de tiempo diferentes). El t-test no se centra en la variabilidad que puede darse entre los individuos, sino en las diferencias que se observan en un mismo sujeto entre un momento y otro (véase ejemplo en Cuadro VII.2). También se aplica este test en estudios de casos y controles donde cada caso se aparea individualmente con un control.
CUADRO VII.2. t-test para muestras dependientes EJEMPLO. Continuando con nuestro ejemplo inicial (Tabla VII.1.xls), queremos determinar si realmente se produce un incremento significativo en el peso de nuestros peces. Para lo cual necesitamos el peso de cada pez antes y después de consumir el alimento propuesto. En primer lugar comprobaremos los supuestos de distribución Normal y homogeneidad de las varianzas de las series de datos. Luego analizaremos la diferencia observada en la ganancia de peso en los peces del Grupo A, de modo que la Ho será: La ganancia de peso es igual a cero, mientras que la hipótesis alternativa será que existe ganancia de peso, es decir, distinta de cero y, por tanto, hay diferencias entre los pesos iniciales y finales. Paso 1. Para comprobar los supuestos de distribución Normal y homogeneidad de varianzas de las series de datos, realizamos los Pasos 2 al 5 descritos en el Cuadro VII.1. De acuerdo con la prueba de Shapiro-Wilk la distribución que muestran los datos es Normal (Pesoinicial: p = 0,591 y Pesofinal: p = 0,125). Para la comprobación de la igualdad de varianzas la prueba de Levene no muestra evidencia estadística para rechazar la hipótesis de homogeneidad de varianzas (p = 0,274). Paso 2. Para la realización de este análisis, las muestras deben presentarse como dos variables distintas en la matriz de datos, formando igual número de parejas (peso de los peces al inicio del tratamiento y su peso al final del experimento). Es decir, tendremos dos columnas, una con los pesos iniciales y otra con los pesos finales (Cuadro VII.2.sav).
104
Contraste de hipótesis en variables cuantitativas
CUADRO VII.2. (Continuación)
Paso 3. Para realizar el análisis en el SPSS vamos en el menú principal a «Analizar», seleccionamos «Comparar medias» y optamos por «Prueba T para muestras relacionadas». Aparecerá la siguiente ventana:
Paso 4. Pasamos nuestras variables Pesoinicial y Pesofinal al cuadro «Variables relacionadas». Dentro de la ventana principal de este análisis también encontramos una sección llamada «Opciones…», allí podemos especificar el «Intervalo de confianza» con el que queremos trabajar (Paso 4 en el Cuadro VII.1).
105
Capítulo VII
CUADRO VII.2. (Continuación) Finalmente al «Aceptar» obtenemos los resultados:
Paso 5. Una vez comparadas las diferencias entre las medias (Pesoinicial y Pesofinal) tenemos que rechazar nuestra Ho de igualdad de medias, concluyendo que hay diferencias significativas entre los pesos iniciales y finales (t = -24,516 p < 0,001), lo que implica que los peces están consumiendo el alimento y están aumentando de peso.
VII.1.4. Análisis de varianza En general, al realizar una investigación nos preguntamos si nuestras muestras, que consideramos independientes, pertenecen a una misma población. Los valores de las muestras comúnmente difieren, el problema sería determinar si a pesar de estas diferencias las poblaciones son iguales, y las variaciones son debidas al azar como consecuencia de la aleatoriedad de nuestro muestreo. La prueba paramétrica más usada para verificar si dos o más medias muestrales proceden de la misma población es el análisis de varianza (ANOVA). El ANOVA al ser un método general, puede ser extendido a más de dos muestras y se puede demostrar que coincide con la t de Student si solo se tienen dos muestras (Salvarrey 2000, Azzimonti 2003).
106
Contraste de hipótesis en variables cuantitativas
Para la aplicación de un ANOVA es necesario cumplir los siguientes supuestos: 1. Las muestras son aleatorias. 2. Las muestras son independientes. 3. La distribución de la población de donde fueron extraídas es Normal. 4. Sus varianzas son iguales. El ANOVA calcula la variación de las medias y estima la variación «natural» de la población, para luego hacer una comparación entre ambas. La variación natural se mide por medio de la «intravarianza» o «variación del error». Si las muestras son de una misma población, la varianza de las medias es la enésima parte de la varianza de la población. Si se descarta esa situación es porque, aparte del azar, algo más diferencia a las muestras. Si las diferencias son solo debidas al azar, las dos variaciones corregidas por sus grados de libertad son del mismo orden y su cociente vale más o menos 1. El cociente de varianzas corregidas tiene distribución F, por lo que se busca en tablas de la distribución F si las relaciones obtenidas son aceptables como cercanas a 1 o no (Salvarrey 2000). Partiendo de los objetivos de nuestro trabajo, número de variables que queremos contrastar, en el SPSS podemos realizar varios tipos de análisis de varianza: 1. Análisis de varianza univariante de un factor. 2. Análisis de varianza univariante con varios factores. 3. El análisis de varianza multivariante, en los que, además de varios factores, también se pueden considerar varias variables dependientes.
VII.1.4.1. Análisis de varianza univariante de un factor Como su nombre indica solo se tiene en cuenta un factor y una variable dependiente (véase ejemplo en Cuadro VII.3).
CUADRO VII.3. ANOVA de un factor EJEMPLO. Vamos a utilizar el mismo ejemplo del Cuadro VII.1. Dos grupos independientes de juveniles de peces (A y B, Tabla VII.1.xls) sometidos a dos tratamientos diferentes (Dieta 1: Rotíferos + Artemia, y Dieta 2: Alimento concentrado comercial). El propósito del análisis es
107
Capítulo VII
CUADRO VII.3. (Continuación) conocer si hay diferencias en el crecimiento de los peces como consecuencia de la dieta ingerida, por tanto la variable dependiente será el peso final. Para comprobar lo anterior, realizamos un ANOVA de un factor utilizando el SPSS. Paso 1. A partir de nuestra tabla de datos configuramos una matriz de trabajo. Distribuimos los valores en dos columnas, es decir, en una sola columna colocamos los valores de peso final (variable dependiente) de cada una de las poblaciones estudiadas (Grupos A y B) y en la segunda el código de cada tratamiento que define el grupo al que pertenecen los valores de la columna 1 (el factor debe ser un número entero) (Cuadro VII.3.sav). Paso 2. Como en los ejemplos anteriores, primero debemos comprobar los supuestos de distribución normal y homogeneidad de varianzas de las series de datos (Pasos 2 al 5 descritos en el Cuadro VII.1). De acuerdo con la prueba de Shapiro-Wilk, la distribución que muestran los datos es normal (Dieta 1: p = 0,125 y Dieta 2: p = 0,157). La prueba de Levene no muestra evidencia estadística para rechazar la hipótesis de homogeneidad de varianzas ( p = 0,233). Paso 3. Para realizar el análisis en el SPSS vamos en el menú principal a «Analizar», seleccionamos «Comparar medias» y allí la opción «ANOVA de un factor».
108
Contraste de hipótesis en variables cuantitativas
CUADRO VII.3. (Continuación) Aparecerá la siguiente ventana:
El SPSS para el ANOVA de un factor además de determinar si existen diferencias entre las medias, al trabajar con más de 2 niveles, permite averiguar qué medias difieren. Para esto existen dos tipos de contrastes para comparar medias: a priori y post hoc. Por tanto, si queremos personalizar nuestro análisis, en la parte inferior de la anterior ventana encontramos: «Contrastes», «Post hoc» y «Opciones». 1. «Contrastes»: Permite efectuar comparaciones de tendencia o determinar comparaciones específicas (en lugar de comparar pares de grupos).
Si el estadístico concluye que las muestras son diferentes podemos estar interesados en conocer cuál es la relación entre las variables. La opción «Polinómico» permite efectuar contrastes de tendencia y ver el tipo de relación (podemos seleccionar orden lineal, cuadrático, cúbico, etc.). Esto se explicará en detalle en el Capítulo VIII cuando hablemos de las regresiones.
109
Capítulo VII
CUADRO VII.3. (Continuación) Si queremos hacer un contraste específico entre los distintos grupos de la variable factor, se pueden especificar los coeficientes (que definen combinaciones de los niveles del factor), que serán contrastados por el estadístico t. Se introduce un coeficiente para cada grupo (categoría) de la variable factor y se pulsa «Añadir» después de cada entrada. Para especificar conjuntos de contrastes adicionales, hay que pulsar «Siguiente». Se utiliza «Siguiente» y «Anterior» para desplazarse por los conjuntos de contrastes. 2. «Opciones»: Nos permite obtener diferentes estadísticos de nuestras variables, el gráfico de las medias y el control del tratamiento de los valores perdidos.
-
«Descriptivos»: Media, desviación típica, etc.
-
«Efectos fijos y aleatorios»: Desviación típica, error típico e intervalo de confianza para efectos fijos y para aleatorios en lugar de la desviación típica, la estimación de la varianza entre componentes.
-
«Prueba de homogeneidad de la varianza»: Contrasta la igualdad de varianzas de grupo.
-
«Brown-Forsythe»: Contrasta la igualdad de las medias de grupo.
-
«Welch»: Contrasta la igualdad de las medias de grupo con otro estadístico.
El programa nos ofrece la posibilidad de efectuar también un «Gráfico de las medias» de cada grupo.
110
Contraste de hipótesis en variables cuantitativas
CUADRO VII.3. (Continuación) En «Valores perdidos» podemos seleccionar qué hacer cuando no haya dato, o bien «Excluir casos según análisis» (se elimina el caso si no hay dato para la variable que estamos incluyendo en el análisis) o bien «Excluir casos según lista» (se excluyen todos los casos que tengan valores perdidos en cualquier variable). Paso 4. Para realizar los cálculos, en la ventana ANOVA de un factor pasamos nuestra variable Pesofinal al cuadro «Dependientes» y la columna Tratamiento a la sección de «Factor».
Finalmente al «Aceptar» obtenemos la salida de resultados:
Paso 5. Observamos nuestros valores de la F y su significancia. Como en el ejemplo Cuadro VII.1, una vez analizados los resultados rechazamos la Ho de igualdad de medias (F1,72 = 24,831, p < 0,001), concluyendo que hay diferencias significativas entre los pesos finales de cada grupo, comprobado por un desigual crecimiento de los peces debido en este caso a los diferentes tratamientos a los que fueron sometidos (dieta consumida). Paso 6. Volviendo de nuevo a la ventana del paso 3, podemos realizar análisis posteriores pulsando sobre el icono «Post hoc...»
111
Capítulo VII
CUADRO VII.3. (Continuación)
En esta sección podemos utilizar pruebas post hoc asumiendo o no varianzas iguales y especificar el nivel de significación con el que queremos trabajar. Estas pruebas permiten determinar de forma más específica, cuando hay más de dos niveles del factor, entre qué niveles hay diferencias y entre cuáles no. Si asumimos varianzas iguales existen distintos medios:
112
-
DMS: Sin controlar la tasa de error
-
Bonferroni: Controlamos el error dividiendo la significación entre el número de comparaciones.
-
Sidak: Parecida a la de Bonferroni pero algo menos conservadora.
-
Scheffe: Método muy conservador que solo se emplea en comparaciones por pares.
-
R-E-G-W-F: Método por pasos. No se debe emplear cuando los grupos tienen tamaños distintos.
-
S-N-K: Cuantos más pasos hay entre dos medias mayor es la diferencia que ha de existir para considerar que son diferentes.
-
Tukey: Uno de los más empleados. Todas las comparaciones se refieren a una diferencia mínima.
-
Tukey-b: Variante del anterior. Toma la diferencia significativa de Tukey y la diferencia de Student-Newman-Kleus para r = 2.
-
Duncan: Basado en la distribución del rango studentizado. Cuantos más pasos hay entre dos medias mayor es la diferencia que ha de existir para considerar que son diferentes.
-
GT2 de Hochberg: Parecido a la de Tukey pero basado en la distribución del rango studentizado, de menor potencia que el de Tukey.
Contraste de hipótesis en variables cuantitativas
CUADRO VII.3. (Continuación) -
Gabriel: Es mejor que el Hochberg para grupos del mismo tamaño, pero no es recomendable si los grupos son desiguales.
-
Waller-Duncan: Emplea distribución t de student y aproximación Bayesiana.
-
Dunnett: Compara cada grupo con un grupo control (que será por defecto la primera categoría pero puede cambiarse).
Si no asumimos varianzas iguales: -
T2 de Tamhane: Basado en la distribución del módulo máximo studentizado.
-
T3 de Dunnett: Modificación del anterior.
-
Games-Howell: Método similar al de Tukey.
-
C de Dunnett: Igual que el anterior pero un poco más conservador.
Nivel de significación: Podemos especificar este valor para las comparaciones múltiples.
VII.1.4.2. Análisis de varianza univariante con varios factores El llamado modelo lineal general (MGL) univariante realiza un análisis de regresión y uno de varianza para una variable dependiente mediante uno o más factores o variables (los factores dividen la población en grupos). Con este procedimiento podemos contrastar la Ho de los efectos de una o más variables (factores o tratamientos) sobre las medias de varios conjuntos agrupados con una única variable dependiente. Este análisis exige que la variable dependiente sea cuantitativa y los factores categóricos, es decir, que pueden tener valores numéricos o de cadena (letras). En el Cuadro VII.4 desarrollaremos un ejemplo con este procedimiento.
CUADRO VII.4. MGL univariante con varios factores EJEMPLO. Tenemos los valores de toxicidad (fmol célula-1) de un dinoflagelado tóxico (Alexandrium minutum), que se cultivó en presencia o ausencia de un competidor y un depredador. Queremos determinar si la presencia o ausencia de Competencia y/o Depredación afectan el grado de toxicidad del dinoflagelado.
113
Capítulo VII
CUADRO VII.4. (Continuación) Paso 1. En nuestra tabla de datos distribuimos los valores en columnas como se muestra en el Archivo Cuadro VII.4.sav. Paso 2. Como en los ejemplos anteriores, primero debemos comprobar los supuestos de distribución normal y homogeneidad de varianzas de las series de datos (Pasos 2 al 5 descritos en el Cuadro VII.1). De acuerdo con la prueba de Shapiro-Wilk, los datos correspondientes a Sin competidor (p = 0,022), Con competidor (p = 0,008) y Sin depredador (p = 0,002) no presentan una distribución normal. Mientras que la prueba de Levene no mostró evidencias estadísticas para rechazar la hipótesis de homogeneidad de varianzas, es decir, no hay diferencias significativas en las varianzas entre los datos de Toxicidad y la presencia o ausencia de Competencia (p = 0,094), ni tampoco entre la Toxicidad y la presencia o ausencia de Depredación (p = 0,502).
114
Contraste de hipótesis en variables cuantitativas
CUADRO VII.4. (Continuación)
Paso 3. Como las series de datos no tienen una distribución normal, procedemos a transformarlos. De acuerdo con los valores de asimetría 0,566 (Sin competidor), (1,146) Con competidor y (2,278) Sin depredador, realizaremos una transformación a logaritmo neperiano. En el menú principal vamos a «Transformar», seleccionamos «Calcular» y vemos la ventana llamada «Calcular variable». Primero debemos darle un nombre a la nueva columna que se generará al realizar la transformación («Variable de destino»), luego tendremos que escribir la «Expresión numérica», en este ejemplo será LN(Toxicidad):
115
Capítulo VII
CUADRO VII.4. (Continuación) Paso 4. Como hemos transformado la variable, debemos comprobar que la nueva serie de datos cumpla los supuestos de distribución normal y homogeneidad de varianzas (Pasos 2 al 5 descritos en el Cuadro VII.1). Los resultados de la prueba de Shapiro-Wilk y de Levene muestran evidencias estadísticas sobre el cumplimiento de la distribución normal y homogeneidad de varianzas, respectivamente. Dentro de los resultados de la prueba de Shapiro-Wilk comprobamos después de la transformación, que Toxicidad, presenta una distribución normal (Sin competidor: p = 0,146, Con competidor p = 0,076 y Sin depredador: p = 0,983):
116
Contraste de hipótesis en variables cuantitativas
CUADRO VII.4. (Continuación) Paso 5. Con la variable transformada podemos iniciar el análisis, para lo cual vamos en el menú principal a «Analizar», seleccionamos «Modelo lineal general» y allí la opción «Univariante».
Aparecerá la siguiente ventana:
117
Capítulo VII
CUADRO VII.4. (Continuación) El MLG univariante también tiene disponible los contrastes a priori de uso más habitual para contrastar las hipótesis y los post hoc para evaluar las diferencias entre las medias específicas. Como en el ANOVA de un factor, si queremos personalizar nuestro análisis, en la parte derecha de la anterior ventana encontramos: «Contrastes», «Post hoc» y «Opciones». Asimismo aparece la opción de «Gráficos» y la de «Modelo»: 1. «Gráficos»: Los gráficos de perfil (gráficos de interacción) sirven para comparar las medias marginales en el modelo (aumentan o disminuyen). Un gráfico de perfil es un gráfico de líneas en el que cada punto indica la media marginal estimada de una variable dependiente en un nivel de un factor. Todos los factores fijos y aleatorios, si existen, están disponibles para los gráficos.
2. «Modelo»: En esta ventana podemos especificar el modelo deseado: el factorial completo, que contiene todos los efectos principales (de cada factor) y todas las interacciones (entre varios factores) y, el personalizado, que sirve para especificar solo un subconjunto de efectos. El modelo depende de la naturaleza de los datos. Nosotros dejaremos el que da por defecto el programa, que es el factorial completo.
118
Contraste de hipótesis en variables cuantitativas
CUADRO VII.4. (Continuación) En «Suma de cuadrados» se especifica la forma de calcular las sumas de cuadrados. Se usa generalmente el Tipo III porque es adecuado para cualquier modelo en el que no haya casillas vacías, incluyendo aquellas situaciones en las que son adecuados los tipos I y II. El tipo IV es el más conveniente cuando hay casillas vacías. Paso 6. Introducimos la variable LnToxicidad como dependiente y, Competencia y Depredación como factores fijos. La diferencia entre los factores fijos y los aleatorios es que en estos últimos los niveles del factor no son todos los existentes, sino una muestra de niveles, lo que añade una fuente de variabilidad adicional. Por ejemplo, imaginemos que tenemos un factor que es área de muestreo, se consideraría aleatorio si se escogieran unas cuantas áreas al azar y no se pusieran todas las áreas de muestreo de las que existe información.
Finalmente al «Aceptar» obtenemos los resultados:
119
Capítulo VII
CUADRO VII.4. (Continuación) Paso 7. Los resultados muestran que la Competencia no afecta significativamente la Toxicidad del dinoflagelado (F1,20 = 4,026, p = 0,059), y tampoco existen diferencias significativas asociadas a la presencia o ausencia de Depredación (F1,20 = 0,527, p = 0,476). Por último, el efecto combinado entre la Competencia y la Depredación tampoco implica diferencias significativas en la Toxicidad del dinoflagelado (F1,20 = 0,088, p = 0,77). En cualquier caso, aunque el efecto combinado de ambos factores fuese significativo, éste no tendría sentido si alguno de los factores por separado (competencia y depredación) no tiene un efecto significativo, como es el caso en este ejemplo.
VII.1.4.3. Análisis de varianza multivariante El análisis de varianza multivariante realiza un análisis de regresión y un análisis de varianza para variables dependientes múltiples con una o más covariables o factores (estos últimos dividen la población en grupos). La Ho permite contrastar los efectos de los factores sobre las medias de varias agrupaciones de una distribución conjunta de variables dependientes; además permite estudiar las interacciones y también los efectos individuales de los factores, y puede incluir efectos de covariables y su interacción con los factores. Para este análisis podemos utilizar grupos de datos de diferente dimensión. Las variables dependientes deben ser cuantitativas, los factores categóricos y pueden tener valores numéricos o valores de cadena y las covariables son variables cuantitativas que se encuentran relacionadas con la variable dependiente. Para entender mejor el análisis de varianza multivariante vamos a explicarlo de forma conjunta en un ejemplo con el análisis de covarianza (Cuadro VII.5). Antes de ello, se explicará brevemente en qué consiste el análisis de covarianza.
VII.1.5. Análisis de covarianza El análisis de la covarianza (ANCOVA) es una técnica estadística cuyo objetivo es eliminar el efecto de las variables sobre la variable dependiente. Para controlar estas variables se realiza un análisis de varianza, en el que la variable dependiente es el error en los pronósticos al realizar un análisis de regresión lineal con las covariables como variables independientes y la variable dependiente será igual a la de nuestro ANOVA inicial. En un análisis de covarianza la interpretación de sus resultados, al igual que en el ANOVA, se basa en los efectos de los factores sobre nuestras variables dependientes y de las interacciones entre los factores estudiados (véase ejemplo en Cuadro VII.5).
120
Contraste de hipótesis en variables cuantitativas
Según Steel & Torrie (1985) este análisis se puede usar para: 1. Controlar errores y aumentar la precisión de nuestros análisis. 2. Ajustar las medias de las variables dependientes a las diferencias con los valores de las variables independientes usadas. 3. Ayudar en la interpretación de nuestros datos, especialmente en lo referente a la naturaleza de los efectos de los tratamientos. 4. Particionar una covarianza total o suma de productos cruzados en componentes. 5. Estimar datos que faltan.
CUADRO VII.5. MLG Multivariante y Covarianza EJEMPLO. Tenemos los valores de toxicidad (fmol célula-1) y producción de toxinas por día (fmol célula-1 día-1) de un dinoflagelado tóxico (Alexandrium minutum), que se cultivó en la presencia de un competidor y/o depredador. Se dispone además de la concentración de fosfato (μM PO 3− ) de los 4 cultivos. Queremos determinar si la presencia o ausencia del competidor y/o el depredador están afectando la producción diaria de toxinas y el grado de toxicidad del dinoflagelado, pero excluyendo el posible efecto que la concentración de fosfato pueda tener sobre la producción de toxinas y/o la toxicidad del dinoflagelado. Paso 1. Introducimos nuestros datos en el programa SPSS como se ve en la siguiente ventana (Cuadro VII.5.sav). Debido a que MGL realiza un análisis de regresión lineal, antes de realizar el ANOVA debemos comprobar que la relación entre nuestras variables sea lineal, de no ser así debemos proceder a transformar los datos antes de realizar cualquier análisis. La forma más fácil es realizar un gráfico de dispersión simple. En el menú principal vamos a «Gráficos», seleccionamos «Dispersión/Puntos…» y aparece la siguiente ventana.
121
Capítulo VII
CUADRO VII.5. (Continuación) En este punto optamos por el diagrama «Dispersión simple» y al hacer clic en «Definir» aparecerá la siguiente ventana:
En esta ventana debemos especificar las variables a graficar, en nuestro ejemplo relacionaremos la concentración de Nutrientes (Eje X) con la Toxicidad (Eje Y). Luego se realizará lo mismo con ProducciónToxinas. Los gráficos que obtendremos serán los siguientes:
Paso 2. Como la relación observada no es lineal procedemos a transformar nuestras variables dependientes. En el menú principal vamos a «Transformar», seleccionamos «Calcular» y vemos la ventana llamada «Calcular variable» (véase Cuadro VII.4 Paso 3).
122
Contraste de hipótesis en variables cuantitativas
CUADRO VII.5. (Continuación) Paso 3. Como hemos transformado las variables, debemos comprobar que las nuevas series de datos cumplan los supuestos de distribución Normal y homogeneidad de varianzas (Pasos 2 al 5 descritos en el Cuadro VII.1). De acuerdo con la prueba de Shapiro-Wilk, la variable Toxicidad asociada a Competencia presenta una distribución Normal (p = 0,146 y p = 0,076, para Sin competidor y Con competidor, respectivamente), al igual que la variable ProducciónToxinas (p = 0,303 y p = 0,211, Sin competidor y Con competidor, respectivamente). En el caso de la Depredación la distribución es también Normal para Toxicidad (p = 0,983 y p = 0,49, para Sin depredador y Con depredador, respectivamente), al igual que para ProducciónToxinas (p = 0,257 y p = 0,138, Sin depredador y Con depredador, respectivamente). Igualmente, la prueba de Levene no mostró evidencias estadísticas para rechazar la hipótesis de homogeneidad de varianzas, es decir, no hay diferencias significativas en las varianzas entre los valores de Toxicidad y ProducciónToxinas en la presencia o ausencia de Competencia (p = 0,15 y p = 0,426, respectivamente), ni tampoco entre para Toxicidad y ProducciónToxinas en la presencia o ausencia de Depredación (p = 0,465 y p = 0,499, respectivamente):
123
Capítulo VII
CUADRO VII.5. (Continuación)
Paso 4. Con las variables transformadas y una vez comprobados los supuestos, distribución Normal y homogeneidad de las varianzas, podemos iniciar el análisis, para lo cual vamos al menú principal a «Analizar», seleccionamos «Modelo lineal general» y allí la opción «Multivariante». Aparecerá la siguiente ventana:
También en el MLG multivariante, como en los ejemplos anteriores (Cuadro VII.3 y VII.4), en la parte derecha de la anterior ventana encontramos: Contrastes, Gráficos, Post hoc, Opciones y Modelo, lo que nos permite personalizar nuestros análisis.
124
Contraste de hipótesis en variables cuantitativas
CUADRO VII.5. (Continuación) Paso 5. Para realizar los cálculos, en la ventana Multivariante pasamos nuestras variables LnToxicidad y LnProducciónToxinas al cuadro «Dependientes» y las columnas Competencia y Depredación a la sección «Factores fijos». Finalmente al «Aceptar» obtenemos los resultados.
Paso 6. En «Pruebas de los efectos inter-sujetos» vemos que no existen diferencias significativas entre las muestras debidas a la presencia o ausencia de Competencia ni para la Toxicidad (p = 0,059) ni para ProducciónToxinas (p = 0,785) y que la Depredación tampoco afecta la Toxicidad (p = 0,476) ni a ProducciónToxinas (p = 0,116). Al combinar los factores Competencia*Depredación tampoco se observa que afecten significativamente a la Toxicidad y a ProducciónToxinas (p = 0,77 y p = 0,712, respectivamente). Incluso, aunque la interacción fuese significativa, no puede tenerse en cuenta si alguno de los factores no es significativo.
125
Capítulo VII
CUADRO VII.5. (Continuación) Paso 7. Análisis de covarianza. Para eliminar el posible efecto de los Nutrientes sobre las variables Toxicidad y ProducciónToxinas, realizaremos un análsis de covarianza, introduciendo como una covariable la concentración de fosfatos. Para esto, en la ventana «Multivariante» pasamos la columna LnNutrientes a la sección «Covariables».
Paso 8. En la tabla «Pruebas de los efectos inter-sujetos» vemos que la concentración de nutrientes sí afecta a nuestras variables dependientes: Toxicidad (p < 0,001) y a ProducciónToxinas (p = 0,009). De igual manera existen diferencias significativas en la Toxicidad de los individuos debidas a la presencia o ausencia de Competencia (p = 0,026) mientras que antes, sin tener en cuenta los Nutrientes como covariable, estas diferencias no se habían observado (Paso 6). Sin embargo, no existen diferencias significativas debido a la presencia o ausencia de Competencia sobre la ProducciónToxinas (p = 0,405). La Depredación tampoco afecta a la Toxicidad (p = 0,576) ni a la ProducciónToxinas (p = 0,285). El efecto combinado de los factores Competencia*Depredación afecta a la Toxicidad (p = 0,033), mientras que no afecta a la ProducciónToxinas (p = 0,275). El efecto combinado de ambos factores sobre la Toxicidad no lo podemos tener en cuenta, ya que el efecto individual del factor Depredación sobre la Toxicidad no es significativo.
126
Contraste de hipótesis en variables cuantitativas
VII.2. Pruebas no paramétricas En muchas ocasiones no podemos asumir los supuestos sobre normalidad e igualdad de varianzas en nuestros datos, por tanto es necesario utilizar la llamada estadística no paramétrica o métodos de distribución libre. Igualmente, podemos utilizar los test no paramétricos cuando los datos de la población están en forma de rango, cuando el procedimiento de obtención de la muestra impide asimilarla con una sucesión de valores cuantitativos (Pérez 2004) y cuando el tamaño de la muestra es muy reducido en las variables a comparar (Visauta 2002). Tienen como ventaja que son de aplicación más general que las paramétricas (a las variables distribuidas normalmente también se les puede aplicar estos contrastes), ya que no exige ninguna condición sobre el tipo de distribución. Sin embargo, son menos sensibles a la detección de diferencias que las pruebas paramétricas, aunque de forma general se puede decir que la coincidencia entre los resultados obtenidos entre las pruebas paramétricas y las no paramétricas es superior al 90%. Los contrastes más utilizados pueden agruparse en tres tipos principales: 1. Bondad de ajuste. Comprueba si las observaciones de una variable determinada ajustan a una distribución teórica esperada. 2. Contraste de homogeneidad de muestras. Consiste en la comprobación de que dos o más muestras pertenecen a una misma población. 3. Independencia de variables. Determina si dos variables son independientes o no.
VII.2.1. Contraste de bondad de ajuste Aplicaremos dos test diferentes en función del tipo de distribución a la que queramos ajustar los datos. Si queremos determinar si nuestros datos se ajustan a una distribución continua aplicaremos por ejemplo el test de Kolmogorov-Smirnov (véase Capítulo III, Cuadro III.8). Si queremos comprobar el ajuste de nuestros datos a una distribución discreta aplicaremos un test χ2 en las mismas condiciones en las que fue explicado en el Apartado VI.1.
VII.2.2. Contraste de homogeneidad de muestras Estamos interesados en conocer si los datos obtenidos de varias muestras que estudian una misma característica pertenecen a la misma población.
127
Capítulo VII
Dentro de estos contrastes podemos distinguir dos tipos diferentes en función de la naturaleza de las muestras. Tendríamos muestras independientes cuando los elementos sean seleccionados aleatoriamente de forma separada o no relacionada (por ejemplo, medida del nivel de azúcar en hombres y mujeres), y muestras dependientes, cuando las mediciones sí están relacionadas, generalmente porque corresponden al mismo individuo (por ejemplo, medida del nivel de azúcar en diabéticos, antes y después de un tratamiento).
VII.2.2.1. Contrastes para dos muestras independientes Son los contrastes análogos al contraste paramétrico t de Student. Existen tres pruebas principales que tratan de determinar si las diferencias observadas entre dos muestras son debidas al azar o si pertenecen a dos poblaciones distintas. En todas ellas, los datos se ordenan de forma ascendente sin considerar su grupo de pertenencia y, en función de su posición, se les asigna un número de orden o rango.
VII.2.2.1.1. Prueba U de Mann-Whitney Es una prueba que compara la tendencia central de dos muestras que no deben tener necesariamente el mismo tamaño, partiendo de la hipótesis nula de que en ambas muestras la medida central es la misma. Es un contraste muy utilizado, aunque en el caso de que se quieran medir no solo diferencias en la tendencia central de los datos sino en otras características como, por ejemplo, asimetría o dispersión de los datos, es más adecuado utilizar el test de Wald-Wolfowitz. Una premisa de esta prueba es que los valores de cada una de las muestras son diferentes, es decir, que no hay solapamiento de datos (valores repetidos). En caso de que existan solapamientos, el contraste se vuelve más conservador (es más difícil encontrar diferencias entre muestras). Si el número de solapamientos es muy grande, en muestras pequeñas y continuas, se aconseja la utilización del test de Kolmogorov-Smirnov para dos muestras, aunque existe una corrección para solapamientos del propio estadígrafo. A las muestras ordenadas de menor a mayor se les asigna un rango de forma ascendente (1,2,3,…), habiendo tantos rangos como datos. En caso de solapamiento o empate se suman los rangos implicados en el mismo y se divide por el número de datos solapados. Un ejemplo de asignación de rangos aparece en la Tabla VII.6. Tabla VII.6. Proceso para la asignación de rangos a un grupo de datos.
Valores muestra 1 Valores muestra 2 Valores ordenados Número de rango
128
1 2 1 1,5
3 4 1 1,5
6 9 2 3
5 8 3 4
8 1 4 5
5 6
6 7
8 8,5
8 8,5
9 10
Contraste de hipótesis en variables cuantitativas
El desarrollo completo de este estadístico aparece en Sokal & Rohlf (1981). Consiste en calcular el estadístico U con el que es posible conocer si la media de los rangos es significativamente diferente entre las dos muestras. Si el número total de datos es inferior a 20, se utiliza una tabla para la determinación de valores críticos de U. En cambio, si el número total de datos es superior a 20, se puede utilizar una aproximación a la Normal a partir del estadístico U, que nos indica el valor Z de dicha Normal y su probabilidad. En el Cuadro VII.6 se indica la obtención de este estadístico de contraste con el programa STATISTICA.
VII.2.2.1.2. Test de rachas de Wald-Wolfowitz Es una prueba que compara la distribución de dos muestras que no deben tener necesariamente el mismo tamaño, partiendo de la hipótesis nula de que la distribución de rangos es aleatoria, es decir, las muestras son homogéneas. Los datos de las dos muestras se ordenan conjuntamente de forma ascendente y a cada grupo de valores se les asigna un valor de racha. Las rachas son secuencias de valores del mismo grupo, cuando las muestras han sido ordenadas. Un ejemplo de ordenación en rachas aparece en la Tabla VII.7. Tabla VII.7. Proceso para la asignación de rachas a un grupo de datos
Valores muestra 1 Valores muestra 2 Valores ordenados Número de racha
1 2 1 1
2 4 2 1
6 6 2 2
5 8 2 2
8 2 4 2
5 3
6 3
6 4
8 4
8 5
Una descripción completa del estadístico aparece en el Apartado 25.6 del libro Biostatistical Analysis (Zar 1999). Si dos muestras presentan una misma distribución cabe esperar que, en el ordenamiento de datos de menor a mayor, ambas muestras estén muy mezcladas (aleatorizadas), es decir, que el número de rachas sea alto. Con una tabla de contraste se determina si el número de rachas encontradas es significativamente grande y se puede suponer la aleatoriedad de los rangos y, por tanto, que no hay diferencias entre las muestras. Si el número de datos es grande, al igual que sucedía con el contraste de Mann-Whitney, este estadístico se ajusta a una Normal y se puede estudiar la homogeneneidad de las muestras calculando el estadístico Z. Este estadístico es mucho menos potente que el contraste de Mann-Whitney, pero tiene la ventaja de que detecta diferencias no solo de tendencia central sino de dispersión y asimetría. En el Cuadro VII.6 se describen los pasos para la obtención de este estadístico con el programa STATISTICA.
129
Capítulo VII
VII.2.2.1.3. Prueba de Kolmogorov-Smirnov para dos muestras Tiene como ventaja que mide las diferencias existentes entre las frecuencias relativas acumuladas de las dos muestras, por lo que se detectan diferencias no solo en la tendencia central, sino también en la dispersión y simetría de las muestras. La eficacia de este test es alta con número de datos reducidos, pero ésta tiende a decrecer cuando se aumenta el tamaño de muestra (en este caso es mejor el estadístico U de Mann-Whitney). Esta prueba estadística es usada para contrastar la Ho de que las dos muestras proceden de una misma población, por tanto exige comparar dos funciones de distribución muestral, observando la diferencia máxima entre ellas. El desarrollo completo del cálculo de este estadístico se encuentra en Sokal & Rohlf (1981), en el que los pasos a seguir serían: 1. Ordenar las observaciones de cada muestra y distribuírlas en clases. 2. Determinar las frecuencias acumuladas de las clases en cada muestra. 3. Buscar la máxima diferencia entre la frecuencia acumulada de ambas muestras. 4. Determinar los valores críticos de Dmax en una tabla. 5. Si Dmax es mayor que el valor crítico, se rechaza la hipótesis nula de que las muestras son iguales. Un ejemplo de la utilización de este test con el programa STATISTICA aparece en el Cuadro VII.6.
CUADRO VII.6. Contrastes de homogeneidad para dos muestras independientes EJEMPLO. Se quiere comprobar si la valoración de una película de cine es igual entre hombres y mujeres o si cada sexo valora el film de forma diferente. Para ello se ha realizado una encuesta en la que se solicitaba la valoración de la película de 0-10 en 2 grupos: hombres (1) y mujeres (2). Los datos se encuentran en el archivo Cuadro VII.6.sta. Paso 1. Dentro del menú «Statistics», marcamos «Nonparametrics».
130
Contraste de hipótesis en variables cuantitativas
CUADRO VII.6. (Continuación) Paso 2. Seleccionamos el icono «Comparing two independent samples (groups)».
Paso 3. En esta ventana se seleccionan las variables, los grupos y los estadísticos que queremos calcular.
Paso 4. En el icono «Variables» se seleccionan las variables que queremos para el análisis. A la izquierda se indica la variable que contiene las mediciones (Calificación) y a la derecha la variable que indica el grupo de pertenencia (Sexo). Además, si nuestra variable de grupo tiene más de 2 grupos, podemos indicar qué grupos queremos introducir en el análisis. En nuestro caso, sexo solo tiene dos grupos.
131
Capítulo VII
CUADRO VII.6. (Continuación) Paso 5. Dentro de la pestaña «Quick» pulsamos sobre el icono del contraste cuyo resultado queremos conocer, para que nos salga la tabla de resultados. A continuación indicamos las tablas de resultados de cada análisis. 1. U de Mann_Whitney
La tabla nos indica la suma de rangos de cada grupo, así como el estadístico U. Con esta U calcula 2 valores Z (ajuste a la normal). El primero de ellos es el obtenido a partir de los datos brutos (Z = -3,30011, p = 0,00096) y el segundo considerando los rangos solapados (Zadjusted = -3,32374, p = 0,00088). Además, en la última columna, nos indica la probabilidad del estadístico U en el caso de que el número de datos fuese pequeño. En nuestro caso el número de datos es grande y tenemos datos solapados por lo que de las 3 posibilidades elegimos Z adjusted, que rechaza la hipótesis de que las muestras son independientes. 2. Wald-Wolfowitz
La tabla nos indica las medias de cada grupo, así como 2 estadígrafos de ajuste a la normal. El primero de ellos Z (en este caso Z = -0,32 p = 0,748) es para muestras con un número de datos grande, mientras que Z adjusted (en este caso Z = 0,160, p = 0,872) es para muestras pequeñas. En nuestro caso el número de datos es grande y, por tanto, consideramos la primera Z, aceptando la hipótesis nula de que las muestras son homogéneas. 3. Kolmogorov-Smirnov para dos muestras
132
Contraste de hipótesis en variables cuantitativas
CUADRO VII.6. (Continuación) La tabla nos indica las diferencias máximas tanto negativas como positivas del análisis, así como la probabilidad de las mismas. Como se puede comprobar p < 0,05 rechazando la hipótesis nula de que las muestras son homogéneas. En resumen, de tres estadísticos posibles tenemos dos que rechazan la hipótesis nula y uno que la acepta. Sin embargo, el contraste de Wald-Wolfowitz es el menos sensible y, además, está pensado para la no existencia de rangos solapados. Por tanto, rechazamos la hipótesis nula de que las muestras son homogéneas y, concluimos que la valoración de la película es diferente entre hombre y mujeres.
VII.2.2.2. Contrastes para k-muestras independientes Los contrastes más utilizados en este caso son los de la mediana y la prueba de Kruskal-Wallis.
VII.2.2.2.1. Contraste de la mediana Consiste en determinar el valor mediano de nuestras observaciones incluyendo todas las k muestras a analizar, y tipificar todos los valores como positivos si están por encima de la mediana y negativos si están por debajo. Si las muestras fuesen homogéneas, en cada una de ellas la mitad de los valores deberían estar por encima de la mediana y la otra mitad por debajo. Ésta será la hipótesis nula (que todas las muestras proceden de la misma población). Con el número de datos positivos y negativos de cada muestra, construimos una tabla de contingencia 2xk (véase Tabla VI.1), a la que se le puede realizar un contraste χ2 de homogeneidad con la hipótesis nula indicada, es decir, en cada muestra la frecuencia esperada de positivos es igual a las frecuencia esperada de negativos. Este contraste es poco sensible, por lo que es más preciso utilizar la prueba de Kruskal-Wallis. Sin embargo, en casos en los que los órdenes tienen límites artificiales (por ejemplo, en una escala > 6) este contraste es el más adecuado. Los pasos para la obtención de este contraste con el programa STATISTICA aparecen en el Cuadro VII.7.
VII.2.2.2.2 ANOVA de Kruskal-Wallis Es el contraste no parámetrico análogo al análisis de varianza, por lo que se denomina ANOVA, aunque el estadístico de contraste es similar a un χ2. Es la
133
Capítulo VII
prueba más utilizada para más de dos muestras independientes, siendo mucho más sensible que el test de la mediana. A nivel teórico es una extensión del contraste U de Mann-Whitney para más de dos muestras. Esto quiere decir que es un test que mide la tendencia central de las muestras, teniendo como hipótesis nula que las poblaciones comparadas tienen la misma mediana. El desarrollo completo del cálculo de este estadístico se encuentra en Sokal & Rohlf (1981), en el que los pasos a seguir serían: 1. Ordenar los datos en rangos (todas las muestras en conjunto). 2. Sumar los rangos de cada muestra y calcular el estadístico de contraste H que se compara con un valor de contraste tabulado. 3. Si H es mayor que el valor tabulado se rechaza la hipótesis nula, indicando que las muestras son diferentes. En el Cuadro VII.7 aparece un ejemplo para el cálculo de este estadístico con el programa STATISTICA.
CUADRO VII.7. Contrastes de homogeneidad para K muestras independientes EJEMPLO. Se quiere comprobar si la valoración de una película de cine es igual entre distintos grupos de edad o si cada edad valora el film de forma diferente. Para ello empleamos los mismos datos que en el caso anterior pero cambiando la variable de agrupación sexo por edad. Para ello se ha realizado una encuesta en la que se solicitaba la valoración de la película de 0-10 en 4 grupos diferentes: menores de 20 años (1), entre 20 y 40 años (2), entre 40 y 60 años (3) y mayores de 60 años (4). Los datos se encuentran en el archivo Cuadro VII.7.sta. Paso 1. Dentro del menú «Statistics», marcamos «Nonparametrics».
134
Contraste de hipótesis en variables cuantitativas
CUADRO VII.7. (Continuación) Paso 2. Seleccionamos el icono «Comparing multiple indep. samples (groups)».
Paso 3. En esta ventana se seleccionan las variables, los grupos y los estadísticos que queremos calcular.
Paso 4. En el icono «Variables» se seleccionan las variables que queremos para el análisis. A la izquierda se indica la variable que contiene las mediciones (calificación) y a la derecha la variable que indica el grupo de pertenencia (edad). Además, en el icono «Codes» debemos indicar qué grupos (más de dos) queremos introducir en el análisis. En nuestro caso, queremos analizar los 4 grupos de edad.
135
Capítulo VII
CUADRO VII.7. (Continuación)
Paso 5. Se pulsa sobre el icono «Summary: Kruskal-Wallis ANOVA & Median test», para que nos salgan las tablas de resultados. Es importante indicar que nos aparecen dos tablas (en dos pestañas diferentes), una con el ANOVA de Kruskal-Wallis y otra con el test de la mediana. A continuación indicamos las tablas de resultados de los dos análisis. 1. ANOVA de Kruskal-Wallis
La tabla nos devuelve el valor de H = 3,0197 para 3 grados de libertad y 40 datos, teniendo asociada una probabilidad p = 0,3886, por lo que se acepta la hipótesis nula de homogeneidad. 2. Prueba de la Mediana
Nos indica el valor de la prueba χ2 realizado, donde χ2=0,8 con 3 grados de libertad y una probabilidad de p = 0,8495. Con este resultado se acepta la hipótesis nula de que las muestras son homogéneas. En conclusión, ambas pruebas aceptan la hipótesis nula, por lo que se puede indicar que no existen diferencias en la valoración de la película por edades.
136
Contraste de hipótesis en variables cuantitativas
VII.2.2.3. Contrastes para dos muestras dependientes Las pruebas más utilizadas son la de contrastes de los signos y la prueba de Wilcoxon para pares relacionados.
VII.2.2.3.1. Contraste de los signos Este contraste mide la dirección de las diferencias entre dos muestras pareadas, por lo que es muy útil cuando se trabaja con muestras pareadas a las que se les puede identificar un incremento o descenso en la medición, pero es difícil de cuantificar este cambio. En otras condiciones, el test de Wilcoxon es más sensible. Se estudia el número de veces que las diferencias de los valores de las dos muestras son positivas, negativas o si no hay diferencias. Con estas premisas podemos contrastar la hipótesis nula de que las muestras son iguales, ya que en ese caso habrá tantas diferencias negativas como positivas en las muestras. El desarrollo completo del estadístico aparece en Siegel & Castellan (1988), pero los pasos de forma resumida son: 1. Determinación de las diferencias (+ ó -). 2. Ajuste de las diferencias observadas a una distribución binomial. Cuando el número de datos es grande (mayor de 20 datos), se utiliza una aproximación a la distribución Normal (cálculo del estadístico Z) de la distribución binomial. 3. Determinación de la probabilidad asociada al estadístico de contraste para aceptar o rechazar la hipótesis nula de que las muestras son homogéneas. Los pasos para realizar este contraste con el programa STATISTICA aparecen en el Cuadro VII.8.
VII.2.2.3.2. Prueba de Wilcoxon para pares relacionados Es la prueba análoga a la t de Student para muestras relacionadas, siendo casi tan potente como ésta. A nivel de sensibilidad, es un contraste mucho más potente que el anterior ya que, aunque también utiliza las diferencias entre los valores de cada caso, el valor absoluto de las diferencias se ordenan en rangos (no simplemente positivo y negativo), habiendo más información sobre las diferencias que en el caso anterior. Si las muestras son homogéneas, la hipótesis nula, la suma de los rangos de las diferencias positivas tiene que ser similar a la suma de los rangos con valor negativo (aleatoriedad de las diferencias). Una descripción detallada de esta prueba se encuentra en Siegel & Castellan (1988), los pasos principales son:
137
Capítulo VII
1. Ordenar los valores de las muestras de forma ascendente y ordenar en rangos las diferencias en valor absoluto entre ambas muestras. 2. Calcular el estadístico de contraste T y T’. 3. Si T ó T’ es menor o igual que las cantidades límite que aparecen en la denominada tabla de Wilcoxon, se rechaza la hipótesis nula de que las variables son homogéneas. En caso de que el tamaño de muestra sea alto (mayor de 100 datos), se puede hacer una aproximación a la Normal del estadístico T, pudiéndose calcular el valor Z de la distribución Normal que nos devuelve la probabilidad del contraste. En el Cuadro VII.8 se describe el procedimiento para la obtención de este contraste con el programa STATISTICA.
CUADRO VII.8. Contrastes de homogeneidad para dos muestras dependientes EJEMPLO. Se somete un grupo de individuos a un tratamiento médico para controlar las alergias. Sin embargo, se sospecha que este tratamiento podría provocar alteraciones intestinales. Para comprobar si este efecto es cierto, se mide en un grupo de pacientes el nivel de alteraciones gástricas, en un rango del 1 al 10, antes y después del tratamiento. Los datos se encuentran en el archivo Cuadro VII.8.sta. Paso 1. Dentro del menú «Statistics», marcamos «Nonparametrics».
138
Contraste de hipótesis en variables cuantitativas
CUADRO VII.8. (Continuación) Paso 2. Seleccionamos «Comparing two dependent samples (variables)».
Paso 3. En esta ventana se seleccionan las variables, los grupos y los estadísticos que queremos calcular.
Paso 4. En el icono «Variables» se seleccionan las variables que queremos para el análisis.
139
Capítulo VII
CUADRO VII.8. (Continuación) Paso 5. Pulsando sobre los iconos «Sign Test» y «Wilcoxon matched pair test» de la ventana dibujada en el paso 3 aparecen las tablas de resultados. 1. Prueba de los signos
En la tabla nos aparece la probabilidad de la normal asociada al estadístico de contraste, que nos indica que no se puede rechazar la hipótesis nula. 2. Prueba de Wilcoxon para pares relacionados
Al igual que en el caso anterior, en la tabla nos aparece la probabilidad de la normal asociada al estadístico de contraste que nos indica que no se puede rechazar la hipótesis nula. En conclusión, las muestras son homogéneas, es decir, no existe cambio en el nivel de alteraciones gástricas de los individuos por la utilización del tratamiento para la alergia.
VII.2.2.3. Contrastes para k-muestras dependientes La prueba más utilizada es el ANOVA de Friedman. Esta prueba contrasta la hipótesis de que las medidas proceden de poblaciones iguales, cuando los datos de cada una de las muestras han sido transformados en rangos de forma ascendente. Es la prueba análoga al ANOVA para muestras repetidas por lo que, a pesar de que se trata de un contraste χ2, recibe el nombre de ANOVA. Los pasos de este estadístico están descritos por Siegel & Castellan (1988). De forma resumida son: 1. Asignar rangos dentro de cada muestra.
140
Contraste de hipótesis en variables cuantitativas
2. Sumar los rangos de cada muestra. 3. Calcular el estadístico de χ2 de contraste y compararlo con el valor tabulado χ2 crítico con a-1 grados de libertad, siendo a el número de valores medidos para cada muestra. Un ejemplo de la aplicación de este test aparece en el Cuadro VII.9.
CUADRO VII.9. Contrastes de homogeneidad para k muestras dependientes EJEMPLO. En diversas empresas se realizan cursos de antisiniestralidad durante 6 meses. Se quiere saber si estos cursos provocan cambios en la siniestralidad de estas empresas. Para ello se contabilizó el número de accidentes de estas empresas (filas) durante los 6 meses que se realizaron los cursos (columnas). El archivo de los datos es Cuadro VII.9.sta. Paso 1. Dentro del menú «Statistics», marcamos «Nonparametrics».
Paso 2. Seleccionamos el icono «Comparing multiple dep. samples (variables)».
141
Capítulo VII
CUADRO VII.9. (Continuación) Paso 3. En esta ventana se seleccionan las variables, los grupos y los estadísticos que queremos calcular.
Paso 4. En el icono «Variables» se seleccionan las variables que queremos para el análisis.
Paso 5. Pulsando sobre el icono «Summary: Friedman ANOVA & Kendall’s concordance» aparece la tabla de resultados.
Como puede observarse, el contraste χ2 indica que las muestras no son homogéneas, es decir, que el índice de siniestralidad de las empresas se ha visto alterado por los cursos con una probabilidad <0,001. Además, se nos indica la fuerza con la que están asociadas las variables, ya que observamos que el coeficiente de correlación de Spearman promedio entre cada par de variables es de 0,39 y el coeficiente de concordancia de 0,42.
142
Contraste de hipótesis en variables cuantitativas
VII.2.3. Independencia de variables La independencia de variables cuantitativas se estudia con estadígrafos de asociación que nos indican, además de la fuerza con la que las variables están asociadas, si esta relación es o no significativa. Estos estadígrafos son, básicamente, los denominados coeficientes de correlación, ya que no solo indican la fuerza y significación de la asociación sino que también nos indican la dirección de la misma. Entre ellos destacaremos el coeficiente de Spearman (rs), el coeficiente Gamma (γ), la τ de Kendall. Además incluiremos en esta sección el coeficiente de concordancia de Kendall, que también es una medida de asociación, pero que no nos indica la dirección de la misma. Al igual que los contrastes de hipótesis anteriores, es necesario ordenar los datos en rangos. Los rangos se asignan de forma independiente a cada variable, y posteriormente, se contabilizan las concordancias, discordancias y empates entre pares de casos. Un par son los valores de las mediciones de las dos variables que queremos analizar en un mismo individuo.
VII.2.3.1. Coeficiente de correlación de Spearman (rs) Es una medida similar al coeficiente de correlación r de Pearson pero, en este caso, en lugar de determinar la asociación de las puntuaciones de cada variable, mide la asociación de los rangos. El intervalo de valores que puede tomar este coeficiente es entre -1 y 1, siendo -1 asociación perfecta negativa, 1 asociación perfecta positiva y 0 no asociación. Cada muestra se ordena en rangos y, a partir de estos, se calcula el valor de rs con la fórmula:
donde n es el número de datos, R1i es el rango del dato i en la variable 1 y R2i es el rango del dato i en la variable 2. La significación de este estadígrafo está tabulada para pocos datos y hay una aproximación a la distribución Normal para muestras grandes. Es el coeficiente más utilizado, sobre todo cuando se trabaja con pocos datos, si no es preferible utilizar la τ de Kendall. Por otro lado, si en las muestras hay muchos casos con solapamiento de rangos (mismo valor de la variable) es más indicado el estadígrafo Gamma. En el Cuadro VII.10 aparece el proceso para determinación de este coeficiente.
143
Capítulo VII
VII.2.3.2. τ de Kendall Es un estadístico que tiene una sensibilidad similar a rs, pero más adecuado cuando el tamaño de la muestra es grande. El rango de valores es, al igual que en el caso anterior, entre -1 y 1. El valor absoluto representa la probabilidad de que dos variables estén en el mismo orden, frente a que las dos variables se encuentren en distinto orden. Siegel & Castellan (1988) describen en detalle el cálculo de este estadístico. Se puede contrastar la hipótesis nula de que el coeficiente vale cero (las variables son independientes); la significación está tabulada para pocos datos y se calcula con una aproximación a la distribución Normal cuando hay muchos datos. Un ejemplo con el programa STATISTICA aparece en el Cuadro VII.10.
VII.2.3.3. Gamma (γ) Es el estadígrafo más adecuado cuando los datos presentan un alto solapamiento de rangos. De nuevo, el intervalo de valores que puede tomar este coeficiente es entre -1 y 1, siendo -1 asociación perfecta negativa, 1 asociación perfecta positiva y 0 no asociación. Es básicamente el equivalente a τ de Kendall, considerando los solapamientos entre datos. Los pasos a seguir para el cálculo de este estadístico están descritos en Siegel & Castellan (1988). Para determinar la significación del valor obtenido, existe una tabla para pocos datos o sino una aproximación a la distribución Normal. En el Cuadro VII.10 se indican los pasos para obtención e interpretación de este estadígrafo.
VII.2.3.4. Coeficiente de concordancia de Kendall Mide la asociación cuando tenemos más de dos variables. Es muy útil, por ejemplo, cuando tenemos una muestra con distintas variables. Un caso sería las calificaciones en distintas asignaturas de los alumnos de una clase queriendo comprobar si las calificaciones son iguales en todas las asignaturas. La eficiencia de este test aumenta según se incrementa el número de muestras analizadas, siendo alta a partir de 5 muestras. El intervalo de este coeficiente es entre 0 y 1, siendo 1 el valor máximo de correlación o concordancia. El cálculo de este estadístico se basa en la determinación del coeficiente de correlación de Spearman, es decir, la media de los r obtenidos realizando todas las combinaciones de muestras posibles tomadas de dos en dos. Con este valor promedio se puede calcular el estadísico W de contraste, que utiliza una tabla específica de valores límite cuando hay pocos datos y un contraste χ2 cuando el
144
Contraste de hipótesis en variables cuantitativas
número de muestras es mayor de 7. Una descripción completa aparece en Siegel & Castellan (1988). Su aplicación con el programa STATISTICA se indica en el Cuadro VII.9, ya que aparece asociada al ANOVA de Friedman con el que está muy relacionado a nivel teórico.
CUADRO VII.10. Medidas de asociación EJEMPLO. Queremos conocer si existe relación entre el estadio de desarrollo de un crustáceo y el porcentaje de lípidos en sus tejidos. Los datos aparecen en el archivo Cuadro VII.10.sta. Paso 1. Dentro del menú «Statistics», marcamos «Nonparametrics».
Paso 2. Seleccionamos el icono «Correlations (Spearman, Kendall tau, gamma)».
145
Capítulo VII
CUADRO VII.10. (Continuación) Paso 3. En esta ventana se seleccionan las variables, los grupos y los estadísticos que queremos calcular.
Paso 4. En la sección «Compute» se pueden elegir distintos formatos para las tablas de resultados. Nosotros seleccionamos «Detailed report». Paso 5. En el icono «Variables» se seleccionan las variables que queremos para el análisis.
Paso 6. Pulsando los iconos «Spearman rank R», «Kendall tau» y «Gamma» de la pestaña «Advanced», aparecen los resultados de las distintas medidas de asociación. 1. rs de Spearman
Nos indica una correlación de -0,80 con p < 0,001.
146
Contraste de hipótesis en variables cuantitativas
CUADRO VII.10. (Continuación) 2. Tau de Kendall
Nos indica una correlación de -0,69 significativa con p < 0,001 3. Gamma
Nos indica una correlación negativa de -0,79 con una p<0,001 Resumiendo, todas las medidas de asociación nos indican que las variables están asociadas de forma negativa, es decir, cuando aumenta el estadio, disminuye el contenido en lípidos. Como existe un alto grado de solapamiento de datos, a pesar de que todos los coeficientes son significativos y similares, el más adecuado para estos datos sería Gamma.
147
Capítulo VII
148
VIII
Regresiones
REGRESIONES
En capítulos anteriores se describió la forma de determinar si existía una relación significativa entre dos variables cualitativas (Capítulo VI) y cuantitativas (Capítulo VII), es decir, si las variables eran dependientes o independientes. En este capítulo vamos a analizar cómo describir el tipo de función que mejor se ajusta a la posible relación que existe entre variables. Se define regresión como la teoría que trata de expresar mediante una función matemática la relación que existe entre una variable dependiente y una (regresión simple) o varias (regresión múltiple) variables independientes. La obtención de esta función permite predecir cual será el valor de la variable dependiente en función del valor que tome la variable o variables independientes. La regresión se diferencia de la correlación en que esta última estudia el grado de asociación entre las variables, y determina si la relación es o no es significativa, mientras que la regresión, como se mencionó anteriormente, trata de definir la función que mejor explica la relación entre las variables. En este capítulo vamos a estudiar los modelos de regresión que existen cuando la variable dependiente es cuantitativa y los que hay para variables dependientes cualitativas.
VIII.1. Modelos de regresión para variables dependientes cuantitativas VIII.1.1. Requisitos Para aplicar un modelo de regresión entre variables no se requiere que los datos presenten una distribución Normal o que exista homogeneidad de varianzas; sin embargo, para poder determinar si la función obtenida con el modelo de regresión es significativa es necesario aplicar contrastes, y para ello se tienen que cumplir los siguientes requisitos: 1.
Los residuos obtenidos del modelo de regresión deben presentar una distribución Normal.
149
Capítulo VIII
2. 3. 4.
Debe existir homocedasticidad en los residuos, es decir, la varianza de los mismos debe ser constante. No debe existir autocorrelación en la serie de residuos (deben ser independientes). En el caso del modelo de regresión múltiple, no debe existir relación lineal entre las variables independientes, es decir, no debe existir multicolinealidad.
VIII.1.2. Regresión simple Lo primero que hay que hacer cuando se intenta buscar el mejor ajuste entre dos variables, es representar los datos, poniendo en el eje Y la variable dependiente y en el eje X la independiente. Esto es muy importante, ya que, como se mencionó en el Capítulo I, la representación de los datos es necesaria para ver el tipo de relación que existe entre dos variables y para identificar posibles «outliers». Las funciones más comunes son las que se muestran en la Figura VIII.1 y se expresan a continuación:
Figura VIII.1. Representación gráfica de las ecuaciones mostradas en el texto.
150
Regresiones
Lineal Logarítmica Potencial
ó
Exponencial
ó
Compuesta
ó
Curva-S
ó
Cuadrática o Parábola Crecimiento
ó
Inversa En el Cuadro VIII.1 se muestra la forma de buscar la mejor función que relaciona dos variables.
CUADRO VIII.1. Cálculo de la regresión simple EJEMPLO. En el Archivo Cuadro VIII.1.sav se muestra el tamaño de los utrículos (órganos encargados de capturar las presas) de una planta carnívora y su contenido en carbono (μg por utrículo). Se pretende determinar la ecuación que mejor se ajusta a los datos. Utilizaremos el programa SPSS. Paso 1. Después de introducir nuestras variables, hay que entrar en la sección «Analizar», dentro de esta en «Regresión», y dentro de esta última en «Estimación curvilínea».
151
Capítulo VIII
CUADRO VIII.1. (Continuación) Paso 2. Nos saldrá la siguiente ventana en la que ponemos la variable dependiente (Carbono) y la independiente (Tamaño). Luego indicamos los tipos de funciones que queremos ver en el ajuste. En nuestro caso hemos seleccionado en «Modelos» la «Lineal», «Exponencial» y «Potencia». Es importante que siempre se incluya la constante de la ecuación (el punto de corte de la ecuación por el eje Y cuando X es cero). Solo en los casos en que sepamos que cuando X es cero Y también tiene que ser cero, no incluiremos la constante de la ecuación. En nuestro caso lo incluimos y por ello marcamos «Incluir constante en la ecuación». Al marcar «Representar los modelos» en los resultados obtendremos la representación gráfica de los resultados. Por último, es importante marcar «Mostrar tabla de ANOVA» porque obtendremos información sobre el grado de significación del modelo.
Paso 3. Al «Aceptar» se obtiene el gráfico siguiente y los resultados que se muestran a continuación.
152
Regresiones
CUADRO VIII.1. (Continuaciรณn) Para la ecuaciรณn lineal:
Para la ecuaciรณn potencial:
153
Capítulo VIII
CUADRO VIII.1. (Continuación) Y por último, para la ecuación exponencial:
Paso 4. En la interpretación de los resultados es importante tener en cuenta los siguientes criterios: 1. En la tabla de «Resumen del modelo», el «R» (coeficiente de correlación de Pearson) o «R cuadrado» nos indica el grado de correlación que existe entre las variables. El valor de r oscila entre -1 y 1, y el valor de r2 oscila entre 0 y 1. Conforme el valor de r2 sea más cercano 1, mayor será la correlación y mejor será el ajuste. El r2 es 0,9 para la lineal y 0,95 para la potencial y exponencial. Por tanto, el grado de ajuste más alto se obtiene usando las ecuaciones exponencial o potencial. 2. En la tabla «ANOVA» obtenemos otro resultado importante, el valor del estadístico F y el nivel de significación «Sig.». Como vemos, en los tres modelos la probabilidad es menor de 0,001 y, por tanto, las regresiones son significativas. El valor de F es mayor en la exponencial (927,9) que en la potencial (916,8) y la lineal (471,2), siendo los grados de libertad en ambos casos los mismos (1, 52), indicando que la relación exponencial se ajusta mejor a nuestros datos. 3. En la tabla de «Coeficientes» se muestran otros resultados importantes: las estimaciones de las constantes o parámetros que definen la ecuación:
154
Lineal:
Carbono = -5,13 + 0,00749*Tamaño
Potencial:
Carbono = 9,12 *10-6 * Tamaño1825
Exponencial:
Carbono = 0,7906 *e0,00127*Tamaño
Regresiones
CUADRO VIII.1. (Continuación) 4. El último resultado importante a tener en cuenta es el grado de significación asociado a las estimaciones de las constantes de la ecuación, que se muestra en la tabla de «Coeficientes». En el caso de la ecuación lineal y la exponencial, tanto la constante como la pendiente tienen una p < 0,001, indicando que son significativas. En el caso de la ecuación potencial, también es significativa la pendiente (p < 0,001) y la constante, pero en este caso con p = 0,027. Paso 5. La conclusión es que la ecuación exponencial es la que mejor se ajusta a nuestros datos. La forma de expresar nuestros resultados sería la siguiente: la relación entre tamaño y carbono de los utrículos es significativa (r2 = 0,95, F1,52 = 927,9, p < 0,001) y se ajusta a la ecuación exponencial que se mostró anteriormente. Sin embargo, para que pueda ser utilizado el estadístico F y su nivel de significación, deben cumplirse los requisitos mencionados anteriormente en la Sección VIII.1.1 (homocedasticidad de los residuos, que estos tengan una distribución Normal y que no exista autocorrelación entre ellos). Para comprobarlo es necesario realizar el modelo de regresión lineal. Paso 6. Como el modelo que mejor se ajusta es la ecuación exponencial, para poder aplicar el modelo de regresión lineal es necesario en primer lugar transformar nuestros datos para que la relación entre ambas variables sea lineal. En la Tabla VIII.1 se muestran las transformaciones que hay que hacer para que la relación entre variables sea lineal. Tabla VIII.1. Transformaciones para conseguir relación lineal.
La transformación se realiza en «Transformar» y luego en «Calcular».
155
Capítulo VIII
CUADRO VIII.1. (Continuación) En la ventana que aparece, en «Variable de destino» creamos una nueva variable LNCarbono y en «Expresión numérica» ponemos la transformación que queremos realizar. Como el mejor ajuste lo obteníamos con la exponencial, hay que aplicar el logaritmo a la variable dependiente (Carbono) y luego «Aceptar».
Como se observa en la figura siguiente, es suficiente con transformar la variable dependiente para obtener la relación lineal entre ambas variables.
156
Regresiones
CUADRO VIII.1. (Continuación) Paso 7. Para realizar la regresión lineal, dentro del menú principal nos vamos a «Analizar», luego «Regresión» y, por último, «Lineal».
Paso 8. En la ventana que aparece introducimos como variable dependiente LNCarbono y como independiente Tamaño.
Paso 9. En la ventana anterior tenemos distintas opciones: 1. En «Método» se puede elegir entre distintas formas de introducir las variables en la ecuación: - Introducir. Nos muestra la ecuación con todas las variables independientes. Es decir, introduce todas las variables en la ecuación aunque no sean significativas. - Pasos sucesivos. En cada paso se introduce la variable independiente que no se encuentre ya en la ecuación y que tenga una probabilidad para F suficientemente pequeña. Las variables ya introducidas en la ecuación de regresión se eliminan de ella si su probabilidad para F llega a ser grande. El método termina cuando ya no hay más variables para incluir o excluir. Es decir, solo introduce en la ecuación las variables que son significativas. Es, junto con el anterior, el más usado.
157
Capítulo VIII
CUADRO VIII.1. (Continuación) - Eliminar. Procedimiento para la selección de variables en el que las variables de un bloque se eliminan en un solo paso. - Hacia atrás. Procedimiento de selección de variables en el que se introducen todas las variables en la ecuación y después se van excluyendo una tras otra. Aquella variable que tenga la menor correlación parcial con la variable dependiente será la primera en ser considerada para su exclusión. Si satisface el criterio de eliminación, será eliminada. Tras haber excluido la primera variable, se pondrá a prueba aquella variable, de las que queden en la ecuación, que presente una correlación parcial más pequeña. El procedimiento termina cuando ya no quedan en la ecuación variables que satisfagan el criterio de exclusión. - Hacia delante. Es el proceso contrario al anterior. Va introduciendo primero las variables con mayor significación, hasta que no queda ninguna variable significativa por introducir. 2. En «Variable de selección» se puede introducir una variable que permita seleccionar solo determinados casos para el análisis. Por ejemplo, poniendo 0 y 1 en la variable selección y diciendo que solo se trabaje con los casos que tengan el código 1. 3. «Etiquetas de caso» es otra variable que permite diferenciar los casos a la hora de realizar una representación. Paso 10. En la ventana del paso 8 entramos en «Estadísticos» y en la ventana que aparece seleccionamos en «Residuos» el test «Durbin-Watson» que permite ver si existe autocorrelación entre los residuos. No tiene sentido ver la colinealidad y seleccionar «Diagnósticos de colinealidad» porque solo hay una variable independiente. Dejamos seleccionado también «Estimaciones» y «Ajuste del modelo».
158
Regresiones
CUADRO VIII.1. (Continuación) Paso 11. En la ventana del paso 8, en el icono «Guardar» aparece la siguiente ventana donde seleccionamos en «Residuos» los «Tipificados», que son los residuos que usaremos para estudiar la distribución Normal y homocedasticidad.
Paso 12. En la ventana del paso 8, si pulsamos en «Gráficos» nos aparece la siguiente ventana donde podemos especificar que se realice el gráfico entre «ZRESID» (residuos tipificados) y «ZPRED» (valores pronosticados tipificados). Esta gráfica será necesaria para ver la homocedasticidad de los residuos.
159
Capítulo VIII
CUADRO VIII.1. (Continuación) Paso 13. En la ventana del paso 8, si pulsamos en «Opciones» nos aparece la siguiente ventana donde podemos modificar el nivel de significación para que una variable entre o salga en la regresión por pasos, incluir o no incluir la intersección de la ecuación (lo que se denomina en el programa constante) y excluir casos según alguno de los criterios que se mencionan a continuación:
- Excluir casos según lista. Sólo se incluirán en el análisis los casos con valores válidos para todas las variables. - Excluir casos según pareja. Los casos con datos completos para la pareja de variables correlacionadas se utilizan para calcular el coeficiente de correlación en el cual se basa el análisis de regresión. Los grados de libertad se basan en el N mínimo de las parejas. - Reemplazar por la media. Se emplean todos los casos en los cálculos, sustituyendo las observaciones perdidas por la media de la variable. Paso 14. Por último, en la ventana del paso 8 pulsamos en «Aceptar» para obtener los resultados. En la tabla «Resumen del modelo» y en la tabla de «ANOVA» se observa cómo el valor de r2 = 0,95 y el valor de F = 927,9 son iguales a los que se obtenían con la ecuación exponencial (véase paso 4).
160
Regresiones
CUADRO VIII.1. (Continuación)
En la tabla de «Coeficientes», que se muestra a continuación, se observa que, tanto la constante de la ecuación (-0,235) como la pendiente (0,001) son significativas con una p ≤ 0,001.
La forma de expresar nuestros resultados sería la siguiente: La relación entre tamaño y carbono de los utrículos es significativa (r2 = 0,95, F1,52 = 927,9, p < 0,001) y la ecuación que relaciona ambas variables es la siguiente: ln(Carbono) = - 0,235 + 0,001 * Tamaño Ahora que ya hemos conseguido la linealidad entre las variables y hemos realizado la regresión lineal podemos ver si es correcto usar el estadístico F y su nivel de significación, examinando los requisitos de distribución Normal y homocedasticidad de los residuos (diferencia entre el valor observado de la variable dependiente y el valor ajustado por la ecuación) y que no exista autocorrelación entre ellos.
161
Capítulo VIII
CUADRO VIII.1. (Continuación) Paso 15. Distribución Normal de los residuos. Volviendo a la página principal veremos que se ha creado una nueva variable que contiene los residuos tipificados (ZRE_1).
Para ver la distribución Normal de los residuos entramos en «Analizar», luego en «Pruebas no paramétricas» y, por último, en «KS de 1 muestra», para hacer el test de Kolmogorov-Smirnov.
Nos aparece la siguiente ventana en la cual, dentro de «Contrastar variables», introducimos la variable de la que queremos ver si tiene una distribución Normal, en este caso «Standardized Residual».
162
Regresiones
CUADRO VIII.1. (Continuación) Al «Aceptar» nos aparece la siguiente tabla de resultados «Prueba de Kolmogorov-Smirnov para una muestra» en la que se observa que p = 0,665 y, por lo tanto, se cumple la hipótesis nula de que los residuos se ajustan a una distribución Normal.
Paso 16. Homocedasticidad de los residuos. Uno de los resultados obtenidos es el gráfico que se muestra a continuación (y que habíamos especificado en el paso 12) entre los residuos tipificados y las predicciones. Para que exista estabilidad en la variabilidad de los residuos, esta debe ser más o menos constante, no aumentando ni disminuyendo en los extremos o el centro de la gráfica. Vemos cómo en este caso los residuos varían de forma similar a lo largo de todo el recorrido y, por tanto, aceptamos que existe homocedasticidad en los residuos.
163
Capítulo VIII
CUADRO VIII.1. (Continuación) Las gráficas que se muestran a continuación son ejemplos en los que no se cumple la homocedasticidad de los residuos, porque su variabilidad no es constante, sino que cambia dependiendo de los valores pronosticados. En la primera gráfica se observa, además, que el ajuste no es lineal, ya que no se mantiene la tendencia horizontal.
164
Regresiones
CUADRO VIII.1. (Continuación) Paso 17. Autocorrelación de los residuos. Para determinar si no existe autocorrelación en los residuos se utiliza el contraste de Durbin-Watson. En el paso 14, en la tabla «Resumen del modelo», se ve el valor del contraste ^
d = 1,256. Las tablas de Durbin-Watson (Tabla 7 del Apéndice o Archivo
Tabla 7.doc) para n = 54 y α = 0,05 proporcionan los valores aproximados de dL = 1,527 y dU = 1,601. -
^
Si 0 < d < d L se rechaza H 0 y aceptamos la existencia de autocorrelación positiva. ^
-
Si dL < d < dU el contraste no es concluyente.
-
Si dU < d < 4 - dU se acepta H0 y no hay autocorrelación.
-
Si 4 - dU < d < 4 - dL el contraste no es concluyente.
-
Si 4 - d L < d < 4 se rechaza H0 y aceptamos la existencia de
^
^
^
autocorrelación negativa. ^
Por lo tanto, como d (1,256) < d L (1,527) se rechaza H 0 y existe autocorrelación positiva entre los residuos. La autocorrelación aparece generalmente porque las medidas se toman a lo largo del tiempo y los errores se deben a los procedimientos utilizados. Una posible solución consiste en aleatorizar el proceso de medida en la fase de toma de datos. Paso 18. En conclusión, aunque el modelo de regresión es muy significativo, no se debe utilizar el estadístico F ni el grado de significación que se obtiene, porque existe autocorrelación (los residuos no son independientes).
VIII.1.3. Regresión múltiple lineal Hasta ahora hemos visto regresiones en las que había una sola variable independiente. Sin embargo, es muy frecuente que necesitemos estudiar si nuestra variable dependiente está relacionada con más de una variable. En este caso es necesario usar la regresión múltiple. Al igual que ocurría con la regresión simple, las relaciones entre variables pueden ser lineales o no lineales. En este apartado vamos a tratar solo con aquellas situaciones en las que, aunque algunas variables no tengan relación lineal, es posible obtener la linealidad mediante alguna transformación. En el siguiente apartado se explicará la forma de obtener la regresión cuando la relación no es lineal. En el Cuadro VIII.2 se muestra un ejemplo de regresión múltiple lineal.
165
Capítulo VIII
CUADRO VIII.2. Regresión múltiple lineal EJEMPLO. En el Archivo Cuadro VIII.2.sav se muestran datos sobre el tamaño (en mm) de la larva y el contenido en proteínas de la larva (en μg por larva) de una especie de pez recolectadas en distintas estaciones de muestreo donde se midió la temperatura (º C) y la concentración de oxígeno del agua (mg ml-1). Se quiere determinar si el contenido en proteínas de la larva depende del tamaño de la larva, concentración de oxígeno y/o de la temperatura, y encontrar la función que los relaciona. Paso 1. Por medio de los pasos descritos en el Cuadro VIII.1 o simplemente representando en una gráfica, se observa que la relación entre el tamaño de la larva y su contenido en proteínas no es lineal. Con las otras dos variables, temperatura y concentración de oxígeno, no se observa que la relación no sea lineal.
En esta situación es necesario primero hacer que las relaciones sean lineales y, para ello, como la relación entre proteína y tamaño de la larva es potencial (Cuadro VIII.1 para ver los pasos a seguir), aplicamos el logaritmo a las dos variables. Como se ve en el nuevo gráfico, la relación se hace lineal.
166
Regresiones
CUADRO VIII.2. (Continuación) Paso 2. En el programa SPSS entramos en «Analizar», luego «Regresión» y, por último «Lineal...».
Paso 3. En la ventana que aparece introducimos las variables transformadas con los logaritmos. La dependiente es el contenido en proteínas de la larva y las independientes el tamaño de la larva, concentración de oxígeno y la temperatura. Se pueden hacer pruebas, introduciendo como variables independientes los datos transformados logarítmicamente o sin transformar, para obtener la mejor relación y que cumpla con todos los requisitos.
Las distintas opciones que aparecen en la ventana se explicaron en los pasos del 9 al 13 del Cuadro VIII.1, con la excepción de que en este caso se selecciona «Diagnósticos de colinealidad» (paso 10 del Cuadro VIII.1) para ver si existe relación entre las variables independientes. En «Método» utilizamos «Pasos suc.» para que el modelo solo incluya las variables independientes que son significativas.
167
Capítulo VIII
CUADRO VIII.2. (Continuación) Paso 4. Los resultados del análisis son los siguientes, de los cuales la mayoría de los parámetros ya se explicaron en el Cuadro VIII.1. 1. En la tabla «Resumen del modelo» el r2 del segundo modelo (0,81) es mayor que el del primer modelo (0,74) y, por tanto, el ajuste es mejor (siempre será así cuando se añaden variables a un modelo).
2. En la tabla «ANOVA» se muestra que ambos modelos, con una y dos variables independientes, son significativos, con p < 0,001.
3. En la tabla «Coeficientes» vemos que el primer modelo solo incluye como variable independiente el tamaño de la larva. El segundo incluye también la temperatura. No aparece un tercer modelo porque la concentración de oxígeno no es una variable significativa que esté relacionada con las proteínas de la larva. En el segundo modelo, tanto la intersección de la ecuación (la constante), como las dos variables independientes, son significativas con una p < 0,001.
168
Regresiones
CUADRO VIII.2. (Continuación)
En resumen, como el segundo modelo explica una proporción claramente mayor de la varianza observada en las proteínas de la larva (81%), es significativo con p < 0,001, y, tanto la constante como las dos variables independientes son significativas con una p < 0,001, elegiremos este segundo modelo en vez del primero. La forma de expresar nuestros resultados sería la siguiente: existe una relación significativa entre las proteínas de la larva con el tamaño de la larva y la temperatura (r2 = 0,81, F2,87 = 185,06, p < 0,001), que se describe por medio de la siguiente ecuación: ln(Proteínas) = 3,085 + 2,653*ln(Tamaño) -0,339*Temperatura Ahora podemos ver si es correcto usar el estadístico F y su nivel de significación, examinando los requisitos de distribución Normal y homocedasticidad de los residuos, que no exista autocorrelación entre ellos y tampoco colinealidad entre las variables independientes. Paso 5. Distribución Normal de los residuos. Se sigue el proceso descrito en el paso 15 del Cuadro VIII.1.
Se observa que p = 0,66, por tanto, se acepta la hipótesis nula de que los residuos presentan una distribución Normal.
169
Capítulo VIII
CUADRO VIII.2. (Continuación) Paso 6. Homocedasticidad de los residuos. Se sigue el proceso descrito en el paso 16 del Cuadro VIII.1. Como se observa en la gráfica siguiente, la variabilidad de los residuos se mantiene más o menos constante a lo largo de todo el rango de los valores pronosticados tipificados. Por tanto, aceptamos que existe homocedasticidad en los residuos.
Paso 7. Autocorrelación de los residuos. Se sigue el proceso descrito en el paso 17 del Cuadro VIII.1. En la tabla «Resumen del modelo», se ve el valor ^
del contraste d = 1,788. Las tablas de Durbin-Watson (Tabla 7 del Apéndice o Archivo Tabla 7.doc) para n = 90 y α = 0,05 proporcionan los valores de dL = 1,612 y dU = 1,703 (considerando dos variables independientes). -
^
Si 0 < d < d L se rechaza H 0 y aceptamos la existencia de autocorrelación positiva. ^
-
Si dL < d < dU el contraste no es concluyente.
-
Si dU < d < 4 - dU se acepta H0 y no hay autocorrelación.
-
Si 4 - dU < d < 4 - dL el contraste no es concluyente.
-
Si 4 - d L < d < 4 se rechaza H 0 y aceptamos la existencia de
^
^
^
autocorrelación negativa. ^
Por lo tanto, como dL (1,612) < d (1,788) < 4 - dU (2,297) se acepta H0 y no hay autocorrelación entre los residuos.
170
Regresiones
CUADRO VIII.2. (Continuación) Paso 8. Colinealidad. En la tabla «Coeficientes» presentada en el paso 4 se muestran dos estadísticos denominados «Tolerancia» y «FIV» (Factor de Inflación de la Varianza, el inverso de la tolerancia) que se utilizan para estudiar la colinealidad. La tolerancia es la proporción de la varianza de cada variable independiente que no es explicada por las restantes variables independientes, y se obtiene restando de la unidad el coeficiente de determinación r2 de una regresión múltiple realizada con cada una de las variables explicativas como dependiente de las restantes. Aunque no existen reglas fijas, una tolerancia muy pequeña (por ejemplo inferior al 10% (menor de 0,1), o FIV > 10) muestra una variable que casi es combinación lineal de las restantes, lo que indicaría un posible problema de colinealidad. En nuestro ejemplo la tolerancia es muy alta (0,953) y FIV bajo (1,049), por lo que no existe problema. En la tabla siguiente «Diagnósticos de colinealidad» se muestran otros resultados para estudiar este problema. En ellos se muestran el «Autovalor», que indica las dimensiones subyacentes: si hay varios autovalores muy próximos a cero, ello indicaría la presencia de colinealidad. Para su mejor valoración se calcula el «Indice de condición», o raíz cuadrada del cociente entre el mayor autovalor y los restantes. Un índice de condición mayor que 15 indica la posible presencia de colinealidad, y si es mayor que 30 indica un serio problema. Sin embargo, dado que la constante del modelo añade una dimensión más, debe matizarse con las «Proporciones de la varianza» de cada coeficiente de regresión que explica cada dimensión (en general cada dimensión explica un porcentaje alto de solamente una variable explicativa). Si una dimensión con índice de condición elevado explica un porcentaje alto de dos o más variables explicativas (la constante no cuenta), existe un serio problema de colinealidad. En nuestro ejemplo no hay colinealidad, ya que una dimensión (la tercera) tiene índice de condición elevado (36,903), pero solo explica una proporción importante de la variable temperatura (y de la constante, pero ésta no cuenta). Cuando existe problema de colinealidad, la mejor solución puede ser prescindir de alguna variable explicativa que esté muy correlacionada con las demás.
Paso 9. En conclusión, se cumplen razonablemente las hipótesis del modelo de regresión.
171
Capítulo VIII
VIII.1.4. Otras regresiones simples o múltiples no lineales Muchas veces las variables se ajustan a un tipo de regresión que no es ninguna de las comunes que vienen descritas en la mayoría de los programas estadísticos y que se mostraron en el Apartado VIII.1.2. Sin embargo, algunos programas estadísticos permiten ver si la relación entre una variable dependiente y una o varias variables independientes se ajusta a una determinada ecuación. Para ello, es necesario tener una idea previa de la ecuación que mejor se puede ajustar a la tendencia que observamos entre las variables. En este apartado se describirán algunas de las relaciones no lineales que se observan más frecuentemente entre distintas variables.
VIII.1.4.1. Curva logística Muchos fenómenos en la naturaleza se ajustan a una curva logística como por ejemplo los cambios en la abundancia de una población en el tiempo (Smith & Smith 2000), el avance científico a lo largo del tiempo dentro de una determinada línea de investigación (Solla Price, Little Science, Big Science, 1963 -citado en Callon y col. 1995), el ciclo de vida de uso que se le da a una línea de ferrocarril (Ingleda & Coto 2003) y un largo etc. (Figura VIII.2).
Figura VIII.2. Curva logística con pendiente negativa (
) y positiva (
).
La curva logística viene definida por la siguiente ecuación:
La constante a delimita el límite superior de la curva y es igual a K o capacidad de carga de la población (número máximo de individuos de esa población) en el caso de que se modele a una población (Figura VIII.2.). La constante c determina
172
Regresiones
la pendiente, y en el caso de poblaciones es igual a r o tasa de crecimiento de la población. La constante b define el tamaño de la llamada fase de latencia en el caso de poblaciones, la fase con valores más pequeños antes de iniciar la pendiente hasta alcanzar el valor máximo.
VIII.1.4.2. Curva de crecimiento de von Bertalanffy La curva de crecimiento de muchos organismos se ajusta bien a la ecuación de von Bertalanffy (Figura VIII.3):
donde Lt es la longitud del individuo a la edad t, L∞ es la longitud máxima que alcanza el individuo cuando el crecimiento cesa, k es la constante de crecimiento expresada en tiempo-1 y t0 es la edad hipotética que tendría un individuo que tuviese un tamaño cero. Por lo tanto, la variable dependiente sería Lt, la variable independiente la edad del individuo (t) y las constantes de esta ecuación serían k, L∞ y t0.
Figura VIII.3. Curva de crecimiento de von Bertalanffy.
VIII.1.4.3. Curva de crecimiento de Gompertz En algunas especies, como por ejemplo los peces, crustáceos y moluscos, en las primeras fases del ciclo de vida (fase larvaria) el crecimiento puede ajustarse mejor a la ecuación de Gompertz (Hernandez-Llamas & Ratkowsky 2004) (Figura VIII.4):
173
Capítulo VIII
donde Lt es la longitud del individuo a la edad t, a es una constante que representa el valor máximo asintótico de la curva, t es la edad del individuo y, b y c son las otras dos constantes de la ecuación.
Figura VIII.4. Curva de crecimiento de Gompertz.
VIII.1.4.4. Relación entre tasas y variables La tasa de crecimiento de una población bacteriana, de levaduras o de una fitoplanctónica a distintas concentraciones de nutrientes o de temperatura, la tasa fotosintética de plantas a diferentes intensidades de luz, entre otros muchos ejemplos, se ajustan bien a la ecuación de Monod (Figura VIII.5):
donde μ es la tasa expresada en tiempo-1 y P es la variable (luz, temperatura, concentración de nutrientes, etc) que provoca la variación de la tasa (de crecimiento, fotosintética, etc). Las constantes de la ecuación son μmax (en tiempo-1), que es la tasa máxima asintótica de la ecuación y Ks que indica el valor de la variable P cuando se alcanza la mitad de la tasa máxima. La ecuación de Monod presenta el problema de que la tasa solo alcanza el valor cero cuando el valor de la variable también es cero. Sin embargo, se observa frecuentemente que la tasa puede hacerse cero antes de que el valor de la variable explicativa sea cero. Por ejemplo, la tasa de crecimiento poblacional del fitoplancton se suele hacer cero a concentraciones de nutrientes (fosfato, nitrógeno o silicato) superiores a cero (Frangópulos y col. 2004). Esta concentración mínima de nutrientes a la que la tasa de crecimiento es cero, tiene gran importancia en
174
Regresiones
términos de competencia entre las especies, porque aquellas especies para las que esta concentración es mayor significa que compiten peor por ese nutriente. La ecuación siguiente corrige ese problema de la ecuación de Monod, ya que contempla la posibilidad de que la tasa se haga cero antes de que el parámetro llegue a cero (Figura VIII.5):
donde Kmin es el valor del parámetro al cual la tasa es cero. Como se mencionó anteriormente, en los estudios de competencia, a medida que Kmin es mayor, la especie es peor competidora por el recurso (la variable P de la ecuación).
Figura VIII.5. Ecuación de Monod (
) y ecuación que incluye Kmin (
).
Esta ecuación que incluye Kmin admite que se incluyan tasas negativas, lo cual también es frecuente observarlo en la naturaleza. Por ejemplo, que el crecimiento de una población bacteriana sea negativo y, por tanto, se reduzca la abundancia de la población cuando la concentración de nutrientes sea muy baja. En el caso de la ecuación de Monod no existe la posibilidad de incluir tasas negativas. En el Cuadro VIII.3 se describe la forma de obtener cualquier tipo de regresión entre variables y si la relación es significativa.
175
Capítulo VIII
CUADRO VIII.3. Cálculo de regresiones no lineales con el programa SPSS EJEMPLO. El crecimiento de una población de fitoplancton sigue normalmente una curva de crecimiento logístico. En el archivo Cuadro VIII.3.sav se muestra la abundancia de fitoplancton (células ml-1) en cultivo a lo largo del tiempo (en días), teniendo varias réplicas para cada tiempo. Se quiere estimar la curva logística de crecimiento que mejor se ajusta a esos datos. Paso 1. Después de introducir nuestras variables, hay que entrar en la sección «Analizar», dentro de esta en «Regresión», y dentro de esta última en «No lineal…».
Paso 2. Nos aparecerá el siguiente cuadro en el cual es necesario, en primer lugar, definir los valores iniciales que le damos a las constantes de la ecuación y, para ello entramos en «Parámetros».
176
Regresiones
CUADRO VIII.3 (Continuación) Paso 3. Nos aparece el siguiente cuadro, donde hay que introducir el nombre de la constante en «Nombre» y el valor de la misma en «Valor inicial». En nuestro caso será a = 35000, b = 2 y c = 2. Es importante introducir valores cercanos a lo que puede ser el resultado final, ya que si no se corre el riesgo de que el programa no sea capaz de ajustar la ecuación.
Paso 4. Una vez introducidas las constantes, el paso siguiente es introducir en «Expresión del modelo» la ecuación que deseamos ajustar a nuestras variables, como se muestra en la siguiente ventana. Es importante mencionar que es posible introducir varias variables independientes, es decir, es posible realizar una regresión múltiple.
177
Capítulo VIII
CUADRO VIII.3 (Continuación) Paso 5. En los resultados nos aparece la tabla «Historial de iteraciones», con las iteraciones que el programa ha realizado hasta llegar al cálculo de los parámetros.
178
Regresiones
CUADRO VIII.3 (Continuación) En la tabla «Estimaciones de los parámetros» se muestra el valor de las constantes que en este caso serían a = 342243, b = 6,15 y c = 1,39.
Por lo tanto la ecuación quedaría de la siguiente forma:
En la parte inferior de la tabla «ANOVA» observamos el Coeficiente de determinación «R cuadrado» (r2), que es un buen indicador de la bondad del ajuste e indica la proporción de la varianza de la variable dependiente explicada por la regresión: en este caso su valor es 0,976 por lo que la regresión explica el 97,6% de la variabilidad, y tan solo el 2,4% restante es variabilidad residual no explicada por el ajuste. Un valor igual a 1 se obtendría únicamente cuando todos los puntos están en la curva, y por lo tanto el modelo explica exactamente los datos de la muestra, y en general se consideran satisfactorios porcentajes superiores a 0,90 ó 0,95. La tabla de ANOVA contiene las sumas de cuadrados (de la regresión y residual) que permiten calcular el coeficiente r2, así como los cuadrados medios. No se construye con ellos el cociente, estadístico que permitiría verificar la significación estadística de la regresión, ya que en general no se cumplen -en los modelos no lineales- las hipótesis necesarias para asegurar la distribución F del estadístico resultante.
179
Capítulo VIII
VIII.2. Modelos de regresión para variables dependientes cualitativas En el caso de que la variable dependiente sea cualitativa un modelo adecuado es el de regresión logística. Se utiliza ampliamente en investigación clínica, ya que permite estimar la probabilidad de ocurrencia de un proceso en función de ciertas variables, permitiendo evaluar la influencia de las variables independientes sobre la variable dependiente, dando como resultado una probabilidad. La variable dependiente es siempre cualitativa pero las variables independientes pueden ser continuas, discretas, categóricas, dicotómicas o una mezcla de todas ellas. Al igual que ocurría con la regresión para variables dependientes cuantitativas es necesario que no exista multicolinealidad entre las diferentes variables independientes y las observaciones de la muestra deben ser independientes entre sí. Sin embargo, no se requiere que los residuos presenten una distribución Normal ni la hipótesis de homocedasticidad (varianza constante de los residuos). La variable dependiente puede ser dicotómica (0 si el hecho no ocurre y 1 si ocurre) o politómica (hay varias categorías), dando lugar a dos tipos diferentes de regresión logística, la binomial o multinomial, respectivamente.
VIII.2.1. Regresión logística binomial La ecuación a la que responde el modelo es:
donde Πi es la probabilidad de que en el caso i se produzca el evento estudiado e Yi es el valor de la variable dependiente en el caso i. Expresado en forma de regresión:
donde α y β son los coeficientes de la ecuación. En caso de existir varias variables predictoras (independientes) la regresión se transforma en:
180
Regresiones
donde Πi es la probabilidad de que se produzca el evento estudiado en el caso i, k es el número de variables predictoras, α es un coeficiente, βj es el coeficiente de la variable predictora j y Xji es el valor de la variable predictora j en el caso i. En caso de que Πi sea mayor de 0,5 se asume (a efectos de predicción) que el evento se produce y si es menor que 0,5 que no se produce. Un ejemplo de cálculo de regresión logística binomial con SPSS aparece en el Cuadro VIII.4.
CUADRO VIII.4. Cálculo de la regresión logística binomial EJEMPLO. Se quiere conocer si a partir de las variables fumador (1 fuma, 0 no fuma), bebedor (1 bebe más 2 copas de vino al día, 0 bebe menos de 2 copas de vino diarias), edad (0 menor de 25 años, 1 entre 25 y 50 años y 2 más de 50 años) y realización de ejercicio físico (1 más de 3 horas semanales, 0 menos de 3 horas semanales), se puede predecir la presencia de hipertensión (1 padece hipertensión, 0 no padece hipertensión) en los pacientes. Los datos aparecen en el archivo Cuadro VIII.4.sav y usaremos el programa SPSS. Antes de describir los pasos del análisis es interesante indicar el proceso de etiquetado de los datos en SPSS ya que nos ayudará en gran medida a la interpretación de los resultados. El programa SPSS permite la asignación de etiquetas a las distintas categorías (que deben introducirse con números para realizar los análisis). Este etiquetado se realiza en la pestaña de «Vista de variables» (véase flecha).
181
Capítulo VIII
CUADRO VIII.4. (Continuación) Como ejemplo vamos a hacer la variable Hipertensión. Hacemos clic sobre el cuadro valores de la variable y luego marcamos sobre los puntos suspensivos que aparecen (ver pantalla anterior) y nos sale una pantalla en la que debemos indicar el valor de la categoría y su etiqueta. Introducimos valor 0 y etiqueta de valor No hipertenso y marcamos sobre el icono «Añadir». Después escribimos el valor 1 y como etiqueta Hipertenso, marcando de nuevo sobre el icono «Añadir». Nos queda la siguiente pantalla.
Pulsamos el icono «Aceptar» y ya tenemos los datos etiquetados. Para ver las etiquetas se pulsa sobre el icono etiquetas (ver flecha en la pantalla siguiente en la pestaña «Vista de datos»).
Pasamos ya a la descripción de los pasos para calcular la regresión logística binaria con SPSS. Paso 1. Entramos en la sección «Analizar», dentro de esta en «Regresión», y dentro de esta última en «Logística binaria…».
182
Regresiones
CUADRO VIII.4. (Continuación) Paso 2. Nos aparecerá el siguiente cuadro en el cual es necesario, en primer lugar, definir la variable «Dependiente» y las «Covariables» (variables predictoras).
En esta pantalla cabe destacar que es posible realizar distintos modelos de regresión (que denomina bloques) al mismo tiempo, bien cambiando las variables independientes o el método de elección de variables. Para ello solamente debemos pulsar en el icono «Siguiente» y nos aparecerá la ventana que se muestra a continuación donde se deben indicar todas las opciones que se deseen para el análisis.
Como podemos observar, en la pantalla aparece el número de bloque indicando que es el Bloque 2 de 2, es decir, vamos a ejecutar 2 modelos y en esta pantalla se definirá el segundo. Podríamos añadir todos los bloques que quisiésemos, pero con nuestros datos vamos a trabajar solo con el primer bloque, por lo que pulsamos sobre el icono «Anterior» para volver al la pantalla del Bloque 1.
183
Capítulo VIII
CUADRO VIII.4. (Continuación) Paso 3. Como nuestras variables predictoras son categóricas pulsamos sobre el icono «Categórica» para indicarlo. Nos aparece el siguiente cuadro.
Paso 4. Aunque todas nuestras covariables son categóricas, las que son dicotómicas (fuma, bebe y ejerc_fisico) no es necesario considerarlas como categóricas. Por lo tanto, solo pasamos al cuadro de «Covariables categóricas» la edad. Una vez hemos pasado la edad vemos como aparece un paréntesis después de la variable en el que se nos indica cómo queremos seleccionar la categoría de referencia a la hora de realizar las comparaciones, lo que es necesario para interpretar correctamente los resultados.
Paso 5. Existen diferentes comparaciones que se pueden utilizar. Para cambiarlos pulsamos sobre «Cambiar». Las posibilidades son: -Indicador. Presencia o ausencia de cada categoría. -Simple. Cada categoría del predictor (excepto la propia categoría de referencia) se compara con la categoría de referencia. -Diferencia. Cada categoría del predictor, excepto la primera categoría, se compara con el efecto promedio de las categorías anteriores. -Helmert. Cada categoría del predictor, excepto la última categoría, se compara con el efecto promedio de las categorías subsiguientes. -Repetidas. Cada categoría del predictor, excepto la primera categoría, se compara con la categoría que la precede.
184
Regresiones
CUADRO VIII.4. (Continuación) -Polinómico. Contrastes polinómicos ortogonales. Se supone que las categorías están espaciadas equidistantemente. Los contrastes polinómicos solo están disponibles para variables numéricas. -Desviación. Cada categoría del predictor, excepto la categoría de referencia, se compara con el efecto global. Para los contrastes Indicador, Simple y Desviación es posible indicar si se desea que la categoría de referencia sea la primera o última de los datos. En nuestro caso, dejaremos Indicador, ya que es el contraste que SPSS pone por defecto y ponemos que tenga como referencia la primera categoría (valor 0). Para el cambio pulsar sobre el icono «Cambiar». Pulsamos sobre el icono «Continuar» y volvemos a la pantalla principal en la que, como se muestra en el cuadro siguiente, ya se indica que las variables son categóricas.
Paso 6. Pulsando sobre «Método» se indica cómo queremos que se introduzcan las variables independientes en el modelo. Existen distintos métodos según se utilicen todas las variables sin eliminar las no significativas, se seleccionen las variables hacia adelante (es decir, se van incluyendo en el modelo las variables más significativas hasta que todas la que no han sido seleccionadas no son significativas) o se seleccionan hacia atrás (es decir, se incluyen en el modelo todas las variables y se van eliminando las menos significativas y así, sucesivamente, hasta que todas las variables en el modelo sean significativas). Los métodos de introducción posibles son:
185
Capítulo VIII
CUADRO VIII.4. (Continuación) -Introducir. Procedimiento para la selección de variables en el que todas las variables de un bloque se introducen en un solo paso. Incluye todas las variables aunque no sean significativas. -Adelante:Condicional. Contrasta la entrada basándose en la significación del estadístico de puntuación y contrasta la eliminación de acuerdo a la probabilidad de un estadístico de la razón de verosimilitud que se basa en estimaciones condicionales de los parámetros. -Adelante:RV. Contrasta la entrada basándose en la significación del estadístico de puntuación y contrasta la eliminación en relación al estadistico de la razón de verosimilitud, que se basa en estimaciones de la máxima verosimilitud parcial. -Adelante:Wald. Método de selección por pasos hacia adelante que contrasta la entrada basándose en la significación del estadístico de puntuación y contrasta la eliminación basándose en la probabilidad del estadístico de Wald. El estadístico de Wald permite una prueba χ2 para contrastar la hipótesis nula de que el coeficiente de cada variable independiente es cero. -Atrás:Condicional. Selección por pasos hacia atrás. El contraste para la eliminación se basa en la probabilidad del estadístico de la razón de verosimilitud, el cuál se basa a su vez en las estimaciones condicionales de los parámetros. -Atrás:RV. Selección hacia atrás por pasos. El contraste para la eliminación se fundamenta en la probabilidad del estadístico de la razón de verosimilitud, el cual se basa en estimaciones de máxima verosimilitud parcial. -Atrás:Wald. Selección por pasos hacia atrás. El contraste para la eliminación se basa en la probabilidad del estadístico de Wald. En nuestro caso, seleccionaremos «Atrás:Wald» ya que queremos que el modelo incluya en un principio todas las variables independientes y vaya quitando variables en cada paso hasta solo quedar las variables significativas. Paso 7. Volviendo a la pantalla y pulsando sobre el icono «Guardar» de la pantalla anterior nos aparecen las posibles opciones para guardar los resultados de la regresión logística como nuevas variables.
186
Regresiones
CUADRO VIII.4. (Continuación)
Es posible guardar la probabilidad de que se produzca el evento (en este caso hipertensión) o el grupo de pertenencia —según el modelo— de cada caso. Además es posible solicitar la influencia de cada caso particular en los valores predichos: «De Cook» mide como cambian los residuos si excluimos cada caso, «Valores de influencia» la importancia de cada dato en el ajuste del modelo y «DfBetas» mide el cambio en el coeficiente de regresión excluyendo cada caso. También es posible obtener diferentes mediciones de los residuos. Paso 8. Pulsamos sobre el icono «Continuar» y volvemos a la pantalla principal que aparece a continuación.
Paso 9. Ya por último, pulsamos sobre el icono «Opciones» que nos permite personalizar algunas características del procedimiento.
187
Capítulo VIII
CUADRO VIII.4. (Continuación)
En la sección «Estadísticos y gráficos» podemos indicar si queremos ver el «Gráfico de clasificación», así como la «Bondad de ajuste HosmerLemeshow» (se basa en agrupar los casos en deciles de riesgo y comparar la probabilidad observada con la esperada dentro de cada decil). También podemos solicitar el «Listado de residuos por caso», las «Correlaciones de estimaciones», el «Historial de iteraciones» o el intervalo de confianza para los distintos β «IC para exp(B)». En la sección «Mostrar» podemos indicar si queremos ver los resultados «En cada paso» o solo «En el último paso». También podemos indicar la probabilidad de «Entrada» y «Salida» de las covariables en los modelos por pasos, así como el «Nº máximo de iteraciones» y el «Punto de corte para la clasificación», es decir, a partir de qué probabilidad vamos a suponer o predecir que se produce el evento. Con nuestros datos vamos a dejar las opciones que el programa trae por defecto. Paso 10. Se pulsa el icono «Continuar» saliendo de nuevo la pantalla principal (paso 8) y pulsamos sobre «Aceptar» para obtener el archivo de resultados. Paso 11. Interpretación de los resultados. En los resultados nos centraremos en la sección «Bloque 1: Método = Por pasos hacia atrás (Wald)» que es donde aparecen los resultados finales. Se nos muestran los resultados para los distintos pasos que ha realizado el programa. A nosotros nos va a interesar el último paso (con nuestros datos el paso 3).
188
Regresiones
CUADRO VIII.4. (Continuación) La tabla que aparece a continuación «Pruebas omnibus sobre los coeficientes del modelo», nos muestra el valor de los contrastes χ2 entre nuestros datos y el modelo que hemos generado. Como nuestra regresión logística era por pasos, nos va a indicar los valores de χ2 en los distintos pasos. El χ2 de bloque no nos interesa, ya que en nuestro caso tenemos un único bloque, pero en caso de tener varios, nos indicaría si existen diferencias significativas entre los distintos bloques. En el primer paso (introducción de las cuatro variables independientes) observamos que el χ2 del modelo es significativo con p < 0,001, es decir, las variables independientes describen la variable dependiente de forma significativa. En este caso el χ2 de paso (comparación entre los pasos sucesivos de la regresión) es igual al del modelo, ya que lo compara con el modelo sin considerar variables. En el paso 2 observamos que hay una reducción en el estadístico χ2 entre pasos, y que no hay diferencias significativas entre el modelo del paso 1 y el modelo del paso 2 con una variable menos (p = 0,452) y que el modelo sigue siendo significativo (p < 0,001). Ya en el último paso (modelo final con solo dos variables independientes) el cambio en el valor de χ2 tampoco es significativo frente al paso anterior (p = 0,507), y el modelo sigue siendo significativo (p < 0,001).
189
Capítulo VIII
CUADRO VIII.4. (Continuación) La tabla «Variables en la ecuación» nos indica las variables seleccionadas en cada paso. En el paso 1 incluye todas las variables, en el paso 2 elimina la variable ejerc_fisico por ser la menos significativa en el paso anterior y en el paso 3 elimina bebe por no ser significativa, quedándose con las variables fuma y edad, que son significativas. En el caso de que las variables categóricas no sean dicotómicas (solo edad), se crea un coeficiente β para cada categoría distinta de la de referencia (que tiene valor 0). El valor positivo del coeficiente β nos indica que favorece la aparición de hipertensión (factor de riesgo). Además nos da el estadístico de Wald de los coeficientes β con su significación, siendo en el paso 3 todos significativos (p < 0,05). Especial importancia tiene en esta tabla el valor «Exp(B)», que es la OR (Odds Ratio, razón impar o razón de ventajas) que representa el cociente entre la probabilidad de que ocurra el suceso que define la variable dependiente frente a la probabilidad de que no ocurra en presencia o ausencia del factor. Así, el valor 10,079 correspondiente a la variable fuma nos indica que entre los fumadores es 10,079 veces más grande el cociente entre la probabilidad de padecer hipertensión y la de no padecerla que entre los no fumadores, por lo que se trata de un factor de riesgo. Algo semejante ocurre con la pertenencia al grupo de edad(2) «> 50 años».
190
Regresiones
CUADRO VIII.4. (Continuación) En el «Resumen de los modelos» se nos indica el valor estadístico «-2 log de la verosimilitud» (útil para hacer comparaciones) así como 2 valores de r2 que no son equivalentes a r2 de la regresión lineal, por lo que deben ser utilizados con cautela. El r2 de Cox y Snell no varía entre 0 y 1 por lo que se ha modificado en lo que se llama el r2 de Nagelkerke, que sí varía entre 0 y 1. Atendiendo a nuestro caso, tendríamos que en el paso 3 se explica un 41,5% de la variabilidad de los datos. El hecho de que en el paso 1 y 2 sea mayor es simplemente porque hay más variables en el modelo, pero no son significativas, por lo que no deben considerarse.
La «Tabla de clasificación» nos indica el porcentaje de clasificaciones correctas con nuestro modelo. De nuevo nos fijamos en el paso 3, que nos revela que se clasifican correctamente el 71,8% de los datos. Tenemos un porcentaje de acierto similar en aquellos individuos que no tienen hipertensión (72,5%) frente a los que sí la padecen (71,1%).
191
Capítulo VIII
CUADRO VIII.4. (Continuación) En resumen, tenemos un modelo significativo (χ2, p < 0,001) con un r2 de Nagelkerke de 0,41 que clasifica correctamente el 71,8% de los casos. Paso 12. Aplicación de la función de probabilidad. Si quisiésemos aplicar la función de probabilidad, tendríamos que saber cuál ha sido la codificación interna del programa (indicada por nosotros en la categoría de referencia). Para conocerla, en los resultados aparecen estas dos tablas:
En nuestro caso la codificación interna queda igual que la codificación de nuestros datos, con la categoría de referencia valor 0. A partir de la tabla «Variables en la ecuación» se obtienen los coeficientes de la ecuación. Así, podemos decir que la ecuación de probabilidad de que un individuo tenga hipertensión quedaría:
192
Regresiones
CUADRO VIII.4. (Continuación) En un individuo que fuma y tiene más de 50 años (según la tabla de clasificaciones fuma = 1, edad(1) = 0 y edad(2) = 1) la probabilidad de sufrir hipertensión es 88,1%, o lo que es lo mismo, tiene una probabilidad del 11,9% de no sufrir hipertensión.
En un individuo que no fuma y tiene menos de 25 años (según la tabla de clasificaciones fuma = 0, edad(1) = 0 y edad(2) = 0) la probabilidad de sufrir hipertensión es 5,4%, o lo que es lo mismo, tiene una probabilidad de 94,6% de no sufrir hipertensión.
VIII.2.2. Regresión logística multinomial La diferencia principal con respecto a la regresión logística binomial es que la variable dependiente cualitativa no es dicotómica, sino que puede tener más de 2 categorías. Suponiendo k clases o categorías, y j variables independientes, este modelo se puede resumir en las siguientes ecuaciones, que proporcionan las probabilidades de pertenencia a las primeras k-1 clases:
donde Πin es la probabilidad de pertenencia del caso i al grupo n; Zin es el valor de la variable dependiente Z correspondiente a la clase n en el caso i; βnh es el coeficiente de la variable independiente h para la clase n; xih es el valor del predictor o variable independiente h para el caso i. La probabilidad para la última clase k se obtiene por diferencia a 1. Un ejemplo de este tipo de regresión se puede ver en el Cuadro VIII.5.
193
Capítulo VIII
CUADRO VIII.5. Cálculo de la regresión logística multinomial EJEMPLO. Durante un experimento de sedimentación de materia orgánica en la columna de agua en zonas costeras, se quiere conocer si es posible determinar el organismo productor de pellets (excrementos) a partir de las características de los mismos, para inferir qué organismo tiene un mayor aporte en la sedimentación de pellets. Las variables medidas de los pellets fueron longitud, ancho, curvatura (1 significa pellet recto, 2 significa curvatura inferior al 10% y 3 significa curvatura superior al 10%) y nivel de digestión (1 significa que está poco digerido y encontramos células de fitoplancton enteras dentro del pellets, 2 significa digestión media encontrando fragmentos de células y 3 indica digestión total sin encontrar ningún fragmento). Los datos aparecen en el archivo Cuadro VIII.5. El proceso de etiquetado de variables se hizo igual que en el caso de la regresión logística binaria (Cuadro VIII.4). Paso 1. Entramos en la sección «Analizar», dentro de esta en «Regresión», y dentro de esta última en «Logística multinomial…».
Paso 2. Nos aparecerá el siguiente cuadro en el cual es necesario, en primer lugar, definir la variable «Dependiente», los «Factores» (variables independientes categóricas) y las «Covariables» (variables dependientes continuas). En nuestro caso, seleccionamos grupo_productor como variable dependiente, Curvatura y Nivel_Digestion como factores y Longitud y Ancho como covariables.
194
Regresiones
CUADRO VIII.5. (Continuación) Paso 3. En la variable dependiente aparece entre paréntesis la palabra «Último». Este paréntesis indica cuál es la categoría de referencia. SPSS estimará los parámetros para las restantes. Pulsando sobre el icono «Categoría de referencia» podemos elegir la que deseamos.
Podemos elegir que la categoría de referencia sea la «Primera categoría», la «Última categoría» o «Personalizado» (indicar qué categoría queremos que sea). También es posible ordenar las categorías de forma «Ascendente» o «Descendente». En nuestro caso, vamos a elegir las opciones por defecto. Pulsamos sobre el icono «Continuar» para volver a la pantalla principal. Paso 4. En la parte inferior de la pantalla principal de análisis (paso 2) hay diversos iconos en los que elegir diferentes opciones y parámetros del análisis. Comencemos pulsando sobre el icono «Modelo». Aparece la pantalla que vemos a continuación:
195
Capítulo VIII
CUADRO VIII.5. (Continuación) En el apartado «Especificar modelo» elegimos los términos que queremos incluir. Así tenemos tres tipos de modelo: -Efectos principales. No incluye las interacciones entre las distintas variables independientes. -Factorial completo. incluye todas las interacciones entre las distintas variables independientes, excepto entre las covariables. -Personalizado/Pasos sucesivos. Permite especificar las interacciones que deseamos incluir, o solicitar un modelo por pasos (eligiendo solo las variables significativas). En el caso de indicar un modelo «Personalizado/Pasos sucesivos», se activan las opciones para seleccionar el tipo de interacciones. En la columna de la izquierda aparecen las variables independientes (Factores y Covariables), éstas deben pasarse a los cuadros de la derecha donde se seleccionan las interacciones. Para cada variable independiente tenemos dos posibles opciones, ya que cada variable se puede introducir de forma forzosa en el modelo «Términos de entrada forzosa» o introducirse únicamente si son estadísticamente significativas en el modelo «Términos de pasos sucesivos». En nuestro caso introduciremos todas las variables en el cuadro de «Términos de pasos sucesivos» como se muestra en la pantalla anterior, ya que queremos quedarnos únicamente con las variables significativas. Una vez seleccionadas las variables debemos elegir el tipo de Pasos sucesivos que queremos realizar en «Método» de pasos sucesivos. Existen cuatro posibilidades: -Entrada hacia delante. En cada paso se añade al modelo el término más significativo, hasta que ninguno de los términos por pasos que quede fuera del modelo tenga una contribución estadísticamente significativa si se añadiese al modelo. -Eliminación hacia atrás. Se inicia introduciendo en el modelo todos los términos especificados en la lista por pasos. En cada paso se elimina del modelo el término menos significativo, hasta que todos los términos por pasos restantes representen una contribución estadísticamente significativa para el modelo. -Pasos sucesivos hacia adelante. Este método se inicia con el modelo que se seleccionaría mediante el método de entrada hacia delante. A partir de ahí, el algoritmo alterna entre la eliminación hacia atrás de los términos por pasos del modelo, y la entrada hacia delante de los términos fuera del modelo. Se sigue así hasta que no queden términos que cumplan con los criterios de entrada o exclusión.
196
Regresiones
CUADRO VIII.5. (Continuación) -Pasos sucesivos hacia atrás. Este método se inicia con el modelo que se seleccionaría mediante el método de eliminación hacia atrás. A partir de ahí, el algoritmo alterna entre la entrada hacia delante de los términos fuera del modelo, y la eliminación hacia atrás de los términos por pasos del modelo. Se sigue así hasta que no queden términos que cumplan con los criterios de entrada o exclusión. Ya para finalizar, en «Construir términos» debemos incluir el tipo de interacciones que queremos medir entre nuestras variables: tenemos seis opciones: -Interacción: Incluye la interacción seleccionada. -Efectos principales: Incluye los efectos principales de las variables. -Todas de 2: Incluye todas las interacciones de dos variables. -Todas de 3: Incluye todas las interacciones de tres variables. -Todas de 4: Incluye todas las interacciones de cuatro variables. -Todas de 5: Incluye todas las interacciones de cinco variables. El método de la regresión por pasos será «Pasos sucesivos hacia atrás» y en «Construir términos» indicaremos «Efectos principales» ya que supondremos que no hay interacción entre las variables independientes. Pulsamos sobre el icono «Continuar» para regresar a la pantalla principal. Paso 5. En la pantalla principal (paso 2) pulsamos sobre el icono «Criterios» para indicar los criterios a la hora de ejecutar el modelo.
197
Capítulo VIII
CUADRO VIII.5. (Continuación) En esta ventana podemos modificar las siguientes opciones: - Número máximo de iteraciones de los algoritmos del modelo. - El número de pasos en la subdivisión por pasos. - La tolerancia de convergencia del logaritmo de la verosimilitud (se asume convergencia si el cambio absoluto es menor que el valor especificado (no negativo), en caso de ser 0 no se aplica este criterio. - La tolerancia de convergencia de los parámetros (se asume convergencia si el cambio absoluto en las estimaciones de los parámetros es menor que el valor especificado (no negativo), en caso de ser 0 no se aplica este criterio. - Imprimir el historial de las iteraciones para cada paso. - Indicar Delta (entre 0 y 1). Se añade a cada casilla vacía de la tabla de contingencia, ayudando a estabilizar el algoritmo y evitar sesgos en las estimaciones. - Indicar la tolerancia para la singularidad. Si algún elemento del modelo tiene una tolerancia menor, se excluye. En nuestro caso dejamos las opciones por defecto del programa. Pulsamos sobre el icono «Continuar» para volver a la pantalla principal. Paso 6. En la pantalla principal (paso 2) pulsamos sobre el icono «Opciones» para indicar las opciones en el proceso del modelo.
198
Regresiones
CUADRO VIII.5. (Continuación) Las distintas opciones que podemos indicar son: - Escala de dispersión. Especifica el valor de escalamiento de la dispersión que se va a utilizar para corregir la estimación de la matriz de covarianzas de los parámetros. Existen tres tipos: Desviación (mediante el estadístico de la función de desviación-χ2 de la razón de verosimilitud), Pearson (mediante el estadístico χ2 de Pearson) y también se puede especificar su propio valor de escalamiento. Debe ser un valor numérico positivo. - Opciones de pasos sucesivos. Sólo si se utilizan métodos por pasos para generar un modelo. Las opciones que podemos modificar son: ·
Probabilidad de entrada. Con mayor probabilidad especificada, más fácil resultará que una variable entre en el modelo.
·
Prueba de entrada. Método para introducir los términos en los métodos por pasos. Escoge entre la prueba de la razón de verosimilitud y la prueba de puntuación.
·
Probabilidad de eliminación. En los métodos por pasos. Cuanto mayor sea la probabilidad especificada, más fácil resultará que una variable permanezca en el modelo.
·
Prueba de eliminación. Éste es el método utilizado para eliminar términos en los métodos por pasos. Puede elegir entre la prueba de la razón de verosimilitud o la prueba de Wald.
·
Efectos por pasos mínimos en el modelo (para métodos hacia atrás). Mínimo número de términos que puede incluirse en el modelo.
·
Efectos por pasos máximos en el modelo (para métodos hacia adelante). Especifica el máximo número de términos que puede incluirse en el modelo.
- Restringir jerárquicamente la entrada y la eliminación de términos. Permite aplicar restricciones a la inclusión de términos de modelo. La jerarquía precisa que para que se incluya un término, todos los inferiores que formen parte del que se desea incluir, se encuentren antes en el modelo. En nuestro caso elegimos las opciones que el programa tiene por defecto y pulsamos sobre el icono «Continuar» para volver a la pantalla principal.
199
Capítulo VIII
CUADRO VIII.5. (Continuación) Paso 7. En la pantalla principal (paso 2) pulsamos sobre el icono «Estadísticos» para determinar las pruebas estadísticas que queremos que salgan en los resultados.
Los estadísticos son: - Resumen de procesamiento de los casos. Información sobre las variables categóricas especificadas. - En la sección Modelo:
200
·
Pseudo R cuadrado. Calcula el estadístico de Cox y Snell, de Nagelkerke y el r2 McFadden. De estos tres pseudo-r2 (imitación del r2 de Pearson) únicamente el estadístico de Nagelkerke varía de 0 a 1.
·
Resumen de pasos. Indica las variables introducidas o eliminadas.
·
Información de ajuste de los modelos. Compara el modelo generado frente a la ausencia de modelo.
·
Criterios de información. Indica el criterio de información de Akaike (AIC) como el criterio de información bayesiano (BIC), basados en la «Teoría de la información» ayudan a seleccionar el mejor modelo, que es el aquel que tenga un menor valor en estos criterios.
·
Probabilidades de casillas. Devuelve las frecuencias observadas y esperadas (con los residuos) y las proporciones por patrón en las covariables y por categoría de respuesta.
Regresiones
CUADRO VIII.5. (Continuación) ·
Tabla de clasificación. Tabla de las respuestas observadas respecto a las respuestas pronosticadas. Un alto porcentaje de acierto indica que la regresión es adecuada.
·
Bondad del ajuste. Indica los estadísticos de χ2 de Pearson y de χ2 de la razón de verosimilitud.
- Parámetros. Estadísticos relativos a los parámetros del modelo. ·
Estimaciones. Parámetros del modelo con un nivel de confianza especificado.
·
Contraste de la razón de verosimilitud. Razón de verosimilitud para los efectos parciales del modelo.
·
Correlaciones asintóticas. Matriz de las correlaciones entre las estimaciones de los parámetros.
·
Covarianzas asintóticas. Matriz de las covarianzas de las estimaciones de los parámetros.
- Definir subpoblaciones. Permite seleccionar un subconjunto de factores y covariables de manera que pueda definir los patrones en las covariables utilizados por las probabilidades de casilla y las pruebas de bondad de ajuste. Con nuestros datos seleccionamos las opciones que se muestran en la ventana anterior. Pulsamos sobre «Continuar» para volver a la pantalla principal. Paso 8. En la pantalla principal (paso 2) pulsamos sobre el icono «Guardar» y seleccionamos los datos que queremos que el programa guarde como nuevas variables.
201
Capítulo VIII
CUADRO VIII.5. (Continuación) En nuestro caso seleccionamos «Categoría pronosticada» y «Probabilidad de la categoría pronosticada» y pulsamos sobre el icono «Continuar», para volver a la pantalla principal, en la que pulsamos en el icono «Aceptar» para ver el archivo de los resultados del modelo. Paso 9. Interpretación de los resultados. La interpretación de resultados es similar a la descrita para la regresión logística binaria. La tabla «Resumen de los pasos» nos indica las variables introducidas en el modelo. En este caso vemos que solo hay un paso porque todas las variables eran significativas. Además, en caso de haber introducido las interacciones entre las variables independientes, si hubiera prescindido de algún término los χ2 correspondientes aparecerían en esta tabla (en nuestro caso habíamos seleccionado solo efectos principales y no sale ningún contraste).
En la tabla «Información del ajuste del modelo» podemos ver el grado de significación del modelo cuando se compara con el que no tiene ninguna variable independiente (solo la constante). Lo hace a partir de un estadístico χ2, determinando la probabilidad de obtener un χ2 de ese valor o mayor si los coeficientes fuesen nulos. En este ejemplo, un p < 0,001 indica que el modelo final es significativamente distinto del que solo tiene la constante.
202
Regresiones
CUADRO VIII.5. (Continuación) En la tabla «Bondad de ajuste» realiza dos χ2 diferentes con las desviaciones entre los valores observados y la predicción. Como p > 0,05 las desviaciones son pequeñas, es decir, el modelo se ajusta a los datos.
Los valores de «Pseudo R-cuadrado» son altos, indicando que un alto porcentaje de la variabilidad de los datos está explicada por el modelo. Según el r2 de Nagelkerke explica un 97,7% de la variabilidad.
Los «Contrastes de la razón de verosimilitud» del modelo final nos indican cuáles son las variables independientes significativas en el modelo. Como podemos comprobar, el modelo acepta todas las variables introducidas con p < 0,05.
203
Capítulo VIII
CUADRO VIII.5. (Continuación) El programa estima una función polinómica para cada clase (grupo productor) excepto para la última (Poliquetos), que es la categoría de referencia. En la tabla «Estimaciones de los parámetros» (columna B) se muestran las estimaciones de todos los parámetros o coeficientes que multiplican a las variables independientes (de acuerdo con la función expresada al principio de este apartado VIII.2.2.), incluidas las que crea el programa para cada nivel (excepto uno) de las variables categóricas. El número total de parámetros estimados es muy elevado, y el número de datos resulta insuficiente, por lo que no es sorprendente que muchos de ellos aparezcan como no significativos. Un valor de Exp(B) alejado de la unidad (intervalo de confianza que no incluye el 1) identifica a los factores que mejor determinan la pertenencia a cada grupo. Observando los intervalos de confianza (solamente aquellos que no incluyen el valor 1), vemos como la Curvatura=1 multiplica por 68,97 la probabilidad de pertenencia al grupo productor Mejillones, y el Nivel_Digestión=2 multiplica por un número mucho mayor (295614,05) la probabilidad de pertenencia al mismo grupo productor, siendo por lo tanto estas dos características las que identifican a la clase Mejillones, mientras que en el segundo grupo Copépodos la característica más relevante es Curvatura=1, aunque en sentido excluyente: en este caso la probabilidad de pertenencia al grupo se multiplica por cero (Exp(B) prácticamente 0) cuando Curvatura=1. Estas características permiten identificar correctamente al 100% de los elementos de la muestra pertenecientes a las clases Mejillones y Copépodos.
204
Regresiones
CUADRO VIII.5. (Continuación) El grupo Larvas crustáceos no tiene ninguna variable independiente que permita su identificación con claridad (los intervalos para exp(B) incluyen el valor 1 en todos los casos), y para la cuarta categoría, o grupo de referencia Poliquetos no disponemos de estimaciones de los parámetros (la probabilidad de asignación se calcula por diferencia a 1 para este grupo), aunque podrían obtenerse si se repite el análisis cambiando la categoría de referencia. En estas dos últimas categorías, el porcentaje de acierto es menor, como se aprecia en la tabla siguiente. En la tabla «Clasificación» se observa que el modelo clasifica correctamente un 89,9%. Clasifica perfectamente los pellets producidos por Mejillones y Copépodos y comete un error de alrededor de un 20% en las otras dos categorías.
En el caso de la regresión logística multinomial existe una función de probabilidad para cada grupo productor (Mejillones, Poliquetos, Copépodos y Larvas de crustáceos). Por lo tanto, para poder estimar el grupo de pertenencia pronosticado es más fácil a través de los cálculos que realiza el propio programa y que se explicó como guardarlos en el paso 8. Volviendo a la matriz de datos vemos que se han creado dos nuevas variables «PRE 1» (Categoría pronosticada) y «PCP_1» (Probabilidad de la categoría pronosticada). Para calcular la «Categoría pronosticada» y «Probabilidad de la categoría pronosticada» de nuevos casos, estos se introducen en la matriz de datos y se vuelve a ejecutar el programa.
205
Capítulo VIII
206
IX
Análisis multivariante
ANÁLISIS MULTIVARIANTE
Es el conjunto de métodos estadísticos cuya finalidad es el análisis de datos en los que contamos con más de dos variables medidas para cada caso estudiado. En estas situaciones de gran cantidad de variables resulta imposible la interpretación con otros análisis uni y bidimensionales. Por ejemplo, son de gran utilidad las herramientas multivariantes ante el estudio de comunidades con un gran número de especies o con un gran número de variables ambientales medidas. Nos permite estudiar matrices de datos en las que tenemos más variables que observaciones y cuando contamos con variables de entrada que no son estadísticamente independientes. Dentro del concepto de análisis multivariante también se incluyen herramientas que hemos visto en los capítulos anteriores, como la regresión múltiple o el MANOVA, pero en este capítulo vamos a centrarnos en la aplicación de herramientas más complejas que nos permiten interpretar matrices de datos muy complicadas en las que contamos con un gran número de datos y multitud de variables. Para este tipo de análisis, ya no es suficiente con aplicar fórmulas sencillas, sino que necesitamos un paquete estadístico potente en el que especificar el tipo de análisis que queremos realizar e interpretar los resultados que estos programas nos ofrecen. En este capítulo emplearemos para la resolución de los ejemplos dos programas estadísticos: SPSS y STATISTICA.
IX.1. Análisis Cluster Es una técnica estadística que permite organizar la información de nuestras variables para formar grupos homogéneos, denominados clusters (grupos, clases). Suele emplearse como una primera aproximación a nuestros datos, cuando no contamos con una hipótesis de partida. Los grupos que obtenemos se forman por ser internamente homogéneos (todos los miembros del grupo son parecidos) y externamente heterogéneos (los miembros de un grupo son muy diferentes de los de los otros grupos). Es decir, con el método de cluster podemos incluir objetos en grupos según su grado de asociación, que será máximo si pertenecen al mismo grupo o mínimo si son de grupos diferentes. Es una técnica muy empleada en taxonomía. Se pueden utilizar variables muy diversas, pero se recomienda el uso de datos
207
Capítulo IX
estandarizados cuando las variables son heterogéneas, para evitar la influencia de las distintas unidades de medida. Existen varios métodos para llevar a cabo los agrupamientos o clusters, los más empleados son el árbol jerárquico, el conglomerado de K-medias y el Agrupamiento de dos vías («two way joining»). El último método no lo trataremos en el presente capítulo, ya que se emplea en pocas ocasiones (cuando tanto los casos como las variables contribuyen a la formación de grupos).
IX.1.1. Árbol jerárquico (Conglomerado jerárquico) Es uno de los métodos más usados. Tenemos una serie de objetos (animales, plantas,...) que queremos agrupar en sucesivos árboles de mayor tamaño. Obtenemos como resultado árboles jerárquicos, en los que los resultados se ven fácilmente. Se comienza por tantos grupos como observaciones hasta acabar con un solo grupo en el que se incluyen todos los datos. En el Cuadro IX.1. se muestra un ejemplo de cómo realizar un cluster de tipo árbol jerárquico.
CUADRO IX.1. Árbol jerárquico EJEMPLO. Tenemos 13 especies de peces y de cada una de ellas tenemos 5 variables que describen el tipo de alimentación (datos en el archivo Cuadro IX.1.sta). El propósito del análisis es conocer si entre estas especies existen grupos naturales que puedan tener algún tipo de significado.
Paso 1. Estandarización de los datos. Podemos hacerlo como vimos en el Capítulo I o directamente, con el programa STATISTICA, en el menú «Data» seleccionamos «Standardize». La fórmula que emplea el programa para la estandarización es la siguiente:
En la ventana que se muestra a continuación en «Variables» se seleccionan todas las variables (ALL) y pulsamos OK, obteniendo la tabla de datos estandarizada.
208
Análisis multivariante
CUADRO IX.1. (Continuación)
Paso 2. A continuación comenzamos el análisis de cluster. Para ello en el menú «Statistics» seleccionamos «Multivariate Exploratory Techniques» y en esta opción escogemos la de «Cluster Analysis». Aparecerá la ventana siguiente:
Paso 3. En la ventana anterior especificamos el tipo de análisis, en este caso árbol jerárquico, «Joining (tree clustering)», que queremos aplicar para que nos agrupe los casos. Nos aparece una nueva ventana en la que, en «Advanced», debemos especificar las diferentes condiciones del análisis.
209
Capítulo IX
CUADRO IX.1. (Continuación) Paso 4. Seleccionamos las variables que queremos que entren en el análisis para agrupar los datos, en este caso hemos seleccionado todas (ALL). Paso 5. Indicamos si queremos que nos agrupe los casos (filas) o las variables (columnas). En este caso queremos que nos agrupe las especies de peces, es decir, los casos «Cases (rows)». Paso 6. A continuación hemos de seleccionar el método o regla de agrupamiento de nuestros datos («Amalgamation rule»). Existen varios tipos:
210
−
Agrupamiento simple («Single linkage», vecino más próximo): La distancia entre dos grupos está determinada por la distancia entre los dos objetos más próximos entre los diferentes grupos. Tiende a unir entidades con poco parecido, exagera las semejanzas (Aguilera & Garrido 2001). Suele dar lugar a cadenas largas.
−
Agrupamiento completo («Complete linkage», vecino más lejano): Las distancias entre los grupos vienen determinadas por la mayor distancia entre dos objetos cualesquiera entre los diferentes grupos. Exagera las distancias (Aguilera & Garrido 2001). Funciona bien cuando los objetos forman grupos muy distintos.
−
Pares no ponderados («Unweighted pair-group average», vinculación inter-grupos): La distancia entre dos grupos es la distancia media entre todos los pares de objetos de los dos grupos (disimilitud media entre grupos). Funciona bien cuando los objetos forman grupos distintos o cuando los grupos forman cadenas alargadas.
−
Pares ponderados («Weighted pair-group average», vinculación intra-grupos): El método es igual que el anterior, pero se pondera con el número de objetos dentro de cada grupo. Se emplea cuando se sospecha que el número de objetos dentro de los diferentes grupos puede ser bastante desigual.
−
Centroide de los pares ponderados, mediana («Weighted pair-group centroid, median», agrupación de centroides, agrupación de medianas): Es un método igual que el anterior, pero la ponderación de número de objetos dentro de cada grupo se introduce en los cálculos del programa (se introduce por ejemplo el número de objetos contenidos en cada grupo). Requiere seleccionar la distancia Euclídea como criterio.
Análisis multivariante
CUADRO IX.1. (Continuación) −
Método de Ward: Emplea un análisis de varianza para calcular las distancias entre grupos. Es muy eficiente, pero tiende a proporcionar grupos de tamaño muy pequeño. Requiere que los datos se ajusten a la normalidad y la distancia Euclídea como criterio.
En este ejemplo hemos seleccionado el método que aparece en el programa por defecto «Single linkage» ya que desconocemos a priori la estructura de los grupos. Paso 7. El siguiente paso es seleccionar qué medidas de similitud o distancia («Distance measure») vamos a aplicar. En este sentido, existen diferentes medidas de distancia y habrá que decidir entre una de ellas, ya que en función de la distancia elegida obtendremos diferentes clasificaciones: −
Distancia Euclídea: Es la más empleada. Tiene la ventaja de que la distancia entre dos objetos no está afectada por la adición de nuevos elementos en el análisis. Es la distancia geométrica en un espacio multidimensional.
−
Distancia Euclídea al cuadrado: Permite dar más peso a la distancia de los objetos que están más alejados.
−
Distancia City-Block (Distancia Manhattan): Es el promedio de la diferencia entre dimensiones. Casi siempre al emplear esta distancia obtenemos los mismos resultados que con la distancia Euclídea, pero las diferencias mayores se disimulan porque no están elevadas al cuadrado.
−
Distancia Chebychev: Se emplea cuando queremos considerar que los objetos son diferentes si lo son en una de las dimensiones.
211
Capítulo IX
CUADRO IX.1. (Continuación) −
Distancia potencial (personalizada): La utilizamos cuando queremos aumentar o disminuir el peso de las dimensiones en las que los objetos de estudio son muy diferentes.
donde p y r son parámetros que debemos definir: p controla el peso progresivo de las diferentes dimensiones y r controla el peso progresivo de las diferencias entre los objetos. −
Porcentaje de desacuerdo: Se emplea cuando los datos de las distintas dimensiones eran inicialmente tipo categoría.
En nuestro ejemplo seleccionamos la distancia que nos ofrece el programa por defecto, que suele ser la más utilizada: distancia Euclídea, «Euclidean distances». Paso 8. Interpretación de los resultados. Obtenemos los resultados agrupados en la siguiente ventana.
212
Análisis multivariante
CUADRO IX.1. (Continuación) El resultado más importante del análisis es el árbol jerárquico. En el programa nos ofrecen dos posibilidades: árbol vertical («Vertical icicle plot») y árbol horizontal («Horizontal hierarchical tree plot»), que es el más empleado por su sencilla interpretación y que podemos observar en la ventana siguiente:
En este caso se observan 3 grandes grupos: el primero de ellos está formado por las especies 1, 11, 4 y 7; el segundo por las especies 2, 12, 5, 8 y 10; y el tercero por las especies 3, 13, 6 y 9. Observamos también que los grupos I y II están más próximos que el grupo III, más separado de ambos. Además de la representación gráfica, podemos ver los resultados del análisis en la matriz de distancias «Distance matrix», que nos permite obtener la distancia Euclídea entre los casos:
213
Capítulo IX
CUADRO IX.1. (Continuación) Y la tabla de agrupamiento («Amalgamation schedule»), que muestra las distancias entre los distintos grupos (que se corresponden con las representadas en el gráfico del árbol):
A continuación se trata de buscar un significado a los grupos, que será ya tarea del investigador especialista en el campo de trabajo. En este caso, el grupo 1 incluye a las especies que se alimentan principalmente de copépodos, rotíferos y larvas de decápodos, es decir, especies de peces carnívoros. En el grupo 3 tenemos especies de peces que se alimentan fundamentalmente de diatomeas y dinoflagelados, es decir, herbívoros. Y por último, en el grupo 2 tenemos peces que se alimentan de fitoplancton y zooplancton, pero cuya dieta está dominada por el zooplancton. Podríamos hacer el mismo análisis de cluster con las variables en lugar de con los datos y en este caso podemos observar si las variables se agrupan de manera natural. En este ejemplo:
Observamos que las diatomeas y los dinoflagelados aparecen juntos en un grupo, que sería el fitoplancton, y los copépodos, rotíferos y larvas de decápodos en otro grupo, que sería el zooplancton.
214
Análisis multivariante
IX.1.2. Conglomerado de K-medias (Algoritmo de K-medias) Este método es bastante diferente al anterior. En este caso nosotros tenemos una idea preconcebida del número de grupos. Si pensamos que existen k grupos, le decimos al programa que nos forme los k grupos más distintos posibles. El programa hace los k grupos y mediante un análisis de varianza al revés, intentando maximizar las diferencias entre grupos y minimizarlas dentro de los grupos, para obtener el mejor resultado de ANOVA. En el resultado que obtenemos los objetos pertenecen a grupos entre los que no se muestra una relación jerárquica. Con los mismos datos del ejemplo anterior (Cuadro IX.1.sta) podemos realizar un ejemplo de conglomerado de k-medias. Los resultados se muestran en el Cuadro IX.2.
CUADRO IX.2. Conglomerado de K-medias EJEMPLO: En este caso, con los mismos datos del Cuadro IX.1.sta, tomamos como hipótesis inicial que entre las especies de peces hay tres grupos: herbívoros, carnívoros y omnívoros. Queremos saber a qué grupo pertenece cada especie y cómo son las distancias entre los casos. En este caso nosotros partimos de la idea de que entre nuestras especies de peces existen 3 grupos en cuanto a las variables que hemos medido de tipo de alimentación. Paso 1. Estandarizar los datos como en el ejemplo anterior (paso 1). Paso 2. A continuación comenzamos el análisis de cluster. Para ello en el menú «Statistics» seleccionamos «Multivariate Exploratory Techniques» y en esta opción escogemos la de «Cluster Analysis». Aparece la ventana siguiente:
215
Capítulo IX
CUADRO IX.2. (Continuación) Paso 3. En la ventana anterior especificamos el tipo de análisis, en este caso conglomerado de k-medias, «K-means clustering», que queremos aplicar para que nos agrupe los casos. Nos aparece una nueva ventana en la que, en «Advanced» debemos especificar las diferentes condiciones del análisis.
Paso 4. Seleccionamos las variables que queremos que entren en el análisis para agrupar los datos. En este caso hemos seleccionado todas (ALL). Paso 5. Indicamos si queremos que nos agrupe los casos (filas) o las variables (columnas). En este caso queremos que nos agrupe las especies de peces, es decir, los casos «Cases (rows)». Paso 6. Especificamos el número de clusters o grupos, en nuestro ejemplo 3. Paso 7. Es necesario indicar el número de repeticiones, ya que el programa funciona de forma iterativa y en cada iteración sitúa los objetos en distintos clusters, hasta que en las nuevas iteraciones la conformación de los grupos no cambia, cada caso sigue en el mismo grupo. Por defecto el programa hace 10 iteraciones, que suelen ser suficientes, pero pueden ser modificadas. Para nuestro ejemplo dejamos el valor de 10. Paso 8. Es necesario especificar el Centro de los grupos iniciales («Initial cluster centres»). De la opción que elijamos dependerá el resultado. Existen 3 posibilidades: −
216
Elegir los casos que maximicen las distancias iniciales entre grupos. Esta opción puede producir grupos con casos aislados (grupos de un solo caso) si hay datos aislados.
Análisis multivariante
CUADRO IX.2. (Continuación) −
Elegir distancias y tomar observaciones en intervalos constantes. Las distancias entre objetos se clasifican y se seleccionan como centros de los grupos los casos que están en intervalos constantes de distancia. Suele ser la opción por defecto si desconocemos cuáles pueden ser los centros de los grupos y es la que hemos escogido en nuestro ejemplo.
−
Elegir las N primeras observaciones, siendo N=k número de clusters que hemos especificado. Considera de este modo que los centros de los clusters son esos primeros casos. Esto se emplea cuando partimos de una hipótesis de partida clara, en la que esperamos que ciertos casos sean los centros de nuestros N grupos. Lo que hacemos por lo tanto es poner los N casos en el principio de la hoja de cálculo y seleccionar este número.
Paso 9. Interpretación de los resultados. Obtenemos los resultados agrupados en la siguiente ventana.
El primer resultado que obtenemos es el resumen de las medias de las 5 variables para cada uno de los 3 grupos que ha creado el programa y las distancias Euclídeas entre los 3 grupos (distancias bajo la diagonal y distancias al cuadrado sobre la diagonal) en el cuadro «Summary: Cluster means & Euclidean distances».
217
Capítulo IX
CUADRO IX.2. (Continuación)
El grupo 1 se corresponde con valores altos de diatomeas y dinoflagelados (de los datos estandarizados), el grupo 3 incluye valores bajos de diatomeas y dinoflagelados, y por último, el grupo 2 tiene valores cercanos a cero de todas las variables.
Como puede observarse los grupos más próximos son el 2 y el 3, seguidos del 1 y 2, y los más alejados el 1 y el 3. En el cuadro «Graph of means» se muestran gráficamente las medias de las variables para cada uno de los 3 grupos.
218
Análisis multivariante
CUADRO IX.2. (Continuación) En el siguiente resultado «Analysis of variance», análisis de la varianza, debemos fijarnos en la magnitud y significación de los valores de F para asignar los objetos a los clusters.
En este caso las variables dinoflagelados, diatomeas, larvas de decápodos, copépodos y diatomeas, respectivamente, son los criterios para asignar los casos a los distintos grupos (ordenados de mayor a menor valor de F), y son todas ellas significativas (p < 0,05). Si alguna de las variables tiene un valor de p > 0,05 tiene un efecto pequeño en la asignación de casos a los grupos. En todo caso, los valores F y su probabilidad p deben interpretarse solo como indicativos. En el cuadro «Descriptive statistics for each cluster» se muestra el número de casos incluidos en cada grupo y la media, desviación estándar y varianza de cada una de las variables para cada grupo.
219
Capítulo IX
CUADRO IX.2. (Continuación) Nos interesa ver a continuación cómo asigna el programa los peces a los diferentes grupos. Aparece en el menú de Miembros de cada grupo y distancias («Members of each cluster & distances»), de cada caso al centro de cada grupo:
El grupo I está formado por los casos 3, 6, 9 y 13. El grupo II incluye a las especies 2, 5, 8, 10 y 12. Por último, en el cluster III tenemos las especies 1, 4, 7 y 11. Como puede observarse, obtenemos los mismos resultados que con el árbol jerárquico, pero dependiendo de los datos y el método de agrupamiento que empleemos en cada caso, podemos alcanzar resultados diversos con los dos métodos.
220
Análisis multivariante
IX.2. Análisis Discriminante El análisis discriminante es una técnica estadística multivariante cuya finalidad es analizar si existen diferencias significativas entre grupos de objetos respecto a un conjunto de variables que hemos medido. En el caso de que existan diferencias podremos estudiar a qué se deben y pronosticar el grupo de pertenencia de nuevas observaciones de origen desconocido. Resumiendo, el análisis definiría las características para pertenecer a un grupo o a otros. Básicamente se diferencia de los métodos de cluster en que en este caso se decide previamente el grupo de pertenencia de cada caso y el número de grupos y en los métodos de cluster podíamos decidir el número de grupos (en el caso del Conglomerado de K-medias) pero no indicamos a priori a qué grupo pertenece cada caso. En el análisis discriminante introducimos las variables independientes que hemos medido y creamos una variable de agrupación, de la cual hemos de decidir el rango (nº de grupos que queremos introducir en el análisis) y asignamos un número de grupo a cada observación. Obtenemos como resultado una serie de funciones discriminantes (tantas como grupos menos 1, o el número de variables si es menor), que permiten asignar los casos a grupos y son combinación lineal de las variables originales. Este último punto es de gran importancia, ya que podremos asignar nuevos casos (no introducidos en el análisis discriminante) a los grupos en función de las variables medidas posteriormente. En el Cuadro IX.3 se muestra un ejemplo de cómo realizar un análisis discriminante.
CUADRO IX.3. Análisis discriminante EJEMPLO: Hemos realizado muestreos de 5 especies de peces (1-Sardina pilchardus, 2-Sardinella aurita, 3-Engraulis encrasicolus, 4-Trachurus trachurus y 5-Trachurus mediterraneus) y en ellas hemos analizado la composición de 15 aminoácidos (ASP-aspartato, SER-serina, GLU-glutamina, GLY-glicina, HIS-histidina, ARG-arginina, THR-treonina, ALA-alanina, PROprolina, TYR-tirosina, VAL-valina, LYS-lisina, ILE-isoleucina, LEU-leucina, PHE-fenilalanina). Queremos saber si es posible diferenciar las especies en función de su composición de aminoácidos y, si esto se cumple, cuáles de esos aminoácidos contribuyen en mayor medida a la separación. En el archivo Cuadro IX.3.sav se presenta la tabla de datos sobre la que realizar el análisis discriminante con el programa SPSS. Paso 1. Tras abrir el fichero seleccionamos el menú «Analizar» y en las opciones «Clasificar» pulsamos «Discriminante». Aparece una ventana como la que se muestra a continuación.
221
Capítulo IX
CUADRO IX.3. (Continuación)
Paso 2. Seleccionamos en primer lugar la «Variable de agrupación», que en este ejemplo será la especie de pez. Hemos de «Definir el rango» de esta variable de agrupación, es decir, el número de grupos tal y como los hemos numerado en nuestra hoja de datos. En este caso hemos seleccionado de 1 a 5 (es decir, el total de especies que tenemos). Paso 3. A continuación debemos especificar qué variables, de las que hemos medido, queremos emplear para la separación de los grupos y para ello, las introducimos en el cuadro «Independientes». En el ejemplo hemos seleccionado los 15 aminoácidos analizados en los peces. Paso 4. Existen dos opciones para que el programa trabaje con las variables. O bien las introduce todas juntas («Introducir independientes juntas») siempre que satisfagan el criterio de tolerancia, o bien emplea el método «por pasos» («Usar método de inclusión por pasos») que funciona como vimos en el Capítulo VIII, en el apartado de regresión (introduce o excluye variables según unos criterios). Dejamos la opción que viene por defecto en el programa «Introducir independientes juntas». Paso 5. La «Variable de selección» nos permite aplicar el análisis discriminante únicamente a una parte de los datos. Si por ejemplo hubiésemos realizado el muestreo en varias zonas y contamos con una variable «Zona» que toma diversos valores, podríamos aplicar el análisis en una de las zonas seleccionando en esta casilla el código del área que nos interese «Valor». En el ejemplo, no vamos a emplear ninguna variable de selección, trabajaremos con el total de los datos. Paso 6. En el menú «Estadísticos», ventana siguiente, podemos especificar una serie de estadísticos que el programa nos muestra de los distintos grupos.
222
Análisis multivariante
CUADRO IX.3. (Continuación)
Dentro del apartado «Descriptivos» podemos seleccionar: −
Medias (medias y desviación estándar por grupos y totales de las variables que hemos introducido).
−
ANOVAs univariados (ANOVA de cada variable con la variable de agrupación como factor).
−
M de Box (estadístico que nos compara las varianzas y covarianzas de los grupos, valores de p< 0,05 indican que la varianza es significativamente distinta). Esta prueba estadística nos permite contrastar una de las hipótesis de partida del análisis discriminante, la de que las matrices de covarianza poblacional de cada grupo son iguales entre sí.
En la sección «Coeficientes de la función» existen dos posibilidades: −
De Fisher. Obtenemos tantas funciones de Fisher como grupos y pueden ser empleadas para la clasificación de nuevos casos, el grupo para el que el caso obtenga la puntuación más alta en la función de Fisher, será el grupo asignado.
−
No tipificados. Valores no estandarizados de las funciones discriminantes. Se emplean para calcular las puntuaciones discriminantes, pero no se suelen utilizar para comparar la contribución de las variables si estas tienen distintas unidades de medida, para ello tenemos los coeficientes estandarizados de las funciones canónicas que obtendremos en los resultados. Dejamos en blanco por defecto.
Dentro del apartado «Matrices» podemos seleccionar el tipo de matrices de covarianza que queremos que aparezcan en los resultados.
223
Capítulo IX
CUADRO IX.3. (Continuación) Podemos seleccionar que nos muestre la correlación dentro de los grupos, la matriz de covarianza intragrupos (promedio de las matrices de covarianza de cada grupo, para el total de los grupos) o de grupos separados (matrices de covarianza de cada grupo por separado). Seleccionamos matrices de «covarianza intra-grupos» y de «grupos separados». Paso 7. La siguiente selección que debemos hacer es escoger cómo queremos que haga la «Clasificación» el programa. Aparece la siguiente ventana:
Paso 8. Seleccionamos en «Probabilidades previas», «Todos los grupos iguales» porque no queremos que tenga en cuenta el tamaño de los distintos grupos («Calcular según tamaño de grupo»). Si tuviésemos un grupo que incluye el 90% de los casos el clasificar todos los elementos en el grupo más grande asegura un acierto del 90% y podríamos tenerlo en cuenta. En nuestro caso esto no es así. Paso 9. En «Usar la matriz de covarianza» dejamos la opción por defecto del programa «Intra-grupos», que se obtiene de promediar para todos los grupos las matrices de covarianza individuales, frente a «Grupos separados», que utiliza las matrices de covarianza de cada grupo por separado, ya que en el análisis discriminante partíamos de la hipótesis de que las covarianzas de cada grupo son iguales. En nuestro ejemplo, trabajamos con datos de distintas especies y podríamos suponer que las covarianzas son distintas, pero trataremos los datos como si no sospechásemos esta posibilidad y lo comprobaremos con el estadístico M de Box. En caso de que no sean iguales, realizaremos de nuevo el procedimiento, cambiando por covarianza de «Grupos separados». Paso 10. En «Mostrar» podemos seleccionar «Resultados para cada caso», que nos ofrece en los resultados una tabla en la que vemos el grupo original de cada caso, el grupo pronosticado, y las probabilidades de clasificación. En nuestro ejemplo, para no extendernos demasiado en las tablas dejamos esta opción en blanco y seleccionamos la «Tabla resumen» que nos ofrece un sumario de lo anterior. Asimismo seleccionamos la casilla de «Clasificación dejando uno fuera» (solo lo permite si hemos seleccionado la matriz de covarianza Intra-grupos). Este es un método de validación cruzada que consiste en realizar tantos discriminantes como datos, eliminando en cada discriminante un dato.
224
Análisis multivariante
CUADRO IX.3. (Continuación) Obtenemos las funciones discriminantes y se calcula el grupo de pertenencia de ese caso eliminado con las funciones resultantes, y así sucesivamente para todos los datos. El análisis discriminante puede clasificar correctamente el 99% de los elementos de una muestra, pero si se quiere clasificar elementos nuevos solo sabremos si las funciones mantendrán su capacidad predictiva mediante un procedimiento de validación cruzada. Se considera satisfactorio si los porcentajes de acierto de la clasificación son similares a los de la validación cruzada. Esto valida la capacidad de predicción del modelo. Paso 11. En el apartado «Gráficos» seleccionamos el tipo de representación de los grupos que nos interesa. Podemos tener una representación de todos los grupos juntos («Grupos combinados»), por separado («Grupos separados») o de los límites entre los grupos («Mapa territorial»). Seleccionamos para el ejemplo «Grupos combinados». Paso 12. Existe una última opción en el apartado «Clasificar», que es «Reemplazar los valores perdidos con la media». Esto se emplea si tenemos muchas variables que aportan información y en alguna de ellas no hay datos para algunos de los casos. Si estimamos que es importante tener en cuenta la información de estos casos para el resto de variables, el programa introduce la media de los valores disponibles en aquellos valores perdidos. En nuestro ejemplo no vamos a seleccionar esta opción porque contamos con valores de todas las variables para todos los casos. Paso 13. En el menú «Guardar», ventana siguiente, podemos seleccionar qué valores queremos que nos guarde como nuevas variables (columnas) en nuestra hoja de datos.
−
Grupo de pertenencia pronosticado. Crea una columna, en la base de datos original, con el grupo que predice para cada caso.
−
Puntuaciones discriminantes. Crea tantas columnas como funciones discriminantes, en la base de datos original, con la puntuación de cada caso. Es útil para poder representar las funciones discriminantes.
−
Probabilidad de pertenencia al grupo. Crea tantas columnas como grupos, en la base de datos original, con la probabilidad de pertenecer un caso a cada grupo.
225
Capítulo IX
CUADRO IX.3. (Continuación) Paso 14. Tras seleccionar todas las características del análisis pulsamos «Aceptar» Paso 15. Interpretación de los resultados. Podemos ver una nueva pantalla en la que se nos muestran los principales resultados con las opciones que hemos seleccionado. La primera tabla que nos muestran los resultados es el «Resumen de procesamiento para el análisis de casos»:
En nuestro caso, de los 98 casos que partíamos todos han sido válidos (puede darse el caso de que alguno de ellos no tenga valor en alguna de las variables o que estén fuera de los grupos que hemos especificado en el rango,…). La siguiente tabla es la de «Estadísticos de grupo». En primer lugar aparece una tabla con el recuento de casos de cada grupo y los ponderados totales. Asimismo aparecen las matrices de covarianza intra-grupos combinadas:
Y la tabla de matrices de covarianza para cada grupo (mostramos solo la tabla para los grupos 1 y 2):
226
Análisis multivariante
CUADRO IX.3. (Continuación)
Podemos destacar por ejemplo que la covarianza ASP-ASP (o varianza de ASP) es 1,123 para la especie 1 y 2,535 para la especie 2, es decir son diferentes, y esto mismo puede observarse para las distintas especies y con muchas otras variables. Para confirmar el hecho de que las covarianzas son distintas tenemos los resultados de la prueba M de Box.
Como se observa, el valor de p es menor que 0,05 por lo que podemos rechazar la hipótesis de que las covarianzas son iguales. En este caso sería más adecuado repetir el análisis discriminante seleccionando en las opciones de clasificación «Covarianza de grupos separados» (que efectuaremos posteriormente). Obviando este estadístico, seguiremos interpretando los resultados que nos ofrece el programa.
227
Capítulo IX
CUADRO IX.3. (Continuación) A continuación se nos presentan las «Variables que no pasan la prueba de tolerancia», es decir, no aportan nada a la formación de los grupos, a las funciones discriminantes. En los próximos muestreos podríamos evitar medirlas. En nuestro caso el aminoácido PHE, fenilalanina no resulta significativo para la formación de los grupos.
El siguiente resultado que se nos muestra es el «Resumen de las funciones canónicas discriminantes» y en primer lugar los «Autovalores».
Las funciones discriminantes son unas expresiones matemáticas que nos permiten la separación de los grupos. Lo que nos indica la tabla anterior es el porcentaje de la varianza de nuestros datos explicado por estas funciones discriminantes. En el ejemplo tenemos 4 funciones (5 grupos menos 1), de las cuales la primera explica el 72,0% de la varianza, la segunda el 25,1% y la tercera y cuarta el 1,6% y 1,4 % respectivamente. En este caso entre las dos primeras funciones discriminantes se explica el 97 % de la varianza, por lo que para la representación gráfica en dos dimensiones y la interpretación sencilla de los datos podríamos quedarnos con las dos primeras funciones. También nos incluye los «Autovalores», que son el cociente entre la variación entre grupos y la de dentro de cada grupo.
228
Análisis multivariante
CUADRO IX.3. (Continuación) Los autovalores nos permiten ver la capacidad de discriminación de cada función (no es fácil de comparar porque no tienen valor máximo (el mínimo es =0) y por eso se suele emplear el estadístico Lambda de Wilks (que veremos a continuación). En el ejemplo observamos que las primeras dos funciones, que absorbían la mayor parte de la variabilidad de los casos, presentan también valores mayores de autovalores (la variabilidad explicada es proporcional a los autovalores). La «Correlación canónica» nos indica el poder de discriminación de las variables, un valor alto muestra que las variables son capaces de discriminar entre grupos, en nuestro caso son mayores para las dos primeras funciones discriminantes. La siguiente tabla de resultados es la de «Lambda de Wilks»:
Es un estadístico que identifica las mejores funciones discriminantes. Va de 0 a 1, a menor valor del estadístico (siempre que la significación esté próxima a 0), mayor capacidad de discriminación. De nuevo en nuestro ejemplo observamos que las funciones 1 y 2 son las que discriminan mejor y ambas son significativas (p < 0,001). El programa nos presenta también los «Coeficientes estandarizados de las funciones discriminantes canónicas».
229
Capítulo IX
CUADRO IX.3. (Continuación) Estos coeficientes (que informan de la importancia de las variables en las funciones discriminantes), multiplicados por el valor de nuestras variables para cada caso, nos permiten representar dichos casos y poder asignarlos a un grupo, dado que conocemos la posición del centro (centroide) de cada grupo con respecto a las funciones discriminantes, como veremos más adelante. La «Matriz de estructura» nos presenta la correlación de las funciones discriminantes con las variables originales. Podemos de esta forma interpretar el significado de las funciones discriminantes relacionándolas con las variables con las que tienen una mayor correlación.
Para la función 1 las variables que tienen mayor correlación son HIS, seguida de TYR y THR, y así sucesivamente. La variable PHE no ha sido empleada en el análisis.
230
Análisis multivariante
CUADRO IX.3. (Continuación) Las «Funciones en los centroides de los grupos», que se muestran seguidamente, nos indican el punto medio de cada uno de los grupos (en el ejemplo, de nuestras ESPECIES) con respecto a las distintas funciones discriminantes. Es la media del valor de cada función discriminante para los miembros de cada grupo.
El programa pasa a presentar los resultados de «Estadísticos de clasificación». En primer lugar muestra las «Probabilidades previas para los grupos» y dentro de esta tabla los casos empleados en el análisis.
Como especificamos en las opciones del análisis como probabilidad previa para los grupos «Todos los grupos iguales», en nuestro caso la probabilidad de cada grupo será la probabilidad total (1,000) dividida entre el número de grupos (5), es decir, 0,200. Como todos los casos eran válidos (no faltaban variables, ninguna fuera de rango,…), el número de casos empleados en el análisis es el número de casos que teníamos inicialmente en cada grupo.
231
Capítulo IX
CUADRO IX.3. (Continuación) En el gráfico siguiente, que nos ofrece el programa («Grupos combinados») se observa la posición de los centroides de cada uno de los grupos (en el ejemplo cuadrados oscuros con borde oscuro), de nuestras especies de peces con respecto a las dos primeras funciones discriminantes (que absorbían el 97% de la varianza) y la posición de los casos con el símbolo del grupo al que los habíamos asignado inicialmente.
Como se observa en este ejemplo, los grupos 1 y 2, y los grupos 4 y 5 están bastante mezclados, posiblemente porque se trata de especies que están muy relacionadas filogenéticamente: las dos especies de sardina (1Sardina pilchardus y 2- Sardinella aurita) y las dos especies de jurel (4Trachurus trachurus y 5-Trachurus mediterraneus). Se observa que el grupo de las dos especies de sardina, el de las dos especies de jurel y el de anchoa (3-Engraulis encrasicolus) se encuentran muy bien diferenciados en cuanto a las dos primeras funciones discriminantes.
232
Análisis multivariante
CUADRO IX.3. (Continuación) La última tabla son los «Resultados de la clasificación». En esta tabla se muestra el número de casos y porcentaje de los mismos correctamente clasificados para cada grupo y a qué grupo han sido asignados los casos mediante el análisis discriminante. Muestra también estos mismos resultados para la clasificación mediante la validación cruzada.
Como vemos en la tabla, para el ejemplo de la especie 1 teníamos inicialmente 23 casos. El discriminante asigna 20 de estos casos (87%) al grupo 1, pero 3 de ellos los identifica como miembros del grupo 2 (13%). En el caso de la especie 3, que como veíamos en el gráfico estaba claramente separada de las demás, el análisis asigna el 100% de los casos (28) al grupo 3. Mediante la validación, en el caso de la especie 1 asigna 15 casos al grupo 1 (el 65,2%) y 8 casos al grupo 2 (el 34,8%). En el caso de la especie 3 asigna el 96,4 % de los casos (27) al grupo 3 y un caso (3,6%) al grupo 4. Si hubiésemos seleccionado en las opciones del análisis «Resultados para cada caso» obtendríamos además una tabla en la que aparecería el grupo original y el grupo pronosticado de cada caso.
233
Capítulo IX
CUADRO IX.3. (Continuación) Por último, bajo la tabla de «Resultados de la clasificación», se muestran los resultados globales de la clasificación (% de casos correctamente clasificados del total de casos introducidos en el análisis). En nuestro ejemplo el 89,8% de los casos fueron clasificados correctamente respecto a la clasificación original (el 73,5% mediante la validación cruzada). Es importante destacar que la capacidad predictiva del análisis depende de que los porcentajes de clasificación con la validación cruzada sean similares a los obtenidos con la clasificación original. En nuestro ejemplo, la importante reducción en los porcentajes de acierto con la validación cruzada (del 89,8% al 73,5%) muestra una baja capacidad predictiva: se clasifican correctamente casi el 90% de los casos de la muestra, pero con elementos nuevos cabe esperar un acierto inferior al 75%. Como comentamos anteriormente, una vez que la prueba de M de Box nos ha confirmado que las covarianzas de los distintos grupos son significativamente diferentes, la metodología más correcta sería seleccionar en las opciones de «Clasificar», «Usar la matriz de covarianza», «Grupos separados». Cuando seleccionamos esta opción queda deshabilitada la posibilidad de «Clasificación dejando uno fuera» (Validación cruzada), como vemos en la ventana siguiente:
Las tablas de resultados del análisis discriminante que se obtienen son prácticamente las mismas que en el procedimiento anterior. Mostraremos a continuación únicamente la tabla de «Resultados de la clasificación» que sí difiere de la que obteníamos con el método anterior. En este caso el porcentaje de casos correctamente clasificados con respecto a la asignación de grupos inicial fue del 92,9 % de los casos, lo que supone una mejor clasificación que en el caso anterior.
234
Análisis multivariante
CUADRO IX.3. (Continuación)
Por especies, en este caso el programa clasifica correctamente todos los peces de los grupos 1 y 3. En el caso de la especie 2 se clasifican correctamente el 82,4% (casos), en la especie 4 el 86,7% (13 casos) y en la especie 5 el 86,7% (13 casos).
IX.3. Análisis Factorial y Análisis de Componentes Principales. Son herramientas estadísticas que permiten reducir el número de variables. Aunque ambas técnicas se tratan en muchas ocasiones como si se tratase de una sola, conviene aclarar las diferencias entre ambas. En el análisis de componentes principales, las nuevas variables o componentes principales (independientes entre sí) serán una combinación lineal de las variables originales (relacionadas) y un número relativamente pequeño de componentes explica la mayor parte de la variación total de todas las variables originales. Los últimos factores o componentes, que explican menos, pueden ser eliminados con pérdidas mínimas de información. En el análisis de componentes principales no partimos de una hipótesis previa, y es un método descriptivo que, básicamente, permite obtener una representación de nuestros casos en el nuevo espacio dimensional de nuestras nuevas variables o componentes principales. El análisis factorial es uno de los métodos multivariantes más utilizados. El análisis factorial estudia fenómenos en los que las variables dependen de un factor común (implícito, no medible). Se utiliza entonces un modelo lineal que expresa las variables en función de los factores comunes, mediante coeficientes que se obtienen a partir de los coeficientes de correlación de las variables. El análisis factorial nos aporta unos factores que explican la variabilidad de las variables.
235
Capítulo IX
La diferencia básica es que en el método del análisis factorial se generan unos factores y se intenta ajustar estos factores a las variables (las variables son función de los factores). Por el contrario, en el análisis de componentes principales, como se mencionó anteriormente, los factores o componentes se generan como función lineal de las variables, es decir, no se parte de unos factores iniciales. Por lo tanto, el análisis factorial se utiliza cuando existe una hipótesis previa o modelo de partida, mientras que en el análisis de componentes principales no existe esa hipótesis. Cuando en el análisis factorial se emplea como método de extracción de los factores «componentes principales» y no se aplica ningún tipo de rotación a los ejes, entonces el resultado es idéntico al que obtenemos si realizamos un análisis de componentes principales, aunque la interpretación sea distinta. La rotación permite interpretar mejor la asociación entre factores y variables originales (se puede ver qué porcentaje de la varianza de cada variable explican los factores). Por otra parte el análisis factorial trata de explicar la variabilidad común o compartida (comunalidad) mientras que el análisis de componentes principales analiza toda la variabilidad. En el análisis factorial, el modelo tiene en general infinitas soluciones, mientras que el análisis de componentes principales solo una, por lo que, a la hora de hacer una representación gráfica de los factores, en el análisis factorial se debe elegir, mediante el procedimiento de rotación, la solución que se considere más adecuada desde el punto de vista de la interpretación de los resultados.
CUADRO IX.4. Análisis Factorial EJEMPLO: En un río hemos muestreado 54 especies de peces (con varias réplicas para cada una de ellas). A cada uno de los individuos le hemos medido un total de 27 variables relacionadas con la morfología corporal y con la coloración. Intentamos ver cuáles son los factores biométricos que estructuran la comunidad de peces. El archivo con el que trabajaremos es el Cuadro IX.4.sta. Para realizar el análisis factorial tenemos que seguir una serie de pasos: Calcular una matriz que expresa la variabilidad de las variables, extraer los factores a partir de esta matriz, hacer la rotación de los factores para que sean fácilmente interpretables y establecer la posición (puntuaciones) de los casos originales en las nuevas dimensiones de los factores. Existen una serie de conceptos que estaremos repitiendo constantemente en el análisis factorial y que definimos previamente para facilitar la comprensión: -
236
Comunalidad (Communalities): Es la proporción de varianza de una variable explicada por los factores comunes, por el modelo factorial. Si observamos las comunalidades podemos ver qué variables están mejor y peor explicadas por el modelo. Valores bajos de comunalidades para una o más variables indican que éstas no están siendo bien consideradas o tratadas en el modelo.
Análisis multivariante
CUADRO IX.4. (Continuación) −
Autovalores (Eigenvalues) de un factor: Indican la cantidad total de varianza que explica ese factor para las variables consideradas como grupo. El valor máximo que puede alcanzar la suma de los autovalores (y por lo tanto un autovalor individual) es igual al número de variables.
−
Rotación: La rotación nos permite obtener resultados más sencillos y sobre todo, interpretables para ver claramente en qué factor satura cada variable. Se giran los factores (ejes) para hacer que se acerquen a las variables en las que más saturen.
Paso 1. Abrimos el fichero con el programa STATISTICA y comenzamos el análisis en el menú de «Statistics» seleccionamos la opción «Multivariate Exploratory Techniques» y el apartado «Factor Analysis».
Aparece la siguiente ventana:
Paso 2. Seleccionamos las variables que queremos introducir en el análisis, en nuestro ejemplo todas (ALL), y pulsamos OK.
Nos aparece una nueva ventana en la que nos indica que han sido empleados los 241 casos que hemos seleccionado y que ha calculado la matriz de correlaciones para las 27 variables. Esta matriz de correlaciones nos servirá para el cálculo del modelo factorial.
237
Capítulo IX
CUADRO IX.4. (Continuación)
Si seleccionamos la pestaña «Descriptives» aparece una nueva ventana:
En el apartado de «Review correlations, means, standard deviations» aparece otra ventana:
238
Análisis multivariante
CUADRO IX.4. (Continuación)
En la pestaña «Advanced» podemos ver los resultados de los estadísticos descriptivos en tablas (las tres primeras opciones «Means & SD» (medias y desviación estándar de las variables), «Correlations» (matriz de correlaciones) y «Covariances» (matriz de covarianzas) o gráficamente con diferentes tipos de representación que nos ofrece el programa. Paso 3. Pulsamos el botón «Cancel» para volver a las especificaciones del análisis y en «Advanced» seleccionamos el método de extracción («Extraction method») que queremos emplear para que calcule los factores a partir de nuestra matriz de correlaciones. Existen varios métodos: −
Principal components. Obtiene los factores a partir de la matriz de correlaciones original (con valores 1 en la diagonal). Permite realizar el análisis de componentes principales (los demás métodos analizan la matriz de correlaciones modificada para considerar las comunalidades, y por lo tanto son los que debemos utilizar para realizar análisis factorial). Busca en primer lugar la combinación lineal de variables originales que maximiza la variabilidad (varianza) de la componente. A continuación busca la segunda con el mismo criterio, pero con la condición adicional de que sea independiente de la primera, y así sucesivamente hasta encontrar tantas componentes, todas independientes entre sí, como variables originales.
−
Principal factor analysis. Dentro de este apartado hay varios métodos para realizar el análisis factorial:
−
Communalities=multiple R2. Antes de buscar los factores, en la matriz de correlaciones se sustituye la diagonal por las comunalidades estimadas mediante el r2 múltiple de la respectiva variable con las demás variables. A continuación extrae componentes principales. Es el método que suele usarse por defecto si seleccionamos análisis factorial. Es el que seleccionamos en este ejemplo.
239
Capítulo IX
CUADRO IX.4. (Continuación) −
Iterated commun. (MINRES). En el método MINRES se obtienen los coeficientes del modelo minimizando las diferencias entre la correlación observada y la deducida del modelo factorial (excepto en la diagonal) mediante el criterio de mínimos cuadrados. Tras la extracción inicial de los factores se ajustan las comunalidades, y se repite el proceso iterativamente hasta que los cambios son muy pequeños de una iteración a otra.
−
Maximum likelihood factors. Se asume que el número de factores es conocido (y se selecciona en el apartado de «Max. no. of factors»). El programa estima las puntuaciones que maximizan la probabilidad (verosimilitud) de la matriz de correlaciones observada. Requiere la condición adicional de que las variables originales tengan distribución Normal. Nos proporciona un test χ2 para ver si el ajuste es bueno en el apartado «Factor Analysis Results - Explained Variance tab».
−
Centroid method. Es el método más antiguo para análisis factorial. Se determinan los coeficientes haciendo que pasen por el centro de gravedad o centroide de las variables (excluyendo el factor específico de cada variable). Recalcula las comunalidades mediante iteraciones sucesivas y éstas continúan hasta que se excede el máximo número de iteraciones, que seleccionamos en el cuadro correspondiente «Maximum no. of iterations» o el cambio de comunalidad es menor que el que hemos especificado en ese apartado «Min. change in communality».
−
Principal axis method. En cada iteración los autovalores se computan a partir de las comunalidades. A continuación las comunalidades se vuelven a calcular basadas en los autovalores y autovectores. Las nuevas comunalidades se colocan en la diagonal de la matriz de correlaciones y continúan las iteraciones hasta que se supera el número máximo de iteraciones especificado o bien el cambio de comunalidad es menor que el que hemos especificado en ese apartado.
Paso 4. Tenemos que seleccionar el número de factores que queremos que nos proporcione el análisis. En el apartado de «Max. no. of factors» especificamos cuántos factores deben ser extraídos. Trabaja a la par que «Min. eigenvalue», es decir, se puede especificar el número de factores y el valor mínimo de los autovalores. En el análisis factorial debe existir un modelo previo, con un número especificado de factores. En el análisis de componentes principales la decisión es arbitraria y se toma a posteriori en función de los resultados. Existen varios criterios que pueden ayudarnos a la hora de pronunciarnos:
240
Análisis multivariante
CUADRO IX.4. (Continuación) −
Criterio de la varianza. Se seleccionan las componentes que explican un porcentaje suficiente (por ejemplo 80% o 90%) de la varianza.
−
El criterio de Kaiser. Quedarnos solo con los factores con autovalores mayores que 1 (los que tienen más peso que la media).
−
Test scree. Método gráfico (gráfico de sedimentación). Representamos los autovalores y descartamos los que tienen poco peso, los que se quedan en la parte derecha del gráfico formando una línea plana (por debajo del codo de la curva).
En el ejemplo inicialmente vamos a seleccionar el número máximo de factores que permite en este caso el análisis. Como desconocemos a priori cómo van a ser los resultados seleccionamos 10 factores (siempre han de ser un número menor o igual que el número de variables) y el mínimo de autovalores (0,000, para en principio tomar esos primeros 10 factores aunque no aporten mucho) para después interpretar los resultados y ver si hubiese sido suficiente quedarnos con menos factores y cuántos. Pulsamos «OK» y obtenemos los resultados preliminares del análisis. Paso 5. Interpretación de los resultados. En el menú «Descriptives» nos muestra de nuevo los resultados que mencionamos anteriormente (medias, desviaciones, correlaciones y covarianzas).
En la pestaña de «Explained variance» (varianza explicada) nos muestra los valores de los autovalores en una tabla («Eigenvalues»), en un gráfico («Scree plot») y una tabla con las comunalidades («Communalities»).
241
Capítulo IX
CUADRO IX.4. (Continuación)
Observando los autovalores en la tabla siguiente y en el gráfico de sedimentación (Scree plot), podemos destacar que el primer autovalor absorbe un 24,1% de la varianza, el segundo el 9,6% y sucesivamente van explicando menos. Los 9 primeros explican el 62,4% de la varianza.
En este gráfico podríamos eliminar los factores que están en la parte más plana de la curva, porque explican un porcentaje más bajo de la variabilidad (por ejemplo, podríamos repetir el análisis quedándonos con los 5 primeros factores que explican el 51,6 % de la varianza), así que cancelamos «Cancel», volvemos al menú anterior y seleccionamos 5 factores.
242
Análisis multivariante
CUADRO IX.4. (Continuación) En la tabla de «Communalities» (comunalidades), observamos que muchas variables están siendo bien representadas en el modelo dado que presentan valores altos (considerando que toman valores de 0 a 1) en alguno de los factores y el r2 es alto también (son significativas).
Sin embargo, existen variables, como AMAP (Anchura máxima de la aleta caudal) y ANPC, (Anchura del pedúnculo caudal), que tienen valores bajos en los diferentes factores, lo que quiere decir que no están bien representadas en el modelo factorial. Para poder obtener las puntuaciones de los factores en el apartado de «Loadings» (puntuaciones, ventana siguiente) podemos seleccionar el tipo de rotación.
En principio vamos a seleccionar la opción por defecto «Unrotated», que quiere decir sin rotación.
243
Capítulo IX
CUADRO IX.4. (Continuación) También hay que especificar qué puntuaciones de los factores («Factor loadings») queremos que nos resalte (en este caso dejamos por defecto que señale las puntuaciones de los factores mayores de 0,7). Una vez que hemos seleccionado la rotación (Unrotated) obtenemos los resultados de las puntuaciones de los factores «Summary factor loadings»:
Vemos en esta tabla las relaciones de los factores con las variables, por ejemplo en nuestro caso, observamos que el factor 1 está muy relacionado con las variables AC (Altura de la cabeza), DO (Diámetro del ojo) y DMOB (Distancia ojo-boca) y el factor 2 con la variable LAAN (Longitud de la aleta anal). Como se observa, ninguna variable está muy relacionada con los factores 3, 4 y 5, podríamos realizar el análisis sin estos tres factores. En la parte inferior de la tabla vemos que cada factor va explicando menos varianza y además el primer factor tenía también la mayoría de las puntuaciones más altas. En el apartado de «Plot of loadings» (gráfico de las puntuaciones) podemos ver representadas nuestras variables con respecto a los factores que seleccionemos (puede ser un gráfico de 2 factores, 2D, o de tres factores 3D).
244
Análisis multivariante
CUADRO IX.4. (Continuación)
La interpretación suele resultar más sencilla en el caso de los gráficos de 2 dimensiones. En nuestro ejemplo obtenemos las variables bastante agrupadas y la interpretación no es fácil, por lo que repetiremos el análisis aplicando una rotación que permita que los factores se acerquen a las variables. Paso 6. Seleccionar el tipo de rotación, para que los factores se acerquen a las variables en las que saturan más. Existen muchos tipos de rotaciones: -
Varimax. Minimiza la variabilidad de los coeficientes para cada factor, reduciendo así el número de variables que tienen alta saturación en un factor. Simplifica la interpretación de los factores mejorando la solución por columna.
245
Capítulo IX
CUADRO IX.4. (Continuación) −
Varimax normalized. Realiza una rotación Varimax sobre las puntuaciones normalizadas de los factores.
La rotación Varimax es el método más empleado cuando el número de factores es pequeño, y es el que vamos a usar en nuestro ejemplo. Permite interpretar fácilmente los factores al proporcionar una asociación positiva o negativa clara entre los factores y las variables. −
Quartimax. Minimiza la variabilidad de los coeficientes para cada variable, reduciendo así el número de factores para explicar una variable. Simplifica la interpretación de las variables, mejorando la solución por filas. Se utiliza cuando en el modelo hay muchos factores.
−
Quartimax normalized. Realiza una rotación quartimax sobre las puntuaciones normalizadas de los factores.
−
Biquartimax. Mezcla de las rotaciones quartimax y varimax. Se minimiza tanto el número de factores para explicar una variable como de variables que saturan alto en un factor. Es equivalente a maximizar simultáneamente las varianzas de las filas y columnas de la matriz de las puntuaciones de los factores con las filas al cuadrado.
−
Biquartimax normalized. Realiza una rotación biquartimax sobre las puntuaciones normalizadas de los factores.
−
Equamax. Mezcla de las rotaciones quartimax y varimax. Se minimiza tanto el número de factores para explicar una variable como de variables que saturan alto en un factor. A diferencia de la biquartimax, el peso relativo asignado al criterio varimax en la rotación es igual al número de factores dividido entre 2, mientras que en biquartimax el peso relativo es igual para ambos.
−
Equamax normalized. Realiza una rotación equamax sobre las puntuaciones normalizadas de los factores.
Una vez que hemos seleccionado la rotación «Varimax raw» obtenemos los resultados de las puntuaciones de los factores «Summary factor loadings»:
246
Análisis multivariante
CUADRO IX.4. (Continuación)
Vemos en esta tabla las relaciones de los factores con las variables, por ejemplo en nuestro caso, observamos que el factor 1 está relacionado significativamente con las variables MALC (Altura del cuerpo) y PC (Profundidad del cuerpo); el factor 2 con la variable LMAD (Longitud de la aleta dorsal), el factor 3 con ALPC (Altura del pedúnculo caudal); y el factor 5 con la variable HB (Altura de la boca). En el apartado de «Plot of loadings» (gráfico de las puntuaciones), como en el ejemplo sin rotación, podemos ver representadas nuestras variables con respecto a los factores que seleccionemos (puede ser un gráfico de 2 factores, 2D, o de tres factores 3D). Hay que tener en cuenta que la representación gráfica de las variables frente a los factores depende del tipo de rotación efectuada, y por lo tanto existen numerosas soluciones.
247
Capítulo IX
CUADRO IX.4. (Continuación)
En la gráfica observamos la correlación de cada variable con los factores. Para interpretar los resultados podemos fijarnos en las variables que toman valores «extremos» para los distintos factores (variables con valores altos o bajos del factor). En este caso vamos a detenernos en los factores 1 y 2, en la representación de los dos primeros factores. Para el factor 1 vemos que la variable MANC (Anchura del cuerpo) tiene valores bajos y por ejemplo las variables MALC (Altura del cuerpo), PC (Profundidad del cuerpo) y LAAN (Longitud de la aleta anal) tienen valores altos. Podríamos decir que el factor 1 está relacionado con variables que indican «forma del cuerpo del pez». Para el factor 2 las variables DBM (Distancia desde el hocico hasta el primer radio de la aleta dorsal) y LAAN (Longitud de la aleta anal), entre otras, toman valores bajos, mientras que variables como LMAD (Longitud de la aleta dorsal) presentan valores altos. Podríamos decir que este factor está relacionado con las aletas de los peces, es decir, con el «tipo de natación». Por lo tanto, la estructuración de la población de peces está relacionada con la forma del cuerpo y el tipo de natación de los peces.
248
Análisis multivariante
CUADRO IX.5. Análisis de Componentes Principales Ahora repetiremos el estudio aplicando el análisis de componentes principales, para ver qué diferencias encontramos con respecto al análisis factorial. El archivo con el que trabajaremos es el Cuadro IX.4.sta. Paso 1. Con el mismo archivo, en el menú «Statistics» seleccionamos «Multivariate exploratory techniques» y «Principal component & Classification Análisis». Aparece la ventana siguiente:
Paso 2. En la ventana anterior seleccionamos todas las variables para el análisis «ALL» y no ponemos ninguna variable de agrupación ni suplementaria. Ponemos que base el análisis en la matriz de correlaciones «Correlations», ya que no trabajamos con datos homogéneos. Los datos incluyen longitudes, colores, etc. y, por tanto, la unidad de medida no es la misma. En el caso de que nuestros datos fuesen homogéneos emplearíamos la matriz de covarianzas «Covariances». Seleccionamos también la opción para la situación en la que tengamos casos perdidos («MD deletion»). Podemos escoger que los sustituya por la media («Mean substitution») o emplear aquellos casos en los que haya valor para todas las variables («Casewise»), que es lo que escogemos en nuestro ejemplo (en el que los casos tienen valor para todas las variables). Pulsamos OK y aparece la siguiente ventana:
249
Capítulo IX
CUADRO IX.5. (Continuación)
Paso 3. Interpretación de los resultados. Se observa que, para una calidad de representación del 100% se queda con 27 factores, pero nosotros vamos a seleccionar, como en el ejemplo anterior, que se quede solo con los 5 primeros factores (que permiten una calidad de representación del 58%). Obtenemos de este modo, en la pestaña «Variables» de la ventana del paso 2, la tabla de «Factor coordinates of variables», que nos muestra las coordenadas de las variables en el espacio de los factores:
250
Análisis multivariante
CUADRO IX.5. (Continuación) Y la respectiva representación gráfica «Plot var. factor coordinates, 2D» con respecto a los dos primeros factores:
De esta manera podemos observar que las variables DMOB (distancia ojoboca) y AC (altura de la cabeza) están relacionadas con valores altos del factor 1; la variable MANC (máxima anchura del cuerpo) está relacionada con valores altos del factor 2 y las variables LAAN (longitud de la aleta anal) y PC (profundidad del cuerpo) con valores bajos del factor 2. Además en la pestaña «Variables», que se muestra a continuación, podemos ver la contribución de las variables a los factores, «Contributions of variables»:
251
Capítulo IX
CUADRO IX.5. (Continuación)
Podemos observar, como vimos gráficamente, que las variables que más contribuyen al factor 1 son DMOB (distancia ojo-boca) y AC (altura de la cabeza). Al factor 2 son LAAN (longitud de la aleta anal), MANC (máxima anchura del cuerpo) y PC (profundidad del cuerpo). Podríamos concluir que el factor 1 está relacionado con la forma de la cabeza y el factor 2 con la forma del cuerpo y la natación. Uno de los resultados que ofrece el componentes principales, que no obteníamos con el análisis factorial (ya que al existir infinitas soluciones, las puntuaciones no son únicas), son los valores de los casos en el espacio de las componentes principales. En la pestaña «Cases» aparecen «Factor coordinates of cases», que se muestra en la tabla siguiente y su representación gráfica «Plot case factor coordinates, 2D», que se muestra en la siguiente figura.
252
Anรกlisis multivariante
CUADRO IX.5. (Continuaciรณn)
Este grรกfico representa que posiciรณn ocupa cada caso (en nuestro ejemplo cada individuo) en el espacio de las componentes principales.
253
Capítulo IX
IX.4. Correlación Canónica El análisis de correlación canónica es una generalización de las regresiones. Una regresión simple correlaciona una variable independiente con otra dependiente. Una regresión múltiple hace lo mismo con más de una variable independiente y una dependiente. La correlación canónica correlaciona un grupo de variables x1, …, xm con otro grupo y1, …, yn. El método consiste en encontrar dos variables A = a1x1+ … + amxm, B = b1y1+ …+ bnyn entre las cuales la correlación sea máxima. Estas variables compuestas se llamarán variables canónicas. El análisis calculará varias correlaciones canónicas, cada una de ellas con un par de variables canónicas A y B, en concreto, calculará tantas variables canónicas como el número de variables que tenga el grupo más pequeño (el de las «x» o el de las «y»), aunque solo las primeras tienen interés práctico. A menudo unos pocos pares de variables canónicas permitirán analizar las relaciones entre ambos grupos, facilitando el estudio de nuestros datos al reducir la dimensión. Este tipo de análisis multivariante comparte aspectos con el análisis de componentes principales y el análisis factorial. Pero a diferencia de estos, que buscan relaciones internas entre las variables de un grupo, la correlación canónica busca una relación entre dos grupos de variables. Los requerimientos generales de este tipo de análisis son los mismos que para un análisis factorial: 1. Se excluyen variables cualitativas. 2. Las relaciones entre variables deben ser lineales. No obstante, conviene apuntar algunas características que, aunque no son hipótesis previas, es conveniente que se cumplan particularmente en este análisis: 1. El método funciona mejor cuando la correlación entre variables dentro de cada grupo es pequeña, y es grande entre variables de distinto grupo. 2. Las variables, dentro de un grupo, aunque distintas, deben ser homogéneas respecto al tipo de información, o el «tema», al que se refieren (recuérdese que en el análisis factorial también existe este requisito, pero no hay dos grupos); de lo contrario, si la información que contienen no está relacionada, pierde significado la construcción de variables nuevas (canónicas) como combinación lineal de las variables antiguas. En síntesis, este tipo de análisis será especialmente útil cuando tenemos dos grupos de variables, cada uno de los cuales nos daría información sobre un tema, medido por diferentes variables. Entonces, nosotros pretendemos buscar una correlación entre esos dos grupos, o temas de información. Este método puede ser más adecuado que comparar las variables dos a dos, y además, la correlación encontrada entre las variables canónicas calculadas siempre será superior a la existente en cualquiera de esas comparaciones dos a dos.
254
Análisis multivariante
En el Cuadro IX.6 tenemos un ejemplo de aplicación, cálculo e interpretación de este tipo de análisis.
CUADRO IX.6. Correlación Canónica Vamos a utilizar este análisis para comprobar si una serie de variables, que globalmente se refieren a la calidad de un suelo para el crecimiento de vegetales, nos predicen la mejor o peor condición en la que pueden estar los vegetales que han crecido sobre ese suelo. Tenemos un grupo de variables que nos da información sobre «calidad del suelo» que son: contenido en agua (en % del peso del suelo), nitrógeno, fosfato y una serie de oligoelementos minerales (en μmoles g-1 de suelo). El otro grupo de variables nos da una idea sobre «condición de las plantas», y son una serie de parámetros independientes relacionados con el crecimiento y la reproducción: cobertura foliar (en m2), la longitud promedio de entrenudos (en cm) y el % de semillas viables del total producidas. En nuestro caso tenemos datos de un conjunto de árboles de la misma edad que han crecido en diferentes suelos. Queremos ver si ambos grupos de variables se correlacionan. Para ello haremos un análisis de correlación canónica con el programa STATISTICA. Paso 1. Abrimos el programa STATISTICA, con el fichero Cuadro IX.6.sta.
Paso 2. Hacemos clic en el menú «Statistics», dentro de este, en «Multivariate exploratory techniques», y a su vez en «Canonical Analysis».
255
Capítulo IX
CUADRO IX.6. (Continuación) Paso 3. Nos abre un cuadro de diálogo, y en este, hacemos clic sobre «Variables», con lo que abre un nuevo cuadro, y en él seleccionamos las variables que queremos analizar de toda la lista, que serán desde la 1 hasta la 8, en nuestro caso.
Paso 4. Hacemos clic sobre «OK» y nos aparecerá el nuevo cuadro de diálogo de «Model Definition».
Paso 5. En este nuevo cuadro, hacemos clic sobre «Variables for canonical analysis» (dentro de la opción «Quick», que es la que abre este cuadro por defecto). Entonces aparece un cuadro de diálogo en el que tenemos una lista de las variables duplicada. Aquí se trata de seleccionar qué variables pertenecen a cada uno de los dos grupos de los que hablábamos al comienzo, es decir, el grupo de las «x», o independientes, y el grupo de las «y», o dependientes. A la izquierda seleccionamos el grupo de las independientes, que serían las cinco primeras, y a la derecha el de las dependientes, las tres últimas.
256
Análisis multivariante
CUADRO IX.6. (Continuación)
Paso 6. Hacemos clic en «OK» y cerramos este cuadro. Nos queda abierto otra vez el cuadro «Model definition». Ahora, si nos interesasen los valores medios y desviaciones de cada variable, iríamos a la opción «Descriptives» y podemos pedir que las calcule. El resto de opciones que tenemos en «Descriptives» también podremos verlas más adelante, se trata de cálculos independientes del análisis canónico. Como no nos interesa «Descriptives», hacemos clic en «OK» en el cuadro «Model definition», y nos aparece un cuadro con el resumen de los resultados del análisis canónico.
257
Capítulo IX
CUADRO IX.6. (Continuación) Paso 7. Si queremos ver estos resultados en la hoja de trabajo, pulsamos en «Summary canonical results», en la pestaña «Quick».
En estos resultados vemos que aparece un solo r canónico, que es aproximadamente un 0,94, y es significativo teniendo en cuenta el test χ2. Este valor se corresponde con el r global del análisis sin eliminar ninguna de las correlaciones canónicas calculadas, o pares de variables canónicas (que el programa llama «Roots»). También tenemos información sobre cuáles son los grupos de variables que habíamos hecho y la varianza explicada para cada grupo de variables. Por lo tanto, globalmente, se puede decir que la «calidad del suelo» predice la «condición de las plantas» con las variables utilizadas, pero vamos a ver con más detalle qué ocurre con cada variable y con cada una de las correlaciones canónicas. Paso 8. Restauramos el cuadro de «Canonical results» y hacemos clic en la opción «Canonical factors», y de las opciones que nos abre, en «Eigenvalues», que nos muestra los autovalores.
258
Análisis multivariante
CUADRO IX.6. (Continuación) Paso 9. Aparecen en la hoja de trabajo los autovalores de cada una de los pares de variables canónicas calculadas. Como sabíamos, se calculan tres pares de variables canónicas («Roots»), porque el grupo de las variables dependientes tiene el menor número de variables, y tiene tres. Como vemos, los autovalores descienden progresivamente desde Root 1 hasta Root 3. Esto siempre es así, ya que el primer par de variables canónicas explica la mayor parte de la varianza, y los restantes pares explican, sucesivamente, lo máximo posible de la varianza restante. Al explicar diferentes aspectos de la varianza, los pares de variables canónicas nunca están correlacionados entre sí.
Paso 10. Ahora volvemos a restaurar el cuadro resumen y hacemos clic en «Chi-square tests».
Paso 11. Entonces vemos en la hoja de trabajo los r canónicos, incluyendo primero todas las correlaciones canónicas calculadas («Root removed 0») y después, eliminando sucesivamente las de más valor (primero la 1 y después la 2). Vemos que el valor de r baja, y de hecho, con eliminar el primer par de variables canónicas calculado, r deja de ser significativo (test de χ2). Por lo tanto, la correlación solo es significativa en el primer par de variables canónicas calculado.
259
Capítulo IX
CUADRO IX.6. (Continuación) Paso 12. Ahora veremos qué ocurre con las variables iniciales. Restauramos el cuadro resumen y hacemos clic en «Factor structures» y en la opción «Correlations within & between sets».
Paso 13. Nos muestra las correlaciones simples entre cada par de variables, primero en el grupo de las «x» («left set»), luego el de las «y» («right set») y después entre las variables de ambos grupos. Por defecto nos abre esta última matriz, y las otras se encuentran minimizadas. Primero vamos a ver las del «left set» y el «right set». Como vemos, dentro de cada uno de los grupos, no hay grandes correlaciones entre las variables.
Paso 14. En las correlaciones entre grupos cruzados, aunque son bajas, vemos que las mayores están entre el % de semillas viables y el contenido en nitrógeno, fosfato y hierro. De todas formas todas estas correlaciones son débiles, y por sí solas no nos servirían para nada.
260
Análisis multivariante
CUADRO IX.6. (Continuación)
Paso 15. Ahora pasamos a observar los coeficientes de cada variable en las variables canónicas. Para esto, en el cuadro resumen de los resultados, hacemos clic en «Canonical scores» y aquí, en «Left & right set canonical weights».
Paso 16. Nos abrirán las respectivas ventanas para los valores del «right set» y del «left set».
261
Capítulo IX
CUADRO IX.6. (Continuación) Paso 17. Estos coeficientes se refieren a las variables normalizadas, para poder compararlas. Cuanto mayor sea el valor absoluto del coeficiente, mayor es la contribución de esa variable a la variable canónica. A nosotros nos interesa especialmente cuáles son las variables de más peso en la primera correlación canónica («Root 1»), porque como ya vimos, es la única significativa. Vemos que las variables de más peso son el nitrógeno, fosfato y hierro. Ahora, si vamos al grupo de variables de la derecha, observaremos, igualmente para la primera correlación canónica, que la variable de más peso es con diferencia el % de semillas viables. Si recordamos las correlaciones entre las variables dos a dos (paso 11) estas variables eran, precisamente, las que tenían entre sí las correlaciones más fuertes de todas. Por lo tanto, podemos concluir que la correlación entre «calidad del suelo» y «condición de la planta» se debe principalmente al contenido en nitrógeno, fosfato y hierro del suelo frente al porcentaje de semillas viables. Pero aún así es necesario el conjunto de las variables medidas, ya que las correlaciones dos a dos son muy débiles.
IX.5. Análisis de Correspondencias Este análisis se usa principalmente para estudiar la distribución de unos determinados «caracteres» (en sentido general, cualquier tipo de propiedad) entre «poblaciones» (también en sentido general, cualquier conjunto de individuos que pertenezcan a una categoría y que se puedan dividir en poblaciones). Así, las «poblaciones» pueden ser diferentes grupos de seres humanos de varias nacionalidades y los «caracteres» los diferentes colores de los ojos. Otro ejemplo de «poblaciones» puede ser los individuos de una determinada especie de insecto recolectados en diferentes lugares, y sus «caracteres» la presencia de unos determinados tipos de mutaciones genéticas. Como se desprende de los ejemplos anteriores, las variables que usamos como «caracteres» son cualitativas. Además, estas variables las analizamos por medio de frecuencias. Es un tipo de análisis muy habitual para tablas de frecuencias. Una de las propiedades más características de este tipo de análisis es su capacidad para representar de manera geométrica, en reducidas dimensiones, a las poblaciones en función de la distribución de frecuencias relativas de los caracteres, y simultáneamente, representar también los caracteres en función de la distribución de sus frecuencias relativas entre poblaciones.
262
Análisis multivariante
Para realizar estas representaciones, opera como un análisis de componentes principales, por lo que obtendremos una serie de dimensiones que son una combinación lineal de los perfiles que regulan la distribución de frecuencias de cada variable fila o columna. Una diferencia con el análisis de componentes principales es que la distancia geométrica que utiliza es la χ2 en lugar de la Euclídea. En el Cuadro IX.7. se ilustra con un ejemplo la realización e interpretación de un análisis de correspondencias.
CUADRO IX.7. Análisis de Correspondencias Vamos a realizar un estudio sobre la distribución en diferentes «poblaciones» (individuos de diferentes nacionalidades europeas con permiso de conducción) de un determinado carácter, que será la marca de automóvil que poseen entre cuatro opciones posibles. Los datos se obtienen de encuestas realizadas a aproximadamente 1000 individuos de cada población. Paso 1. Los datos se encuentran en el fichero Cuadro IX.7.sta. En primer lugar abrimos el fichero, y observamos cómo la variable «nacionalidad» se sitúa en filas, y la variable «marca de automóvil», denotada por A, B, C, D, en columnas. Cada celda contendría las frecuencias absolutas.
También se pueden disponer las variables de otras formas alternativas, por ejemplo, solo en columnas, con lo que tendríamos una columna con la «nacionalidad», otra con «marca» y una columna con las frecuencias. He aquí un ejemplo con parte de los datos.
263
Capítulo IX
CUADRO IX.7. (Continuación) Otra manera sería introducir los datos «brutos» sin frecuencias especificadas. Aquí vemos un ejemplo con parte de los datos. Ninguna de las maneras de las que hayamos introducido los datos influye en los pasos que deberemos dar en lo sucesivo para continuar el análisis.
Paso 2. Seleccionar en el menú «Statistics» el comando «Multivariate exploratory techniques» y en este «Correspondence Analysis». Paso 3. Aparece un cuadro de diálogo en el que estaremos en la opción «Correspondence Analysis», y debemos marcar la opción «Frequencies w/ out grouping variables». Si tuviésemos los datos introducidos como en el segundo ejemplo del paso 1, habría que marcar «Frequencies with grouping variables», si estuviesen como en el tercer ejemplo, habría que marcar «Raw data (requires tabulation)»
264
Análisis multivariante
CUADRO IX.7. (Continuación) Paso 4. Ahora, en este mismo cuadro, hacemos clic en «Variables with frequencies» para que nos abra un nuevo cuadro y seleccionar en él las variables que analizaremos, que serán las cuatro de las columnas.
Paso 5. Pulsamos sobre «OK» sucesivamente en este cuadro y el anterior, con lo que nos aparecerá el cuadro de diálogo con los resultados.
Paso 6. En primer lugar, vamos a fijarnos en los autovalores de cada una de las dimensiones. En la opción «Advanced», pulsamos «Eigenvalues» («Autovalores»), con lo que obtendremos lo siguiente.
265
Capítulo IX
CUADRO IX.7. (Continuación)
Como en cualquier tipo de análisis factorial, las dimensiones se calculan extrayendo la mayor varianza posible del total disponible, de manera que se va perdiendo poder explicativo desde la primera hasta la última, con lo que los autovalores de cada una son cada vez menores. «Singular values» son la raíz cuadrada de los «Eigenvalues». La suma de los «Eigenvalues» es la «Total inertia» que representa la varianza total. La inercia, igual que los autovalores, nos da una idea de la varianza que explica cada dimensión del total de varianza explicada. Paso 7. Una vez que conocemos las dimensiones calculadas, debemos seleccionar solo las que más nos convenga utilizar, por las razones que fuese. Esto puede hacerse, dentro del mismo cuadro de resultados, en «Quick» o en «Options» En nuestro caso dejaremos el número de dos dimensiones que viene por defecto, ya que nos interesa solo una representación fácil de representar gráficamente y de interpretar, aparte de que las dos primeras dimensiones explican prácticamente toda la varianza. Entonces, iremos, de nuevo en «Advanced», a «Row and column coordinates». Hacemos clic aquí y aparecen dos tablas, una para las coordenadas (en cada una de las dos dimensiones seleccionadas) de la variable de las filas, y otra para la de las columnas.
266
Análisis multivariante
CUADRO IX.7. (Continuación)
El valor de «Quality» de cada uno de los puntos que representan a las variables es similar al concepto de «comunalidad» aplicado a una variable en el análisis factorial, es decir, que nos indica lo bien «explicado» que está cada punto por el modelo, y sus valores pueden estar entre cero y uno. Como vemos, todos estos valores son altos excepto en el caso de Holanda y Bélgica. Los valores de «Inertia» significan cuánto contribuye cada punto a explicar la inercia total, por lo que se relacionan con el poder explicativo de ese punto para el modelo. Si la calidad es baja, la inercia también, pero lo contrario no es cierto. Las coordenadas están estandarizadas por defecto tanto para filas como para columnas (podemos verlo en «Quick»). Esto no afecta a los valores de calidad ni de inercia relativa, sino que simplemente es un método para poder comparar las distancias entre puntos una vez hecha la representación gráfica en las dos dimensiones. Paso 8. Ahora representaremos gráficamente las coordenadas, ya que es la mejor manera de interpretarlas. Para ello, vamos a «Advanced» de nuevo, de aquí a «Row & Column 2D» y ya aparece el gráfico.
267
Capítulo IX
CUADRO IX.7. (Continuación) Es importante indicar que la función de estas coordenadas es interpretativa, igual que con el análisis de componentes principales, no estamos contrastando ninguna hipótesis. Teniendo en cuenta esto, en el gráfico, parece que las nacionalidades se distribuyen por proximidad geográfica, acumulándose en una zona las nacionalidades sureñas y mediterráneas, muy cerca de ellas las centroeuropeas, más alejadas las más norteñas, que aparecen cerca de las del este (realmente ocurre que las norteñas también se sitúan bastante al este). Por otro lado, las islas de Inglaterra e Irlanda se sitúan alejadas del resto. Si nos fijamos ahora en la pauta que siguen las cuatro marcas de automóviles, observamos un gradiente surnorte en sentido A-B-D-C, en especial A-B-C. Los diferentes grupos de nacionalidades parecen tener unas preferencias concretas acerca de cada marca, excepto la zona centroeuropea, entre A y B. Las nacionalidades del este y el norte también están en posición aproximadamente intermedia entre B y C. Paso 9. Podemos ver las frecuencias relativas en una tabla si vamos la opción «Review» del cuadro de resultados, y aquí hacemos clic en «Row percentages» y «Column percentages».
268
Análisis multivariante
CUADRO IX.7. (Continuación)
Las interpretaciones anteriores podemos volver comprobarlas aquí, aunque en realidad esta información, en nuestro caso, ya se veía muy bien en los datos iniciales de frecuencia absoluta. Paso 10. Una opción a mayores que tenemos ahora es añadir a nuestro análisis nuevos puntos (ya sean de variables en filas o en columnas) que no estaban en el análisis original. Esto podría suceder, por ejemplo, en una situación en la que nos sorprendemos por algunos de los resultados obtenidos, pero que son poco claros y queremos incidir con nuevos puntos que nos den información adicional para ver si esa pauta se refuerza. Pensemos por ejemplo, que nos sorprendiese la situación tan alejada de Inglaterra e Irlanda, y queremos comprobar si esto pudiera darse en otras grandes islas del continente. Entonces, queremos introducir los datos correspondientes a Islandia. Tendríamos que ir, en el cuadro de resultados, a «Suplementary points», y aquí añadir los datos correspondientes a una nueva fila («Add row points», si quisiésemos hacerlo para una columna, sería igual pero en «Add column points»).
269
Capítulo IX
CUADRO IX.7. (Continuación) Entonces introduciríamos los siguientes datos para Islandia (hay que introducir frecuencias relativas, ya sea en porcentaje o en tanto por uno).
Paso 11. Después de pulsar «OK» en el cuadro anterior, cualquiera de los resultados anteriores, que podremos ver de la misma forma que hemos descrito paso por paso, incorporarán el nuevo punto. Para resumir, vamos a mostrar solo el gráfico en dos dimensiones.
Como vemos, para Islandia, incluye un nuevo símbolo, y lo representa sin asociarse a ninguno de los grupos anteriores. Aunque es de los que más se aproxima al grupo de las islas, como hipotetizábamos, no mantiene el gradiente norte – sur. Por lo tanto, parece situarse al margen del resto de tendencias continentales. Al mismo tiempo, es el que tiene preferencias más compensadas entre las distintas marcas.
270
Análisis multivariante
Una variante de este análisis que podemos utilizar con el programa STATISTICA es el análisis de correspondencias múltiple «Multiple Correspondence Analysis». Si recordamos, aparecía como opción en el primer cuadro de diálogo con el que comenzábamos el análisis. Es una extensión del análisis de correspondencias simple pero con unas variables del tipo «población» y «carácter» que pueden tener varios niveles dentro de ellas, es decir, como si hubiese en realidad más variables. No se diferencia en ningún aspecto del análisis simple más que en esto y la forma de introducir los datos. Tenemos un ejemplo en el Cuadro IX.8.
CUADRO IX.8. Análisis de Correspondencias Múltiple EJEMPLO. Utilizaremos datos de una encuesta sobre el consumo de tres tipos de bebidas en un determinado país. Las variables población serían los individuos encuestados, clasificados en 3 grupos de edad: «edad 15-25 años», «edad 25-35 años», «edad 35-45 años». Y la variable «carácter» serían los tres tipos de bebidas, dentro de cada una de las que definimos 2 niveles (sí la consume y no la consume), ya que nos interesa saber cómo se distribuyen tanto las respuestas positivas como las negativas. Con un análisis de correspondencias simple solo podríamos saber la de una de las dos. Tenemos el fichero de datos en Cuadro IX.8.sta. Paso 1. Iríamos, dentro del menú «Statistics», a «Multivariate Exploratory Techniques» y de aquí a «Correspondences Analysis».
Paso 2. En el cuadro que nos abre, tenemos que situarnos en la pestaña de la derecha «Multiple Correspondence Analysis (MCA)».
271
Capítulo IX
CUADRO IX.8. (Continuación) Paso 3. Como vemos, podemos introducir los datos de la misma manera que en análisis de correspondencias simple (Raw data, frequencies with grouping variables, frequencies w/out grouping variables). En nuestro caso, los datos están introducidos en el modo «Frequencies w/out grouping variables» igual que en el ejemplo del Cuadro IX.7, la diferencia, es que, al incluir varios niveles dentro de alguna de nuestras variables, nos pide que los datos sean introducidos como «Burt table» que es una matriz de datos simétrica, tal y como puede verse en los datos de nuestro fichero. Si introducimos los datos como «Raw data» o «Frequencies with grouping variables», no es necesaria una «Burt table», ya que, si los datos están bien introducidos, el programa ya la define automáticamente. Nuestros datos como «Raw data» quedarían como se ve en el ejemplo (no se muestran todos los datos, véase también ejemplo en Cuadro IX.7). Cada fila es un caso. La diferencia está en que hay que codificar los dos niveles de la variable «bebida», que si recordamos eran «si la consume» o «no la consume». En este caso le hemos asignado un 1 y un 2, respectivamente.
Si introducimos nuestros casos como «Frequencies with grouping variables», tendríamos lo siguiente (no se muestran todos los datos, véase también ejemplo en Cuadro IX.7). Vemos que también hay que codificar los dos niveles que hay dentro de «bebida».
La codificación de los niveles de una variable es la diferencia fundamental en estas dos maneras de introducir los datos respecto a «Frequencies w/ out grouping variables» en la que no hace falta codificar. Estas diferencias las explicaremos a continuación.
272
Análisis multivariante
CUADRO IX.8. (Continuación) Paso 4. Veamos qué ocurre con «Raw data». En el cuadro para introducir códigos, si pulsamos en «ALL», ya nos muestra todos los códigos que tenemos en la matriz de datos.
En el caso de «Frequencies with grouping variables», se haría lo mismo para codificar los niveles, pero además hay que especificar en qué columna está la variable de frecuencia (véase análisis de correspondencias simple Cuadro IX.7).
Paso 5. Volviendo a nuestros datos, seleccionamos la opción «Frequencies w/out grouping variables». En primer lugar debemos seleccionar las variables para el análisis, especificando la estructura de la tabla en un cuadro de diálogo en el que introduciremos los niveles que tiene cada factor. El número total de niveles debe ser igual a las variables seleccionadas (en nuestro caso 9). El problema de nuestro ejemplo es que no se permite introducir en una variable un solo nivel, ya que el número mínimo de niveles es 2. Entonces vamos a considerar las diferentes clases de edad como 3 niveles dentro de un factor que sería la edad. Esto no altera nuestro análisis, es simplemente una cuestión conceptual e incluso podríamos haberlo expresado así desde el principio. El cuadro de diálogo se configuraría como sigue:
273
Capítulo IX
CUADRO IX.8. (Continuación)
Paso 6. El análisis ya está listo, una vez que pulsamos en OK en los dos cuadros anteriores. El cuadro que nos aparece para ver los resultados es el siguiente:
La interpretación de todos los estadísticos calculados, autovalores, coordenadas, etc., sería la misma que en el ejemplo del Cuadro IX.7. Para resumir, mostramos el gráfico bidimensional (hay que pulsar dentro de «Plots of coordinates», en 2D). Podemos observar cómo cada clase de edad consume preferentemente un tipo de bebida, y al mismo tiempo rechaza en mayor medida una de las dos restantes. Por ejemplo, el grupo de edad de 15 – 25 consume preferentemente la bebida A, puesto que se sitúa cerca de «Bebida A sí», y por el contrario, rechaza más la bebida C que la B, ya que se sitúa más cerca de «Bebida C no» que de «Bebida B no».
274
X
Modelos de simulación
MODELOS DE SIMULACIÓN
X.1. El uso de modelos Los modelos se crean por la necesidad de expresar en lenguaje matemático cualquier tipo de razonamiento con el cual pretendamos analizar las propiedades de un sistema. El lenguaje matemático es preciso y sus elementos son manipulables, de manera que un modelo nos permite analizar particularmente todas las propiedades y componentes del sistema, y a la vez observarlo también como un todo. Los modelos deben ser capaces de predecir con solvencia en ciertos niveles de generalidad, lo que significa que no pueden ser útiles solamente para el caso concreto que fueron desarrollados. Dentro de los muchos tipos de sistemas que han sido estudiados a partir de modelos, podemos encontrarnos desde sistemas físicos y químicos hasta económicos y biológicos. Se trata de campos de la ciencia muy diferentes. El modelado de sistemas de ciencias como la física o la química clásicas se ha desarrollado habitualmente desde perspectivas determinísticas, es decir, aquellas en las que los fenómenos son totalmente predecibles. Por el contrario, sistemas del tipo de los estudiados en economía o biología pueden moverse entre el determinismo y la estocástica (fenómenos de azar que dependen de una probabilidad) dependiendo siempre de la escala a la que estemos estudiando el sistema. En este segundo tipo de disciplinas, el modelado se ha incorporado de una manera más tardía, por el deseo de alcanzar un grado de precisión en estas ciencias similar al que existía en la física o la química, algo que hasta hoy ha sido difícil de conseguir debido a la complejidad de las relaciones y lo estocástico de algunos fenómenos que conforman los sistemas estudiados en estas disciplinas. Tenemos ejemplos de antiguos ensayos que estudiaban la dinámica de poblaciones humanas, como el de Malthus, desde una perspectiva de sus consecuencias económicas, pasando por los estudios fundacionales de modelado de sistemas ecológicos (Lotka 1925, 1927; Volterra 1926) hasta la actualidad, en la que todo tipo de sistemas han sido exhaustivamente estudiados (Odum & Odum 2000; Ruth & Hannon 1997). A la hora de modelar, es necesario un equilibrio entre simplicidad y predicción. Esto significa que un modelo debe ser simple de manejar matemáticamente,
275
Capítulo X
y a la vez reflejar con bastante aproximación qué cosas ocurren realmente en la naturaleza. Pero como estas dos premisas pueden ser incompatibles, es necesario encontrar una solución de compromiso. Se ha aplicado el término «realista» (Gillman & Hails 1997) en el sentido de la capacidad de un modelo para predecir el comportamiento de un sistema en la naturaleza. De forma antitética, el término «estratégico» (Gillman & Hails 1997) se ha definido para modelos extremadamente sencillos que pretenden describir una pauta muy concreta en el funcionamiento de un sistema muy simple, pero que resulta irreal a la hora de explicar sistemas naturales. Un ejemplo de modelo realista sería aquel en el que tenemos una serie de variables independientes que sabemos, por observación o experimentación, que afectan a la variable dependiente que queremos predecir. Si realizamos un modelo incluyendo todas estas variables y conseguimos una predicción razonablemente ajustada a lo que ocurre en la naturaleza, tendremos un modelo «realista». No obstante, en este tipo de modelos, por norma general, no sabemos bien cuál es el mecanismo que hace exactamente que cada variable afecte a nuestra variable dependiente. Por ejemplo, podemos construir un modelo en que obtenemos una buena predicción de las capturas de una determinada especie de pez en función de los ciclos de actividad solar. Pero las causas proximales fisiológicas o las causas ecológicas por las que la actividad solar afecta a esa especie de pez no las conocemos. Los modelos «estratégicos» por el contrario, nos definen muy claramente una pauta determinada que regula un proceso. Con ellos sabemos exactamente, de manera proximal, a qué se debe la dinámica que estamos observando. Un ejemplo de este tipo de modelos es el «depredador–presa» de Lotka–Volterra. Pero como ya mencionamos, se trata de modelos tan sencillos que nunca se cumplen sus predicciones en el medio natural. La conveniencia de uno u otro tipo de modelos siempre va a depender de los objetivos de nuestra investigación. Sea cual sea el tipo de modelo realizado, siempre nos permitirá «contextualizar» el sistema que es objeto de estudio, es decir, conocer todos sus componentes e individualizarlos moviéndonos en una o varias escalas en particular. Esto quiere decir que cualquier modelo que hagamos es una visión parcial de sistemas a mayores o menores escalas, y precisamente el mérito de cualquier buen modelo consiste en saber acotar esa parte o subsistema que nos interesa estudiar, con todos sus componentes y en una escala o escalas adecuadas.
X.2. Pasos a considerar para el desarrollo de un modelo Brevemente, de manera muy generalizada, vamos a ordenar una serie de pasos que se deben dar en el proceso de desarrollo de un modelo. 1. Contextualización. En el origen de un modelo se encuentra la idea acerca
276
Modelos de simulación
del funcionamiento de un sistema que se crea en la mente del investigador. Debemos establecer cuáles son los componentes de este sistema y cómo se relacionan. Es necesario tener en cuenta la escala en la que actúa cada componente, un modelo puede hacerse todo en una escala o contener varias dentro de sí. Por último, dentro de este paso, considerar siempre que nuestro sistema de interés es un pequeño aspecto que forma parte de otros sistemas más complejos, de manera que nuestros elementos siempre estarán conectados con procesos paralelos o en diferentes escalas. 2. Conformación de un diagrama. Esto se dirige ya al momento en que debemos emplear un determinado programa informático. Se trata de representar gráficamente nuestro sistema obedeciendo a un lenguaje concreto de símbolos y unas leyes generales. -
Primero debemos realizar una lista de todos los elementos que contendría nuestro modelo. Por estos entendemos las variables, los flujos de energía, de fuerza y las conexiones entre ellos. Para esto, cada programa informático utiliza un tipo de lenguaje con diferentes símbolos, en el que cada uno representa un elemento con unas características definidas.
-
Ahora procederíamos al diseño de los diferentes procesos que actúan en nuestro sistema, relacionando elementos.
3. Establecimiento de unidades, ecuaciones y parámetros. Cada proceso está controlado por una determinada ecuación. Cada ecuación se compone de una fórmula concreta que la caracteriza y de unos parámetros. Todo esto se expresa en unas dimensiones o unidades concretas. A la hora de elegir las ecuaciones que controlan nuestros procesos, podríamos recordar algunas consideraciones: -
Los procesos que estudiamos pueden ser determinísticos (predecibles) o estocásticos (dependientes de una probabilidad). A su vez, un fenómeno puede ser estocástico o determinístico en función de la escala a la que lo estudiemos.
-
Las unidades de tiempo pueden ser discretas o usarse tiempo continuo.
-
Si nuestro modelo contiene diferentes subprocesos en distintas escalas, debemos tener en cuenta que el aumento en escala conlleva un gran aumento en el número de los procesos. Para estimar el valor de los parámetros (tasa de crecimiento, mortalidad, capacidad de carga de una población, etc.) que introducimos en las diferentes ecuaciones del modelo, necesitaremos datos de situaciones reales. De lo bien medidos que estén estos datos dependerá en gran medida el
277
Capítulo X
éxito de nuestro modelo. En algunos casos puede no ser necesario conocer previamente un parámetro, por ejemplo, si lo que quieres buscar con el modelo es precisamente ese parámetro, conociendo el resto de los elementos. Las diferentes ecuaciones que introduzcamos, ya que están interconectadas, deben ser dimensionalmente homogéneas. Algunos programas informáticos, como el que usaremos nosotros, pueden comprobar si existen errores de este tipo. 4. Verificación del modelo. Es necesario, pero en muchos casos imposible por la falta de datos. A veces podemos suplir esta carencia por medio de ensayos experimentales.
X.3. Introducción al modelado con el programa Stella Una vez que tenemos claros los pasos a considerar para realizar un modelo, antes de proponer un ejemplo sobre el desarrollo de un modelo (Apartado X.4) necesitaremos una pequeña introducción para el manejo de un programa adecuado. Hoy en día, el aumento de capacidad de los sistemas de computación ha facilitado en gran manera el desarrollo y la manipulación de modelos de gran complejidad, aumentando mucho su accesibilidad a la comunidad científica. Existen diferentes tipos de programas creados para modelar (EXTEND, Imagine that; STELLA, High Performance Sistems), también es posible modelar con sistemas sencillos de programación (BASIC) o bien en hojas de cálculo de diversos tipos de programas (EXCEL). Nosotros vamos a explicar el manejo del programa Stella, por ser en la actualidad uno de los más adecuados. Este programa permite a usuarios sin conocimientos de programación y niveles básicos de informática la posibilidad de desarrollar modelos de bastante complejidad de una manera sencilla. Los diferentes componentes (flujos, variables, constantes, etc.) se forman con distintos iconos que se conectan entre sí y el modelo se representa con un diagrama en la hoja de trabajo. Las ecuaciones que controlan los distintos procesos se escriben en dicho diagrama en el lugar que les corresponda. Este programa tiene tres «capas»: el Interface level, el Map/Model level y el Equation level. El Map/Model level es el nivel básico en que se diseña un modelo, creando un diagrama esquemático e introduciendo las ecuaciones que controlan los procesos representados en el diagrama. El Interface level es un nivel para usuarios avanzados en el que un modelo creado en el Map/Model level se puede hacer interaccionar, a medida que la simulación se produce, con efectos controlados por el usuario. El Equation level simplemente es un apartado donde se nos describen detalladamente todos los componentes del modelo que hemos creado.
278
Modelos de simulación
Haremos una explicación a nivel de usuario básico a través de un modelo sencillo en Map/Mode level, que será necesaria para después entender el lenguaje y funcionamiento del modelo ecológico que propondremos en el Apartado X.3.
X.3.1. Significado de los iconos y menús específicos de la barra de herramientas en Map/Model level En primer lugar explicaremos el significado de los iconos del programa en Map/Model level, la pantalla podemos verla en el Archivo Iconos.STM. Hand: selecciona iconos para operar con ellos en la barra y la hoja de trabajo y otras funciones.
Stock: depósitos en los que otras variables modifican el contenido. Hay varios tipos, que se configuran al abrir el cuadro de diálogo en modeling mode (véase Apartado X.2.2.) y son los siguientes: 1. Reservoir: funciona como un almacén, en el que los elementos pueden entrar, salir o quedarse, en función de otras variables. 2. Conveyor: funciona como una cinta transportadora, en la que los elementos permanecen un rato y salen. 3. Queue: funciona como una cola, en la que los elementos van entrando y saliendo por el mismo orden. 4. Oven: los elementos entran y salen en cantidades discretas, cada grupo entra y sale a la vez.
Flow: crea flujos de entrada o de salida sobre un Stock.
Converter: valor o expresión cuyos efectos modifican otros elementos del modelo como Flows o Stocks.
279
Capítulo X
Action conector: establece relaciones entre varios elementos.
Decision Process Diamond: recibe información para, en función de esta, controlar la lógica de un proceso.
Button: para usuarios avanzados, permite conectar directamente con gráficos, textos, imágenes o películas en otros archivos, así como con los distintos menús. Se usa por razones de impacto estético.
Sector Frame: en modelos complejos, permite agrupar en un solo sector elementos relacionados funcionalmente, simplificando las conexiones del modelo.
Table pad: permite visualizar en una tabla los resultados de una simulación con el modelo.
Graph pad: permite visualizar en un gráfico los resultados de una simulación con el modelo.
Numeric display: permite mostrar, en una pequeña ventana, los valores que toma un elemento durante la simulación.
Text: se usa para escribir un texto.
Graphic frame: podemos situar en él gráficos o películas importadas de otros archivos.
280
Modelos de simulación
Paintbrush: sirve para colorear elementos del modelo.
Dynamite: elimina cualquier elemento seleccionado en la hoja de trabajo.
Ghost: sirve para situar una copia igual de un elemento del modelo en otro lugar alejado del original, y así facilitar gráficamente su conexión con otros elementos.
Navigator: flechas en el margen superior izquierdo. Con ellas nos desplazamos entre «capas».
Map/Model Toggle: dentro de la capa Map/Model, nos permite situarnos en dos modos, uno de ellos en el que solo podemos dibujar el diagrama del modelo y escribir en cada variable las asunciones que le corresponden (Mapping mode, con el icono «planeta tierra») y otro en el que además podemos introducir los datos, ecuaciones y simular el modelo (Modeling mode icono χ2).
Run controller: Tiene la misma función que el menú «Run» (véase abajo), pero más simplificado y cómodo una vez que se domina el programa.
Ahora haremos un resumen del significado de los menús específicos del programa. Model: sus comandos se refieren a aspectos de formato, como buscar elementos concretos del modelo, seleccionarlos, esconderlos o volver a mostrarlos y juntar gráficamente en uno solo varios procesos paralelos (comando «Array Editor...»), por ejemplo, si una empresa de aserraderos tiene 5 naves donde trabajan, el proceso que regula la entrada de madera es el mismo y es sencillo, pero gráficamente puede estorbar ver 5 Stocks paralelos, entonces, con «Array Editor...», los condensamos en uno con efectos en 3 dimensiones.
281
Capítulo X
Run: configuración y puesta en marcha de una simulación. Hay que destacar el comando «Run Specs…», en donde se controlan las unidades de tiempo, tipo de integración y si queremos incluir interacciones (solo para el Flight Simulator, donde las interacciones se crean sobre el modelo a medida que se simula). Es importante aquí el método de integración, para el que existen tres variantes: 1. Euler: funciona por defecto, es el adecuado cuando en el modelo hay objetos «discretos», tales como funciones lógicas (IF, ELSE, etc.) o ROUND, SWITCH y otros. 2. Runge–Kutta 2 y 4: son los más adecuados para procesos de cambio continuo, con tendencia inherente a la oscilación y/o ciclos, en los que el método de Euler produce errores acumulativos ciclo tras ciclo. El menú «Run» también permite simular o configurar solo un sector del modelo y asignar rangos a las variables.
282
Modelos de simulación
X.3.2. Ejemplo de funcionamiento de los iconos y menús básicos. Vamos a modelar la explotación sostenible de un acuífero, en el que no queremos reducir sus reservas de agua por debajo de una cantidad que consideramos adecuada. Las ecuaciones y cálculos matemáticos se simplificarán extremadamente. Podemos verlo en el Cuadro X.1.
CUADRO X.1. Modelo de explotación sostenible de un acuífero Paso 1. Tenemos abierta la pantalla del Stella, que por defecto se abre en Map/Model level. Para empezar, el icono de Map/Model Toogle lo pondremos en el modo Mapping mode con el icono «planeta tierra» (flecha).
Paso 2. Pulsamos sobre el icono de Stock y luego sobre la hoja de trabajo, así lo situamos en esta. Le cambiamos el nombre de Noname1 haciendo doble clic en la etiqueta, y lo llamamos «Acuífero».
Paso 3. El acuífero tiene flujos de entrada de agua y flujos de pérdida. Para representarlos pulsamos sobre el icono Flow y luego en la hoja de trabajo. Flow es una flecha, para situarla se hace clic en la hoja de trabajo y no se suelta el ratón hasta extender la flecha hacia donde queremos. El flujo de alimentación lo hacemos situando el origen de la flecha fuera del Stock y su extremo conectado con él. El flujo de pérdida se hace al revés, con el origen conectado al Stock y el extremo hacia fuera de él. Nombramos a los flujos «Entrada» y «Pérdida».
283
Capítulo X
CUADRO X.1. (Continuación) Paso 4. Las entradas de agua en el acuífero provienen de la infiltración hasta la capa freática. Representaremos la infiltración como un Converter, que lo uniremos con un Action conector al flujo de entrada. A su vez, las precipitaciones influyen en la infiltración, por lo que las representaremos como un Converter unido a la infiltración por otro Action conector. Los Action conectors se extienden desde el icono de origen hasta el de destino. Nombramos a cada elemento.
Paso 5. Las pérdidas por surgencia natural del acuífero afectarán al flujo de pérdidas. Esta surgencia natural de agua sería un Converter unido al flujo de pérdida por un Action conector, y también al Stock «Acuífero», pero con el Action conector al revés que antes, ya que el caudal de surgencia depende del nivel de agua del acuífero.
Paso 6. El consumo de agua afecta a las pérdidas, pero queremos controlarlo, por ello debemos introducirlo como un proceso controlable en función de la entrada y las pérdidas naturales. Para esto, el icono con una función más indicada es el Decision Process Diamond (DPD), lo nombramos como «Decisión consumo».
284
Modelos de simulación
CUADRO X.1. (Continuación) Paso 7. Ahora pulsamos dos veces dentro del icono del DPD, y se abre un área rectangular (véase diagrama abajo). En esta área podríamos situar cualquier mini-diagrama o expresión de la cual obtengamos una decisión. Para hacerlo, tenemos disponible la información de las variables en línea discontinua. Situamos un Converter al que llamaremos Decisión, y lo unimos al flujo de pérdida.
Paso 8. Pulsamos sobre la flecha de debajo del DPD para que nos cierre el área que había abierto. Ahora ya podemos introducir las funciones matemáticas. Para ello situamos el icono del Map/Model Toogle en modeling mode, representado por un χ2 (flecha). Aparecerá una interrogación sobre cada elemento hasta que introduzcamos en ellos una ecuación, constante o expresión lógica.
285
Capítulo X
CUADRO X.1. (Continuación) Paso 9. Introducimos primero el valor de las precipitaciones. Para ello hacemos doble clic en el icono del diagrama con ese nombre y aparece el siguiente cuadro de diálogo, en donde introduciríamos la expresión matemática que le corresponde.
286
Modelos de simulación
CUADRO X.1. (Continuación) Paso 10. Ahora abrimos el cuadro de «Surgencia». Entonces introducimos una expresión calculada experimentalmente que es la función que relaciona el valor de esta variable con las reservas del acuífero. Esta función sería «310*LOGN(Acuífero)-2145». Pero como esta función se hace negativa en valores bajos, tenemos que especificar al modelo que, en lugar de estos valores negativos, le asigne a la función un valor de 0. Para esto introducimos una combinación de expresiones lógicas y la función anterior, como podemos ver.
287
Capítulo X
CUADRO X.1. (Continuación) Paso 11. Sabemos que el volumen de infiltración de agua es una función lineal que depende de las precipitaciones y un coeficiente de permeabilidad del suelo, que en nuestro caso es 0,6. Entonces, hacemos doble clic en «Infiltración», se abre el cuadro de diálogo siguiente e introduciríamos la expresión: «Precipitaciones*0,6» como se observa abajo.
Paso 12. Haremos lo mismo con la variable «Entrada», que viene dada por una relación lineal entre la infiltración y un coeficiente de retención de agua por parte del suelo (0,5). Así pues, introduciremos «Infiltración*0,5» en el cuadro de diálogo que abrimos con esta variable.
288
Modelos de simulación
CUADRO X.1. (Continuación) Paso 13. Ahora introduciremos el valor del Stock, es decir, los litros de agua que contiene el acuífero a medida que las entradas y pérdidas le afectan. Hacemos doble clic en el Stock y escribimos 5000 litros en el cuadro de diálogo.
Paso 14. También introducimos ahora el flujo de «Pérdidas» que vendrá dado por la suma del agua perdida por surgencia y por consumo. Hacemos doble clic en la variable y configuramos el cuadro de diálogo como se ve en la figura. El cuadro es idéntico al de «Entrada».
289
Capítulo X
CUADRO X.1. (Continuación) Paso 15. Ahora ya podemos introducir la expresión que nos indicará cuánta agua consumir. Abrimos el DPD, y sobre el área rectangular hacemos doble clic sobre «Decisión» y se abre el cuadro que mostramos abajo. El consumo debe tener en cuenta las entradas y las pérdidas, manteniendo equilibrados ambos valores. Además, queremos mantener el acuífero con un valor de surgencia de aproximadamente 500 (que se alcanza con 5000 litros en el acuífero) porque estimamos que ese sería el caudal adecuado para no alterar los sistemas naturales que dependen de este caudal de agua. Calculamos que, para esto, la proporción de agua consumida debe ser el 0,175 de las entradas. Así pues, la expresión que introduciremos es «Entrada*0,175».
Paso 16. Ahora cerramos el DPD haciendo clic en la flecha y realizaremos una simulación. No pueden visualizarse a la vez la tabla y el gráfico, así que primero lo veremos en la tabla. Para esto hacemos clic en el icono Table Pad, y lo situamos en la hoja de trabajo, hacemos doble clic y abrimos la tabla que aparece a continuación.
290
Modelos de simulación
CUADRO X.1. (Continuación) Paso 17. Pulsamos sobre la primera columna y aparece el siguiente cuadro de diálogo, que lo configuraremos como se indica, para obtener en la simulación los datos que corresponden a cómo varía el contenido del acuífero y la surgencia.
Paso 18. Para observar la simulación gráficamente, hacemos clic en el icono Graph Pad y colocamos el gráfico siguiente en la hoja de trabajo.
Paso 19. Para configurarlo, hacemos doble clic en el área del gráfico y nos abre el siguiente cuadro de diálogo.
291
Capítulo X
CUADRO X.1. (Continuación)
Paso 20. Ahora pulsamos sobre el menú «Run». En el comando «Run Specs…», que mostramos aquí. Usaremos la configuración por defecto del programa.
292
Modelos de simulación
CUADRO X.1. (Continuación) Paso 21. Para comenzar la simulación pulsamos sobre el comando Run del menú «Run». Como dijimos antes, no se pueden abrir a la vez la tabla y el gráfico. Abriéndolos por separado y haciendo la simulación de cada vez, observaríamos lo siguiente.
Las reservas del acuífero y la surgencia se mantendrían casi constantes, consumiendo aproximadamente un 17% del agua que es renovada. Podemos ver el modelo en el Archivo Modelo final.STM. Con este tipo de modelos y en este programa cabe la posibilidad, de una manera muy sencilla, de predecir respuestas del sistema ante cambios en las variables por condiciones ambientales, y así poder adaptar nuestras hipotéticas actuaciones. Por ejemplo, ¿qué sucedería si en la unidad de tiempo considerada llueve un 50% menos? o ¿qué sucedería si la permeabilidad del suelo se reduce por impactos antropogénicos y la tasa de infiltración cae un 30%? Se trataría de modificar los valores o expresiones de estas variables y simular. Vamos a ver qué sucedería en el primero de los ejemplos propuestos. Paso 22. Para esto, en primer lugar debemos introducir 1000 litros en «Precipitaciones», de la misma forma que antes 2000.
293
Capítulo X
CUADRO X.1. (Continuación) Paso 23. Ahora realizaremos la simulación, pero antes, en el menú «Run», comando «Run Specs…», modificamos la configuración por defecto de la siguiente manera:
Paso 24. Una vez realizado esto, hacemos la simulación. Obtenemos los siguientes valores en la tabla y la gráfica.
294
Modelos de simulación
CUADRO X.1. (Continuación)
Como vemos, las reservas del acuífero disminuyen, pero no llegan a agotarse, sino que se hacen constantes en torno a 2200 litros, porque la surgencia, aunque disminuye mucho, no llega a agotarse, y el consumo, aunque es excesivo para mantener el caudal óptimo de 500 litros/unidad de tiempo de surgencia, no llega a secar el acuífero.
La pretensión de este ejemplo no es más que una introducción al manejo del programa desde el punto de vista del uso de sus funciones y desarrollo conceptual, siempre a nivel muy básico. El objetivo es aprender a manejarlo para poder desarrollar un modelo como el propuesto en el Apartado X.4.
X.4. Ejemplo de modelado con el programa Stella: desarrollo conceptual y manejo práctico Ahora que ya sabemos los pasos que hay que dar para realizar un modelo y manejar el programa Stella en sus aspectos fundamentales, vamos a proponer un ejemplo de cómo se desarrolla la creación de un modelo, al que llamaremos modelo de la interacción depredador – presa. Este tipo de modelo fue diseñado originalmente por Lotka y Volterra partiendo de un sistema experimental muy sencillo, pero sabemos que en pocos casos se puede observar esta dinámica en condiciones naturales. En el ejemplo iremos introduciendo paso a paso mayor complejidad al modelo; en concreto, lo dividiremos en tres pasos. En el primer paso simplemente tendremos en cuenta la dinámica poblacional de una presa sin ninguna otra interacción. Después le añadiremos la dinámica poblacional del depredador y su
295
Capítulo X
influencia sobre la presa. Por último, añadiremos al modelo un efecto de explotación sobre las poblaciones del depredador, que aumentará su mortalidad. Una de las ideas fundamentales que provocaron la búsqueda de un modelo de este tipo fue el considerar que muchos organismos que dependan de otros para alimentarse (como por ejemplo depredadores especialistas y sus presas) deben producir fuertes impactos en sus poblaciones debidos al consumo. A su vez, las presas, en función de este y otros factores que afecten a su dinámica poblacional, provocarán un efecto sobre la población de los depredadores. Todo esto, intuitivamente, sugiere que los organismos que se relacionen de esta manera deben sufrir cambios cíclicos en sus poblaciones, y se trata de encontrar el modelo que los describa.
X.4.1. Dinámica poblacional de la presa En el Cuadro X.2 podemos encontrar las especificaciones del modelo para este primer paso y el resultado gráfico. Ahora se trata de que, aplicando los conocimientos que hemos adquirido hasta ahora, cada uno sea capaz de crear un modelo con esas características.
CUADRO X.2. Especificaciones del modelo Dinámica poblacional de la presa y resultado gráfico Método de Integración Unidad de tiempo DT Tasa de crecimiento poblacional presa (r) Capacidad de carga poblacional presa (K) Crecimiento poblacional presa Mortalidad presa Abundancia inicial presa
296
Método de Euler Meses 0,1 meses 2 100000 individuos N (K − N ) × e rt − N K 0,1 x N (individuos) 100 individuos
Modelos de simulación
Vamos a justificar la utilización de cada una de las ecuaciones. Nuestra primera consideración es que el tiempo es continuo, porque la reproducción de nuestra presa ocurre de esta manera, necesitaremos pues, una ecuación diferencial. Por otro lado, el tipo de crecimiento de nuestra población será dependiente de la densidad, es decir, presentará un crecimiento más lento a bajas densidades, debido a la menor probabilidad de encuentro entre individuos, una fase intermedia en que el crecimiento es máximo, y una fase final en la que la densidad se estabiliza en un valor concreto que es la capacidad de carga de nuestra población, y se debe al efecto de la competencia intraespecífica, que imposibilita que el medio soporte más individuos. Nuestra especie de presa se considera que puede crecer sin limitación de alimento, ya que en el medio encuentra todo el que necesita, mientras no se llegue a los valores críticos de competencia intraespecífica. La ecuación que utilizamos para definir esta dinámica es la ecuación de crecimiento logístico. Esta ecuación tiene dos parámetros que son la tasa de crecimiento r y la capacidad de carga K, que, como sabemos, debemos de conocer a partir de medidas experimentales. Otro parámetro que debemos incluir aquí es la mortalidad de la presa, que en nuestro caso consideraremos constante, para simplificar, con lo que la ecuación es inmediata. Podemos ver cómo quedaría este modelo en Modelo1d.STM.
X.4.2. Dinámica poblacional del depredador y su influencia sobre la presa Introducimos ahora un depredador que nunca sería capaz de sobrevivir en nuestro sistema si no tuviese a la presa. La idea es que, como decíamos antes, la dinámica poblacional de ambos se interrelacionará para obtener procesos cíclicos. En el Cuadro X.3 detallamos las especificaciones del modelo en este nuevo paso. La ecuación de crecimiento de la población del depredador será la misma que la de la presa, por idénticos motivos. La mortalidad de la presa se asume que depende de una proporción 0,1*abundancia del depredador*abundancia de la presa, de manera que ya no es constante, como en el paso inicial sin depredador. Esta mortalidad de la presa provocada por el consumo del depredador conlleva un aumento de la densidad del depredador, reflejado en el diagrama de Stella por las conexiones de la mortalidad de la presa con la abundancia de la presa y esta abundancia, con la tasa de crecimiento poblacional del depredador.
297
Capítulo X
CUADRO X.3. Especificaciones del modelo Dinámica poblacional del depredador y su influencia sobre la presa y resultado gráfico Método de Integración
Método de Euler
Unidad de tiempo
Meses
DT
0,1 meses
Abundancia inicial presa
100 individuos
Tasa de crecimiento poblacional presa (rp)
2
Capacidad de carga poblacional presa (Kp)
100000 individuos
Crecimiento poblacional presa Mortalidad presa
Abundancia inicial depredador
10 individuos
Tasa de crecimiento poblacional depredador (rd)
0,3 ln (N presa +1)
Capacidad de carga poblacional depredador (Kd)
100000 individuos
Crecimiento poblacional depredador Mortalidad depredador
298
N (K − N ) × e rt − N K 0,1 x N presa x N depredador
N (K − N ) × e rt − N K
0,1 x N depredador
Modelos de simulación
Así pues, la densidad del depredador crece por el consumo de la presa hasta llegar a un punto que hace aumentar la mortalidad de la presa hasta que esta supera al crecimiento de la misma. Esto provoca una disminución en la abundancia de la presa, y consecuentemente, una disminución retardada en la población del depredador. Llegaríamos a un punto en el que la densidad del depredador es tan baja, que la mortalidad de la presa vuelve a ser superada por su tasa de crecimiento, volviendo a aumentar la densidad de la presa, y con ella, un poco retardada, la del depredador. Como vemos, todas las propiedades de la dinámica poblacional inicial han cambiado y hemos llegado a un proceso en que tiene lugar, si observamos la simulación, un proceso cíclico (véase Cuadro X.3). El modelo puede verse en Modelo2d.STM.
X.4.3. Influencia de la explotación sobre la población del depredador Ahora introduciremos un efecto de explotación sobre la población del depredador. Podemos ver las nuevas especificaciones en el Cuadro X.4. Este efecto de explotación aumentará la mortalidad del depredador. En nuestro caso asumimos que las capturas son constantes. Para ver juntas las dos fases del modelo (con y sin explotación) hemos incluido el efecto de explotación a partir del año 100. El único efecto que tiene esto es una mortalidad más rápida del depredador, que acorta la duración de los ciclos. Podemos verlo si hacemos la simulación en Modelo3d.STM.
CUADRO X.4. Especificaciones del modelo Influencia de la explotación sobre la población del depredador y resultado gráfico Método de Integración
Método de Euler
Unidad de tiempo
Meses
DT
0,1 meses
Abundancia inicial presa
100 individuos
Tasa de crecimiento poblacional presa (rp)
2
Capacidad de carga poblacional presa (Kp)
100000 individuos
299
Capítulo X
CUADRO X.4. (Continuación)
Crecimiento poblacional presa
N (K − N ) × e rt − N K
Mortalidad presa
0,1 x N presa x N depredador
Abundancia inicial depredador
10 individuos
Tasa de crecimiento poblacional depredador (rd) 0,3 ln (N presa +1) Capacidad de carga poblacional depredador (Kd) 100000 individuos Crecimiento poblacional depredador
300
N (K − N ) × e rt − N K
Mortalidad depredador
0,1 x N depredador
Año
TIME
Capturas
0,001
Explotación
IF (Año>100) THEN (Capturas) ELSE(0)
XI
Índices
ÍNDICES
Los métodos descritos hasta el momento para el tratamiento de datos permiten determinar diferencias entre muestras, agruparlas, analizar —a través de diferentes pruebas estadísticas— si las variables están relacionadas, construir modelos, etc. En algunas ocasiones, se puede obtener una información interesante de los datos simplemente utilizando determinados índices. De los índices que existen, en este capítulo vamos a centrarnos en 4 tipos diferentes: -
Índices Índices Índices Índices
de estabilidad. de similitud. de diversidad. tróficos.
XI.1. Estabilidad Cuando se trabaja con series temporales una información importante es determinar si existen variaciones en el tiempo. Por ejemplo, cambios en la abundancia de las poblaciones de las especies pueden deberse a cambios en las condiciones del hábitat, siendo importante identificar cuál es el factor o factores del hábitat responsables de estos cambios en la abundancia de las especies. La herramienta más común para la cuantificación de cambios temporales es el índice de fluctuación de Dubois, cuya descripción se muestra a continuación.
XI.1.1. Índice de fluctuación El índice de fluctuación D fue desarrollado por Dubois (1973) a partir del índice de diversidad de Shannon-Wiener y, permite cuantificar el grado de estabilidad a lo largo del tiempo de cualquier conjunto de variables. s
D =
¦ p log i
i =1
2
pi pim
301
Capítulo XI
donde s es el número de variables, Pi la proporción relativa de la variable i a un tiempo específico y Pim el estado de referencia, que se calcula como la media de las proporciones relativas para la variable i durante el periodo de estudio. En el caso de que las variables tengan unidades muy diferentes, es necesario estandarizarlas como se explicó en el Capítulo I (Cuadro I.1). Como ejemplo veremos su aplicación sobre la abundancia de diferentes especies a lo largo de un año (Cuadro XI.1).
CUADRO XI.1. Cálculo del índice de fluctuación de Dubois EJEMPLO. En la Tabla XI.1 observamos la abundancia de 4 especies durante 12 meses. Se quiere determinar el comportamiento de la comunidad a lo largo del tiempo (Archivo Cuadro XI.1.xls). Tabla XI.1. Abundancia de las especies A, B, C y D durante 12 meses de muestreo. Mes
Especie A
B
C
D
1 2 3 4 5 6 7 8 9 10 11
225 12 25 926 31 0 45 12 14 28 6
12 56 67 99 38 239 99 126 45 38 56
56 26 28 35 89 12 216 15 12 14 0
456 225 46 12 14 15 14 89 19 26 37
12
9
29
0
18
Paso 1. Obtener la abundancia total de todas las especies cada mes y a partir de este dato la proporción relativa de cada especie durante cada uno de los meses (Pi). Abundancia1 = 225 + 12 + 56 + 456 = 749 Pmes1EspecieA =
225 = 0,3 749
Paso 2. Obtenemos Pim (estado de referencia) de cada especie. Se calcula como la media de las proporciones relativas.
302
Índices
CUADRO XI.1. (Continuación) La tabla de resultados de los pasos 1 y 2 aparece a continuación: Mes
Abundancia total mensual 749 319 166 1072 172 266 374 242 90 106 99 56
1 2 3 4 5 6 7 8 9 10 11 12 Pim
Pi
Pi
Pi
Pi
Proporción relativa A 0,30 0,04 0,15 0,86 0,18 0,00 0,12 0,05 0,16 0,26 0,06 0,16 0,195
Proporción relativa B 0,02 0,18 0,40 0,09 0,22 0,90 0,26 0,52 0,50 0,36 0,57 0,52 0,378
Proporción relativa C 0,07 0,08 0,17 0,03 0,52 0,05 0,58 0,06 0,13 0,13 0,00 0,00 0,152
Proporción relativa D 0,61 0,71 0,28 0,01 0,08 0,06 0,04 0,37 0,21 0,25 0,37 0,32 0,275
Paso 3. Calculamos el índice de Dubois, es decir, la suma del producto entre Pi y el log2(Pi /Pim) y obtenemos los siguientes resultados. Mes
Índice de fluctuación
1 2 3 4 5 6 7 8 9 10 11 12
0,74 0,60 0,01 1,54 0,58 0,91 0,78 0,22 0,05 0,02 0,39 0,26
Paso 4. Los resultados obtenidos con el índice de fluctuación nos permiten ver los meses en los que la abundancia de las especies fue estable y se ajustó a su comportamiento medio (valores bajos). Por ejemplo, los meses 3, 9 y 10. Por el contrario, durante el mes 4 observamos un cambio significativo de las abundancias de las especies estudiadas, condicionado por el gran aumento de la especie A (Tabla XI.1). Si, por ejemplo, se aplica el índice a parámetros ambientales, se puede determinar si las fluctuaciones en la comunidad se deben a cambios en alguno de dichos parámetros ambientales.
303
Capítulo XI
XI.2. Similitud En muchas ocasiones se requiere conocer la igualdad entre 2 o más variables o muestras. Para ello se debe calcular la uniformidad que presentan las diferentes variables medidas en las muestras, evaluando cuánto se parecen (similitud) o cuánta disparidad existe entre ellas (disimilaridad). Se pueden distinguir dos grupos de índices en función de las características de las variables empleadas en las mediciones: 1. Binarios: los coeficientes binarios de similitud son usados cuando solo contamos con valores de presencia-ausencia (variables binarias o dicotómicas). 2. Cuantitativos: cuando se dispone de variables cuantitativas. En cualquiera de los dos casos anteriores, para calcular los índices de similitud se requiere que (Krebs 1989): 1. Los valores sean independientes del tamaño de la muestra y del número de variables. 2. Las medidas se incrementen lentamente desde unos mínimos fijos hasta unos máximos fijos.
XI.2.1. Índices binarios Son muchos los índices descritos para el cálculo de similaridades/dismilaridades con datos de presencia/ausencia. Sin embargo, vamos a centrarnos en 2 de los más utilizados en investigación, que se corresponden con índices de similaridad: el índice de Jaccard y el índice de Sorensen. En la Tabla XI.2 podemos resumir los datos básicos para el cálculo de cualquier índice binario de similitud.
Tabla XI.2. Datos básicos para el cálculo de índices binarios de similitud.
Muestra B
Presencia Ausencia
MUESTRA A Presencia Ausencia a b c d
donde a es el número de veces que observamos la variable en estudio en la muestra A y B (coincidentes), b es el número de veces que observamos que está en la muestra B pero que no encontramos en la muestra A, c es el número de veces en la muestra A pero no en la B y, d es el número de veces ausente en ambas muestras.
304
Índices
XI.2.1.1. Jaccard El índice de Jaccard es uno de los índices binarios de similitud más conocidos y está definido por la siguiente fórmula: Sj =
a a+b+c
Los resultados obtenidos con cualquier índice binario de similitud van de cero (no existe similitud entre las muestras) a uno (la similitud es del 100% entre las muestras). El procedimiento para el cálculo con el paquete estadístico SPSS aparece en el Cuadro XI.2.
CUADRO XI.2. Cálculo del índice de Jaccard EJEMPLO. Queremos conocer el grado de similitud de las especies de peces de 3 ciénagas diferentes (1, 2 y 3) (Cuadro XI.2.sav). Los datos se introducen en SPSS con valores de 1 para la presencia de una especie y 0 la ausencia. Paso 1. En el menú «Analizar» seleccionamos «Correlaciones» y dentro de ella la opción «Distancias...».
Paso 2. Nos aparece la pantalla que se muestra a continuación, en la que pasamos las muestras (variables) de las que queremos medir la similitud. En «Calcular distancias» podemos seleccionar si queremos la distancia entre casos o variables. En nuestro caso, como cada ciénaga aparece como una columna, seleccionamos «Entre variables». Por último, en «Medida» seleccionamos «Similaridades».
305
Capítulo XI
CUADRO XI.2. (Continuación)
Paso 3. Pulsando sobre el icono «Medida» de la pantalla anterior nos aparece una nueva pantalla donde se puede seleccionar el índice de similitud. En nuestro caso los datos son binarios, y dentro del correspondiente desplegable que aparece, entre las diferentes posibilidades seleccionamos «Jaccard».
Paso 4. Pulsando «Continuar» nos aparece la ventana del paso 2 con todos los parámetros ya seleccionados y pulsamos sobre «Aceptar».
Comprobamos que entre las ciénagas 1 y 2 la similitud es alta, con un coeficiente de 0,818, mientras que entre las ciénagas 2 y 3 es bajo, con 0,364, al igual que entre la ciénaga 1 y 3, con un valor de 0,417.
306
Índices
XI.2.1.2. Sorensen El índice de Jaccard depende de la calidad de los datos (Krebs 1989). Si tenemos la sospecha de que muchos datos de ausencia no se deben en realidad a la no presencia, sino a que no ha sido posible encontrarlos, se usa el índice de Sorensen (Krebs 1989). En su cálculo, este índice es muy similar al de Jaccard, y su fórmula es la siguiente: Ss =
2a 2a + b + c
Un ejemplo de utilización de este índice aparece en el Cuadro XI.3.
CUADRO XI.3. Cálculo del índice de Sorensen EJEMPLO. En la Tabla XI.2 observamos el número de especies de peces presentes en las ciénagas 1 y 2 del ejemplo anterior (Cuadro XI.3.xls). Tabla XI.2. Especies de peces presentes en las ciénagas A y B.
Ciénaga B
nº de especies presentes nº de especies ausentes
Ciénaga A nº de especies nº de especies presentes ausentes 5 0 2 9
En total tenemos 16 especies, de las cuales 9 no se encuentran en ninguna de las dos ciénegas. Cálculo del índice de Sorensen
Como podemos observar, el valor es 0,82, el cual es muy similar al obtenido con el índice de Jaccard que se mostró en el Cuadro XI.2.
XI.2.2. Índices cuantitativos XI.2.2.1. Distancia Euclídea Dentro de los índices cuantitativos de similitud encontramos los índices de distancia, que son muy utilizados, ya que pueden ser interpretados fácilmente a través de su representación gráfica (Figura XI.1).
307
Capítulo XI
Para su cálculo son necesarios datos cuantitativos y los valores de las variables deben ser equiparables, ya que sino es necesario estandarizar los datos. La distancia Euclídea es un método simple que permite estimar el grado de similitud entre dos poblaciones muestrales. A medida que la distancia es menor, la afinidad es mayor. Como observamos en la Figura XI.1, la distancia entre las muestras es la hipotenusa del triángulo. La distancia Euclídea se expresa por medio de la siguiente fórmula: 2
n
D jk =
¦ (X
ij
− X ik
)
i =1
donde Xij sería el valor del carácter i en la muestra j, Xik el valor del carácter i en la muestra k y n el número total de caracteres que se estén comparando. El procedimiento para su cálculo con el programa estadístico SPSS aparece en el Cuadro XI.4.
Figura XI.1. Distancia Euclidea entre dos comunidades (A y B) respecto a la composición y abundancia de especies.
CUADRO XI.4. Cálculo de la distancia Euclídea EJEMPLO. En el archivo Cuadro XI.4.sav observamos el porcentaje de diferentes especies de caracoles presentes en dos bahías (D y E). Queremos saber si la composición a nivel de especie es similar en ambos sitios.
308
Índices
CUADRO XI.4. (Continuación) Paso 1. En el menú «Analizar» seleccionamos «Correlaciones», y dentro de ella la opción «Distancias...».
Paso 2. Nos aparece la pantalla que se muestra a continuación, en la que seleccionamos las muestras (variables) de las que queremos medir la similitud. En «Calcular distancias» podemos seleccionar si queremos la distancia entre casos o variables. En nuestro caso, como cada ciénaga aparece como una columna, seleccionamos «Entre variables». Por último, en «Medida» seleccionamos «Disimilaridades».
Paso 3. Pulsando sobre el icono «Medidas» de la pantalla anterior nos aparece una nueva pantalla donde se puede seleccionar la distancia que queramos.
309
Capítulo XI
CUADRO XI.4. (Continuación) En «Medida» seleccionamos «Intervalo», ya que nuestros datos son continuos, y en el desplegable seleccionamos «Distancia euclídea». Esta ventana nos da también la opción de estandarizar datos en caso de que las puntuaciones de las distintas medidas sean muy diferentes. En nuestro caso son porcentajes, por lo que no es necesaria estandarización.
Paso 4. Pulsando sobre el icono «Continuar» nos aparece la pantalla previa con todos los parámetros ya seleccionados y pulsamos sobre el icono «Aceptar».
310
Índices
CUADRO XI.4. (Continuación) Paso 5. Nos aparece una tabla de resultados que muestra la matriz de distancias de las dos ciénagas.
Paso 6. La distancia Euclídea nos da 87,687. Como a medida que aumenta el número de datos la distancia puede aumentar, para que sea posible comparar distancias Euclídeas entre pares de series de datos con diferente n, la distancia Euclídea se puede dividir por
n (n es 12 en nuestro ejem-
plo) y el resultado es 25,3.
XI.2.2.2. Morisita Horn (1966) propuso una modificación simplificada del índice de Morisita, que se calcula por medio de la siguiente expresión: n
¦p
2 CH =
ij pik
i =1
n
n
¦p + ¦p 2 ij
i =1
2 ik
i =1
CUADRO XI.5. Cálculo del índice simplificado de Morisita EJEMPLO. La Tabla XI.3 muestra el alimento consumido por dos especies y se pretende ver el grado de afinidad en la dieta (Cuadro XI.5.xls).
311
Capítulo XI
CUADRO XI.5. (Continuación) Tabla XI.3. Número de presas consumidas por dos depredadores. Número de presas
Especies presa
Depredador 1
Depredador 2
Ab Ac Ad Bb Bc Cc Cd Ce Total
49 16 23 5 79 52 3 63 290
20 17 23 4 70 9 5 60 208
Paso 1. Calcular los valores pik y pij p11 =
p12 =
49 16 23 = 0,169 , p21 = = 0,0552 , p31 = 0,0793 , … 290 290 290 20 17 23 = 0,0962 , p22 = = 0,0817 , p32 = 0,1106 , … 208 208 208
Paso 2. Calculamos el índice de simplificado de Morisita
CH =
2 * [(0,169 * 0,0962) + (0,0552 * 0,0817) + .....(0,2172 * 0,2885)] (0,1692 + ....0,21722 ) + (0,09622 + ....0,28852 )
= 0,92
Paso 3. Al obtener un valor cercano a 1, podemos concluir que las dietas de ambos depredadores son muy similares.
donde pik es la proporción del caso i de los casos totales para la variable k, pij es la proporción del caso i de los casos totales para la variable j, y n es el número total de casos. El índice de Morisita fluctúa entre 0 y 1. A medida que el valor es más cercano a 1 significa que la similitud es mayor. En el Cuadro XI.5 se muestra un ejemplo de cómo calcular el índice modificado de Morisita.
312
Índices
XI.3. Diversidad El cálculo de las similitudes nos indicó cómo se relacionan entre sí distintas muestras, pero esta información es incompleta ya que, en ocasiones, nos interesa conocer cómo es la relación entre las distintas variables de una misma muestra, además de compararla con muestras distintas. Este problema se plantea principalmente en estudios biológicos sobre la abundancia de especies. La pregunta que se formularía es si existe alguna especie que tenga mayor influencia en la comunidad o si la influencia de cada una de las especies es similar. En la naturaleza podemos encontrarnos desde muestras con un gran número de especies y una distribución equilibrada, hasta muestras con muy pocas especies en las que una especie presenta una elevadísima abundancia y otras no. Partiendo de estas premisas, podemos definir diversidad como el número y variedad de especies presentes en un área. De esta forma, la diversidad de cada muestra o ámbito va a estar condicionada por 2 aspectos fundamentales: el número de especies y la proporción de cada una de las especies. Se han desarrollado diversos índices de diversidad, pero destacaremos 2 de ellos por ser los más utilizados, el índice de diversidad recíproco de Simpson y el índice de diversidad de Shannon-Wiener.
XI.3.1. Índice recíproco de Simpson Una forma de medir la diversidad es por medio del índice recíproco de Simpson (Krebs 1989).
1 = D
1 s
¦p
2 i
i =1
donde D es el índice de Simpson y pi es la proporción de individuos de la especie i. El índice de Simpson varía de 0 hasta 1, y el índice recíproco varía de 1 hasta s, el número de especies. Un ejemplo de cálculo de este índice aparece en el Cuadro XI.6.
XI.3.2. Índice de diversidad de Shannon-Wiener Es el índice más utilizado para determinar la diversidad de especies y está basado en la teoría de la información: s
H' = −
¦ p log i
2
pi
i =1
313
Capítulo XI
donde pi es la proporción de individuos de la especie i y s el número de especies. El valor máximo de H’ se incrementa a medida que aumenta el número de especies, siendo el valor máximo: ' Hmax = log2 s
De esta forma podemos también calcular un índice de proporcionalidad (E) dividiendo nuestro valor H’ por H’max.
E =
H' ' Hmax
Este cociente varía entre el valor 0 cuando hay una única especie en la muestra y 1 cuando todas las especies presentan la misma proporción. Un ejemplo de cálculo de este índice aparece en el Cuadro XI.6
CUADRO XI.6. Índices de diversidad EJEMPLO. La Tabla XI.4 muestra la abundancia de distintas especies de insectos en una zona de eucaliptos y otra de robles. Se pretende conocer qué comunidad presenta una mayor diversidad (Cuadro XI.6.xls). Tabla XI.4. Abundancia de insectos Especie
Zona Eucalipto
Roble
87 5 23 25 10 52 3 10 215
20 17 23 36 70 35 48 60 309
A B C D E F G H Total
Paso 1. Calcular los valores pi. Ejemplo con la especie A de la zona de eucaliptos: pi =
314
87 = 0,4047 215
Índices
CUADRO XI.6. (Continuación) La tabla con todos resultados es: Especie A B C D E F G H
Pi Eucalipto
Roble
0,4047 0,0233 0,1070 0,1163 0,065 0,2419 0,0140 0,0465
0,0647 0,0550 0,0744 0,1165 0,2265 0,1133 0,1553 0,1942
1. Índice de diversidad recíproco de Simpson 1 1 = 3,96 Para el eucalipto: D = 2 2 0,4047 + 0,0233 + 0,10702 + ... + 0,04652
1 1 = 6,6 Para el roble: D = 2 2 0,0647 + 0,0550 + 0,07442 + ... + 0,19422 Según este resultado, la diversidad de insectos es mayor en la zona de robles que en la zona de eucaliptos. 2. Índice de diversidad de Shannon-Wiener ' Heucalipto = 0,4047 * log2(0,4047) + .......0,0465 * log2(0,0465) = 2,353
' Hroble = 0,0647 * log2(0,0647) + .......0,1942 * log2(0,1942) = 2,844
El resultado obtenido coincide con el índice recíproco de Simpson, ya que la diversidad de insectos es mayor en la zona de robles que en la zona de eucaliptos. Para ambas zonas (número de especies es 8 en los 2 casos) H´max sería: ' Hmax = log2(8) = 3
315
Capítulo XI
CUADRO XI.6. (Continuación) Y la proporcionalidad: Eeucalipto =
Eroble =
2,353 = 0,784 3
2,844 = 0,948 3
Las especies aparecen distribuidas de forma más equilibrada en la zona de robles que en la de eucaliptos.
XI.4. Tróficos La ecología trófica tiene como objetivo central estudiar el comportamiento en lo que se refiere a la alimentación de los organismos. A continuación mostraremos el uso de dos de los índices tróficos más utilizados.
XI.4.1. Selección del alimento El índice α de Manly permite determinar qué tipo de alimento es seleccionado por parte de una especie o depredador:
ln
αi =
m
ei ni ej
¦ ln n j =1
j
donde ei y ej son el número de presas del tipo i o j que quedan al final del periodo de experimento, ni y nj son el número inicial de presas de tipo i o j al inicio del estudio y m es el número de tipos de presas. La suma de todos los αi tiene que ser igual a 1. En el Cuadro XI.7 se muestra un ejemplo de cómo calcular el índice de selección de Manly.
316
Índices
CUADRO XI.7. Cálculo del índice alpha de Manly EJEMPLO. En la Tabla XI.5 se observan los resultados de un experimento en el que el objetivo principal era determinar si las larvas de una especie de pez prefieren una dieta de rotíferos, copepoditos o artemia (Cuadro XI.7.xls). Tabla XI.5. Rotíferos, copepoditos y artemia (individuos l-1) utilizados como alimento por larvas de una especie de pez. TIPO DE PRESA Número inicial Número final Proporción de presas vivas al final del experimento
Rotíferos
Copepoditos
Artemia
200 122
200 64
200 105
0,61
0,32
0,53
Paso 1. Calculamos la proporción de presas vivas de cada especie. Rotiferosvivos =
122 = 0,61 200
Paso 2. Calculamos el índice α para cada una de las especies.
α Rotiferos =
ln 0,61 ln 0,61 + ln 0,32 + ln 0,53
αCopepoditos =
α Artemia =
= 0,22
ln 0,32 ln 0,61 + ln 0,32 + ln 0,53 ln 0,53
(ln 0,61 + ln 0,32 + ln 0,53)
= 0,50
= 0,28
Paso 3. En los resultados podemos ver que las larvas consumen los tres tipos de alimento, sin embargo, prefieren los copepoditos.
XI.4.2. Amplitud de nicho trófico Las especies varían en el grado de especialización en la dieta, es decir, la diversidad de tipos de alimento que consumen varía de unas especies a otras. A nivel ecológico podemos cuantificar esta especialización a partir de la llamada «amplitud del nicho trófico». Uno de los índices más usados para determinar la amplitud del nicho trófico es el de Levins, el cual se calcula con la siguiente fórmula:
317
Capítulo XI
1
B =
n
¦p
2 j
j =1
donde pj es la proporción de alimento j que es consumido por la especie y n el número de diferentes tipos de alimento. El índice es máximo cuando la especie consume una gran cantidad de recursos (especies oportunistas), mientras que un valor bajo implica el consumo de pocos tipos de alimento (especie especialista). A menudo es conveniente estandarizar el valor del índice para que la escala sea de 0 a 1 y, por tanto, se puedan comparar los índices de distintas especies. Esto se consigue con la fórmula propuesta por Hulbert: BA =
B −1 n −1
donde B es el índice de Levins y n el número de distintos alimentos (véase ejemplo en Cuadro XI.8). El problema que plantea el índice de Levins es que no tiene en cuenta el hecho de que los recursos puede que no sean igual de disponibles para los individuos de la población. Si el recurso considerado es el espacio, puede ser que ocurra que no todas las zonas sean igual de accesibles para las distintas especies. Además, si consideramos el alimento, por lo general los distintos tipos de alimento, distintos j, no van a ser igual de abundantes y, por tanto, su grado de disponibilidad para los organismos será distinto. Para que el índice de Levins tenga en cuenta el grado de disponibilidad de los diferentes tipos de alimentos se utiliza la siguiente fórmula:
B' =
1 n
¦ (p
2 j
/ aj )
j =1
donde pj es la proporción de individuos que utilizan el recurso j, n es el número distinto de recursos y aj es la proporción de recurso j frente al total de recursos existentes en el medio. Este último índice también se puede estandarizar a valores de 0 a 1 por medio de la siguiente fórmula, propuesta también por Hurlbert: B' A =
B ' − amin 1 − amin
donde amin es el valor mínimo observado de a. Si todos los recursos fuesen igual de abundantes entonces el valor saldría idéntico al índice de Levins.
318
ร ndices
CUADRO XI.8. Amplitud de nicho trรณfico EJEMPLO. En la Tabla XI.6 se observan las abundancias de presas (especies) consumidas por dos especies de peces, a partir de anรกlisis de contenido estomacal (Cuadro XI.8.xls). Tabla XI.6. Abundancia de las diferentes especies identificadas en el estรณmago de 750 ejemplares de la especie A y 963 de la especie B. Especie
Especies alimento Ac An Al Bn Bo Pc Cl Pk Lo Rt Ta Total
A
B
26 48 26 1535 2369 4863 159 269 74 741 4569 14679
2842 7962 4523 842 214 2368 587 596 247 42 456 20679
Paso 1. Calculamos la proporciรณn de alimento j que es consumido por la especie (pj):
Especies alimento
pj
pj
Especie A
Especie B
Ac An Al Bn Bo Pc Cl Pk Lo Rt Ta
0,0018 0,0033 0,0018 0,1046 0,1614 0,3313 0,0108 0,0183 0,0050 0,0505 0,3113
0,1374 0,3850 0,2187 0,0407 0,0103 0,1145 0,0284 0,0288 0,0119 0,0020 0,0221
319
Capítulo XI
CUADRO XI.8. (Continuación) Paso 2. Calculamos el índice de Levins: BEspecieA =
BEspecieB =
1 2
2
(0,0018 ) + (0,0033 ) + ........... + (0,3132 ) 1 2
2
(0,1374 ) + (0,385 ) + ........... + (0,02212 )
= 4,05
= 4,308
Paso 3. Realizamos la estandarización del índice de Levins para poder comparar la amplitud del nicho trófico de las especies A y B: BAEspecieA =
4,05 − 1 = 0,305 11 − 1
BAEspecieB =
4,05 − 1 = 0,331 11 − 1
Observamos que la amplitud del nicho trófico para la especie B es mayor que la de la especie A.
320
B BIBLIOGRAFÍA
Abraira V & Pérez de Vargas A (1996) Métodos Multivariantes en estadística. Editorial Centro de Estudios Ramón Areces, Madrid. Aguilera P & Garrido A (2001) Aplicaciones ambientales del análisis multivariable. Universidad de Almería, Servicio de Publicaciones, Almería. Azzimonti JC (2003) Bioestadística aplicada a Bioquímica y Farmacia. Universidad Nacional de Misiones. Editorial Universitaria, Argentina. Callon M, Courtial JP & Penan H (1995) Cienciometría: La medición de la actividad científica, de la bibliometría a la vigilancia tecnológica. Trea, D.L., Gijón. Canavos GC (1993) Probabilidad y Estadística - Aplicaciones y métodos. McGrawHill, México DF. Cuadras CM (1991) Métodos de Análisis Multivariante. Promociones y Publicaciones Universitarias, Barcelona. Davis JC (2002) Statistic and data analysis in Geology. John Wiley & Sons, New York. Demènech I & Massons JM (1980) Bioestadística. Métodos estadísticos para investigadores. Ed. Herder. Barcelona. Dubois DM (1973) An index of fluctuations, Do, connected with diversity and stability of ecosystems: applications in the Lotka–Volterra model and in an experimental distribution of species. Rapport de sythèse III, Programme National sur l’environment Physique et Biologique, Project Mer. Commision Interministérielle de la Politique Scientifique. Liège. Erikson FH & Nosanchuk TA (1977) Understandig data. McGraw Hill. Toronto. Fisher LD & van Belle G (1993) Biostatistics. A methodology for the health sciences. John Wiley & Sons, New York.
321
Bibliografía
Frangópulos M, Guisande C, deBlas E & Maneiro I (2004) Toxin production and competitive abilities under phosphorus limitation of Alexandrium species. Harmful Algae 3: 131-139. Gillman M & Hails R (1997) An Introduction to Ecological Modelling. Blackwell Science Ltd, Oxford. Hernández-Llamas A & Ratkowsky DA (2004) Growth of fishes, crustaceans and molluscs: estimation of the von Bertalanffy, Logistic, Gompertz and Richards curves and a new growth model. Marine Ecology Progress Series 282: 237-244. Hollander M & Wolfe DA (1999) Nonparametric Statistical Methods. Ed. WileyInterscience, New Cork. Horn HS (1966) Measured of «overlap» in comparative ecological studies. American Naturalist 100: 419-424. Isaaks EH & Srivastava RM (1989) An Introduction to Applied Geostatistics. Oxfrod University Press, Oxford. Johnson RA & Wichern DW (1988) Applied multivariate statistical analysis. Prentice-Hall, Inc. Upper Saddle River, NJ, USA. Kleinbaum DG, Dupper LL, Muller KE & Nizam A (1998) Applied regression analysis and other multivariable methods. Duxbury Press, California. Krebs CHJ (1989) Ecological methodology. Harper Collins Publishers, New York. Legendre P & Legendre L (1998) Numerical Ecology. Developments in Environmental Modelling 20. Elsevier, The Netherlands. Lotka AJ (1925) Elements of Physical Biology. William & Wilkins, Baltimore. Reimpreso en 1956 por Dover Publications, New York. Lotka AJ (1927) Fluctuations in the abundance of species considered mathematically (with comment by V. Volterra). Nature 119: 12-13. McNaughton SJ & Wolf LL (1984) Ecología general. Ediciones Omega, Barcelona. Mardia KV, Kent JT & Bibby JM (1992) Multivariate Analysis. Academic Press. Londres Moore DS (1998) Estadística aplicada básica. Antoni Bosh Editor. Odum HT & Odum EC (2000) Modelling for all Scales. Academic Press, San Diego.
322
Bibliografía
Peña D (1997) Estadística. Modelos y métodos. 1. Fundamentos. Alianza Universidad Textos, Madrid. Peña D (2002) Análisis de datos multivariantes. McGraw-Hill /Interamericana de España. Madrid. Peña D & Romo J (1999) Introducción a la Estadística para las Ciencias Sociales. McGraw-Hill, Madrid. Pérez C (2004) Técnica estadística con SPSS. Universidad Complutense de Madrid. Prentice Hall, Madrid. Pérez C (2004) Técnicas de análisis multivariante de datos. Aplicaciones con SPSS. Pearson Educación. Madrid. Quesada V, Isidoro A & López LA (1994) Curso y ejercicios de Estadística. Aplicación a las Ciencias Biológicas, Médicas y Sociales. Alhambra Longman, Madrid. Salvarrey L (2000) Curso de estadística básica. Universidad de la República del Uruguay. Sánchez JJ (1999) Manual de análisis estadístico de los datos. Alianza Editorial. Madrid. Searle SR (1997) Linear Models. John Wiley & Sons (Wiley Classics Library). New York. Siegel S & Castellan NJ Jr (1988) Nonparametric statistics for the behavioral sciences. McGraw-Hill, New York. SigmaPlot (2002) Copyright 1986-2001 © SPSS Inc. Smith RL & Smith TM (2000) Ecología. Pearson Educación, S.A., Madrid. Sokal RR & Rohlf FJ (1979) Biometría. Principios y métodos estadísticos en la investigación biológica. H. Blume Ediciones, Madrid. Sokal RR & Rohlf FJ (1980) Introducción a la Bioestadística. Editorial Reverté, Madrid. Sokal RR & Rohlf FJ (1981) Biometry. WH Freeman and Company, New York. Sprent P (1993) Applied Nonparametric Statistical Methods. Ed. Chapman & Hall, London. SPSS (2003) Copyright 1989-2003 © SPSS Inc.
323
Bibliografía
SPSS. Guía para el análisis de datos. http://www.spss.es. STATISTICA 7 (2004) Copyright 1984-2006 © Statsoft Inc. Steel RGD & Torrie JH (1985) Bioestadística: Principios y procedimientos. McGraw-Hill, Bogotá. Stella (2001) Copyright 1985 – 2001 © High Performance Systems, Inc. Terradas J (2001) Ecología de la vegetación. Ediciones Omega, Barcelona. Viedma JA (1989) Bioestadística. Métodos en Medicina y Biología. Librería Universitaria, Alicante. Williams DA (1976) Improved llikelihood ratio test for complete contingency tables. Biometrika 63: 33-37. Visauta B (2002) Análisis estadístico con SPSS 11.0 para WINDOWS, Volumen I. Estadística básica. McGraw Hill. Madrid. Vizmanos JR & Asensio R (1976) Bioestadística. Curso y ejercicios. Centro de Promoción Reprográfica, Madrid. Ruth M & Hannon BM (1997) Modelling Dynamic Economic Systems. SpringerVerlag, New York. Volterra V (1926) Fluctuations in the abundance of species considered mathematically. Nature 118: 12-13. Zar JH (1999) Biostatistical Analysis. Prentice Hall, New Jersey.
324
Apéndices
A APÉNDICES
Tabla 1. Áreas bajo la curva Normal estándar.
Primer decimal de Z
Segundo decimal de Z 0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4
0,5000 0,5398 0,5793 0,6179 0,6554 0,6915 0,7257 0,7580 0,7881 0,8159 0,8413 0,8643 0,8849 0,9032 0,9192 0,9332 0,9452 0,9554 0,9641 0,9713 0,9772 0,9821 0,9861 0,9893 0,9918 0,9938 0,9953 0,9965 0,9974 0,9981 0,9987 0,9990 0,9993 0,9995 0,9997
0,5040 0,5438 0,5832 0,6217 0,6591 0,6950 0,7291 0,7611 0,7910 0,8186 0,8438 0,8665 0,8869 0,9049 0,9207 0,9345 0,9463 0,9564 0,9649 0,9719 0,9778 0,9826 0,9864 0,9896 0,9920 0,9940 0,9955 0,9966 0,9975 0,9982 0,9987 0,9991 0,9993 0,9995 0,9997
0,5080 0,5478 0,5871 0,6255 0,6628 0,6985 0,7324 0,7642 0,7939 0,8212 0,8461 0,8686 0,8888 0,9066 0,9222 0,9357 0,9474 0,9573 0,9656 0,9726 0,9783 0,9830 0,9868 0,9898 0,9922 0,9941 0,9956 0,9967 0,9976 0,9982 0,9987 0,9991 0,9994 0,9995 0,9997
0,5120 0,5517 0,5910 0,6293 0,6664 0,7019 0,7357 0,7673 0,7967 0,8238 0,8485 0,8708 0,8907 0,9082 0,9236 0,9370 0,9484 0,9582 0,9664 0,9732 0,9788 0,9834 0,9871 0,9901 0,9925 0,9943 0,9957 0,9968 0,9977 0,9983 0,9988 0,9991 0,9994 0,9996 0,9997
0,5160 0,5557 0,5948 0,6331 0,6700 0,7054 0,7389 0,7704 0,7995 0,8264 0,8508 0,8729 0,8925 0,9099 0,9251 0,9382 0,9495 0,9591 0,9671 0,9738 0,9793 0,9838 0,9875 0,9904 0,9927 0,9945 0,9959 0,9969 0,9977 0,9984 0,9988 0,9992 0,9994 0,9996 0,9997
0,5199 0,5596 0,5987 0,6368 0,6736 0,7088 0,7422 0,7734 0,8023 0,8289 0,8531 0,8749 0,8944 0,9115 0,9265 0,9394 0,9505 0,9599 0,9678 0,9744 0,9798 0,9842 0,9878 0,9906 0,9929 0,9946 0,9960 0,9970 0,9978 0,9984 0,9989 0,9992 0,9994 0,9996 0,9997
0,5239 0,5636 0,6026 0,6406 0,6772 0,7123 0,7454 0,7764 0,8051 0,8315 0,8554 0,8770 0,8962 0,9131 0,9279 0,9406 0,9515 0,9608 0,9686 0,9750 0,9803 0,9846 0,9881 0,9909 0,9931 0,9948 0,9961 0,9971 0,9979 0,9985 0,9989 0,9992 0,9994 0,9996 0,9997
0,5279 0,5675 0,6064 0,6443 0,6808 0,7157 0,7486 0,7794 0,8078 0,8340 0,8577 0,8790 0,8980 0,9147 0,9292 0,9418 0,9525 0,9616 0,9693 0,9756 0,9808 0,9850 0,9884 0,9911 0,9932 0,9949 0,9962 0,9972 0,9979 0,9985 0,9989 0,9992 0,9995 0,9996 0,9997
0,5319 0,5714 0,6103 0,6480 0,6844 0,7190 0,7517 0,7823 0,8106 0,8365 0,8599 0,8810 0,8997 0,9162 0,9306 0,9429 0,9535 0,9625 0,9699 0,9761 0,9812 0,9854 0,9887 0,9913 0,9934 0,9951 0,9963 0,9973 0,9980 0,9986 0,9990 0,9993 0,9995 0,9996 0,9997
0,5359 0,5753 0,6141 0,6517 0,6879 0,7224 0,7549 0,7852 0,8133 0,8389 0,8621 0,8830 0,9015 0,9177 0,9319 0,9441 0,9545 0,9633 0,9706 0,9767 0,9817 0,9857 0,9890 0,9916 0,9936 0,9952 0,9964 0,9974 0,9981 0,9986 0,9990 0,9993 0,9995 0,9997 0,9998
325
Apéndices
Tabla 2. Valores críticos de la distribución t de Student. Grados de ν) libertad (ν
8
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120
326
0,25
0,1
1,000 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,698 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,683 0,683 0,683 0,681 0,679 0,677 0,674
3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,35 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,303 1,296 1,289 1,282
α) Nivel de significación (α 0,05 0,025 0,01
0,005
0,001
6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,684 1,671 1,658 1,645
63,657 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,704 2,660 2,617 2,576
318,289 22,328 10,214 7,173 5,894 5,208 4,785 4,501 4,297 4,144 4,025 3,930 3,852 3,787 3,733 3,686 3,646 3,610 3,579 3,552 3,527 3,505 3,485 3,467 3,450 3,435 3,421 3,408 3,396 3,385 3,307 3,232 3,160 3,090
12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 2,021 2,000 1,980 1,960
31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,423 2,390 2,358 2,326
0,995
0,000 0,010 0,072 0,207 0,412 0,676 0,989 1,344 1,735
2,156 2,603 3,074
3,565 4,075 4,601 5,142
5,697 6,265 6,844 7,434 8,034 8,643
9,260 9,886 10,520
de libertad (ν ν)
1 2 3 4 5 6 7 8 9
10 11 12
13 14 15 16
17 18 19 20 21 22
23 24 25
Grados
11,688 12,401 13,120
7,564 8,231 8,907 9,591 10,283 10,982
5,009 5,629 6,262 6,908
3,247 3,816 4,404
0,000 0,051 0,216 0,484 0,831 1,237 1,690 2,180 2,700
0,975
14,848 15,659 16,473
10,085 10,865 11,651 12,443 13,240 14,042
7,042 7,790 8,547 9,312
4,865 5,578 6,304
0,016 0,211 0,584 1,064 1,610 2,204 2,833 3,490 4,168
0,900
Tabla 3. Valores críticos de la distribución χ2.
22,337 23,337 24,337
16,338 17,338 18,338 19,337 20,337 21,337
12,340 13,339 14,339 15,338
9,342 10,341 11,340
0,455 1,386 2,366 3,357 4,351 5,348 6,346 7,344 8,343
32,007 33,196 34,382
24,769 25,989 27,204 28,412 29,615 30,813
19,812 21,064 22,307 23,542
15,987 17,275 18,549
2,706 4,605 6,251 7,779 9,236 10,645 12,017 13,362 14,684
0,100
35,172 36,415 37,652
27,587 28,869 30,144 31,410 32,670 33,924
22,362 23,685 24,996 26,296
18,307 19,675 21,026
3,841 5,991 7,815 9,488 11,070 12,592 14,067 15,507 16,919
0,050
α) Nivel de significación (α 0,500
38,076 39,364 40,646
30,191 31,526 32,852 34,170 35,479 36,781
24,736 26,119 27,488 28,845
20,483 21,920 23,337
5,024 7,378 9,348 11,143 12,832 14,449 16,013 17,535 19,023
0,025
41,638 42,980 44,314
33,409 34,805 36,191 37,566 38,932 40,289
27,688 29,141 30,578 32,000
23,209 24,725 26,217
6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666
0,010
44,181 45,558 46,928
35,718 37,156 38,582 39,997 41,401 42,796
29,819 31,319 32,801 34,267
25,188 26,757 28,300
7,879 10,597 12,838 14,860 16,750 18,548 20,278 21,955 23,589
0,005
49,728 51,179 52,620
40,790 42,312 43,820 45,315 46,797 48,268
34,528 36,123 37,697 39,252
29,588 31,264 32,910
10,828 13,816 16,266 18,467 20,515 22,458 24,322 26,124 27,877
0,001
Apéndices
327
328
11,160 11,808 12,461 13,121 13,787 14,458 15,134 15,815
16,501 17,192
17,887 18,586 19,289 19,996 20,707
21,421 22,138 22,859
23,584 24,311 25,042 25,775
26,511 27,249 27,991
34 35
36 37 38 39 40
41 42 43
44 45 46 47
48 49 50
0,995
26 27 28 29 30 31 32 33
ν) de libertad (ν
Grados
Tabla 3. (Continuación)
30,755 31,555 32,357
27,575 28,366 29,160 29,956
25,215 25,999 26,785
21,336 22,106 22,878 23,654 24,433
19,806 20,569
13,844 14,573 15,308 16,047 16,791 17,539 18,291 19,047
0,975
35,949 36,818 37,689
32,487 33,350 34,215 35,081
29,907 30,765 31,625
25,643 26,492 27,343 28,196 29,051
23,952 24,797
17,292 18,114 18,939 19,768 20,599 21,434 22,271 23,110
0,900
47,335 48,335 49,335
43,335 44,335 45,335 46,335
40,335 41,335 42,335
35,336 36,335 37,335 38,335 39,335
33,336 34,336
25,336 26,336 27,336 28,336 29,336 30,336 31,336 32,336
60,907 62,038 63,167
56,369 57,505 58,641 59,774
52,949 54,090 55,230
47,212 48,363 49,513 50,660 51,805
44,903 46,059
35,563 36,741 37,916 39,088 40,256 41,422 42,585 43,745
0,100
65,171 66,339 67,505
60,481 61,656 62,830 64,001
56,942 58,124 59,304
50,998 52,192 53,384 54,572 55,758
48,602 49,802
38,885 40,113 41,337 42,557 43,773 44,985 46,194 47,400
0,050
α) Nivel de significación (α 0,500
69,023 70,222 71,420
64,202 65,410 66,617 67,821
60,561 61,777 62,990
54,437 55,668 56,896 58,120 59,342
51,966 53,203
41,923 43,194 44,461 45,722 46,979 48,232 49,480 50,725
0,025
73,683 74,919 76,154
68,710 69,957 71,201 72,443
64,950 66,206 67,459
58,619 59,892 61,162 62,428 63,691
56,061 57,342
45,642 46,963 48,278 49,588 50,892 52,191 53,486 54,776
0,010
76,969 78,231 79,490
71,893 73,166 74,437 75,704
68,053 69,336 70,616
61,582 62,884 64,182 65,476 66,766
58,964 60,275
48,290 49,645 50,993 52,336 53,672 55,003 56,329 57,649
0,005
84,037 85,351 86,661
78,750 80,077 81,400 82,720
74,745 76,084 77,419
67,985 69,346 70,703 72,055 73,402
65,247 66,619
54,052 55,476 56,892 58,301 59,703 61,098 62,487 63,870
0,001
Apéndices
28,735 29,481 30,230 30,981 31,735 32,490 33,248 34,008 34,770
35,534 36,300 37,068
37,838 38,610 39,383 40,158
40,935 41,713 42,494 43,275 44,058 44,843
45,629 46,417 47,206
60 61 62
63 64 65 66
67 68 69 70 71 72
73 74 75
0,995
51 52 53 54 55 56 57 58 59
de libertad (ν ν)
Grados
Tabla 3. (Continuación)
51,265 52,103 52,942
46,261 47,092 47,924 48,758 49,592 50,428
42,950 43,776 44,603 45,431
40,482 41,303 42,126
33,162 33,968 34,776 35,586 36,398 37,212 38,027 38,844 39,662
0,975
58,006 58,900 59,795
52,659 53,548 54,438 55,329 56,221 57,113
49,111 49,996 50,883 51,770
46,459 47,342 48,226
38,560 39,433 40,308 41,183 42,060 42,937 43,816 44,696 45,577
0,900
72,334 73,334 74,334
66,335 67,334 68,334 69,334 70,334 71,334
62,335 63,335 64,335 65,335
59,335 60,335 61,335
50,335 51,335 52,335 53,335 54,335 55,335 56,335 57,335 58,335
88,850 89,956 91,061
82,197 83,308 84,418 85,527 86,635 87,743
77,745 78,860 79,973 81,085
74,397 75,514 76,630
64,295 65,422 66,548 67,673 68,796 69,918 71,040 72,160 73,279
0,100
93,945 95,081 96,217
87,108 88,250 89,391 90,531 91,670 92,808
82,529 83,675 84,821 85,965
79,082 80,232 81,381
68,669 69,832 70,993 72,153 73,311 74,468 75,624 76,778 77,931
0,050
α) Nivel de significación (α 0,500
98,516 99,678 100,840
91,519 92,689 93,856 95,023 96,189 97,353
86,830 88,004 89,177 90,349
83,298 84,476 85,654
72,616 73,810 75,002 76,192 77,380 78,567 79,752 80,936 82,117
0,025
104,010 105,200 106,390
96,828 98,028 99,228 100,430 101,620 102,820
92,010 93,217 94,422 95,626
88,379 89,591 90,802
77,386 78,616 79,843 81,069 82,292 83,513 84,733 85,950 87,166
0,010
107,860 109,070 110,290
100,550 101,780 103,000 104,210 105,430 106,650
95,649 96,878 98,105 99,331
91,952 93,186 94,419
80,747 82,001 83,253 84,502 85,749 86,994 88,237 89,477 90,715
0,005
116,092 117,346 118,599
108,526 109,791 111,055 112,317 113,577 114,835
103,442 104,716 105,988 107,258
99,607 100,888 102,166
87,968 89,272 90,573 91,872 93,168 94,460 95,751 97,039 98,324
0,001
Apéndices
329
330
47,997 48,788 49,582 50,376 51,172 51,969 52,767 53,567
54,368 55,170
55,973 56,777 57,582 58,389 59,196
60,005 60,815 61,625
62,437 63,250 64,063 64,878
65,694 66,510 67,328
84 85
86 87 88 89 90
91 92 93
94 95 96 97
98 99 100
0,995
76 77 78 79 80 81 82 83
ν) de libertad (ν
Grados
Tabla 3. (Continuación)
72,501 73,361 74,222
69,068 69,925 70,783 71,642
66,501 67,356 68,211
62,239 63,089 63,941 64,793 65,647
60,540 61,389
53,782 54,623 55,466 56,309 57,153 57,998 58,845 59,692
0,975
80,541 81,449 82,358
76,912 77,818 78,725 79,633
74,196 75,101 76,006
69,679 70,581 71,484 72,387 73,291
67,876 68,777
60,690 61,586 62,483 63,380 64,278 65,176 66,076 66,976
0,900
97,334 98,334 99,334
93,334 94,334 95,334 96,334
90,334 91,334 92,334
85,334 86,334 87,334 88,334 89,334
83,334 84,334
75,334 76,334 77,334 78,334 79,334 80,334 81,334 82,334
116,320 117,410 118,500
111,940 113,040 114,130 115,220
108,660 109,760 110,850
103,180 104,280 105,370 106,470 107,560
100,980 102,080
92,166 93,270 94,373 95,476 96,578 97,680 98,780 99,880
0,100
122,110 123,230 124,340
117,630 118,750 119,870 120,990
114,270 115,390 116,510
108,650 109,770 110,900 112,020 113,150
106,390 107,520
97,351 98,484 99,617 100,750 101,880 103,010 104,140 105,270
0,050
α) Nivel de significación (α 0,500
127,280 128,420 129,560
122,720 123,860 125,000 126,140
119,280 120,430 121,570
113,540 114,690 115,840 116,990 118,140
111,240 112,390
102,000 103,160 104,320 105,470 106,630 107,780 108,940 110,090
0,025
133,480 134,640 135,810
128,800 129,970 131,140 132,310
125,290 126,460 127,630
119,410 120,590 121,770 122,940 124,120
117,060 118,240
107,580 108,770 109,960 111,140 112,330 113,510 114,690 115,880
0,010
137,800 138,990 140,170
133,060 134,250 135,430 136,620
129,490 130,680 131,870
123,520 124,720 125,910 127,110 128,300
121,130 122,320
111,500 112,700 113,910 115,120 116,320 117,520 118,730 119,930
0,005
147,010 148,230 149,449
142,119 143,344 144,567 145,789
138,438 139,666 140,893
132,277 133,512 134,745 135,978 137,208
129,804 131,041
119,850 121,100 122,348 123,594 124,839 126,082 127,324 128,565
0,001
Apéndices
16,59
16,12
15,72
15
16
17
10,66
10,97
11,34
11,78
8,73
9,01
9,34
9,73
7,68
7,94
8,25
8,62
9,07
7,02
7,27
7,57
7,92
8,35
6,56
6,80
7,09
7,44
7,86
8,38
6,22
6,46
6,74
7,08
7,49
8,00
5,96
6,20
6,47
6,80
7,21
7,71
8,35
5,75
5,98
6,26
6,58
6,98
7,48
8,12
5,58
5,81
6,08
6,40
6,80
7,29
7,92
8,75
5,32
5,55
5,81
6,13
6,52
7,00
7,63
8,45
9,57
5,05
5,27
5,54
5,85
6,23
6,71
7,32
8,13
9,24
4,78
4,99
5,25
5,56
5,93
6,40
7,01
7,80
8,90
4,63
4,85
5,10
5,41
5,78
6,25
6,85
7,64
8,72
4,48
4,70
4,95
5,25
5,63
6,09
6,68
7,47
8,55
4,33
4,54
4,80
5,10
5,47
5,93
6,52
7,30
8,37
9,92
4,18
4,39
4,64
4,94
5,30
5,76
6,35
7,12
8,19
9,73
4,02
4,23
4,48
4,77
5,14
5,59
6,18
6,94
8,00
9,53
3,85
4,06
4,31
4,61
4,97
5,42
6,00
6,76
7,82
9,34
12,12 11,91 11,70
16,21 15,98 15,75
24,33 24,06 23,79
44,75 44,40 44,05
124,4 124,0 123,5
999,3 999,3 999,3
17,14
10,21
8,89
8,65
8,96
9,89
11,54 11,19 10,84 10,48 10,30 10,11
14,08 13,71 13,32 12,93 12,73 12,53 12,33
18,41 17,99 17,56 17,12 16,90 16,67 16,44
26,91 26,42 25,91 25,39 25,13 24,87 24,60
48,05 47,41 46,76 46,10 45,77 45,43 45,08
129,2 128,3 127,4 126,4 125,9 125,4 125,0
999,3 999,3 999,3 999,3 999,3 999,3 999,3
14
12,31
9,63
9,05
9,20
10,37 10,11
12,05 11,77
14,63 14,33
19,03 18,69
27,65 27,24
49,00 48,47
130,6 129,9
999,3 999,3
17,82
10,80
9,58
9,52
10,70
12,40
15,02
19,46
28,17
49,65
131,6
999,3
13
12,97
10,35
9,93
11,13
12,86
15,52
20,03
28,83
50,52
132,8
999,3
18,64
11,56
11,28 10,48
12,56 11,71
14,39 13,48
17,20 16,21
21,92 20,80
31,08 29,75
53,43 51,72
137,1 134,6
999,3 999,3
12
13,81
12,55
13,90
15,83
18,77
23,71
33,20
56,17
141,1
999,3
19,69
14,90
16,39
18,49
21,69
27,00
37,12
61,25
148,5
998,8
11
∞
21,04
120
10
60
22,86
40
9
30
25,41
24
8
20
29,25
15
7
12
35,51
10
6
9
47,18
8
5
7
74,13
6
4
5
167,1
4
3
3
998,4
2
2
1
405312 499725 540257 562668 576496 586033 593185 597954 602245 605583 610352 616074 620842 623703 626087 628471 631332 634193 636578
ω
1
υ
Tabla 4. Valores críticos de la distribución F Fisher-Snedecor para un α de 0,001.
Apéndices
331
332
9,34
9,22
9,12
9,02
8,93
8,85
8,77
8,25
7,77
7,32
24 14,03
25 13,88
26 13,74
27 13,61
28 13,50
29 13,39
30 13,29
40 12,61
60 11,97
120 11,38
6,91
9,47
23 14,20
3,84
9,61
22 14,38
∞
9,77
21 14,59
5,43
5,78
6,17
6,59
7,05
7,12
7,19
7,27
7,36
7,45
7,55
7,67
7,80
7,94
8,10
9,95
20 14,82
3
8,28
2
19 15,08 10,16
1
8,49
ω
18 15,38 10,39
υ
4,62
4,95
5,31
5,70
6,12
6,19
6,25
6,33
6,41
6,49
6,59
6,70
6,81
6,95
7,10
7,27
7,46
4
4,11
4,42
4,76
5,13
5,53
5,59
5,66
5,73
5,80
5,89
5,98
6,08
6,19
6,32
6,46
6,62
6,81
5
3,75
4,04
4,37
4,73
5,12
5,18
5,24
5,31
5,38
5,46
5,55
5,65
5,76
5,88
6,02
6,18
6,35
6
3,48
3,77
4,09
4,44
4,82
4,87
4,93
5,00
5,07
5,15
5,24
5,33
5,44
5,56
5,69
5,85
6,02
7
3,27
3,55
3,86
4,21
4,58
4,64
4,69
4,76
4,83
4,91
4,99
5,09
5,19
5,31
5,44
5,59
5,76
8
3,10
3,38
3,69
4,02
4,39
4,45
4,50
4,57
4,64
4,71
4,80
4,89
4,99
5,11
5,24
5,39
5,56
9
2,96
3,24
3,54
3,87
4,24
4,29
4,35
4,41
4,48
4,56
4,64
4,73
4,83
4,95
5,08
5,22
5,39
10
2,75
3,02
3,32
3,64
4,00
4,05
4,11
4,17
4,24
4,31
4,39
4,48
4,58
4,70
4,82
4,97
5,13
12
2,52
2,78
3,08
3,40
3,75
3,80
3,86
3,92
3,99
4,06
4,14
4,23
4,33
4,44
4,56
4,70
4,87
15
2,27
2,53
2,83
3,15
3,49
3,54
3,60
3,66
3,72
3,79
3,87
3,96
4,06
4,17
4,29
4,43
4,59
20
2,14
2,40
2,69
3,01
3,36
3,41
3,46
3,52
3,59
3,66
3,74
3,82
3,92
4,03
4,15
4,29
4,45
24
Tabla 4. Valores críticos de la distribución F Fisher-Snedecor para un α de 0,001.
1,99
2,26
2,55
2,87
3,22
3,27
3,32
3,38
3,44
3,52
3,59
3,68
3,78
3,88
4,00
4,14
4,30
30
1,84
2,11
2,41
2,73
3,07
3,12
3,18
3,23
3,30
3,37
3,45
3,53
3,63
3,74
3,86
3,99
4,15
40
1,66
1,95
2,25
2,57
2,92
2,97
3,02
3,08
3,15
3,22
3,29
3,38
3,48
3,58
3,70
3,84
4,00
60
1,45
1,77
2,08
2,41
2,76
2,81
2,86
2,92
2,99
3,06
3,14
3,22
3,32
3,42
3,54
3,68
3,84
120
∞
120
60
40
30
29
28
27
26
25
24
23
22
21
20
19
18
∞
Apéndices
38,51 39,00
17,44 16,04
12,22 10,65
10,01
8,81
8,07
7,57
7,21
6,94
6,72
6,55
6,41
6,30
6,20
6,12
6,04
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
4,62
4,69
4,77
4,86
4,97
5,10
5,26
5,46
5,71
6,06
6,54
7,26
8,43
799
648
1
2
1
ω
υ
900
4
922
5 937
6 948
7 957
8 963
9 969
10 977
12 985
15 993
20 997
24 1001
30 1006
40 1010
60
∞
1014 1018
120
4,01
4,08
4,15
4,24
4,35
4,47
4,63
4,83
5,08
5,42
5,89
6,60
7,76
9,98
3,66
3,73
3,80
3,89
4,00
4,12
4,28
4,47
4,72
5,05
5,52
6,23
7,39
9,60
3,44
3,50
3,58
3,66
3,77
3,89
4,04
4,24
4,48
4,82
5,29
5,99
7,15
9,36
3,28
3,34
3,41
3,50
3,60
3,73
3,88
4,07
4,32
4,65
5,12
5,82
6,98
9,20
3,16
3,22
3,29
3,38
3,48
3,61
3,76
3,95
4,20
4,53
4,99
5,70
6,85
9,07
3,06
3,12
3,20
3,29
3,39
3,51
3,66
3,85
4,10
4,43
4,90
5,60
6,76
8,98
2,98
3,05
3,12
3,21
3,31
3,44
3,59
3,78
4,03
4,36
4,82
5,52
6,68
8,90
2,92
2,99
3,06
3,15
3,25
3,37
3,53
3,72
3,96
4,30
4,76
5,46
6,62
8,84
2,82
2,89
2,96
3,05
3,15
3,28
3,43
3,62
3,87
4,20
4,67
5,37
6,52
8,75
2,72
2,79
2,86
2,95
3,05
3,18
3,33
3,52
3,77
4,10
4,57
5,27
6,43
8,66
2,62
2,68
2,76
2,84
2,95
3,07
3,23
3,42
3,67
4,00
4,47
5,17
6,33
8,56
2,56
2,63
2,70
2,79
2,89
3,02
3,17
3,37
3,61
3,95
4,41
5,12
6,28
8,51
2,50
2,57
2,64
2,73
2,84
2,96
3,12
3,31
3,56
3,89
4,36
5,07
6,23
8,46
2,44
2,51
2,59
2,67
2,78
2,91
3,06
3,26
3,51
3,84
4,31
5,01
6,18
8,41
2,38
2,45
2,52
2,61
2,72
2,85
3,00
3,20
3,45
3,78
4,25
4,96
6,12
8,36
2,32 2,25
2,38 2,32
2,46 2,40
2,55 2,49
2,66 2,60
2,79 2,73
2,94 2,88
3,14 3,08
3,39 3,33
3,73 3,67
4,20 4,14
4,90 4,85
6,07 6,02
8,31 8,26
15,44 15,10 14,88 14,73 14,62 14,54 14,47 14,42 14,34 14,25 14,17 14,12 14,08 14,04 13,99 13,95 13,90
39,17 39,25 39,30 39,33 39,36 39,37 39,39 39,40 39,41 39,43 39,45 39,46 39,46 39,47 39,48 39,49 39,50
864
3
Tabla 4. Valores críticos de la distribución F Fisher-Snedecor para un α de 0,025.
Apéndices
333
334
3,80
3,69
5,87
5,83
5,79
5,75
5,72
5,69
5,66
5,63
5,61
5,59
5,57
5,42
5,29
20
21
22
23
24
25
26
27
28
29
30
40
60
120 5,15
∞
3,84
3,93
5,92
19
4,05
4,18
4,20
4,22
4,24
4,27
4,29
4,32
4,35
4,38
4,42
4,46
4,51
4,56
5,98
18
2
1
ω
υ
3,12
3,23
3,34
3,46
3,59
3,61
3,63
3,65
3,67
3,69
3,72
3,75
3,78
3,82
3,86
3,90
3,95
3
2,8
2,89
3,01
3,13
3,25
3,27
3,29
3,31
3,33
3,35
3,38
3,41
3,44
3,48
3,51
3,56
3,61
4
2,57
2,67
2,79
2,90
3,03
3,04
3,06
3,08
3,10
3,13
3,15
3,18
3,22
3,25
3,29
3,33
3,38
5
2,41
2,52
2,63
2,74
2,87
2,88
2,90
2,92
2,94
2,97
2,99
3,02
3,05
3,09
3,13
3,17
3,22
6
2,29
2,39
2,51
2,62
2,75
2,76
2,78
2,80
2,82
2,85
2,87
2,90
2,93
2,97
3,01
3,05
3,10
7
2,19
2,30
2,41
2,53
2,65
2,67
2,69
2,71
2,73
2,75
2,78
2,81
2,84
2,87
2,91
2,96
3,01
8
2,11
2,22
2,33
2,45
2,57
2,59
2,61
2,63
2,65
2,68
2,70
2,73
2,76
2,80
2,84
2,88
2,93
9
2,05
2,16
2,27
2,39
2,51
2,53
2,55
2,57
2,59
2,61
2,64
2,67
2,70
2,73
2,77
2,82
2,87
10
1,95
2,05
2,17
2,29
2,41
2,43
2,45
2,47
2,49
2,51
2,54
2,57
2,60
2,64
2,68
2,72
2,77
12
1,83
1,94
2,06
2,18
2,31
2,32
2,34
2,36
2,39
2,41
2,44
2,47
2,50
2,53
2,57
2,62
2,67
15
1,71
1,82
1,94
2,07
2,20
2,21
2,23
2,25
2,28
2,30
2,33
2,36
2,39
2,42
2,46
2,51
2,56
20
1,64
1,76
1,88
2,01
2,14
2,15
2,17
2,19
2,22
2,24
2,27
2,30
2,33
2,37
2,41
2,45
2,50
24
Tabla 4. Valores críticos de la distribución F Fisher-Snedecor para un α de 0,025.
1,57
1,69
1,82
1,94
2,07
2,09
2,11
2,13
2,16
2,18
2,21
2,24
2,27
2,31
2,35
2,39
2,44
30
1,49
1,61
1,74
1,88
2,01
2,03
2,05
2,07
2,09
2,12
2,15
2,18
2,21
2,25
2,29
2,33
2,38
40
1,39
1,53
1,67
1,80
1,94
1,96
1,98
2,00
2,03
2,05
2,08
2,11
2,14
2,18
2,22
2,27
2,32
60
1,27
1,43
1,58
1,72
1,87
1,89
1,91
1,93
1,95
1,98
2,01
2,04
2,08
2,11
2,16
2,20
2,26
120
1,04
1,31
1,48
1,64
1,79
1,81
1,83
1,85
1,88
1,91
1,94
1,97
2,00
2,04
2,09
2,13
2,19
∞
Apéndices
10,13
7,71
6,61
5,99
5,59
5,32
5,12
4,96
4,84
4,75
4,67
4,60
4,54
4,49
4,45
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
3,59
3,63
3,68
3,74
3,81
3,89
3,98
4,10
4,26
4,46
4,74
5,14
5,79
6,94
9,55
18,51 19,00
2
2
1
161,4 199,5
ω
1
υ
4
5
6
7
8
9
10
12
15
20
24
30
40
60
120
∞
3,20
3,24
3,29
3,34
3,41
3,49
3,59
3,71
3,86
4,07
4,35
4,76
5,41
6,59
9,28
2,96
3,01
3,06
3,11
3,18
3,26
3,36
3,48
3,63
3,84
4,12
4,53
5,19
6,39
9,12
2,81
2,85
2,90
2,96
3,03
3,11
3,20
3,33
3,48
3,69
3,97
4,39
5,05
6,26
9,01
2,70
2,74
2,79
2,85
2,92
3,00
3,09
3,22
3,37
3,58
3,87
4,28
4,95
6,16
8,94
2,61
2,66
2,71
2,76
2,83
2,91
3,01
3,14
3,29
3,50
3,79
4,21
4,88
6,09
8,89
2,55
2,59
2,64
2,70
2,77
2,85
2,95
3,07
3,23
3,44
3,73
4,15
4,82
6,04
8,85
2,49
2,54
2,59
2,65
2,71
2,80
2,90
3,02
3,18
3,39
3,68
4,10
4,77
6,00
8,81
2,45
2,49
2,54
2,60
2,67
2,75
2,85
2,98
3,14
3,35
3,64
4,06
4,74
5,96
8,79
2,38
2,42
2,48
2,53
2,60
2,69
2,79
2,91
3,07
3,28
3,57
4,00
4,68
5,91
8,74
2,31
2,35
2,40
2,46
2,53
2,62
2,72
2,85
3,01
3,22
3,51
3,94
4,62
5,86
8,70
2,23
2,28
2,33
2,39
2,46
2,54
2,65
2,77
2,94
3,15
3,44
3,87
4,56
5,80
8,66
2,19
2,24
2,29
2,35
2,42
2,51
2,61
2,74
2,90
3,12
3,41
3,84
4,53
5,77
8,64
2,15
2,19
2,25
2,31
2,38
2,47
2,57
2,70
2,86
3,08
3,38
3,81
4,50
5,75
8,62
2,10
2,15
2,20
2,27
2,34
2,43
2,53
2,66
2,83
3,04
3,34
3,77
4,46
5,72
8,59
2,06
2,11
2,16
2,22
2,30
2,38
2,49
2,62
2,79
3,01
3,30
3,74
4,43
5,69
8,57
2,01
2,06
2,11
2,18
2,25
2,34
2,45
2,58
2,75
2,97
3,27
3,70
4,40
5,66
8,55
1,96
2,01
2,07
2,13
2,21
2,30
2,41
2,54
2,71
2,93
3,23
3,67
4,37
5,63
8,53
19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,41 19,43 19,45 19,45 19,46 19,47 19,48 19,49 19,50
215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 243,9 245,9 248,0 249,1 250,1 251,1 252,2 253,3 254,3
3
Tabla 4. Valores críticos de la distribución F Fisher-Snedecor para un α de 0,05.
Apéndices
335
336
3,07
3,00
4,35
4,32
4,30
4,28
4,26
4,24
4,23
4,21
4,20
4,18
4,17
4,08
4,00
20
21
22
23
24
25
26
27
28
29
30
40
60
120 3,92
∞
3,84
3,15
4,38
19
3,23
3,32
3,33
3,34
3,35
3,37
3,39
3,40
3,42
3,44
3,47
3,49
3,52
3,55
4,41
18
2
1
ω
υ
2,61
2,68
2,76
2,84
2,92
2,93
2,95
2,96
2,98
2,99
3,01
3,03
3,05
3,07
3,10
3,13
3,16
3
2,4
2,45
2,53
2,61
2,69
2,70
2,71
2,73
2,74
2,76
2,78
2,80
2,82
2,84
2,87
2,90
2,93
4
2,21
2,29
2,37
2,45
2,53
2,55
2,56
2,57
2,59
2,60
2,62
2,64
2,66
2,68
2,71
2,74
2,77
5
2,10
2,18
2,25
2,34
2,42
2,43
2,45
2,46
2,47
2,49
2,51
2,53
2,55
2,57
2,60
2,63
2,66
6
2,01
2,09
2,17
2,25
2,33
2,35
2,36
2,37
2,39
2,40
2,42
2,44
2,46
2,49
2,51
2,54
2,58
7
1,94
2,02
2,10
2,18
2,27
2,28
2,29
2,31
2,32
2,34
2,36
2,37
2,40
2,42
2,45
2,48
2,51
8
1,88
1,96
2,04
2,12
2,21
2,22
2,24
2,25
2,27
2,28
2,30
2,32
2,34
2,37
2,39
2,42
2,46
9
1,83
1,91
1,99
2,08
2,16
2,18
2,19
2,20
2,22
2,24
2,25
2,27
2,30
2,32
2,35
2,38
2,41
10
1,75
1,83
1,92
2,00
2,09
2,10
2,12
2,13
2,15
2,16
2,18
2,20
2,23
2,25
2,28
2,31
2,34
12
1,67
1,75
1,84
1,92
2,01
2,03
2,04
2,06
2,07
2,09
2,11
2,13
2,15
2,18
2,20
2,23
2,27
15
1,57
1,66
1,75
1,84
1,93
1,94
1,96
1,97
1,99
2,01
2,03
2,05
2,07
2,10
2,12
2,16
2,19
20
24
1,52
1,61
1,70
1,79
1,89
1,90
1,91
1,93
1,95
1,96
1,98
2,01
2,03
2,05
2,08
2,11
2,15
Tabla 4. Valores críticos de la distribución F Fisher-Snedecor para un α de 0,05.
1,46
1,55
1,65
1,74
1,84
1,85
1,87
1,88
1,90
1,92
1,94
1,96
1,98
2,01
2,04
2,07
2,11
30
1,40
1,50
1,59
1,69
1,79
1,81
1,82
1,84
1,85
1,87
1,89
1,91
1,94
1,96
1,99
2,03
2,06
40
1,32
1,43
1,53
1,64
1,74
1,75
1,77
1,79
1,80
1,82
1,84
1,86
1,89
1,92
1,95
1,98
2,02
60
1,22
1,35
1,47
1,58
1,68
1,70
1,71
1,73
1,75
1,77
1,79
1,81
1,84
1,87
1,90
1,93
1,97
120
1,03
1,26
1,39
1,51
1,62
1,64
1,65
1,67
1,69
1,71
1,73
1,76
1,78
1,81
1,84
1,88
1,92
∞
Apéndices
Apéndices
Tabla 5. Valores críticos de la distribución del estadístico de Kolmogorov-Smirnov. α) Nivel de significación (α
Grados de libertad ( )
0,2
0,1
0,05
0,02
0,01
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 Más de 40
0,900 0,684 0,565 0,493 0,447 0,410 0,381 0,358 0,339 0,323 0,308 0,296 0,285 0,275 0,266 0,258 0,250 0,244 0,237 0,232 0,226 0,221 0,216 0,212 0,208 0,204 0,200 0,197 0,193 0,190 0,187 0,184 0,182 0,179 0,177 0,174 0,172 0,170 0,168 0,165
0,950 0,776 0,636 0,565 0,509 0,468 0,436 0,410 0,387 0,369 0,352 0,338 0,325 0,314 0,304 0,295 0,286 0,279 0,271 0,265 0,259 0,253 0,247 0,242 0,238 0,233 0,229 0,225 0,221 0,218 0,214 0,211 0,208 0,205 0,202 0,199 0,196 0,194 0,191 0,189
0,975 0,842 0,708 0,624 0,563 0,519 0,483 0,454 0,430 0,409 0,391 0,375 0,361 0,349 0,338 0,327 0,318 0,309 0,301 0,294 0,287 0,281 0,275 0,269 0,264 0,259 0,254 0,250 0,246 0,242 0,238 0,234 0,231 0,227 0,224 0,221 0,218 0,215 0,213 0,210
0,990 0,900 0,785 0,689 0,627 0,577 0,538 0,507 0,480 0,457 0,437 0,419 0,404 0,390 0,377 0,366 0,355 0,346 0,337 0,329 0,321 0,314 0,307 0,301 0,295 0,290 0,284 0,279 0,275 0,270 0,266 0,262 0,258 0,254 0,251 0,247 0,244 0,241 0,238 0,235
0,995 0,929 0,829 0,734 0,669 0,617 0,576 0,542 0,513 0,489 0,468 0,449 0,432 0,418 0,404 0,392 0,381 0,371 0,361 0,352 0,344 0,337 0,330 0,323 0,317 0,311 0,305 0,300 0,295 0,290 0,285 0,281 0,277 0,273 0,269 0,265 0,262 0,258 0,255 0,252
337
Apéndices
Tabla 6. Valores críticos de la distribución del estadístico de Lilliefors. α) Nivel de significación (α
Grados de
338
libertad ( )
0,2
0,15
0,10
0,05
0,01
4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 Más de 30
0,300 0,285 0,265 0,247 0,233 0,223 0,215 0,206 0,199 0,190 0,183 0,177 0,173 0,169 0,166 0,163 0,160 0,149 0,131
0,319 0,299 0,277 0,258 0,244 0,233 0,224 0,217 0,212 0,202 0,194 0,187 0,182 0,177 0,173 0,169 0,166 0,153 0,136
0,352 0,315 0,294 0,276 0,261 0,249 0,239 0,230 0,223 0,214 0,207 0,201 0,195 0,189 0,184 0,179 0,174 0,165 0,144
0,381 0,337 0,319 0,300 0,285 0,271 0,258 0,249 0,242 0,234 0,227 0,220 0,213 0,206 0,200 0,195 0,190 0,180 0,161
0,417 0,405 0,364 0,348 0,331 0,311 0,294 0,284 0,275 0,268 0,261 0,257 0,250 0,245 0,239 0,235 0,231 0,203 0,187
Apéndices
Tabla 7. Valores críticos de la distribución del estadístico del contraste DurbinWatson. Se tabulan los valores de dL y dU para un nivel de significación de α = 0,05. El valor de k indica el número de variables independientes de la regresión. k=1
k=2
k=3
k=4
k=5
n
dL
dU
dL
dU
dL
dU
dL
dU
dL
dU
10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 45 50 55 60 65 70 75 80 85 90 95 100
0,879 0,927 0,971 1,010 1,045 1,077 1,106 1,133 1,158 1,180 1,201 1,221 1,240 1,257 1,273 1,288 1,302 1,316 1,328 1,341 1,352 1,363 1,373 1,383 1,393 1,402 1,411 1,419 1,427 1,435 1,442 1,475 1,503 1,527 1,549 1,567 1,583 1,598 1,611 1,624 1,635 1,645 1,654
1,319 1,324 1,331 1,340 1,350 1,361 1,371 1,381 1,392 1,401 1,411 1,420 1,429 1,437 1,446 1,454 1,461 1,468 1,476 1,483 1,489 1,496 1,502 1,508 1,514 1,519 1,524 1,530 1,535 1,540 1,544 1,566 1,585 1,601 1,616 1,629 1,641 1,652 1,662 1,671 1,679 1,687 1,694
0,697 0,758 0,812 0,861 0,905 0,945 0,982 1,015 1,046 1,075 1,100 1,125 1,147 1,168 1,188 1,206 1,224 1,240 1.255 1,270 1,284 1,297 1,309 1,321 1,332 1,343 1,354 1,364 1,373 1,382 1,391 1,430 1,462 1,490 1,514 1,536 1,554 1,571 1,586 1,600 1,612 1,623 1,634
1,641 1,604 1,579 1,562 1,551 1,543 1,539 1,536 1,535 1,535 1,537 1,538 1,541 1,543 1,546 1,550 1,553 1,556 1,560 1,563 1,567 1,570 1,573 1,577 1,580 1,584 1,587 1,590 1,594 1,597 1,600 1,615 1,628 1,640 1,652 1,662 1,671 1,680 1,688 1,696 1,703 1,709 1,715
0,525 0,595 0,658 0,714 0,767 0,814 0,857 0,897 0,933 0,967 0,998 1,026 1,053 1,078 1,101 1,123 1,143 1,162 1,181 1,198 1,214 1,229 1,244 1,258 1271 1,283 1,295 1,307 1,317 1,328 1,338 1,383 1,421 1.452 1,480 1,503 1,524 1,543 1,560 1,575 1,589 1,602 1,613
2,016 1,928 1,864 1,816 1,779 1,750 1,728 1,710 1,696 1,685 1,676 1,669 1,664 1,660 1,657 1,654 1,652 1,651 1,650 1,650 1.650 1,650 1,650 1,651 1,652 1,653 1,654 1,655 1,656 1,658 1,659 1,666 1,674 1,681 1,689 1,696 1.703 1,709 1,715 1.721 1,726 1,732 1,736
0,376 0,444 0,512 0,574 0,632 0,685 0,734 0,779 0,820 0,859 0,894 0,927 0,958 0,986 1,013 1,038 1,062 1,083 1,104 1,124 1,143 1,160 1,177 1,193 1,208 1.222 1,236 1,249 1,261 1,273 1,285 1,336 1,378 1,414 1,444 1,471 1,494 1,515 1,534 1,551 1,566 1,579 1,592
2,414 2,283 2,177 2,094 2,029 1,977 1,935 1,900 1,872 1,848 1,828 1,812 1,797 1,786 1,775 1,767 1,759 1,753 1,747 1,743 1,739 1,735 1,732 1,730 1,728 1,726 1,725 1,723 1,723 1,722 1,721 1,720 1,721 1,724 1,727 1,731 1,735 1,739 1,743 1,747 1,751 1,755 1,758
0,243 0,315 0,379 0,444 0,505 0,562 0,615 0,664 0,710 0,752 0,792 0,828 0,863 0,895 0,925 0,953 0,979 1,004 1,028 1,050 1,070 1,090 1,109 1,127 1,144 1,160 1,175 1,190 1,204 1,218 1,231 1,287 1,334 1,374 1,408 1,438 1,464 1,486 1,507 1,525 1,542 1,557 1,571
2,822 2,644 2,506 2,390 2,296 2,220 2,157 2,104 2,060 2,022 1,991 1,964 1,940 1,919 1,902 1,886 1,873 1,861 1,850 1,841 1,833 1,825 1,819 1,813 1,807 1,803 1,799 1,795 1,792 1,789 1,786 1,776 1,771 1,768 1,767 1,767 1,768 1,770 1,772 1,774 1,776 1,778 1,780
339
ApĂŠndices
340
IC
Índice de conceptos
ÍNDICE DE CONCEPTOS
A Agrupación de centroides, 210 de medianas, 210 Agrupamiento completo, 210 simple, 210 Amplitud, 23, 26, 352 Angulo, coordenadas polares, 2 ANCOVA, 120, 355 ANOVA, 106, 355 Univariante de un factor, 107 Univariante con varios factores, 113 Multivariante, 120 Requisitos, 97 Antimoda, 17 Apuntamiento, 38, 39 Árbol jerárquico, 208, 356 Asimetría, 37, 39 Asociación, prueba variables cualitativas, 92, 355 variables cuantitativas, 143-147, 355 Autocorrelación, residuos, 150, 161, 165, 169, 170 Autovalor, 228, 229, 237, 242, 265
B Bondad de ajuste, 41, 47, 75, 127, 354 Brown-Forsythe, test, 110
C Campana de Gauss, 32 Capacidad de carga, 296, 298, 299, 300 Carácter, 261, 262, 271 Categorías, 75, 180, 193 Centroide, 231, 232
341
Índice de conceptos
Clasificar Cluster, 207 Discriminante, análisis, 221 Cociente de varianzas, 107 Coeficiente de contingencia, 93, 354 de correlación de Pearson, 143, 355 de incertidumbre, 93, 354 de la correlación canónica, 229, 262 de la función discriminante, 223, 229 de correlación de Spearman, 143, 146, 355 de variación, 15, 25, 27, 352 Colinealidad, 167, 169, 171 Componentes principales, análisis, 235, 249, 356 Comunalidad, 236, 239, 243 Conglomerado de K-medias, 208, 215, 356 Conglomerado jerárquico, 208 Contingencia, coeficiente, 93, 354 Contraste de hipótesis, 71 Bilateral, 73 Unilateral, 73 Coordenadas polares, 1, 352 Correlación, 149 Correlación, coeficiente, 143, 154, 262 Correlación canónica análisis, 254, 356 coeficientes, 262 Correspondencias, análisis, 263, 356 Correspondencias múltiple, análisis, 271 Covariable, 120, 126 Covarianza, 223-227 Covarianza, análisis, 120, 355 Cuantiles, 21 Cuartiles, 21, 22 Cuasidesviación típica, 24, 26 Cuasivarianza, 24, 26, 352 Curtosis, 38, 39 Curva de crecimiento Gompertz, 174 von Bertalanffy, 173 Logística, 172
D Deciles, 21 Desviación típica, 24, 26, 352 Determinístico, 275, 277 Dinámica de población, 296-300 Discriminante, análisis, 221, 356
342
Índice de conceptos
Dispersión, medidas, 23, 352 Distancia Chebychev, 211 City-Block, 211 Euclídea, 211, 307-309 Manhatan, 211 Potencial, 212 Distribución Asimétrica positiva, 37 Asimétrica negativa, 37 Binomial, 43, 44, 353 Bimodal, 17 Continua, 127 Discreta, 127 F de Fisher-Snedecor, 42 Hipergeométrica, 44, 45, 353 χ2, 40 Leptocúrtica, 38 Mesocúrtica, 38 Multimodal, 17 Normal, 32, 33 Platicúrtica, 38 Poisson, 45, 46, 353 Simétrica, 37 t de Student, 39 Unimodal, 17 Diversidad, índice, 313 Dubois, índice, 301 Durbin-Watson, contraste, 165, 170
E Ecuación Compuesta, 150, 151 Crecimiento, 150, 151 Cuadrática o Parábola, 150, 151 Curva-S, 150, 151 Exponencial, 150, 151 Inversa, 150, 151 Lineal, 150, 151 Logarítmica, 150, 151 Logística, 172 Monod, 174 Potencial, 150, 151 Error Estándar, 25, 27, 352 Tipo I, 72 Tipo II, 72 Estadística descriptiva, 15
343
Índice de conceptos
Estandarización de datos, 2, 3, 5, 208 Estimación curvilínea, 151 Estocástico, 275
F Factores, 235 Factorial, análisis, 235, 356 Fisher, función discriminante, 223 Fisher, Prueba exacta, 83, 355 Fluctuación, índice, 301 Frecuencia absoluta, 264 acumulada, 49, 50, 54, 57 esperada, 51-54, 56, observada, 47, 50-54, 56, 57 relativa, 268, 270 Friedman, ANOVA de, 140, 142, 355 Función Densidad, 32 Discriminante, 221, 223, 225 Probabilidad, 31, 192, 205
G G, prueba Bondad de ajuste, 51, 75, 354 Homogeneidad muestras, 77, 355 Independencia variables, 90, 354 Gamma (γ), coeficiente, 144-147, 355 Grados de libertad, 25 Gráfico Grupos combinados, 225, 232 Grupos separados, 225 Polar, 9, 10 Puntuaciones, 247 Sedimentación, 242 Mapa territorial, 225 Grupos, 207, 215, 221
H Hipótesis Alternativa, 71 Nula, 71 Homocedasticidad de los residuos, 150, 155, 159, 161, 163, 164, 169, 170, 180 Homogeneidad de las varianzas, 66, 67, 98, 99, 101, 104, 108, 110, 114, 116, 123, 124 Homogeneidad, prueba variables cualitativas
344
Índice de conceptos
muestras relacionadas, 87, 355 muestras independientes, 78, 355 variables dicotómicas, 83, 355 variables cuantitativas muestras dependientes, 103-106, 137-142, 355 muestras independientes, 98-103, 106, 127, 128, 130-136, 355 Hulbert, estandarización amplitud nicho trófico, 318
I Incertidumbre, coeficiente, 93, 354 Independencia de variables variables cualitativas, 90, 354 variables cuantitativas, 143, 354 Índice Estabilidad, 301 Fluctuación, 301 Diversidad, 313 Jaccard, 305 Levins, 317, 320 Manly, 316 Morisita, 311 Shannon-Wiener, 313 Simpson, 313 Sorensen, 307 Similitud, 304 Tróficos, 316 Intervalo de confianza, de la diferencia de medias, 66, 67, 354 de la media, 59, 354 de la razón de varianzas, 64, 354 de la varianza y desviación típica, 64, 65, 354 Intravarianza, 107
J Jaccard, índice, 305 χ2 Bondad de ajuste, 47, 75, 127, 354 Contraste homogeneidad, 77, 355 Distribución, 40, 353 Independencia variables, 90, 354
K Kendall, coeficiente (τ), 144, 147, 355 Kolmogorov-Smirnov ajuste a una distribución de variables continuas, 54, 55 para 2 muestras, 130, 355 test de normalidad, 54, 55, 353 Kruskal-Wallis, prueba, 133, 355
345
Índice de conceptos
L Lambda de Wilks, 229 Levene, prueba, 66, 70, 101, 103, 104, 108, 114, 116, 123 Levins, índice, 317 Lilliefors distribución del estadístico, 334 test, 54, 55, 57, 68
M M de box, 223, 227, 234 Manly, índice α, 316 Matriz de distancias, 213 McNemar, prueba, 87, 355 Media aritmética, 15, 18, 352 armónica, 16, 18, 352 geométrica, 16, 18, 352 ponderada, 19, 20, 352 Mediana, 17, 19 Mediana, prueba de la, 136, 355 Medidas de dispersión, 23, 352 de posición central, 15, 352 de similitud, 304 Método de extracción, 236, 239 de integración, 282, 292 de Ward, 211 del centroide, 240 del eje principal, 240 o regla de agrupamiento, 210 Moda, 17, 19, 352 Modelo lineal general (MGL), 113 Modelo, 275-300 Módulo, coordenadas polares, 2 Morisita, índice, 311 Multivariante, 207
N Nicho trófico, amplitud, 317, 319 Nivel significación, 72 No paramétricos, métodos, 76, 84, 89, 96, 127, 355 Normalidad Datos, 56-58, 99, 104, 107, 114, 123 Residuos, 149, 159, 161-163, 169
O Outliers, 1, 150
346
Índice de conceptos
P Paramétricos, métodos, 97, 355 Percentiles, 21, 22, 352 Pearson, coeficiente de correlación, 143, 154, 199, 355 Phi, coeficiente, 92, 354 Polinómico, contraste, 109 Porcentaje de desacuerdo, 212 Post hoc, pruebas Bonferroni, 112 DMS, 112 C de Dunnett,113 Duncan, 112 Dunnett, 113 Gabriel, 113 Games-Howell, 113 GT2 de Hochberg, 112 REGWF, 112 Scheffe, 112 Sidak, 112 SNK, 112 Tukey, 112 Tukey-b, 112 Waller-Duncan, 113 T2 de Tamhane, 113 T3 de Dunnett, 113 Probabilidad, cálculo, 33-36, 43-45 Puntuaciones discriminantes, 225
Q Q de Cochran, prueba, 88, 355
R Radianes, 6 Rachas, test, 129 Rango, 128 Razón de varianzas, ver cociente de varianzas Recorrido intercuartílico, 25, 27, 352 Región aceptación de hipótesis nula, 72, 73 Región crítica, 72, 73 Regresión variable dependiente cualitativa Logística binomial, 180, 356 Logística multinomial, 193, 356 variable dependiente cuantitativa Múltiple lineal, 165, 356 Múltiple no lineal, 172, 356 Requisitos, 149 Simple, 150, 151, 356
347
Índice de conceptos
Residuos, 149, 150, 155, 158, 159, 161, 165, 169-170 Rotación Biquartimax, 246 Biquartimax normalizada, 246 Equamax, 246 Equamax normalizada, 246 Quartimax, 246 Quartimax normalizada, 246 Varimax, 245 Varimax normalizada, 246
S Sattherthwaite, grados de libertad, 98 Scree, test, 241 Selección del alimento, índice, 316 Shapiro-Wilk, ajuste normalidad, 47, 56-58, 101, 104, 108, 114, 116, 123, 353 Shannon- Wiener, índice 313 Signos, prueba, 137, 355 Similitud, índice, 304 Simpson, índice, 313 Sorensen, índice, 307 Spearman (rs), coeficiente correlación, 143, 145, 146, 355
T t-student, distribución, 39 t-test Muestras independientes, 98, 355 Muestras dependientes o pareadas, 103, 355 Tabla de agrupamiento, 214 Tasa de crecimiento, 173, 297-300 Transformación datos, 98, 155 Tukey, escalera de las transformaciones, 98
U U de Mann-Whitney, prueba, 128, 355
V V de Cramer, coeficiente, 92, 354 Validación cruzada, 224, 225, 233 Variabilidad, 23 Variable Canónica, 261 Cualitativa, 31, 190 nominal, 31, 75 ordinal, 31, 75 Cuantitativa, 31
348
Índice de conceptos
continua, 31 discreta, 31 de agrupación, 102 Dependiente, 149 Dicotómica, 180, 193 Independiente, 143 Politómica 180 Varianza, 24, 26, 352 Varianzas, homogeneidad, 66, 67, 97, 104, 108, 114, 116, 123, 148 Vectores de fuerza, 2 Vinculación Inter-grupos, 210 Intra-grupos, 210
W Wald-Wolfowitz, test de rachas, 129, 355 Ward, método, 211 Wilcoxon, prueba, 137, 355 Wilks, Lambda, 229 Williams, corrección, 52
Y Yates, corrección, 82
Z Z, estadístico distribución normal, 33-36
349
Ă?ndice de conceptos
350
GR GUÍA RESUMEN
Esta guía tiene por objeto orientar al lector en la elección de la técnica aplicable. Se muestran algunos ejemplos de la operación estadística a realizar, el tipo de datos disponibles y el método o técnica más adecuado dentro de los que se describen en este libro. La lista no es en modo alguno exhaustiva; existen otras operaciones realizables con los métodos disponibles, y otras técnicas estadísticas aplicables para resolver los mismos problemas estadísticos, por lo que debe considerarse simplemente como una guía orientativa.
351
352 15
Moda Mediana Media ponderada Media aritmética (más frecuentemente usada)
Variables cualitativas en escala nominal Variables con distribución muy asimétrica Datos con diferente peso o importancia Cualquier variable cuantitativa
Medidas de dispersión
24 24
Varianza o cuasivarianza Desviación típica o cuasidesviación típica (de uso más común porque se expresa en las mismas unidades que los datos)
Error estándar de la media
Recorrido intercuartílico
Cuando se quiere medir la variabilidad de la media muestral (para estimar la media poblacional) Se expresa la posición central por medio de la mediana
25
25
25
23
17
17
Amplitud (no es el mejor método para estimar dispersión)
Para comparar la dispersión de la misma vaCoeficiente de variación riable en poblaciones distintas.
Cuando se utiliza la media aritmética como medida de posición
19
Media armónica
Velocidades con distancia constante, o precios con presupuesto constante
Medidas de posición central
16
Media geométrica
Tasas de crecimiento
16
21
Percentiles, cuartiles y deciles
1
Página
Medidas de posición basadas en rangos
Coordenadas polares
Método
3
Tipo de datos
Estandarización de datos
Representación de datos con más de dos variables
Tipo de medida u operación estadística
Guía resumen
Intervalo de confianza de la media de una población Normal
Determinación específica de ajuste a una distribución Normal
Determinación del tipo de distribución (Normal, Binomial, Poisson, etc.)
Calcular la probabilidad de uno o varios valores de una variable discreta
Calcular la probabilidad de que una variable tome valores en un determinado intervalo
Tipo de medida u operación estadística
Estadístico Z con la cuasidesviación típica (aproximación de la t)
60
60
Estadístico Z con la desviación típica
Desviación típica conocida Desviación típica desconocida (se trabaja con una muestra del conjunto de toda la población) y n ' 30
56
54
Shapiro-Wilk
Test de Kolmogorov-Smirnov
Preferentemente variables cuantitativas continuas, con tamaño de muestra pequeño o grande Variables continuas y tamaño de muestra pequeño (< 30)
Test G
Igual que el anterior pero con diferencias entre frecuencias observadas y esperadas superiores a las frecuencias esperadas
51
47
Prueba χ2 de bondad de ajuste
Para variables cuantitativas continuas y discretas con un tamaño de muestra grande
45
Función de probabilidad de Poisson
Sucesos independientes distribuidos al azar en el tiempo (como el número de llamadas telefónicas a una centralita) o en el espacio
44
43
Función de probabilidad Hipergeométrica
Función de probabilidad Binomial
Los sucesos son independientes y con dos opciones complementarias y excluyentes (como cara y cruz)
32
Página
Idem con sucesos no independientes, ya que la muestra se extrae sin reposición de una población finita
Estadístico Z
Método
Datos con distribución Normal
Tipo de datos
Guía resumen
353
354 Estadístico t
Varianza desconocida (se trabaja con una muestra del conjunto de toda la población) y n < 30
Asociación variables
Independencia variables
Variables cualitativas
Coeficiente de contingencia
93
92 93
V de Cramer Coeficiente de incertidumbre
92
Ver «Asociación variables»
Variables cuantitativas
91
91
75 75
66
65
63
Phi
Test G
Variables cualitativas
χ2
Test G
χ2
Variables cuantitativas Variables cualitativas
Ver «Determinación del tipo de distribución»
Variables Normales
Intervalo de confianza de la razón de varianzas de dos poblaciones Normales
Bondad de ajuste
Estadístico F
Variables Normales
Intervalo de confianza de la varianza y desviación típica de una población Normal Estadístico χ2
Estadístico Z con la cuasidesviación típica (aproximación de la t)
Varianza desconocida (una muestra del conjunto de toda la población) y n ' 30
62
61
Estadístico Z con la desviación típica
Varianzas conocidas
Intervalo de confianza de la diferencia de medias de dos poblaciones Normales
60
Estadístico t
Desviación típica desconocida (se trabaja con una muestra del conjunto de toda la población) y n < 30
Página
Intervalo de confianza de la media de una población Normal
Método
Tipo de datos
Tipo de medida u operación estadística
Guía resumen
Dos muestras independientes
Variables cuantitativas
Variables cuantitativas (o cualitativas ordinales)
Tipo de datos
Pruebas de homogeneidad para variables cuantitativas sin distribución Normal o sin homogeneidad de varianzas (métodos no paramétricos)
Pruebas de homogeneidad para variables cuantitativas con distribución Normal y con homogeneidad de varianzas (métodos paramétricos)
144 154
Coeficiente concordancia de Kendall Coeficiente correlación de Pearson
88
Q de Cochran t-test
Datos pareados con varias mediciones Dos muestras independientes
128 129
ANCOVA U de Mann-Whitney Wald-Wolfowitz
Las variables que se comparan están afectadas por otras variables (por ejemplo el tiempo)
K variables relacionadas
Dos variables relacionadas o pareadas
K muestras independientes
Dos muestras independientes
120
ANOVA
Dos o más muestras
133 137
ANOVA Kruskal-Wallis Contraste de los signos
ANOVA de Friedman
140
137
133
Contraste de la mediana
Prueba de Wilcoxon
130
Kolmogorov-Smirnov de 2 muestras
106
t-test
Dos muestras dependientes
103
98
87
Prueba de McNemar
Datos pareados
83 83
Test G
78
144
Gamma
χ
144
τ de Kendall
2
143
Página
Coeficiente correlación Spearman
Método
Prueba exacta de Fisher
Pruebas de homogeneidad para Variables dicotómicas. Muestras independientes variables cualitativas
Asociación variables
Tipo de medida u operación estadística
Guía resumen
355
356 Conglomerado de K-medias
Con idea previa del número de grupos
Variables cuantitativas y cualitativas
Predecir el comportamiento de sistemas
Modelos de simulación
Correlación Canónica
Análisis de Correspondencias
Variables cualitativas. Tablas grandes de frecuencias Variables cuantitativas
Análisis de Componentes Principales
Sin hipótesis previa. Método descriptivo. Variables cuantitativas correlacionadas.
Análisis Factorial
Clasificación Árbol jerárquico
Sin hipótesis a priori
Las variables dependen de factores comunes. Modelo explicativo. Variables cuantitativas correlacionadas.
Regresión logística multinomial
Variable dependiente politómica (varias categorías)
Análisis Discriminante
215
Regresión logística binomial
Variable dependiente dicotómica (dos categorías)
Variables cuantitativas
208
Regresión simple o múltiple no lineal
Entre varias variables con relación no lineal
275
255
262
235
235
221
193
180
172
165
Regresión lineal múltiple
Entre una variable dependiente y varias variables independientes con relación lineal
150
Página
Regresión simple
Método
Entre dos variables
Tipo de datos
Correlacionar dos grupos de variables
Reducir el número de variables para explicar los datos. Analizar las relaciones entre variables.
Analizar si existen diferencias significativas entre grupos con respecto a un conjunto de variables. Asignar casos a grupos.
Buscar agrupaciones entre los datos cuando tenemos muchas variables.
Función que describe la relación cuando la variable dependiente es cualitativa
Función que describe la relación entre variables cuantitativas
Tipo de medida u operación estadística
Guía resumen
NOTAS
I
NOTAS
I
NOTAS
I
NOTAS
I
I
I