Estadística para investigadores: todo lo que siempre quiso saber y nunca se atrevió a preguntar
Módulo 4. Análisis de la relación entre dos variables cualitativas: Test Chi cuadrado
Mª Purificación Galindo Villardón Mª Purificación Vicente Galindo Universidad de Salamanca Departamento de Estadística Módulo 4. Análisis de la relación entre dos variables cualitativas: test ChiCuadrado
1
Índice Pregunta 1. ..................................................................................................... 4 Pregunta 2. ..................................................................................................... 4 Pregunta 3. ..................................................................................................... 4 Pregunta 4. ..................................................................................................... 5 Pregunta 5. ..................................................................................................... 5 Pregunta 6. ..................................................................................................... 5 Pregunta 7. ..................................................................................................... 6 Pregunta 8. ..................................................................................................... 6 Pregunta 9. ..................................................................................................... 7 Pregunta 10. .................................................................................................. 10
Módulo 4. Análisis de la relación entre dos variables cualitativas: test Chi-Cuadrado
2
Respuestas a las preguntas m谩s frecuentes con las que se encuentra un investigador
M贸dulo 4. An谩lisis de la relaci贸n entre dos variables cualitativas: test Chi-Cuadrado
3
Pregunta 1.
¿Por qué, al aplicar el test Chi-cuadrado, en el estudio de tablas de contingencia, los programas informáticos lanzan un mensaje advirtiendo sobre el número de frecuencias observadas menores de cinco?? Porque con frecuencias observadas bajas cabe esperar frecuencias esperadas bajas y las frecuencias esperadas aparecen en el denominador del estadístico de contraste (la formula). Una frecuencia esperada cero llevaría a una división por cero que no es posible efectuarla y un cociente con una frecuencia casi cero (0.0000000006, por ejemplo) conllevaría un sumando, en la fórmula de contraste enorme, y una suma enorme, que nos llevaría a rechazar la H0 indebidamente. Dicho en términos más técnicos se incrementaría el riesgo Tipo I (rechazo indebido de la Hipótesis nula).
Pregunta 2.
¿Un test chi-cuadrado, que lleva asociado un p-valor > 0.05, nos permite estar seguros de que las dos variables son independientes? No. Solo nos dice que no hay pruebas suficientes para rechazar la independencia, con el nivel de riesgo (confianza) pre-establecido.
Pregunta 3. ¿Un test chi-cuadrado, que lleva asociado un p-valor < 0.05, nos permite estar seguros de que las dos variables están relacionadas?
Módulo 4. Análisis de la relación entre dos variables cualitativas: test Chi-Cuadrado
4
No. Solo nos dice que a la vista de las pruebas que aportan los datos, el riesgo que corremos al rechazar la Hipótesis de independencia es bajo. Pero garantía total de que estén relacionadas las variables no la tenemos, tal como ocurre en un juicio. Si el juez estima que las pruebas son suficientes para declarar delincuente al sujeto, le declara y le penaliza (con cárcel, por ejemplo) pero seguridad total de si es el delincuente no existe.
Pregunta 4. ¿Se puede utilizar el test Chi-cuadrado con variables ordinales? Sí, pero no captura la información asociada al orden. Las trata como nominales.
Pregunta 5.
En una tabla de contingencia con frecuencias observadas nulas, que proporciona resultados estadísticamente significativos, ¿hemos de tomar alguna precaución? Si porque la significación puede ser espúrea (ver respuesta a la pregunta 1).
Pregunta 6. En una tabla de contingencia con frecuencias observadas nulas, que proporciona resultados estadísticamente no significativos, ¿hemos de tomar alguna precaución? No, porque frecuencias observadas bajas llevan asociadas frecuencias esperadas bajas. Esas frecuencias van en el denominador del estadístico de contraste y
Módulo 4. Análisis de la relación entre dos variables cualitativas: test Chi-Cuadrado
5
pueden proporcionar un valor experimental más alto del real. Pero si aun siendo mayor de lo que debería, no ha sido suficiente para rechazar la Hipótesis de independencia, el que se haya aumentado no ha tenido trascendencia alguna.
Pregunta 7. ¿En una tabla de contingencia que contiene frecuencias relativas (o porcentajes) y proporciona resultados estadísticamente significativos, hemos de tomar alguna precaución? Trabajando con frecuencias relativas (porcentajes), el valor experimental es más bajo del que debería ser. Si aun siendo más bajo, ha sido suficiente para rechazar la independencia, pues no hay problema.
Pregunta 8. En una tabla de contingencia que contiene frecuencias relativas (o porcentajes) y proporciona resultados estadísticamente no significativos, ¿hemos de tomar alguna precaución? Sí. Trabajando con frecuencias relativas (porcentajes), el valor experimental es más bajo del que debería ser. La aceptación de la hipótesis nula de independencia puede ser debida a eso. En términos más técnicos, podríamos decir que puede existir un incremento en el riesgo tipo II (aceptación indebida de la Hipótesis nula).
Módulo 4. Análisis de la relación entre dos variables cualitativas: test Chi-Cuadrado
6
Pregunta 9.
Si en lugar de tener dos variables tenemos tres (o más), ¿bastaría con estudiar tantas tablas de contingencia como resulten del cruce de todas las variables (cruzando la variable 1 con la 2, la 1 con la 3, la 2 con la 3, etc.)? No. Esa es una mala práctica porque puede ocurrir que la información resultante de los análisis parciales sea contradictoria, hecho conocido en la literatura especializada como la PARADOJA DE SIMPSON (“Fenómeno de confusión" en el cual la presencia de una variable cambia la dirección de una asociación). Un ejemplo ficticio para poner de manifiesto este hecho podría ser el siguiente tomado de RUIZ-MAYA y cols., 1995. (Análisis Estadístico de Encuestas. Datos cualitativos). Supongamos la siguiente tabla en la que se recoge información sobre la posible relación entre la Esperanza de encontrar empleo y la Duración del paro, tanto para varones como para mujeres.
Módulo 4. Análisis de la relación entre dos variables cualitativas: test Chi-Cuadrado
7
VARONES Esperanza de encontrar empleo Si
No
Corta
90
10
Larga
9
1
Duración del paro
2 = 0 MUJERES
Esperanza de encontrar empleo Si
No
Corta
1
9
Larga
10
90
Duración del paro
2 =0
Módulo 4. Análisis de la relación entre dos variables cualitativas: test Chi-Cuadrado
8
Si analizamos la tabla bifactorial correspondiente a los varones (parte superior), obtenemos que las frecuencias esperadas bajo supuesto de independencia son exactamente iguales a las frecuencias observadas; hecho éste que se corresponde con un valor experimental para el X2 = 0 y con la conclusión de que, en varones, ambas variables pueden considerarse independientes. El mismo análisis sobre la tabla bidimensional para las mujeres (parte inferior), proporciona de nuevo un valor experimental nulo del cual podemos concluir que, también en mujeres, la esperanza de encontrar empleo puede considerarse independiente de la duración del paro. Como el resultado se mantiene, tanto en hombres como en mujeres, parece que el sexo no tiene mayor interés en el estudio. Colapsando, pues, en esa variable (es decir, trabajando con la tabla marginal en la cual hemos sumado las frecuencias correspondientes a ambos sexos), obtenemos la tabla siguiente:
VARONES y MUJERES E Esperanza de encontrar empleo Si
No
91
19
19
91
Corta Duración del paro Larga
2 =94,252
Módulo 4. Análisis de la relación entre dos variables cualitativas: test Chi-Cuadrado
9
El valor experimental para X2 es 94.25, el cual se corresponde con un "p-valor" altamente significativo (p<0.01), razón por la cual hemos de concluir, a la vista de esta parte del análisis, que ambas variables están claramente correlacionadas. Esto supone una clara contradicción con los dos resultados anteriores. Paradoja de Simpson. El problema se debe a que colapsar una tabla puede llevarnos a una ponderación inadecuada de las distintas poblaciones en estudio. En este ejemplo ficticio, 100 varones llevaban en el paro un tiempo corto y solo 10 mujeres estaban en esa situación; justo la proporción se invertía para los de la larga duración. Sin embargo esta información no había sido capturada al calcular el valor del estadístico de contraste. Pregunta 10. ¿Qué hacer cuando tenemos tres variables en estudio? Abordar el problema analizando las tablas trifactoriales. Esta situación es más compleja ya que no hay una única hipótesis a contrastar sino 7. Requiere más conocimientos que los impartidos en este curso introductorio.
Módulo 4. Análisis de la relación entre dos variables cualitativas: test Chi-Cuadrado
10
M贸dulo 4. An谩lisis de la relaci贸n entre dos variables cualitativas: test Chi-Cuadrado
11