Estadística Inferencial
Experimentos Multinomiales Prueba de Independencia y Prueba de bondad de ajuste Presentación: La prueba de hipótesis en experimentos multinomiales es una herramienta sumamente útil a la hora de analizar datos nominales con el fin de comprobar distribuciones modelo en ciertas poblaciones o de verificar la Independencia entre dos conceptos. Algunos ejemplos de aplicación son el corroborar participaciones en el mercado de distintas compañías, analizar la Independencia del género de la persona respecto a su preferencia por cierto producto, el comprobar que una población sigue una distribución normal o alguna otra distribución, etc. Competencia: A través de este módulo desarrollarás la siguiente competencia específica: ● Desarrolla la habilidad para identificar, analizar y resolver problemas que requieran
el uso de las herramientas de prueba de hipótesis de experimentos multinomiales y dar conclusiones acertadas para la correcta toma de decisiones. Propósitos: ● Identificar los casos donde se requiera la aplicación de una prueba de bondad o una prueba de independencia para el análisis de la información y correcta toma de decisiones. ● Desarrollar la capacidad de análisis para identificar los modelos esperados y establecer la mejor estrategia y herramientas a utilizar. ● Resolver casos y problemas de comprobación de hipótesis de pruebas de ajuste y de independencia. Enrique Israel, 2016
Estadística Inferencial Experimentos Multinomiales: Como otros procedimientos de Prueba de Hipótesis, en los experimentos multinomiales se comparan los resultados muestrales con los resultados esperados cuando la hipótesis nula es verdadera. La conclusión de la prueba de Hipótesis se basa en qué tan cerca están los datos muestrales de los datos esperados. Un experimento Multinomial es una prueba con datos nominales donde las observaciones se agrupan en varias categorías discretas, mutuamente excluyentes dentro de cada factor y uno cuenta la frecuencia de la ocurrencia en cada categoría. Sus características son: •
Resultado del experimento da un conjunto de datos categorizados.
•
Consiste en “n” ensayos independientes e idénticos
•
El resultado de cada ensayo se localiza exactamente dentro en una de las “k” categorías
•
Existe una probabilidad asociada a cada celda en particular, y esas probabilidades permanecen constantes durante el experimentos. De tal forma que la suma de las probabilidades de las “k” categorías es igual a 1.
•
Del experimento resultará un conjunto de frecuencias observadas fo que representan el número de veces que un ensayo caen en una categoría en particular.
Los experimentos multinomiales pueden dividirse en : •
Prueba de bondad: Aquella donde se busca comprobar que la distribución de probabilidad entre las categorías sigue un modelo en particular de la población. Por Ejemplo cuando se quiere comprobar que la participación en el mercado entre tres marcas sigue siendo la misma definida un año antes.
•
Prueba de Independencia: Aquella donde se busca comprobar la Independencia entre dos factores, para lo cual los datos se acomodan en una tabla de contingencia donde las columnas representan al primer factor y los renglones al segundo. Por ejemplo cuando se quiere comprobar que la calificación que se obtiene en cierto curso es independiente del profesor con quien se toma éste.
Enrique Israel, 2016
Estadística Inferencial Prueba de Independencia: La prueba de independencia nos ayuda a determinar si dos cualidades o variables referidas a elementos de una población están relacionadas entre sí. Supongamos que de n elementos de una población se han observado dos características X e Y, obteniéndose una muestra aleatoria simple bidimensional (X1,Y1),(X2,Y2),...,(Xn,Yn). Sobre la base de dichas observaciones se desea contrastar si las características poblacionales X e Y son independientes o no. Para ello se dividirá el conjunto de posibles valores de X en k conjuntos disjuntos llamados categorías en columnas A 1,A2,...,Ak; mientras que el conjunto de posibles valores Y será descompuesto en r conjuntos disjuntos llamados categorías en filas : B1,B2,...,Br. Al clasificar los elementos de la muestra, aparecerá un cierto número de ellos, nij , en cada una de las k × r clases así constituidas, dando lugar a una tabla de contingencia de la forma:
A1
A2
...
Ak Total
B1
n11
n12
n1k n1
B2
n21
n22
n2k n2
nr1
nr2
nrk nr
…. Br
Total n1 n2 nk n Para la prueba de hipótesis se sigue la misma metodología que se ha manejado del valor crítico: 1. Establecer el objetivo que debe ir relacionado en probar la independencia entre dos cualidades. 2. Establecer el juego de hipótesis donde:
Enrique Israel, 2016
Estadística Inferencial Ho: Las cualidades son Independientes H1: Las cualidades no son Independientes ( Es decir son dependientes) 3. Definir el valor crítico. Para la prueba de Independencia se realiza con la distribución Chi_cuadrado donde los grados de libertad se calculan como gl= (k-1)(r-1) es decir número de categorías en la cualidad columna menos uno, por número de categorías en la cualidad filas menos uno. 4. Definir el valor estadístico Xe2 el cual estará en función de las frecuencias observadas fo y esperadas fe:
χ2 =
∑ ∑ (foij −feij)2 i
j
fe ij
donde: •
La frecuencia observada foij es cada dato de nuestra muestra ubicado en la celda ij de nuestra tabla de contingencia.
•
La frecuencia esperada feij para cada celda ij se obtendrá:
fe ij =
(total del renglón i)(Total de la columna j) (Tamaño de muestra)
Es importante que toda frecuencia esperada debe ser de al menos 5, de no ser así la prueba pierde confiabilidad. 5. Tomar la decisión, en el caso de la Prueba de independencia por el método de valor crítico la regla de decisión es: Rechazo la Ho si:
Xe2 > Xc2 Enrique Israel, 2016
Estadística Inferencial Para ampliar tu información sobre este tema, se te sugiere revisar los siguientes recursos:
De la Profesora Jessica Fernández, Pruebas de independencia con ji cuadrada recuperado de https://www.youtube.com/watch?v=_gpy2ji7_sE Consultado 05/04/2016 Juan Francisco Monge Ivars, Ángel A. Juan Pérez. (2003). ESTADÍSTICA NO 05/04/2016,
PARAMÉTRICA: PRUEBA CHI-CUADRADO. de
Proyecto
e-Math
Sitio
web:
http://www.uoc.edu/in3/emath/docs/Chi_cuadrado.pdf
Ejemplo Limpia Ya S.A. :
La empresa Limpia Ya S.A. comercializa tres tipos de detergentes A, B y C. En un análisis de segmentación de mercado para los tres productos, el grupo de investigación encargado ha planteado la duda de si las preferencias para los tres detergentes son diferentes entre los consumidores de los sectores Alto, Medio y Bajo. Si la preferencia de los detergentes fuera independiente del sector consumidor, se iniciaría una única campaña de publicidad para los tres productos; sin embargo, si la preferencia depende del sector de consumo, se ajustarán las promociones para tener en cuenta los distintos mercados de venta. Supongamos que se tomó una muestra de 120 consumidores. Después de usar los tres tipos de detergentes, se les pide manifestar su preferencia. Los resultados de la muestra se presentan en la siguiente tabla:
Enrique Israel, 2016
Estadística Inferencial
Tabla 1 Producto Detergente Detergente Detergente Total A Alto 14 Sector Medio 21 Bajo 15
B 12 16 12
C 10 8 12
36 45 39
Total
40
30
n= 120
50
1. Objetivo Comprobar que la preferencia por un determinado tipo de detergente es independiente del sector del consumidor. 2. Juego de Hipótesis: Ho: La preferencia por un determinado tipo de detergente es independiente del sector del consumidor. H1: La preferencia por un determinado tipo de detergente no es independiente del sector del consumidor. 3. Valor crítico: Grados de libertad gl= (k-1)(r-1) se tienen 3 categorías en la cualidad Tipo de Detergente por lo que k=3 y se tienen 3 categorías en la cualidad Sector por lo que r=3. gl= (k-1)(r-1) = (3-1)(3-1) = 4 No se define un nivel de significancia por lo que se sugiere tomarlo como ɑ= 0.05 De la tabla de Chi_Cuadrada se lee el dato: Enrique Israel, 2016
Estadística Inferencial
Xc2 = 9.488 4. Valor estadístico: Para este cálculo necesitamos de las frecuencias observadas fo y esperadas fe. La frecuencia observada fo para cada celda es la frecuencia que se obtiene de la muestra y se resumen en la Tabla 1 de contingencia, y para la frecuencia esperada fe utilizaremos la fórmula (a cada celda de la tabla de contingencia le corresponde una frecuencia observada y una frecuencia esperada): fe ij =
(total del renglóni)(Total de lacolumna j) (Tamaño de muestra )
Detergente A fo:14 Alto
fe=
36×50 =15 120
fo:21 Medio
fe=
fe=
Sector Total Enrique Israel, 2016
50
fe=
36×40 =12 120
fo:16
fo:12 39×50 =16.25 120
fe=
40
Detergente C fo:10 fe=
fe=
45 45×30 =11.25 120
fo:12 39×40 =13 120
fe=
30
Total 36
36×30 =9 120
fo:8
45×50 45×40 =18.75 fe= =15 120 120
fo:15 Bajo
Producto Detergente B fo:12
39 39×30 =9.75 120 20
Estadística Inferencial Nótese que la suma total de las frecuencias esperadas debe ser igual a la suma total de las frecuencias observadas. Todas las frecuencias esperadas son superiores a 5 por lo que se puede proseguir con la Prueba de independencia. Se prosigue ahora con el cálculo de Xe2 mediante la fórmula:
Detergente A
Alto
Detergente B
(14−15)2 =0.066 15
(12−12)2 =0 12
Detergente C (10−9)2 =0.111 9
Total
0.177
1.274 Sector Medio
(21−18.75)2 =0.27 18.75
(16−15)2 =0.066 15
(8−11.25)2 =0.938 11.25 0.692
Bajo
Total
(15−16.25)2 =0.096 16.25
0.432
(12−13)2 =0.077 13
0.143
Xe2 = 2.143
Enrique Israel, 2016
(12−9.75)2 =0.519 9.75
1.568
2.143
Estadística Inferencial 5. Tomar la decisión Xe2 = 2.143 Xc2 = 9.488 Vemos que Xe2 < Xc2 ( 2.143 < 9.488) y la regla de rechazo nos marca: Rechazo la Ho si: Xe2 > Xc2
Lo cual no se cumple por lo que no se rechaza la Ho y se llega a la conclusión de que: No hay evidencia suficiente para comprobar que el tipo de Detergente y el sector del consumidor sean No Independientes, en otras palabras no hay evidencia suficiente para comprobar que exista una relación entre el sector del consumidor y el tipo de detergente que prefiere.
Enrique Israel, 2016
Estadística Inferencial Prueba de Bondad: Esta prueba permite verificar que la población de la cual proviene una muestra tiene una distribución especificada o supuesta. Sea X una variable aleatoria poblacional y fe(x) la distribución (o densidad) de probabilidad especificada o supuesta para X
Se desea probar la hipótesis: Ho: f(x) = fe(x) En contraste con la hipótesis alterna: H1: f(x) ≠ fe(x)
Suponer que las observaciones de la muestra están agrupadas en k clases, siendo la cantidad de observaciones en cada clase i = 1, 2, ..., k la frecuencia observada fo. Con el modelo especificado fe(x) se puede calcular la probabilidad pe que un dato cualquiera pertenezca a una clase i. Con este valor de probabilidad se puede encontrar la frecuencia esperada fe para la clase i, es decir, la cantidad de datos que según el modelo especificado deberían estar incluidos en la clase i:
fei = pei *n. Tenemos entonces dos valores de frecuencia para cada clase i la frecuencia observada fo (corresponde a los datos de la muestra) y la frecuencia esperada fe (corresponde al modelo propuesto) . Para la prueba de hipótesis se sigue la misma metodología que se ha manejado del método de valor crítico:
Enrique Israel, 2016
Estadística Inferencial 1. Establecer el objetivo que debe ir relacionado en comprobar que la población de interés sigue una distribución o comportamiento supuesto. 2. Establecer el juego de hipótesis donde: Ho: La población cumple con la distribución supuesta H1: La población NO cumple con la distribución supuesta
3. Definir el valor crítico. Para la prueba de bondad se realiza con la distribución Chi_cuadrado donde los grados de libertad se calculan como gl= k-1-r donde r es el número de parámetros que se est+án suponiendo para el desarrollo.
4. Definir el valor estadístico Xe2 el cual estará en función de las frecuencias observadas fo y esperadas fe:
k
X 2e =∑ i=1
(f o −f e )2 fe
donde: La frecuencia observada foi es cada dato de nuestra muestra ubicado en la categoría i . La frecuencia esperada fei para la catergoría i:
fei = pe i *n
Enrique Israel, 2016
Estadística Inferencial Es importante que toda frecuencia esperada debe ser de al menos 5, de no ser así la prueba pierde confiabilidad 5. Tomar la decisión, en el caso de la Prueba de bondad por el método de valor crítico la regla de decisión es: Rechazo la Ho si: Xe2 > Xc2 Te invito a que analices el siguiente ejemplo: Proyecto Colors de M&M/Mars M&M/Mars, fabricante de chocolates M&M, realizaron un sondeo nacional en el que más de 10 millones de personas dieron su preferencia para un nuevo color. El resultado de este sondeo fue el reemplazo de un color café claro por uno azul. En el prospecto “Colors” de M&M/Mars, la distribución de los colores de estos chocolates es la siguiente: Café
Amarillo
Rojo
Anaranja
Verde
Azul
10%
10%
do 30%
20%
20%
10%
En un estudio posterior se emplearon como muestras bolsas de 1 libra para determinar si los porcentajes dados eran reales. En la muestra de 506 dulces los resultados encontrados fueron los siguientes: Café
Amarillo
Rojo
Anaranja
Verde
Azul
36
38
do 177
135
79
41
Use α=0.05 para determinar si estos datos coinciden con los datos dados por la empresa. Enrique Israel, 2016
Estadística Inferencial 1. Objetivo: Comprobar que las bolsas de 1 libra de M&M siguen la distribución sugerida por el proyecto “Colors” 2. Hipótesis: Ho: Las bolsas de 1 libra de M&M siguen la distribución sugerida por el proyecto “Colors” H1: Las bolsas de 1 libra de M&M NO siguen la distribución sugerida por el proyecto
“Colors”
3. Valor crítico: Para el valor crítico se utilizará la tabla de Chi_Cuadrado con un alfa de α=0.05 y con k-1-r grados de libertad. Las categorías son cada color de los chocolates, en este caso se tienen 6 categorías (k=6)
y no se está suponiendo ningún parámetro para el cálculo de distribución
supuesta r= 0, por lo que los grados de libertad son: gl = k-1- 0 = 6 – 1= 5.
Xc2 = 11.070
Enrique Israel, 2016
Estadística Inferencial 4. Valor estadístico: Para este cálculo necesitamos de las frecuencias observadas fo y esperadas fe.
La frecuencia observada fo para cada celda es la frecuencia que se obtiene de la muestra para cada categoría, en éste caso de los 506 chocolates muestreados.
Para la frecuencia esperada fe utilizaremos la fórmula:
fei = pei *n
Café
Amarillo
Rojo
Anaranja
Verde
Azul
do fo= 177
fo=135
fo=79
fo=41
fo=36
fo=38
fe= 0.3∗506
fe =0.2∗506
fe =0.2∗506
fe =0.1∗506
fe =0.1∗506
fe =0.1∗506
fe=151.8
fe=101.2
fe=101.2
fe=50.6
fe=50.6
fe=50.6
Nótese que la suma de las frecuencias esperadas debe ser igual a la suma de las frecuencias
observadas, en este caso ambas suman 506.
Todas las frecuencias esperadas son superiores a 5 por lo que se puede proseguir con la Prueba de Bondad.
Enrique Israel, 2016
Estadística Inferencial Se prosigue ahora con el cálculo de Xe2 mediante la fórmula:
k
X 2e =∑ i=1
Café (177−151.8)2 151.8
4.1833
(f o −f e )2 fe
Amarillo
Rojo
Anaranjado
Verde
Azul
Total
(135−101.2)2 101.2
(79−101.2)2 101.2
(41−50.6)2 50.6
(36−50.6)2 50.6
(38−50.6)2 50.6
Xe2 =
1.2889
4.8699
1.8213
4.2126
3.1375
19.5135
5. Tomar la decisión Xe2 = 19.5135 Xc2 = 11.070 Vemos que Xe2 > Xc2 ( 19.5135 >1 1.070) y la regla de rechazo nos marca: Rechazo la Ho si: Xe2 > Xc2 Lo cual se cumple por lo que se rechaza la Ho y se llega a la conclusión de que: Se comprueba que la distribución de colores en los chocolates M&M en bolsas de 1 libra no está siguiendo la distribución propuesta por el proyecto “Colors”
Enrique Israel, 2016
Estadística Inferencial
La prueba de bondad de ajuste tiene un sinfín de aplicaciones y cabe destacar por su importancia los casos donde se desea comprobar una distribución normal , una la distribución Binomial o una distribución de Poisson en una población. Puedes revisar los siguientes videos sobre esta aplicación:
De Jasha consultorio estadístico, Prueba de bondad de ajuste_Poisson recuperado de https://www.youtube.com/watch?v=hU5mz8EE_pk Consultado 06/10/2016
De Estadística útil, Prueba de bondad de ajuste caso binomial recuperado de https://www.youtube.com/watch?v=6UXVCa-JTnQ Consultado 06/10/2016
Enrique Israel, 2016