Experimentos multinomiales

Page 1

Estadística Inferencial

Experimentos Multinomiales Prueba de Independencia y Prueba de bondad de ajuste Presentación: La prueba de hipótesis en experimentos multinomiales es una herramienta sumamente útil a la hora de analizar datos nominales con el fin de comprobar distribuciones modelo en ciertas poblaciones o de verificar la Independencia entre dos conceptos. Algunos ejemplos de aplicación son el corroborar participaciones en el mercado de distintas compañías, analizar la Independencia del género de la persona respecto a su preferencia por cierto producto, el comprobar que una población sigue una distribución normal o alguna otra distribución, etc. Competencia: A través de este módulo desarrollarás la siguiente competencia específica: ● Desarrolla la habilidad para identificar, analizar y resolver problemas que requieran

el uso de las herramientas de prueba de hipótesis de experimentos multinomiales y dar conclusiones acertadas para la correcta toma de decisiones. Propósitos: ● Identificar los casos donde se requiera la aplicación de una prueba de bondad o una prueba de independencia para el análisis de la información y correcta toma de decisiones. ● Desarrollar la capacidad de análisis para identificar los modelos esperados y establecer la mejor estrategia y herramientas a utilizar. ● Resolver casos y problemas de comprobación de hipótesis de pruebas de ajuste y de independencia. Enrique Israel, 2016


Estadística Inferencial Experimentos Multinomiales: Como otros procedimientos de Prueba de Hipótesis, en los experimentos multinomiales se comparan los resultados muestrales con los resultados esperados cuando la hipótesis nula es verdadera. La conclusión de la prueba de Hipótesis se basa en qué tan cerca están los datos muestrales de los datos esperados. Un experimento Multinomial es una prueba con datos nominales donde las observaciones se agrupan en varias categorías discretas, mutuamente excluyentes dentro de cada factor y uno cuenta la frecuencia de la ocurrencia en cada categoría. Sus características son: •

Resultado del experimento da un conjunto de datos categorizados.

Consiste en “n” ensayos independientes e idénticos

El resultado de cada ensayo se localiza exactamente dentro en una de las “k” categorías

Existe una probabilidad asociada a cada celda en particular, y esas probabilidades permanecen constantes durante el experimentos. De tal forma que la suma de las probabilidades de las “k” categorías es igual a 1.

Del experimento resultará un conjunto de frecuencias observadas fo que representan el número de veces que un ensayo caen en una categoría en particular.

Los experimentos multinomiales pueden dividirse en : •

Prueba de bondad: Aquella donde se busca comprobar que la distribución de probabilidad entre las categorías sigue un modelo en particular de la población. Por Ejemplo cuando se quiere comprobar que la participación en el mercado entre tres marcas sigue siendo la misma definida un año antes.

Prueba de Independencia: Aquella donde se busca comprobar la Independencia entre dos factores, para lo cual los datos se acomodan en una tabla de contingencia donde las columnas representan al primer factor y los renglones al segundo. Por ejemplo cuando se quiere comprobar que la calificación que se obtiene en cierto curso es independiente del profesor con quien se toma éste.

Enrique Israel, 2016


Estadística Inferencial Prueba de Independencia: La prueba de independencia nos ayuda a determinar si dos cualidades o variables referidas a elementos de una población están relacionadas entre sí. Supongamos que de n elementos de una población se han observado dos características X e Y, obteniéndose una muestra aleatoria simple bidimensional (X1,Y1),(X2,Y2),...,(Xn,Yn). Sobre la base de dichas observaciones se desea contrastar si las características poblacionales X e Y son independientes o no. Para ello se dividirá el conjunto de posibles valores de X en k conjuntos disjuntos llamados categorías en columnas A 1,A2,...,Ak; mientras que el conjunto de posibles valores Y será descompuesto en r conjuntos disjuntos llamados categorías en filas : B1,B2,...,Br. Al clasificar los elementos de la muestra, aparecerá un cierto número de ellos, nij , en cada una de las k × r clases así constituidas, dando lugar a una tabla de contingencia de la forma:

A1

A2

...

Ak Total

B1

n11

n12

n1k n1

B2

n21

n22

n2k n2

nr1

nr2

nrk nr

…. Br

Total n1 n2 nk n Para la prueba de hipótesis se sigue la misma metodología que se ha manejado del valor crítico: 1. Establecer el objetivo que debe ir relacionado en probar la independencia entre dos cualidades. 2. Establecer el juego de hipótesis donde:

Enrique Israel, 2016


Estadística Inferencial Ho: Las cualidades son Independientes H1: Las cualidades no son Independientes ( Es decir son dependientes) 3. Definir el valor crítico. Para la prueba de Independencia se realiza con la distribución Chi_cuadrado donde los grados de libertad se calculan como gl= (k-1)(r-1) es decir número de categorías en la cualidad columna menos uno, por número de categorías en la cualidad filas menos uno. 4. Definir el valor estadístico Xe2 el cual estará en función de las frecuencias observadas fo y esperadas fe:

χ2 =

∑ ∑ (foij −feij)2 i

j

fe ij

donde: •

La frecuencia observada foij es cada dato de nuestra muestra ubicado en la celda ij de nuestra tabla de contingencia.

La frecuencia esperada feij para cada celda ij se obtendrá:

fe ij =

(total del renglón i)(Total de la columna j) (Tamaño de muestra)

Es importante que toda frecuencia esperada debe ser de al menos 5, de no ser así la prueba pierde confiabilidad. 5. Tomar la decisión, en el caso de la Prueba de independencia por el método de valor crítico la regla de decisión es: Rechazo la Ho si:

Xe2 > Xc2 Enrique Israel, 2016


Estadística Inferencial Para ampliar tu información sobre este tema, se te sugiere revisar los siguientes recursos:

De la Profesora Jessica Fernández, Pruebas de independencia con ji cuadrada recuperado de https://www.youtube.com/watch?v=_gpy2ji7_sE Consultado 05/04/2016 Juan Francisco Monge Ivars, Ángel A. Juan Pérez. (2003). ESTADÍSTICA NO 05/04/2016,

PARAMÉTRICA: PRUEBA CHI-CUADRADO. de

Proyecto

e-Math

Sitio

web:

http://www.uoc.edu/in3/emath/docs/Chi_cuadrado.pdf

Ejemplo Limpia Ya S.A. :

La empresa Limpia Ya S.A. comercializa tres tipos de detergentes A, B y C. En un análisis de segmentación de mercado para los tres productos, el grupo de investigación encargado ha planteado la duda de si las preferencias para los tres detergentes son diferentes entre los consumidores de los sectores Alto, Medio y Bajo. Si la preferencia de los detergentes fuera independiente del sector consumidor, se iniciaría una única campaña de publicidad para los tres productos; sin embargo, si la preferencia depende del sector de consumo, se ajustarán las promociones para tener en cuenta los distintos mercados de venta. Supongamos que se tomó una muestra de 120 consumidores. Después de usar los tres tipos de detergentes, se les pide manifestar su preferencia. Los resultados de la muestra se presentan en la siguiente tabla:

Enrique Israel, 2016


Estadística Inferencial

Tabla 1 Producto Detergente Detergente Detergente Total A Alto 14 Sector Medio 21 Bajo 15

B 12 16 12

C 10 8 12

36 45 39

Total

40

30

n= 120

50

1. Objetivo Comprobar que la preferencia por un determinado tipo de detergente es independiente del sector del consumidor. 2. Juego de Hipótesis: Ho: La preferencia por un determinado tipo de detergente es independiente del sector del consumidor. H1: La preferencia por un determinado tipo de detergente no es independiente del sector del consumidor. 3. Valor crítico: Grados de libertad gl= (k-1)(r-1) se tienen 3 categorías en la cualidad Tipo de Detergente por lo que k=3 y se tienen 3 categorías en la cualidad Sector por lo que r=3. gl= (k-1)(r-1) = (3-1)(3-1) = 4 No se define un nivel de significancia por lo que se sugiere tomarlo como ɑ= 0.05 De la tabla de Chi_Cuadrada se lee el dato: Enrique Israel, 2016


Estadística Inferencial

Xc2 = 9.488 4. Valor estadístico: Para este cálculo necesitamos de las frecuencias observadas fo y esperadas fe. La frecuencia observada fo para cada celda es la frecuencia que se obtiene de la muestra y se resumen en la Tabla 1 de contingencia, y para la frecuencia esperada fe utilizaremos la fórmula (a cada celda de la tabla de contingencia le corresponde una frecuencia observada y una frecuencia esperada): fe ij =

(total del renglóni)(Total de lacolumna j) (Tamaño de muestra )

Detergente A fo:14 Alto

fe=

36×50 =15 120

fo:21 Medio

fe=

fe=

Sector Total Enrique Israel, 2016

50

fe=

36×40 =12 120

fo:16

fo:12 39×50 =16.25 120

fe=

40

Detergente C fo:10 fe=

fe=

45 45×30 =11.25 120

fo:12 39×40 =13 120

fe=

30

Total 36

36×30 =9 120

fo:8

45×50 45×40 =18.75 fe= =15 120 120

fo:15 Bajo

Producto Detergente B fo:12

39 39×30 =9.75 120 20


Estadística Inferencial Nótese que la suma total de las frecuencias esperadas debe ser igual a la suma total de las frecuencias observadas. Todas las frecuencias esperadas son superiores a 5 por lo que se puede proseguir con la Prueba de independencia. Se prosigue ahora con el cálculo de Xe2 mediante la fórmula:

Detergente A

Alto

Detergente B

(14−15)2 =0.066 15

(12−12)2 =0 12

Detergente C (10−9)2 =0.111 9

Total

0.177

1.274 Sector Medio

(21−18.75)2 =0.27 18.75

(16−15)2 =0.066 15

(8−11.25)2 =0.938 11.25 0.692

Bajo

Total

(15−16.25)2 =0.096 16.25

0.432

(12−13)2 =0.077 13

0.143

Xe2 = 2.143

Enrique Israel, 2016

(12−9.75)2 =0.519 9.75

1.568

2.143


Estadística Inferencial 5. Tomar la decisión Xe2 = 2.143 Xc2 = 9.488 Vemos que Xe2 < Xc2 ( 2.143 < 9.488) y la regla de rechazo nos marca: Rechazo la Ho si: Xe2 > Xc2

Lo cual no se cumple por lo que no se rechaza la Ho y se llega a la conclusión de que: No hay evidencia suficiente para comprobar que el tipo de Detergente y el sector del consumidor sean No Independientes, en otras palabras no hay evidencia suficiente para comprobar que exista una relación entre el sector del consumidor y el tipo de detergente que prefiere.

Enrique Israel, 2016


Estadística Inferencial Prueba de Bondad: Esta prueba permite verificar que la población de la cual proviene una muestra tiene una distribución especificada o supuesta. Sea X una variable aleatoria poblacional y fe(x) la distribución (o densidad) de probabilidad especificada o supuesta para X

Se desea probar la hipótesis: Ho: f(x) = fe(x) En contraste con la hipótesis alterna: H1: f(x) ≠ fe(x)

Suponer que las observaciones de la muestra están agrupadas en k clases, siendo la cantidad de observaciones en cada clase i = 1, 2, ..., k la frecuencia observada fo. Con el modelo especificado fe(x) se puede calcular la probabilidad pe que un dato cualquiera pertenezca a una clase i. Con este valor de probabilidad se puede encontrar la frecuencia esperada fe para la clase i, es decir, la cantidad de datos que según el modelo especificado deberían estar incluidos en la clase i:

fei = pei *n. Tenemos entonces dos valores de frecuencia para cada clase i la frecuencia observada fo (corresponde a los datos de la muestra) y la frecuencia esperada fe (corresponde al modelo propuesto) . Para la prueba de hipótesis se sigue la misma metodología que se ha manejado del método de valor crítico:

Enrique Israel, 2016


Estadística Inferencial 1. Establecer el objetivo que debe ir relacionado en comprobar que la población de interés sigue una distribución o comportamiento supuesto. 2. Establecer el juego de hipótesis donde: Ho: La población cumple con la distribución supuesta H1: La población NO cumple con la distribución supuesta

3. Definir el valor crítico. Para la prueba de bondad se realiza con la distribución Chi_cuadrado donde los grados de libertad se calculan como gl= k-1-r donde r es el número de parámetros que se est+án suponiendo para el desarrollo.

4. Definir el valor estadístico Xe2 el cual estará en función de las frecuencias observadas fo y esperadas fe:

k

X 2e =∑ i=1

(f o −f e )2 fe

donde: La frecuencia observada foi es cada dato de nuestra muestra ubicado en la categoría i . La frecuencia esperada fei para la catergoría i:

fei = pe i *n

Enrique Israel, 2016


Estadística Inferencial Es importante que toda frecuencia esperada debe ser de al menos 5, de no ser así la prueba pierde confiabilidad 5. Tomar la decisión, en el caso de la Prueba de bondad por el método de valor crítico la regla de decisión es: Rechazo la Ho si: Xe2 > Xc2 Te invito a que analices el siguiente ejemplo: Proyecto Colors de M&M/Mars M&M/Mars, fabricante de chocolates M&M, realizaron un sondeo nacional en el que más de 10 millones de personas dieron su preferencia para un nuevo color. El resultado de este sondeo fue el reemplazo de un color café claro por uno azul. En el prospecto “Colors” de M&M/Mars, la distribución de los colores de estos chocolates es la siguiente: Café

Amarillo

Rojo

Anaranja

Verde

Azul

10%

10%

do 30%

20%

20%

10%

En un estudio posterior se emplearon como muestras bolsas de 1 libra para determinar si los porcentajes dados eran reales. En la muestra de 506 dulces los resultados encontrados fueron los siguientes: Café

Amarillo

Rojo

Anaranja

Verde

Azul

36

38

do 177

135

79

41

Use α=0.05 para determinar si estos datos coinciden con los datos dados por la empresa. Enrique Israel, 2016


Estadística Inferencial 1. Objetivo: Comprobar que las bolsas de 1 libra de M&M siguen la distribución sugerida por el proyecto “Colors” 2. Hipótesis: Ho: Las bolsas de 1 libra de M&M siguen la distribución sugerida por el proyecto “Colors” H1: Las bolsas de 1 libra de M&M NO siguen la distribución sugerida por el proyecto

“Colors”

3. Valor crítico: Para el valor crítico se utilizará la tabla de Chi_Cuadrado con un alfa de α=0.05 y con k-1-r grados de libertad. Las categorías son cada color de los chocolates, en este caso se tienen 6 categorías (k=6)

y no se está suponiendo ningún parámetro para el cálculo de distribución

supuesta r= 0, por lo que los grados de libertad son: gl = k-1- 0 = 6 – 1= 5.

Xc2 = 11.070

Enrique Israel, 2016


Estadística Inferencial 4. Valor estadístico: Para este cálculo necesitamos de las frecuencias observadas fo y esperadas fe.

La frecuencia observada fo para cada celda es la frecuencia que se obtiene de la muestra para cada categoría, en éste caso de los 506 chocolates muestreados.

Para la frecuencia esperada fe utilizaremos la fórmula:

fei = pei *n

Café

Amarillo

Rojo

Anaranja

Verde

Azul

do fo= 177

fo=135

fo=79

fo=41

fo=36

fo=38

fe= 0.3∗506

fe =0.2∗506

fe =0.2∗506

fe =0.1∗506

fe =0.1∗506

fe =0.1∗506

fe=151.8

fe=101.2

fe=101.2

fe=50.6

fe=50.6

fe=50.6

Nótese que la suma de las frecuencias esperadas debe ser igual a la suma de las frecuencias

observadas, en este caso ambas suman 506.

Todas las frecuencias esperadas son superiores a 5 por lo que se puede proseguir con la Prueba de Bondad.

Enrique Israel, 2016


Estadística Inferencial Se prosigue ahora con el cálculo de Xe2 mediante la fórmula:

k

X 2e =∑ i=1

Café (177−151.8)2 151.8

4.1833

(f o −f e )2 fe

Amarillo

Rojo

Anaranjado

Verde

Azul

Total

(135−101.2)2 101.2

(79−101.2)2 101.2

(41−50.6)2 50.6

(36−50.6)2 50.6

(38−50.6)2 50.6

Xe2 =

1.2889

4.8699

1.8213

4.2126

3.1375

19.5135

5. Tomar la decisión Xe2 = 19.5135 Xc2 = 11.070 Vemos que Xe2 > Xc2 ( 19.5135 >1 1.070) y la regla de rechazo nos marca: Rechazo la Ho si: Xe2 > Xc2 Lo cual se cumple por lo que se rechaza la Ho y se llega a la conclusión de que: Se comprueba que la distribución de colores en los chocolates M&M en bolsas de 1 libra no está siguiendo la distribución propuesta por el proyecto “Colors”

Enrique Israel, 2016


Estadística Inferencial

La prueba de bondad de ajuste tiene un sinfín de aplicaciones y cabe destacar por su importancia los casos donde se desea comprobar una distribución normal , una la distribución Binomial o una distribución de Poisson en una población. Puedes revisar los siguientes videos sobre esta aplicación:

De Jasha consultorio estadístico, Prueba de bondad de ajuste_Poisson recuperado de https://www.youtube.com/watch?v=hU5mz8EE_pk Consultado 06/10/2016

De Estadística útil, Prueba de bondad de ajuste caso binomial recuperado de https://www.youtube.com/watch?v=6UXVCa-JTnQ Consultado 06/10/2016

Enrique Israel, 2016


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.