Estadística Inferencial
Prueba de Hipótesis sobre la diferencia de medias de dos poblaciones Presentación En la sección anterior se trató la prueba de hipótesis sobre la diferencia de proporción de dos poblaciones y sobre la diferencia de varianza de dos poblaciones. En este apartado se estudiará la prueba de hipótesis de la diferencia de las medias de dos poblaciones. Cuando tratamos con datos cuantitativos unos de los procesos más comunes es la de comparar el comportamiento de estos en dos poblaciones distintas como por ejemplo; al tener dos proveedores comparamos cuál nos da un tiempo de entrega menor, o para ver si una dieta funciona comparamos el peso promedio antes y el peso promedio después de realizarla, etc.
Competencia A través de este módulo desarrollarás las siguientes competencias específicas: ● Comprende los procedimientos para realizar la Prueba de hipótesis para la diferencia de medias de dos poblaciones con sigma conocida. ● Comprende los procedimientos para realizar la Prueba de hipótesis para la diferencia de medias de dos poblaciones con sigma desconocida. ● Comprende los procedimientos para realizar la Prueba de hipótesis para la diferencia de medias de dos poblaciones dependientes (muestras pareadas). ● Identifica, analiza y resuelve problemas que requieran la prueba de hipótesis de la diferencia de un parámetro en dos poblaciones así como dar conclusiones acertadas para la correcta toma de decisiones.
Propósitos Enrique Israel, 2016
Estadística Inferencial ● Identificar las características, conceptos y variables para la prueba de hipótesis de la diferencia de medias de dos poblaciones con sigma conocida y con sigma desconocida. ● Identificar las características, conceptos y variables para la prueba de hipótesis de la diferencia de medias de dos poblaciones dependientes (muestra pareada) ● Identificar correctamente el parámetro a comprobar y utilizar la herramienta estadística que mejor se adapta para dar la solución. ● Analizar el resultado que se obtiene para dar conclusiones acertadas a los problemas.
Desarrollo Suponga que una tienda de productos orgánicos plantea la estrategia de vender sus productos tanto en un local físico ubicado en una plaza comercial como en una tienda virtual manejando una publicidad particular para cada modalidad. Para el local físico se promociona por medio de folletos y en revistas locales y para la tienda virtual lo hace mediante redes sociales. Al cabo de 1 año quiere evaluar el impacto de una y otra modalidad para lo cual toma como muestra las ventas de 6 meses de forma aleatoria donde le interesa comparar si el promedio de ventas es el mismo en ambas modalidades. De los estadísticos que obtenga de cada una de las muestras podrá hacer comparaciones muestrales y por medio de la estadística realizar las inferencia necesaria para tomar la decisión de si alguna modalidad es mejor que la otra o si son iguales. En el caso de la diferencia de parámetros de dos poblaciones la metodología sigue siendo la misma que las pruebas de hipótesis de una población: •
Método de valor crítico
•
Método de valor P
Los juegos de hipótesis quedarían: Prueba de Hipótesis Bilateral Prueba de Hipótesis Unilateral Prueba de Hipótesis Unilateral (Las proporciones en la (La proporción de la población 1 (La proporción de la población 1 población 1 y la población 2 es menor a la proporción de la es mayor a la proporción de la Enrique Israel, 2016
Estadística Inferencial son diferentes)
población 2 )
población 2 )
H0 : μ1-μ2 = 0 H1: μ1-μ2 ≠ 0
H0 : μ1-μ2 ≥ 0 H1: μ1-μ2< 0
H0 : μ1-μ2 ≤ 0 H1: μ1-μ2 > 0
Y la toma de decisiones para el rechazo de H0 es : Tipo de Juego de Hipótesis 1
H0 : μ1-μ2 = 0 H1: μ1-μ2 ≠ 0
2
H0 : μ1-μ2 ≥ 0 H1: μ1-μ2< 0
3
Rechazo H0 si: |Ze| ≥ |Zc|
Ze ≤ -Zc
H0 : μ1-μ2 ≤ 0
Ze ≥ Zc H1: μ1-μ2 > 0 Es importante que una vez tomada la decisión se concluya en función del contexto que se está planteando.
Prueba de Hipótesis para la diferencia de medias de dos poblaciones con sigma conocida. La prueba de hipótesis para la diferencia de medias de dos poblaciones es la herramienta que nos ayuda a comparar el la diferencia de la media en dos poblaciones distintas. Si conocemos la desviación estándar poblacional de ambas poblaciones, entonces la distribución indicada es la distribución normal estándar (z). Ejemplo, ¿Hay diferencia en las cantidades que gastan los hombres y las mujeres el día de San Valentin? El gasto promedio de una muestra de 40 hombres fue de $135.67 y el gasto promedio de una muestra de 30 mujeres fue de $127.64. Por estudios anteriores se sabe que la desviación estándar poblacional en el gasto de los hombres es de $35 y en el gasto de las mujeres es de $20
Enrique Israel, 2016
Estadística Inferencial ¿Con un nivel de significancia del 5% se puede asegurar que los hombres gastan más que las mujeres? Solución mediante el método de valor crítico: 1. Objetivo: Comprobar que el gasto promedio de los hombres el díade San Valentín es mayor que el gasto promedio de las Mujeres.
μH > μM despejando para expresarlo como diferencia de medias: μH - μM > 0 2. Hipótesis: Sabemos que una de las dos hipótesis debe incluir el objetivo pues sólo así podremos dar respuesta a éste; también se sabe que la hipótesis nula (H 0) SIEMPRE debe contener la igualdad y la hipótesis alternativa (H1) NUNCA contendrá la igualdad. Por lo tanto:
H0 : μH - μM ≤ 0 H1: μH - μM > 0
3. Valor crítico: Para determinar el valor crítico hemos definir el tipo de distribución que se maneja y si es de una o dos colas. En el caso de la prueba de hipótesis para la diferencia de medias de dos poblaciones con sigma conocida la distribución que se maneja es la distribución normal estándar (z) y el juego de hipótesis que se plantea nos dá una prueba de una cola por lo tanto con un nivel de significancia de α
= 0.05: Zc= 1.64
Enrique Israel, 2016
Estadística Inferencial 4. Valor estadístico: El valor estadístico se calcula a partir de los datos de la muestra basado en la fórmula:
z e=
( x H − x M )−(μ H −μ M ) σ x −x A
B
donde:
Ze es el valor estadístico
xH es la media muestral de la población H xM es la media muestral de la población M (μH – μM) es la diferencia hipotética de las media poblacionales, en este caso es 0
σx -x A
B
es el error estándar de la diferencia de medias
σx
H −x M
= √ σ x2H +σ x2M donde:
σH σx = √ nH H
y
σM σx = √ nM M
de las muestras que se tomaron de los hombres y mujeres:
Enrique Israel, 2016
Hombres
Mujeres
x
xH = 135.67
xM = 127.64
n
nH=40
nM=30
σ
σH = 35
σM = 20
Estadística Inferencial
primero se calcula el error estándar
σx
H
−x M
√
√
σH 2 σM 2 35 2 20 2 = ( ) +( )= ( ) +( ) =6.63 n n 40 30 √ √ √ H √ M
se puede ya calcular el valor de Ze :
( x H − x M )−(μ H −μ M ) (135.67−127.64)−(0) z e= = =1.21 σ x −x 6.63 A
B
Ze= 1.21 5. Toma de decisión: se comparan los valores de Ze contra ZC tomando la decisión según el juego de hipótesis. En este caso tenemos el tercer juego de hipótesis donde se rechazará la H0 si el valor de Ze es mayor al valor de Zc . Siendo
Ze= 1.21 y Zc= 1.64 se observa que
Ze < Zc por lo tanto según la regla no se rechaza la H0 Conclusión: Con un nivel de significancia del 5% no hay evidencia suficiente para comprobar que el gasto promedio de los hombres en el día de San Valentín sea mayor al gasto promedio de las mujeres.
Enrique Israel, 2016
Estadística Inferencial Prueba de Hipótesis para la diferencia de medias de dos poblaciones con sigma desconocida. De la misma forma que en la prueba de hipótesis para la media de una población, en la mayoría de los casos se desconoce la desviación estándar poblacional y el valor que podemos obtener sería la desviación estándar muestral. En este tipo de situaciones en la comparación de la media de dos poblaciones con desviación estándar poblacional desconocida el tipo de distribución que se utiliza es la distribución t-Student. Donde los grados de libertad y el cáculo del error estándar se obtendrán dependiendo de si las varianzas de ambas poblaciones son iguales o no (prueba Fisher para comparación de varianzas de dos poblaciones). Varianzas iguales Grados de libertad (df)
Varianzas diferentes
df = (n1+n2) – 2
Error estándar
Ejemplo, El gerente de producción de una fábrica de sillas de ruedas quiere comparar el número de sillas de ruedas defectuosas producidas en el turno matutino con el turno vespertino. Una muestra de la producción de ambos turnos reveló la siguiente información:
Enrique Israel, 2016
Estadística Inferencial Matutino
5
8
7
6
9
7
Vespertino 8 10 7 11 9 8 12 9 ¿Con un nivel de significancia del 5% se puede concluir que el promedio de sillas defectuosas producidas es el mismo en ambos turnos? Solución por método del valor crítico; 1. Objetivo: Comprobar que el promedio de sillas de ruedas defectuosas producidas es el mismo para los turnos matutino y vespertino.
μH = μM despejando para expresarlo como diferencia de medias: μH - μM =0 2. Hipótesis: Sabemos que una de las dos hipótesis debe incluir el objetivo pues sólo así podremos dar respuesta a éste; también se sabe que la hipótesis nula (H 0) SIEMPRE debe contener la igualdad y la hipótesis alternativa (H1) NUNCA contendrá la igualdad. Por lo tanto:
H0 : μH - μM =0 H1: μH - μM ≠ 0 3. Valor crítico: Para determinar el valor crítico primero hemos definir el tipo de distribución que se maneja y si es de una o dos colas.
En el caso de la prueba de hipótesis para la diferencia de medas de dos poblaciones con sigma desconocida la distribución que se maneja es la distribución t-Student (t) y el juego de hipótesis que se plantea nos da
α/2=0.025.
Enrique Israel, 2016
una prueba de dos colas, con α=0.05 y
Estadística Inferencial Una vez definida la distribución se debe comprobar si las varianzas de ambas poblaciones son iguales a través de la prueba Fisher: H0 : ơ21 = ơ22 H1: ơ21 ≠ ơ22
n
s2
gl
Fe
Fc
Vespertino
8
2.786
7
1.392
6.85
Matutino
6
2
5
Rechazo H0 si Fe es mayor que Fc , siendo Fe=1.392 y Fc =6.85 no se rechaza H0 y no hay evidencia para comprobar que exista diferencia entre las varianzas de las sillas defectuosas producidas en lo turnos matutino y vespertino. Por lo tanto los grados de libertad se calcularán: gl = n1 + n2 – 2 = 8 + 6 – 2 = 12 de la tabla t-Student con α/2=0.025 y 12 grados de libertad tc=2.179 4. Valor estadístico: El valor estadístico se calcula a partir de los datos de la muestra bajo la siguiente fórmula:
t e=
( x 1 −x 2 )−(μ1 −μ2 ) σ x −x 1
2
Para el cálculo del error estándar:
√
(n1−1) s21 +(n2−1)s22 (8−1)2.786+(6−1)2 S= = =1.568 n1 +n2−2 8+6−2
√
√
σ x − x =S ( 1
2
Enrique Israel, 2016
√
1 1 1 1 )+( )=1.568 ( )+( )=0.8468 n1 n2 8 6
Estadística Inferencial
( x 1 −x 2 )−(μ1 −μ2 ) (9.25−7)−(0) t e= = =2.657 σ x −x 0.8468 1
2
te = 2.657 5. Toma de decisión: se comparan los valores de te contra tC tomando la decisión según el juego de hipótesis. En este caso tenemos el primer juego de hipótesis donde se rechazará la H0 si el valor absoluto de te es mayor al valor absoluto de tc . Siendo
te= 2.657 tc= 2.179 se observa que
te > tc por lo tanto según la regla se rechaza la H0 Conclusión: Con un nivel de significancia de 0.05 se comprueba que el promedio de sillas de ruedas defectuosas producidas en el turno matutino difiere del promedio de sillas de ruedas defectuosas producidas en el turno vespertino.
Enrique Israel, 2016
Estadística Inferencial
Actividad T3.1 Analizando e investigando la Prueba de Hipótesis de diferencia de medias de dos poblaciones. Realiza la Actividad T 3.1 de forma individual. Actividad L3.2 Ejercicios Prueba de Hipótesis de diferencia de medias de dos poblaciones. Realiza en clase la Actividad L 3.2 en equipos de 3 personas.
Conclusión La prueba de hipótesis para la diferencia de dos poblaciones es de suma importancia para comparar el comportamiento de un parámetro y así tomar decisiones sobre una de las dos poblaciones.
Enrique Israel, 2016