Pruebas de hip贸tesis sobre la media de una poblaci贸n: Muestra peque帽a
Prueba t
Es adecuada para las pruebas de hipótesis en las cuales se utiliza la desviación estándar de la muestra (s) para estimar el valor de la desviación estándar de la población.
La prueba t se basa en la distribución t (con un número de grados de libertad, df = n - 1) y en la suposición de que la población tiene una distribución aproximadamente normal. Conforme crece el tamaño de la muestra, la suposición de normalidad de la población se vuelve menos importante.
La distribución t Es una familia de distribuciones (una para cada número de grados de libertad, df). Cuando los df son pequeños, la distribución t es más plana y más dispersa que la distribución normal, pero para una mayor cantidad de grados de libertad, los integrantes sucesivos de la familia se acercan cada vez más a la distribución normal. Cuando el número de grados de libertad se acerca a infinito, las dos distribuciones se vuelven idénticas.
Estadístico de prueba, prueba t para la media muestral: ; donde el error estándar estimado de la media muestral, = = la media de la muestra = la media poblacional de la hipótesis n = el tamaño de la muestra
Prueba de dos colas para la media,
desconocida
Ejemplo
El gerente de crédito de una gran tienda de departamentos afirma que la media del saldo para los clientes con crédito en la tienda es de 410 dólares. Un auditor independiente selecciona una muestra aleatoria de 18 cuentas y encuentra una media de saldo de = $511.33 y una desviación estándar de s = $183.75. Si la declaración del gerente no es apoyada por estos datos, el auditor pretende examinar todos los saldos de las cuentas de crédito. Si se supone que la población de saldos de crédito tiene una distribución aproximadamente normal, ¿qué acción debe emprender el auditor?
Solución Formular las hipótesis nula y alternativa El saldo medio real es $410 El saldo medio real es algún otro valor Para evaluar la afirmación del gerente, es adecuada una prueba de dos colas, porque es una afirmación no direccional que puede rechazarse a causa de un resultado extremo en cualquier dirección. El centro de distribución de la hipótesis para la media muestral, para muestra de n = 18, será = $410. Seleccionar el nivel de significancia Para esta prueba, utilizaremos el nivel de significancia de 0.05. La suma de las áreas de las dos colas será de 0.05.
Seleccionar el estadístico de prueba y calcular su valor El estadístico de prueba es , y se usará la distribución t para describir la distribución muestral de la media para las muestras de n = 18. El centro de la distribución es = $410, lo cual corresponde a t = 0.000. Como se desconoce la desviación estándar de la población, se emplea s para estimar . La distribución muestral tiene un error estándar estimado de:
y el valor calculado de t será:
Identificar los valores críticos para el estadístico de prueba y plantear la regla de decisión Para esta prueba, α = 0.05, y el número de grados de libertad es df = (n – 1) o (18 – 1) = 17. Al consultar la tabla de la distribución t, se encuentra que los valores críticos para el estadístico de prueba son t = -2.110 y t = +2.110. La regla de decisión se plantea como “Rechazar H0 si t calculada es < -2.110 o > +2.110, de lo contrario, no rechazar”.
Comparar los valores calculado y crítico y llegar a una conclusión para la hipótesis nula
El estadístico calculado para la prueba, t = 2.340, excede el límite superior y cae dentro de esta zona de rechazo. Se rechaza H0. Tomar la decisión correspondiente
El resultado sugiere que la media del saldo de las cuentas es un valor diferente a 410 dólares. El auditor debe examinar todos los saldos de las cuentas de crédito.
Pruebas de hipótesis con dos poblaciones Las hipótesis nula y alternativa expresadas en términos de las medias poblacionales Prueba de dos colas:
( Prueba de cola izquierda
Prueba de cola derecha:
Las hipótesis expresadas en términos de la distribución muestral de la diferencia entre las medias muestrales
La prueba de z para comparar las medias de dos muestras independientes
La prueba z se presenta aquí como una alternativa de la prueba t con varianzas desiguales cuando n1 y n2 son ≥ 30. Además de no requerir suposiciones respecto a la forma de las distribuciones poblacionales, ofrece la ventaja de una simplicidad ligeramente mayor y evita la complicada fórmula de corrección de los df utilizada en la prueba t con varianzas desiguales; por lo tanto, puede ser útil para quienes no disponen de una computadora y un software para estadística. Esta prueba ha sido popular durante muchos años como método para comparar las medias de dos muestras grandes, independientes, cuando se desconocen y , y de dos muestras independientes de cualquier tamaño cuando se conocen y y las dos poblaciones tienen una distribución normal. Igual que la prueba t con varianzas desiguales, la prueba z no supone que son iguales las desviaciones estándar poblacionales, y se utilizan s1 y s2 para estimar las respectivas desviaciones estándar poblacionales y .
Prueba z para comparar las medias de dos muestras independientes, y , son desconocidas y cada n 30:
donde
y
= las medias muestrales 1 y 2.
= la diferencia hipotĂŠtica entre las medias poblacionales. n1 y n2 = los tamaĂąos de las muestras 1 y 2. s1 y s2 = las desviaciones estĂĄndar de las muestras 1 y 2.
Intervalo de confianza para ; con = (1- coeficiente de confianza)
Ejemplo Un centro de empleo universitario ha recopilado datos que comparan los sueldos iniciales de dos grupos de estudiantes graduados cuyos apellidos comienzan, en un grupo, con las letras de la A a la M y en el otro, con las letras de la N a la Z.
Para una muestra de 30 estudiantes en la categoría A-M, el sueldo inicial promedio fue de 37 233.33 dólares, con una desviación estándar de 3 475.54 dólares.
Para una muestra de 36 estudiantes cuyos apellidos comienzan con N a Z, el sueldo inicial promedio fue de 35 855.81 d贸lares, con una desviaci贸n est谩ndar de 2 580.02 d贸lares.
Solución Para este estudio, la hipótesis nula es que no hay diferencia entre las medias de las poblaciones, o . Como la intención de la prueba es no direccional, la hipótesis nula puede rechazarse por una diferencia extrema en cualquier dirección, y la hipótesis alternativa es . Para poner a prueba la hipótesis nula, utilizaremos el nivel de significancia de 0.02. Las hipótesis nula y alternativa también pueden plantearse del modo siguiente: Los salarios iniciales son iguales para ambas poblaciones Los salarios iniciales no son iguales.
Para estos datos, el valor calculado del estadístico de la prueba z, se obtiene así,
Para el nivel de significancia de 0.02, los valores críticos serán z = -2.33 y z = +2.33. La regla de decisión será rechazar la hipótesis nula de las medias de las poblaciones iguales si la z calculada es menor que -2.33 o mayor que +2.33. Como el valor calculado del estadístico de prueba, z = 1.80, cae dentro de la región de no rechazo, la hipótesis nula no puede rechazarse con el nivel de significancia de 0.02. A partir de este análisis, no podemos concluir que las personas con apellidos en la primera parte del alfabeto reciban salarios iniciales diferentes que aquellas cuyos apellidos están al final del alfabeto.
Con base en los datos de la muestra, también determinamos el intervalo de confianza de 98% para ( ). Esto corresponde a = 0.02 y, para la mejor precisión posible, utilizando la tabla normal tomamos z = 2.33, el intervalo será:
o de
-408.47 a
+3163.51 La diferencia hipotética (cero) está dentro del intervalo de confianza de 98%, de modo que tenemos una confianza de 98% de que las medias de las poblaciones pueden ser iguales.
La prueba t con varianzas combinadas para comparar las medias de dos muestras independientes Pueden surgir situaciones en las que nos gustar铆a examinar si la diferencia entre las medias de dos muestras independientes es lo bastante grande para garantizar que se rechace la posibilidad de que sus medias poblacionales sean iguales. En este tipo de situaci贸n, la conclusi贸n alternativa es que la diferencia entre las medias muestrales es lo suficientemente peque帽a para haber ocurrido por casualidad, y que las medias poblacionales en realidad pueden ser iguales.
Ejemplos •En la comparación de la resistencia a la tensión de las barras de acero obtenidas mediante dos métodos de producción diferentes. •Para determinar si un nuevo modelo de impresora funciona más rápido que el modelo que se quiere comprar. •Al evaluar la afirmación de un inventor de que su diseño de cojinete mejora la duración de un motor en comparación con uno convencional.
Al utilizar la prueba t suponemos que:
1) las desviaciones est谩ndar poblacionales (que se desconocen) son iguales
2) las poblaciones tienen una distribuci贸n al menos aproximadamente normal.
Estadístico de prueba para comparar las medias de dos muestras independientes, se supone que y son iguales:
donde: y
= las medias de las muestras 1 y 2 = diferencia hipotética entre las medias poblacionales
y
= los tamaños de las muestras 1 y 2
y
= las desviaciones estándar de las muestras 1 y 2. y
Intervalo de confianza para
con
.
Ejemplo Algunos empresarios que desarrollan un programa de repaso de contabilidad dirigido a personas que se preparan para presentar el examen de Contador PĂşblico Certificado (CPA) consideran dos formatos posibles para realizar las sesiones de repaso. Una muestra aleatoria de 10 estudiantes se capacita con el formato 1, y luego se registra su nĂşmero de errores en un examen tipo. Otra muestra aleatoria de 12 personas se capacita segĂşn el formato 2 y, asimismo, sus errores se registran en el mismo examen.
Para los primeros 10 estudiantes, los desempe単os individuales son: 11, 8, 8, 3, 7, 5, 9, 5, 1 y 3 errores, respectivamente; para el segundo grupo de 12 estudiantes capacitados, los desempe単os individuales son: 10, 11, 9, 7, 2, 11, 12, 3, 6, 7, 8 y 12 errores, respectivamente. Para el nivel de significancia de 0.10, 多los formatos de repaso tienen la misma eficacia en la capacitaci坦n de personas para el examen de CPA?
Comparación de dos medias cuando las muestras son dependientes Hay ocasiones en las que necesitamos poner a prueba hipótesis concernientes a muestras que no son independientes. Por ejemplo, tal vez necesitamos examinar la productividad de los empleados antes y después de un cambio en el diseño de su puesto de trabajo, o comparar las velocidades de lectura de las personas que participan en un curso de lectura rápida antes y después del curso.
En tales casos, en realidad no tenemos dos muestras diferentes de personas, sino mediciones de antes y despuĂŠs de las mismas personas. Como resultado, sĂłlo habrĂĄ una variable: la diferencia registrada para cada persona.
Las hipótesis nula y alternativa será una de las siguientes, con el valor calculado del estadístico de la prueba como se aprecia aquí:
Hipótesis nula
Hipótesis alternativa
Tipo de prueba Dos colas Cola izquierda Cola derecha
Estadístico de prueba para comparar las medias de observaciones pareadas ; donde: d = (x1 – x2), es la diferencia entre las dos mediciones para cada persona o unidad de la prueba. = la diferencia promedio, = n = el número de pares de observaciones sd = la desviación estándar de d, o df = n – 1 Intervalo de confianza para
Ejemplo Al investigar la manera de aumentar la productividad en las oficinas, el vicepresidente de una compañía adquirió 12 teclados ergonométricos y los distribuyó entre una muestra de secretarias. Si los teclados aumentan la productividad de manera sustancial, el vicepresidente planea sustituir todos los teclados actuales por los modelos nuevos..
Antes de entregar los teclados, cada uno de los 12 integrantes de la muestra escribió un documento común con su viejo teclado, y se midió el número de palabras por minuto. Después de recibir los nuevos teclados y de dedicar algunas semanas a familiarizarse con ellos, cada empleado escribió el mismo documento con el modelo ergonométrico
La siguiente tabla contiene el n煤mero de palabras por minuto que escribi贸 cada persona en cada prueba. x2, Palabras/Minuto x1, Palabras/Minuto con teclado Personas con teclado viejo nuevo 1 25.5 43.6 2 59.2 69.9 3 38.4 39.8 4 66.8 73.4 5 44.9 50.2 6 47.4 53.9 7 41.6 40.3 8 48.9 58.0 9 60.7 66.9 10 41.0 66.5 11 36.1 27.4 12 34.4 33.7
Diferencia d = (x1 - x2) -18.1 -10.7 -1.4 -6.6 -5.3 -6.5 1.3 -9.1 -6.2 -25.5 8.7 0.7 -78.7 =
Diferencia al cuadrado 327.61 114.49 1.96 43.56 28.09 42.25 1.69 82.81 38.44 650.25 75.69 0.49 1407.33 =
Solución
Como el vicepresidente no quiere reemplazar los teclados actuales a menos que el modelo ergonométrico sea claramente superior, el énfasis de la prueba está en el modelo nuevo y es adecuada una prueba de una cola. Se utilizará el nivel de 0.025 para examinar si el teclado nuevo aumenta de manera significativa la velocidad de escritura. Para cada persona de la muestra, la diferencia de velocidad entre la primera y la segunda medición es d = (x1 - x2) palabras por minuto.
Hipótesis nula La escritura con el teclado ergonométrico no es más rápida que con el teclado actual. Hipótesis alternativa El teclado ergonométrico es más rápido. La media de la muestra y la desviación estándar para d se calculan de la siguiente manera:
y el estadístico de prueba se calcula como
El número de grados de libertad para la prueba es df = (n – 1) = (12 – 1) = 11. Para el nivel de significancia de 0.025 en una prueba de cola izquierda, el valor crítico para el estadístico de prueba es t = -2.201. La regla de decisión es, “Rechazar la hipótesis nula si el valor calculado del estadístico de la prueba es menor que t = -2.201; de lo contrario, no rechazar”.
Como se puede apreciar, el valor calculado del estadístico de la prueba es menor que el valor crítico y cae en la región de rechazo para la prueba. Como resultado, se rechaza la hipótesis nula y concluimos que el teclado ergonométrico aumenta la velocidad de escritura. Para completar el objetivo de su prueba, el vicepresidente debe adquirir teclados para todas las secretarias. Con base en los datos de la muestra, también determinaremos el intervalo de confianza de 95% para . Esto corresponde a = 0.05. Con df = 11 y t = 2.201, el intervalo será o de -12.277 a -0.839
Comparación de dos proporciones muestrales Las siguientes son algunas situaciones posibles: 1.- Comparar el porcentaje de piezas defectuosas entre embarques de dos proveedores diferentes. 2.- Determinar si la proporción de pacientes con dolor de cabeza que sienten alivio con un nuevo medicamento es significativamente mayor que quienes emplean aspirina. 3.- Comparar el porcentaje de alumnos de último año de enseñanza media enrolados en el servicio militar que vieron la versión A de una película sobre el reclutamiento comparado con quienes vieron la versión B. En esta sección, las pruebas suponen que ambos tamaños de muestras son grandes (cada uno ) .Además, n1p1, n1(1 – p1), n2p2 y n2(1 – p2), todos deben ser 5. (Estos requisitos son necesarios para que la distribución normal utilizada sea una aproximación cercana a la distribución binomial). Igual que la comparación de medias de muestras independientes, las pruebas relacionadas con proporciones pueden ser direccionales o no direccionales.
Estadístico de la prueba para comparar proporciones de dos muestras independientes 1.- Cuando la diferencia hipotética es cero (lo usual) ; donde:
= las proporciones muestrales = los tamaños de las muestras = la estimación combinada de la proporción poblacional, con
2.- Cuando la diferencia hipotética es (
Intervalo de confianza para
0
0
Ejemplo En un estudio de 10 aĂąos patrocinado por el National Heart, Lung and Blood Institute, 3806 hombres de mediana edad con niveles altos de colesterol, pero sin problemas cardĂacos detectados, se dividieron en dos grupos. Los integrantes del primero recibieron un nuevo medicamento diseĂąado para reducir los niveles de colesterol, mientras que los del segundo recibieron diariamente dosis de un placebo
Además de reducir los niveles de colesterol, el medicamento parecía eficaz para reducir la incidencia de infartos cardíacos. Durante los 10 años, 155 integrantes del primer grupo sufrieron un infarto, mientras que del grupo con placebos, 187 sufrieron un infarto.
Solución Suponiendo que los 3806 participantes se dividieron de manera aleatoria en dos grupos, había 1903 hombres en cada grupo. Así, las proporciones muestrales de infartos dentro de los dos grupos son p1 = 155/1905 = 0.0815 y p2 = 187/1903 = 0.0983. Dado que la intención del estudio era evaluar la eficacia del nuevo medicamento, la prueba de hipótesis será direccional. En términos de las proporciones poblacionales, las hipótesis nula y alternativa son y . Las hipótesis también se pueden expresar como:
Hipótesis nula Los usuarios del nuevo medicamento tienen una menor probabilidad de sufrir un infarto Hipótesis alternativa Los usuarios del nuevo medicamento tienen cuando menos la misma probabilidad de sufrir un infarto. Para poner a prueba la hipótesis nula, utilizaremos el nivel de significancia de 0.05. La estimación combinada de las proporciones poblacionales (que se suponen iguales) se calcula como: = 0.0899 El valor calculado del estadístico de la prueba, z, es:
Para el nivel de 0.05 en esta prueba de cola izquierda, el valor crítico de z es z = -1.645. La regla de decisión es, “Rechazar H0 si el valor calculado del estadístico de la prueba es < - 1.645; de lo contrario, no rechazar”. Como se puede apreciar, el valor calculado del estadístico de la prueba, z = -1.81, es menor que el valor crítico y cae dentro de la región de rechazo. Con un nivel de significancia de 0.05, se rechaza la hipótesis nula y concluimos que el nuevo medicamento es eficaz. Usando la tabla de distribución normal y buscando el área del punto medio a z = -1.81, encontramos que el área es 0.4649. Restando este valor de 0.5000, el área de una cola (0.5000 – 0.4649) es 0.0351. Este es el valor de p aproximado para la prueba.
Con base en los datos de la muestra, tambiĂŠn construimos el intervalo de confianza de 90% para . Con z = 1.645, esto serĂĄ:
= (0.0815 â&#x20AC;&#x201C; 0.0983)
1.645
o de -0.0320 a - 0.0016
(“Introducción a la Estadística para negocios”), Ronald M. Weiers, Quinta edición