Ciencias Exactas, Ingeniería y Tecnología Enseñanza de las matemáticas 3er Semestre Fase 1. Módulo 6 Aplicaciones de la estadística Unidad 2. Pruebas de hipótesis.
Módulo 6 Unidad 2. Pruebas de hipótesis
Unidad 2. Pruebas de hipótesis Semana 7 Pruebas concernientes a varianzas Sean
muestras aleatorias de n observaciones de una población normal con varianza
requiere probar la hipótesis de que la varianza de esta población es igual a un valor
. Si se
se utilizará el
estadístico
con grados de libertad gl=n-1. Los pasos para realizar pruebas de hipótesis como se discutió anteriormente se siguen aplicando excepto que se utiliza un estadistico
en vez de un estadístico t o z.
Para realizar la prueba de hipótesis y tomando la hipótesis nula H0:
y
el valor del estadístico
de prueba, entonces se cumple lo siguiente: Hipótesis alterna
Criterio de rechazo
H A:
o
H A: H A:
Ejercicio resuelto 8. Tiempo de vida de una llanta. Un ingenierio está investigando el tiempo de vida de un nuevo tipo de caucho. Para esto construyó 16 llantas y las probó en una carretera hasta que se desgastaron. La media y la desviación estándar de la muestra son de 60 139.7 y 3645.94 kilometros. ¿Se puede concluir, utilizando
, que la desviación estándar de la llanta es menor a 4000
kilometros? Encontrar el valor P para esta prueba. 1. El parámetro de interés es la varianza de la población UNADM | DCEIT | EM | EMAE
. 2
Módulo 6 Unidad 2. Pruebas de hipótesis 2. La hipótesis nula es H0:
kilometros
3. La hipótesis alterna es HA:
kilometros
Es una prueba de cola izquierda ya que interesa saber si la desviación estándar es menor a 4000 horas. 4. El estadístico de prueba es 5. Para una significancia α=0.05, el criterio de rechazo es cuando el estadístico de prueba cumple (los grados de libertad son n-1=16-1=15 y α=0.05). 6. Se calcula el estadístico de prueba: 7. Para un nivel de significancia de 0.05, como
se acepta la hipótesis nula.
Se concluye que la desviación estándar de la población es de 4000 km.
Pruebas de hipótesis que involucran un cociente de varianzas Suponer dos poblaciones normales independientes, de las que se desconocen sus medias y varianzas , , y . Se escoge una muestra aleatoria de tamaño n1 de la población 1 y otra muestra de tamaño n2 de la población 2 con varianzas
y
respectivamente. Se quiere probar la hipótesis H 0:
H A: El desarrollo de esta prueba requiere de la utilización de una nueva distribución de probabilidad, la distribución F. La variable aleatoria F se define como el cociente de dos variables independientes chi cuadradas , cada una dividida por sus grados de libertad.
donde W y Y son variables aleatorias chi cuadrada con u y v grados de libertad respectivamente. Ejercicio Investigar la función de densidad de la distribución F. Sea
una muestra aleatoria de una población normal con media una muestra aleatoria de una segunda población normal con media
asume que las poblaciones son independientes. Sean
tiene una distribución con denominador.
UNADM | DCEIT | EM | EMAE
y
y varianza y varianza
y . Se
las varianzas de las muestras. El cociente
grados de libertad en el numerador y
grados de libertad en el
3
Módulo 6 Unidad 2. Pruebas de hipótesis Bajo la hipótesis H0:
el cociente
tiene una distribución
. La prueba de hipótesis
sigue el siguiente procedimiento. Nipótesis nula H0: Estadístico de prueba: Hipótesis alterna
Criterio de rechazo
H A:
o
H A: H A:
Figura 1. Pruebas de (a) dos colas (b) cola derecha (c) cola izquierda para un nivel de signifcancia con un estadístico Ejercicio resuelto 9. Tiempo de montaje. Se realizó un estudio para determinar si los hombres y mujeres diferían en su repetibilidad para montar componentes en tableros de circuitos integrados. Se seleccionaron muestras aleatorias de 25 hombres y 21 mujeres, todos montaban unidades. Las desviaciones estándar del tiempo de montaje de las dos muestras fueron y . ¿Existe evidencia para afirmar que los hombres y las mujeres difieren en repetibilidad para esta tarea? Utilizar α=0.02. 1. El parámetro de interés son las varianzas del tiempo de montaje
y
. Se asume que el
tiempo es una variable aleatoria para hombres y mujeres. 2. La hipótesis nula es H0: 3. La hipótesis alterna es HA: Es una prueba de dos colas. 4. El estadístico de prueba es
UNADM | DCEIT | EM | EMAE
4
Módulo 6 Unidad 2. Pruebas de hipótesis 5. Para una significancia α=0.05, n1=25, n2=21, el criterio de rechazo es cuando el estadístico de prueba cumple
o
6. Se calcula el estadístico de prueba:
. y
7. Para un nivel de significancia de 0.05, como
no se puede refutar la
hipótesis nula. Se concluye que las varianzas de los tiempos de montaje de hombres y mujeres son iguales.
Pruebas de bondad de ajuste Las pruebas que se han realizado hasta ahora se aplican para problemas en los que se conoce o se asume la distribución de la variable aleatoria y las hipótesis se refieren a los parámetros de la distribución. Sin embargo, a veces lo que se requiere saber es si el conjunto de datos de los que se dispone proviene de una distribución de probabilidad particular. A este tipo de pruebas se les llama pruebas de bondad de ajuste y se caracterizan ser aplicables a datos de frecuencias y por utilizar la distribución
.
El modelo estadístico general para las pruebas de bondad de ajuste es H0: No hay diferencia entre el conjunto de frecuencias observadas (obtenidas a partir de una muestra aleatoria) y el conjunto de frecuencias esperadas (obtenidas teóricamente a partir de una distribución especificada). HA: Hay una diferencia entre las frecuencias observadas (obtenidas teóricamente a partir de una muestra aleatoria) y el conjunto de frecuencias esperadas (obtenidas teóricamente a partir de una distribución especificada). Experimento multinomial •
Constan de n ensayos independientes e idénticos.
•
El resultado de cada ensayo cae en una de k categorías posibles
•
Hay una probabilidad asociada a cada categoría, constante de un ensayo a otro.
•
Las categorías son mutuamente excluyentes y exhaustivas (el resultado de cada ensayo pertenece a una y sólo una categoría).
UNADM | DCEIT | EM | EMAE
5
Módulo 6 Unidad 2. Pruebas de hipótesis En las pruebas de bondad de ajuste y de independencia: •
Las frecuencias resultantes del experimento para cada categoría suelen llamarse frecuencias observadas y denotarse como
•
para i=1,2,…,n.
Las frecuencias para cada categoría, de acuerdo con un modelo particular, suelen llamarse frecuencias esperadas y denotarse como
para i=1,2,…,n.
Una vez que se tiene la distribución de frecuencias (distribución multinomial), se contrastan los valores observados con los valores esperados y si las diferencias, de acuerdo con el estadístico de prueba
, son
pequeñas, se puede considerar que la población de donde proviene la muestra tienen la distribución especificada; en caso contrario se rechaza la hipótesis nula. En general los datos se arreglan en una tabla como la que se muestra a continuación: Evento
A1
A2
A3
…
Ak
Frecuencia
O1
O2
O3
…
O4
E1
E2
E3
…
Ek
observada Frecuencia esperada
¿Qué es una prueba de bondad de ajuste? [video]. Disponible en:
https://www.youtube.com/watch?v=nxXVwOp4444
Ejemplos.
Bondad de ajuste. Ejemplos con la distribución de Poisson. Obtenido de: Rinaldo B. Schinazi. (2ª ed. 2010). Probability with Satistical Applications. USA: Birkhäuser
Bondad de ajuste. Ejemplos con la distribución normal. Obtenido de: W. J. DeCoursey. (2003). Statistics and Probability for Engineering Applications. UNADM | DCEIT | EM | EMAE
6
Módulo 6 Unidad 2. Pruebas de hipótesis United States of America: Newnes.
Pruebas de independencia (tablas de contingencia) La tabla de la sección anterior, en la que las frecuencias observadas sólo ocupan una fila, se le llama tabla de clasificación de una cola. Como el número de columnas es k, también se le llama tabla 1xk. Extendiendo esta idea se puede llegar a las tablas de hxk en las que las frecuencias observadas ocupan h filas y k columnas. A estas tablas se les conoce como tablas de contingencia. Para cada frecuencia observada en una tabla de contingencia hxk, existe una frecuencia esperada que se calcula según alguna regla de probabilidad. Estas frecuencias que ocupan las celdas de la tabla de contingencia se llaman frecuencias de celda. La frecuencia total en cada fila y cada columna se llama frecuencia marginal. Para saber si existe asociación entre las frecuencias observadas y esperadas se calcula el estadística
donde la suma se toma sobre todas las celdas en la tabla de contingencia y los Oj y Ej son las frecuencias observadas y esperadas de la jesima celda. Esta suma contien hk términos. El número de grados de libertad gl de la
está dado por h>1, k>1 por:
(a) gl=(h-1)(k-1) si las frecuencias esperadas se pueden calcular sin tener que estimar parámetros de la población de los estadísticos de la muestra, (b) gl=(h-1)(k-1)-m si las frecuencias esperadas se pueden calcular sólo estimando m parámetros de la población de los estadísticos de la muestra.
Corrección de Yates para continuidad La corrección para la
consiste en:
y se le conoce como la corrección de Yates. En general la corrección sólo se aplica cuando los grados de libertad se reducen a 1. Para muestras pequeñas en las que la frecuencia esperada se encuentra entre 5 y 10, es mejor comparar los valores de corregidos y sin corregir. Si los resultados difieren entonces se puede incrementar el tamaño de muestra.
UNADM | DCEIT | EM | EMAE
7
Módulo 6 Unidad 2. Pruebas de hipótesis
Ejemplos de pruebas de independencia. Khan Academy 2012. Tabla de contingencia de test de chi cuadrado. Disponible en: https://www.youtube.com/watch?v=-osaBBWFIDk
Análisis de la relación entre dos variables cualitativas: Test Chi cuadrado. Módulo 4. Universidad de Salamanca 2013 [video]. Disponible en: https://www.youtube.com/channel/UCgCLxuL_b1YU8cmj-7O75yA
Cierre de la unidad El estudiante ha aprendido a transformar una situación de interés en una prueba de hipótesis. Asimismo, ha aprendido a llevar a cabo pruebas de hipótesis para la media para comprobar poblaciones o procesos, para comprobar distribuciones y para establecer si hay relación entre variables. Por último ha aprendido a tomar decisiones con base en los resultados de las pruebas de hipótesis mediante el método de rechazo aceptación y el método de valor P. En muchos casos se encuentra que existe una relación entre dos o más variables y se requiere expresar esta relación en forma matemática. La siguiente unidad trata sobre cómo encontrar esta relación matemática, específicamente cuando esta relación es lineal, a esto se le llama regresión lineal. Se aplicarán los conocimientos adquiridos en esta unidad sobre pruebas de hipótesis a estos modelos de regresión lineal.
Fuentes de consulta Básica. W. J. DeCoursey. (2003). Statistics and Probability for Engineering Applications. United States of America: Newnes. M. Spiegel, J. Schiller, R. A. Srinivasan. (2001). Shaum’s Easy Outlines Probability and Statistics. New York: McGraw-Hill.
UNADM | DCEIT | EM | EMAE
8
Módulo 6 Unidad 2. Pruebas de hipótesis John E. Freund, Irwing Miller, Marylees Miller. (6ª ed. 1999). Estadística Matemática con aplicaciones. México: Pearson Education. Rinaldo B. Schinazi. (2ª ed. 2010). Probability with Satistical Applications. USA: Birkhäuser Douglas C. Montgomery, George C. Runger. (5ta ed. 2011). Applied Statistics and Probability for Engeineers. USA: Wiley&Sons. Complementaria D. S. Yates, D. S. Moore, D. S. Starnes. (2nd ed. 2002) The Practice of Statistics. New York: W. H. Freeman and Company.
UNADM | DCEIT | EM | EMAE
9