Ciencias Exactas, Ingeniería y Tecnología Enseñanza de las matemáticas 3er Semestre Fase 1. Módulo 6 Aplicaciones de la estadística Unidad 2. Pruebas de hipótesis.
Módulo 6 Unidad 2. Pruebas de hipótesis
Unidad 2. Pruebas de hipótesis Introducción Bienvenidos a la unidad 2 del módulo de aplicaciones de la estadística. En la unidad anterior se utilizaron estadísticos para hacer inferencias respecto a parámetros poblacionales mediante la estimación puntual. En esta unidad aprenderás a hacer inferencias mediante un procedimiento distinto llamado prueba de hipótesis. La mayoría de los problemas en la vida cotidiana involucran decidir si una afirmación es verdadera o no. A estas afirmaciones se les llama hipótesis y al proceso de decisión se le llama prueba de hipótesis. Este es uno de los aspectos más útiles en la estadística inferencial ya que muchos problemas que tienen que ver con toma de decisiones, pruebas y experimentos en la investigación se pueden formular como un problema de prueba de hipótesis. Esta unidad es muy importante en el desarrollo del módulo ya que aprenderás a realizar pruebas de hipótesis sobre la media o desviación estándar de una población que tiene o se puede aproximar a una distribución normal. Aprenderás a utilizar el valor P para tomar decisiones a partir de las pruebas de hipótesis. Entenderás la relación entre pruebas de hipótesis e intervalos de confianza. También aprenderás a realizar una bondad de ajuste con la distribución chi cuadrada. La formulación de la teoría sobre las pruebas de hipótesis como se conoce hoy en día se creó en gran parte en el periodo comprendido entre 1915 y 1933 por tres personas: R. A. Fisher (1890-1962), J. Neyman (1894-1981) y E. S. Pearson (1895-1980). Desde entonces se ha expandido y utilizado ampliamente como una metodología cuantitativa en practicamente todas las áreas de estudio que existen.
Competencia específica Realiza pruebas de hipótesis Para aceptar o refutar una hipótesis nula realizando la determinación de un estadístico de pueba y un criterio de rechazo apropiado
UNADM | DCEIT | EM | EMAE
2
Módulo 6 Unidad 2. Pruebas de hipótesis
Desarrollo por semana Semana 5 Hipótesis estadística En la práctica es necesario tomar decisiones estadísticas sobre una población mediante la información que provee una muestra de esa población. Para poder tomar decisiones es necesario realizar supuestos o afirmaciones sobre la población que pueden resultar ser verdad o no. A estas afirmaciones se les llama hipótesis estadísticas. Una hipótesis estadística es una afirmación sobre los parámetros de una o más poblaciones. Como se utilizan distribuciones de probabilidad para representar a una población, entonces una hipótesis estadística se puede ver como una afirmación sobre la distribución de probabilidad de la población. Las pruebas de hipótesis se utilizan en situaciones en las que se presentan dos alternativas y se requiere decidir cuál de las dos es la correcta. En muchos casos se plantea una hipótesis con el fin de rechazarla. A estas hipótesis se les llama en general hipótesis nula H0 y a cualquier hipótesis que difiera de esta se le llama hipótesis alterna HA. Para comprender el concepto detrás de las pruebas de hipótesis se muestran tres ejemplos en los que se aprecia claramente el fundamento. Ejemplo 1. Evaluación de evidencia en un juicio en Estados Unidos. Supóngase que una persona es acusada con el cargo de asesinato premeditado y se le ha encargado a un jurado condenar al acusado por asesinato o en caso contrario, absolverlo (en el sistema judicial estadounidense, el jurado de una causa penal se compone de 12 miembros y decide si el acusado cometió el delito que se le imputa. Tanto en las causas penales como las civiles los veredictos deben ser unánimes, aunque las partes de una causa civil podrían aceptar un veredicto sin unanimidad. Las deliberaciones de los miembros del jurado se llevan a cabo en privado, fuera de la vista y oídos de personas ajenas al jurado). Por otro lado, el acusado tiene un motivo, los medios y la oportunidad de haber cometido el asesinato. Además se han encontrado dos tipos de sangre en la escena del crimen: uno pertenece a la víctima pero las pruebas de laboratorio del otro tipo de sangre no lograron demostrar que perteneciera al acusado. ¿Qué debe hacer entonces el jurado? La evidencia que utilizará la parte acusadora para tratar de establecer una conexión entre el tipo de sangre del acusado y la sangre encontrada en la escena de crimen será probabilística, es decir, circunstancial. Esta evidencia probablemente sea presentada ante el jurado en lenguaje matemático, por ejemplo: “Los dos tipos de sangre tienen caracteristícas x, y, z, sin embargo, sólo 0.5% de la población posee este tipo de sangre”. La defensa en cambio argumentará que este hecho es una desafortunada coincidencia. El jurado debe entonces evaluar la evidencia y decidir si esta coincidencia es demasiado extraordinaria para ser UNADM | DCEIT | EM | EMAE
3
Mรณdulo 6 Unidad 2. Pruebas de hipรณtesis cierta, es decir que debe decidir si la propuesta de que el acusado cometiรณ asesinato en primer grado tiene un grado de certeza suficiente para condenar. Si la evidencia en contra del acusado tiene una probabilidad de una en diez de suceder (es decir que la probabilidad es alta), seguramente el jurado absolverรก al acusado; si la evidencia tiene una probabilidad de una en un millรณn de suceder (es decir un probabilidad muy baja), probablemente el jurado condene al acusado. El siguiente diagrama ilustra el proceso que se sigue en el ejemplo del juicio.
UNADM | DCEIT | EM | EMAE
4
Módulo 6 Unidad 2. Pruebas de hipótesis
Ejemplo 2. Lanzamiento de una moneda Suponga que se ha lanzado una moneda 20 veces y cayó 15 veces en águila. Si la moneda no está falseada, ¿cuál sería la probabilidad de obtener 15 águilas o más? • La variable tiene una distribución binomial con parámetros n=20, p=0.5, x≥15. Calculando la probabilidad de obtener 15 águilas en 20 lanzamientos, se obtiene P≈0.02 o 2%. • 2% parece ser una probabilidad bastante baja (esto es un juicio completamente subjetivo). • Si la moneda fuera justa, la probabilidad de obtener 15 águilas sería muy baja. • Sin embargo, la moneda sí produjo 15 águilas. Estos datos no son consistentes con la hipótesis de “la moneda no está falseada”. Conclusión: la moneda está manipulada de tal forma que tiende a sacar águilas.
UNADM | DCEIT | EM | EMAE
5
Módulo 6 Unidad 2. Pruebas de hipótesis
Ejemplo 3. Video 1: Khan Academy. Prueba de hipótesis simple [video]. Disponible en: https://www.youtube.com/watch?v=5D1gV37bKXY
Resumen • Un procedimiento que deriva en una decisión sobre una hipótesis en particular se llama una prueba de hipótesis. UNADM | DCEIT | EM | EMAE
6
Módulo 6 Unidad 2. Pruebas de hipótesis • •
Los procedimientos para hacer una prueba de hipótesis se basan en la utilización de la información disponible de una muestra aleatoria de la población de interés. Si la información es consistente con la hipótesis, no se rechaza la hipótesis nula. Si la información no es consistente con la hipótesis, se concluye que la hipótesis es falsa.
La veracidad o falsedad de una hipótesis en particular no se puede saber con certeza a menos que se pueda examinar a la población entera. Esto es prácticamente imposible en la mayoría de las situaciones prácticas. Por lo tanto una prueba de hipótesis se debe llevar a cabo sabiendo que existe la posibilidad de llegar a una conclusión falsa.
Tipos de errores en la toma de decisiones Retomando el ejemplo 2. No se puede estar absolutamente seguro que la conclusión a la que se llegó es verdad. Siempre se tiene una posibilidad de obtener un resultado falso, es decir que la decisión a la que se llega siempre está sujeta a un error. En este ejemplo la hipótesis nula es que la moneda no está alterada y la hipótesis alterna es que la moneda sí está alterada. Según los cálculos que se realizaron, se concluyó que la moneda sí tiende a sacar águilas. Podría ser que la hipótesis nula sea verdad pero los datos apoyan la hipótesis alterna. Ahora veamos un ejemplo en el que se puede llegar a una conclusión falsa. Supongamos que se lanza una moneda 20 veces. Se proponen las siguientes hipótesis. H0: p=0.5 HA: p=0.8 El criterio de decisión es que si del total de lanzamientos salen 14 caras o más, se escoge HA; de lo contrario se escoge H0. • •
Posible error I: p=0.5 pero salen 14 caras o más, por lo que se llega a la falsa conclusión de que p=0.8. Posible error II: p=0.8 pero caen menos de 14 veces cara, por lo que también se llega a una falsa conclusión.
En la tabla 1 se muestran las posibles decisiones a las que se puede llegar en este problema en paticular. Prueba concluye p=0.5
Prueba concluye p=0.8 Error tipo I
La realidad es p=0.5
UNADM | DCEIT | EM | EMAE
Conclusión correcta
La probabilidad de obtener este error se calcula con una binomial n=20, p=0.5 y k>=14 7
Módulo 6 Unidad 2. Pruebas de hipótesis Se obtiene P=5.8% a este valor se le llama nivel de significancia. Conclusión correcta
La realidad es p=0.8
Error tipo II
La probabilidad de llegar a esta conclusión se calcula con una binomial n=20 p=0.8 k>=14 Se obtiene 91.3% y a este valor se le llama potencia.
Tabla 1.Decisiones posibles del problema ejemplo.
En general se tiene la siguiente tabla.
Acepta H0 Rechaza H0
H0 es verdadera H0 es falsa No hay error (decisión correcta) Error tipo II Error tipo I No hay error (decisión correcta) Tabla 2. Decisiones posibles en una prueba de hipótesis.
Error tipo I: Refutar la hipótesis nula H0 aun cuando es verdadera. Error tipo II: No rechazar la hipótesis nula cuando es falsa. Nivel de significancia (α): Probabilidad, bajo H0, que la prueba concluya HA. Esta probabilidad debe ser baja. α=P(error tipo I)=P(refutar H0 cuando H0 es verdad)
UNADM | DCEIT | EM | EMAE
8
Módulo 6 Unidad 2. Pruebas de hipótesis Fijar el nivel de significancia α es lo mismo que decidir de antemano la probabilidad máxima que se está dispuesto a asumir de rechazar la hipótesis nula cuando es cierta. El nivel de significancia lo elige el experimentador. El primero en utilizar el concepto de significancia fue Ronald Fisher. El encontró “conveniente” utilizar un valor de 5% por lo que ahora en muchos libros se utiliza este valor aunque en realidad la elección de este valor fue totalmente arbitraria. La definición convencional de un valor pequeño de significancia se aplica para valores menores a 5%. El resultado se dice “significante estadísticamente”. La definición convencional de muy pequeño se aplica para valores menores a 1% y al resultado se le dice “muy significante estadísticamente”. β=P (error tipo II)=P(Aceptar H0 cuando H0 es falsa) Potencia: probabilidad, bajo H0, que la prueba concluya HA. Esta probabilidad debería ser alta. Potencia =1-β
Tipos de pruebas de estadísticas En general, la hipótesis nula es un parámetro desconocido, por ejempo la media de una población µ, igualado a un valor en particular conocido
. La hipótesis alterna establece ese parámetro es mayor
que, menor que, o simplemente distinto al valor conocido una cola y la última es una hipótesis de dos colas.
. Las dos primeras son hipótesis alternas de
Prueba de dos colas. Prueba de hipótesis en las que las regiones de rechazo de la hipótesis nula son las colas extremas de la distribución muestral. Prueba de una cola. Prueba de hipótesis en la que la región de rechazo de la hipótesis nula queda en una de las colas (derecha o izquierda) de la distribución muestral.
Video 2: Khan Academy. One-tailed and two-tailed tests| Probability and Statistics [video]. Disponible en: https://www.youtube.com/watch?v=mvye6X_0upA
UNADM | DCEIT | EM | EMAE
9
Módulo 6 Unidad 2. Pruebas de hipótesis Estadístico de prueba Un estadístico de prueba es un estadístico cuyo valor se utiliza para determinar si se rechaza o acepta la hipótesis nula. Al conjunto de valores de un estadístico de prueba en los que se refuta la hipótesis nula se le llama región de rechazo. La región de rechazo se escoge de tal manera que si la hipótesis nula es verdadera, la probabilidad de que el estadístico de prueba esté en la región de rechazo sea a lo más el nivel de significancia deseado. Valores típicos de significancia son 10%, 5%, 1% aunque la elección es arbitraria. La región en la que no se rechaza la hipótesis nula es la región de aceptación. Las fronteras entre las regiones críticas y la región de aceptación se les llama valores críticos.
Pruebas que involucran la distribución normal Si se supone que bajo cierta hipótesis la distribución de muestras de un estadístico X tiene una distribución con media y desviación estándar entonces la distribución de la variable estándar, dada por , es la distribución normal estándar como se puede observar en la figura 1. El estadístico de prueba es z.
UNADM | DCEIT | EM | EMAE
10
Módulo 6 Unidad 2. Pruebas de hipótesis
Figura 1. Distribución de muestras de un estadístico X. Si la hipótesis nula es verdadera, el estadístico de prueba de un estadístico X se encontrará dentro del intervalo -1.96 y 1.96 para un nivel de significancia de 0.05 y una prueba de dos colas. Este intervalo es la región de aceptación. Los valores -1.96 y 1.96 son los valores críticos. Si al escoger una muestra aleatoria, se encuentra que el estadístico de prueba se encuentra fuera del intervalo -1.96 y 1.96, se concluye que el evento tiene un probabilidad de 0.05 o menos (área en amarillo) si la hipótesis es verdad. Se dice que el estadístico de prueba difiere significativamente de lo que se esperaría bajo la hipótesis y por lo tanto se rechaza la hipótesis. A esta región fuera del intervalo se le llama región de rechazo o región crítica. El área en amarillo es el nivel de significancia de la prueba. La prueba de hipótesis o criterio de decisión se puede resumir como sigue: •
Refutar la hipótesis a un nivel de significancia de 0.05 si el estadístico de prueba del estadístico X se encuentra en la zona de rechazo. Se dice que el resultado es significativo estadísticamente.
•
Aceptar la hipótesis si el estadístico de prueba se encuentra en la región de aceptación.
En el siguiente link se encuentran dos ejercicios resueltos en los que se describen los pasos necesarios para realizar una prueba de hipótesis utilizando los conceptos descritos anteriormente. ***
UNADM | DCEIT | EM | EMAE
11
Módulo 6 Unidad 2. Pruebas de hipótesis
Ejercicios resueltos sobre pruebas de hipótesis de una cola [documento word].
El valor P en las pruebas de hipótesis El valor P es el menor nivel de significancia que lleva a refutar la hipotésis nula. Se acostumbra llamar al estadístico de prueba significante cuando se rechaza H0 por lo que se puede pensar al valor P como el nivel más pequeño en el que los datos son significativos. Otra manera de decirlo es que el valor P es el nivel de significancia observado. Una vez que se conoce el valor de P, se puede decidir que tan significativa es la información sin imponer un nivel de significancia preseleccionado. Para entender mejor el concepto y su aplicación revisar el enlace siguiente.
Teoría sobre el valor P. Obtenido de: M. Spiegel, J. Schiller, R. A. Srinivasan. (2001). Shaum’s Easy Outlines Probability and Statistics. New York: McGraw-Hill.
Análisis de
y
La probabilidad de cometer los errores tipo I o II se pueden modificar cambiando ciertos parámetros de las muestras. En el enlace de abajo se encuentra un análisis de estos parámetros. Teoría sobre análisis de
y
. Obtenido de:
Douglas C. Montgomery, George C. Runger. Applied Statistics and Probability for Engineers. 5th edition. John Wiley & Sons. United States of America
UNADM | DCEIT | EM | EMAE
12
Módulo 6 Unidad 2. Pruebas de hipótesis
Ejercicio resuelto 1. Fuerza de estiramiento. Una compañía fabrica cuerdas que resisten una fuerza de estiramiento promedio de 300 lb con una desviación estándar de 24 lb. Se cree que con un nuevo procedimiento este promedio se puede incrementar. (a) Diseñar un criterio de decisión para rechazar el procedimiento antiguo con un nivel de significancia de 0.01 si se toma una muestra de 64 cuerdas. (b) Bajo el criterio de decisión en (a), ¿cuál es la probabilidad de aceptar el viejo proceso cuando en realidad el nuevo proceso incrementó la media de la fuerza que resisten las cuerdas a 310 lb? Considerar que la desviación estándar sigue siendo de 24 lb. Respuesta. (a) 1. El parámetro de interés es la fuerza de estiramiento promedio que soportan las cuerdas. 2. La hipótesis nula es que la media de la fuerza de estiramiento que resisten las cuerdas es de 300 lb. H0: lb 3. La hipótesis alterna es que la media es mayor HA: lb. 4. El estadístico de prueba es 5. El criterio de rechazo es que el estadístico cumpla 6. En este ejercicio no se sabe el valor promedio de la fuerza en la muestra pero es justamente lo que se pide calcular en las instrucciones.
El valor crítico es 2.33, reemplazando este valor en la ecuación anterior lb. Entonces si la media de la fuerza de una muestra de 64 cuerdas excede los 307 lb, rechazar H0. De lo contrario aceptar H0. (b) Considerar las hipótesis H0:
lb y HA:
lb. Las distribuciones de las medias de la
fuerza de estiramiento correspondientes a estas dos hipótesis se muestra en la figura. La probabilidad de aceptar la hipótesis nula dado que la nueva media es de 310 lb está representada por por la región en la figura. Para saber el valor exacto se debe calcular el valor estandar de 307 lb que es igual a
UNADM | DCEIT | EM | EMAE
.
13
Módulo 6 Unidad 2. Pruebas de hipótesis Esta es la probabilidad de aceptar H0 cuando en realidad HA es verdadera, es decir la probabilidad de cometer un error tipo II.
Figura 2. Regiones
del ejercicio resuelto 1.
Normalmente los pasos a seguir en una prueba de hipótesis son los siguientes: 1. Parámetro de interés: identificar el parámetro de interés en el contexto del problema. 2. Hipótesis nula: formular la hipótesis nula H0. 3. Hipótesis alterna: Especificar la hipótesis alterna HA. 4. Estadístico de prueba: Determinar el estadístico de prueba apropiado. 5. Especificar la región crítica (dos colas, una cola) 6. Especificar el criterio para refutar (el valor de α, o el valor P) 7. Concluir: Decidir si la H0 debe ser rechazada o no.
Pruebas concernientes a medias Para una población con distribución normal: caso de una muestra grande ( Para este caso se asume que una muestra aleatoria
)
se toma de la población. Usando el
teorema del límite central, cuando la muestra es grande (mayor a 30), la distribución de muestras es normal. Lo que se hace es estandarizar la media de la muestra y usar un estadístico de prueba basado en la distribución normal estándar. Por lo tanto el estadístico de prueba es: UNADM | DCEIT | EM | EMAE
14
Módulo 6 Unidad 2. Pruebas de hipótesis
Al igual que para los intervalos de confianza se pueden considerar dos casos: 1) la desviación estándar de la población
es conocida, o 2)
se desconoce y se estima mediante la desviación estándar de la
muestra s. Para calcular el valor P para las pruebas en donde la distribución normal está involucrada y tomando la hipótesis nula H0:
y z0 el valor del estadístico de prueba entonces se cumple lo siguiente:
Hipótesis alterna
Valor P
Criterio de rechazo
H A:
Probabilidad por encima de
y
o
probabilidad por debajo de P= Probabilidad por arriba de z0
H A:
P= Probabilidad por debajo de
H A:
P=
Ejercicio resuelto 2. Tiempo de vida de un foco. El tiempo de vida de 100 focos producidos por una compañía es de 1570. Si todos los focos producidos por la compañía y la desviación estándar es horas contra la hipótesis
es el tiempo de vida de horas, probar la hipótesis
horas, utilizando un nivel de significancia de 0.05 y 0.01.
1. El parámetro de interés es el tiempo de vida de los focos. 2. La hipótesis nula es H0: 3. La hipótesis alterna es HA: La prueba es de dos colas porque
horas horas incluye valores mayores y menores a 1600.
4. El estadístico de prueba es
UNADM | DCEIT | EM | EMAE
15
Módulo 6 Unidad 2. Pruebas de hipótesis 5. El criterio de rechazo es para valores P menores a α=0.05. Dado que el nivel de significancia es de 0.05, los valores críticos son
y
El otro criterio de rechazo es para valores P menores a α=0.01. Los valores críticos en este caso son y 6. Se calcula el estadístico de prueba: Se conoce la desviación estándar de la población por lo que no hay necesidad de estimar este parámetro con la desviación estándar de la muestra. 7. Como
, el valor P es igual a
Dado que el valor P<α=0.05 entonces se rechaza la hipótesis nula a favor de la hipótesis alterna con un nivel de significancia de 0.05. El valor P> α=0.01 por lo que se acepta la hipótesis nula con un nivel de significancia de 0.01.
Figura 3. Regiones de aceptación y de rechazo para
UNADM | DCEIT | EM | EMAE
para el ejercicio resuelto 2.
16
Módulo 6 Unidad 2. Pruebas de hipótesis
Figura 4. Regiones de aceptación y de rechazo para
para el ejercicio resuelto 2.
Ejercicio resuelto 3. Tensión en un cable. Los cables producidos por un productor soportan una tensión promedio de 820 kg. El fabricante afirma que un nuevo procedimiento de manufactura de los cables permite aumentar la tensión que pueden soportar. Para probar esta afirmación se toma una muestra de 50 cables y se encuentra que la tensión promedio que soportan es de 840 kg con desviación estándar de 45 kg. ¿Se puede comprobar la afirmación con un nivel de significancia de 0.01? 1. El parámetro de interés es la tensión promedio que soportan los cables de un fabricante. 2. La hipótesis nula es H0: 3. La hipótesis alterna es HA:
kg kg
La prueba es de cola derecha ya que interesa saber si la fuerza que soportan los cables es mayor a 820 kg. 4. El estadístico de prueba es En este ejemplo se desconoce la desviación estándar de la población es desconocida por lo que se estima mediante la desviación estándar de la muestra s=45 kg por lo que el estadístico de prueba queda como: .
UNADM | DCEIT | EM | EMAE
17
Módulo 6 Unidad 2. Pruebas de hipótesis 5. El criterio de rechazo es cuando el valor P es menor a α=0.01 ya que el nivel de significancia es de 0.01. El valor crítico en este caso es 6. Se calcula el estadístico de prueba: 7. Como
, el valor P es igual a P=
Dado que P=0.0008 << α=0.01, se rechaza la hipótesis nula a favor de la hipótesis alterna
kg.
Figura 5. Regiones de aceptación y de rechazo para
UNADM | DCEIT | EM | EMAE
para el ejercicio resuelto 3.
18