Distribuciones Continuas Curso PI-2610 Curso Probabilidad y Estadística I Marco Alvarado Peña
Sesión 12
Objetivos de Aprendizaje 1. Dar a conocer los conceptos b谩sicos de medidas de tendencia central y de dispersi贸n.
2
Índice Distribuciones Continuas………………………………………………..1 Objetivos de Aprendizaje……………………………………….........2 Distribución Exponencial……………………………………………..6 (Teoría de colas y confiabilidad) Caso especial de D.Gama……..6 Consideraciones………………………………………………………8 Ejemplos………………………………………………………….........9 Ejemplos de Distribución Exponencial…………………………….10 Distribución Gamma………………………………………………….13 Distribución normal…………………………………………………..15 El Valor Z – Estandarizar……..………………………………...…117 Distribución Normal…………………………………………………..21 Función Densidad y Distribución de Probabilidad………………..21 Figuras importantes………………………………………………….23 Consideraciones………………………………………………………25 Teorema central del límite (TLC)…………………………………...27 Prueba de normalidad – Test cuantitativos…………………………….28 Distribuciones que se derivan del muestreo…………………….29 Distribución T de Student…………………………………………...29 Distribución ji-cuadrada……………………………………………..31 3
Distribuciรณn F de Fisherโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆ..34 Inferencia Estadรญsticaโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆ...37 Intervalo de confianza (I.C)โ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆ.38 Tamaรฑo de la muestraโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆ43 IC para Varianzasโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆ44 Prueba de Hipรณtesis Estadรญsticaโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆ...46 Hipรณtesis Nula y Alternativaโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆ...47 Riesgos para la toma de Decisiรณnโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆ..โ ฆโ ฆ552 Errores Tipo I vs. Tipo IIโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆ.53 P-Valueโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆ.56 Ejemplo 3-3โ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆ..58 Para los mismos datos de la Tensiรณnโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆ..61 Ejemplo 3-6 Montgomeryโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆ...63 Comparaciรณn de Dos Muestrasโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆ.64 Ejemplosโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆ...64 Hipรณtesis de 2 Muestrasโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆ..65 Prueba para la Igualdad de Dos Mediasโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆ..67 Distribuciรณn Muestral de ๐ ๐ โ ๐ ๐ โ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆ.69 Prueba- t: Igualdad de 2 Mediasโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆ.โ ฆโ ฆ..70 (1-ฮฑ)% Intervalo de Confianza para ๏ ญ1-๏ ญ2โ ฆโ ฆโ ฆโ ฆโ ฆโ ฆโ ฆ.โ ฆโ ฆโ ฆ71 4
Hipótesis de 2 Muestras…………………………………………….72 Estadísticos Muestrales……………………………………………..73 Prueba Estadística F…………………………………………….…..74 Comparaciones Muestrales Pareadas………………………….…75 Muestras pareadas……………………………………………….….79 Datos Experimento Pareado..……………………………………...79 Análisis Muestra Pareada…………………………………………..80 Delta (B-A) vs. Corredor…………………………………………….81 Hipótesis Estadística…………………………………………………82 Prueba Pareada-t……………………………………………………83 Intervalo de Confianza……………………………………………….85 Referencias…………………………………………………………….87
5
DistribuciĂłn Exponencial (TeorĂa de colas y confiabilidad) Caso especial de D.Gama Explica fenĂłmenos de la vida real como por ejemplo lĂneas de espera, (teorĂa de colas). Esta distribuciĂłn se usa para modelar tiempos de espera para la ocurrencia de un cierto evento.
−đ?œ†đ?‘Ľ đ?‘“(đ?‘Ľ) = {đ?œ†đ?‘’ , 0
đ?‘?đ?‘Žđ?‘&#x;đ?‘Ž đ?‘Ľ ≼ 0 đ?‘‘đ?‘’ đ?‘œđ?‘Ąđ?‘&#x;đ?‘œ đ?‘šđ?‘œđ?‘‘đ?‘œ
đ??š(đ?‘Ľ) = đ?‘ƒ(đ?‘‹ ≤ đ?‘Ľ) = {
0 đ?&#x2018;?đ?&#x2018;&#x17D;đ?&#x2018;&#x;đ?&#x2018;&#x17D; đ?&#x2018;Ľ < 0 1 â&#x2C6;&#x2019; đ?&#x2018;&#x2019; â&#x2C6;&#x2019;đ?&#x153;&#x2020;đ?&#x2018;Ľ đ?&#x2018;?đ?&#x2018;&#x17D;đ?&#x2018;&#x;đ?&#x2018;&#x17D; đ?&#x2018;Ľ â&#x2030;Ľ 0
E [X] = 1/Îť V (X) = 1/Îť2
6
Para ejemplificar lo anterior se presentan los grĂĄficos a continuaciĂłn:
Fig 1. TeorĂa de colas y confiabilidad
(X â&#x2030;¤ x) = F(x) = 1 â&#x2C6;&#x2019; e â&#x2020;&#x2018; â&#x2C6;&#x2019;đ?&#x153;&#x2020;x P (X > x) = 1 â&#x2C6;&#x2019; F(x) = 1 â&#x2C6;&#x2019; e â&#x2020;&#x2018; â&#x2C6;&#x2019; Îťx P (a â&#x2030;¤ X â&#x2030;¤ b) = F(b) â&#x2C6;&#x2019; F(a) = (1 â&#x2C6;&#x2019; e â&#x2020;&#x2018; â&#x2C6;&#x2019; Îťb) â&#x2C6;&#x2019; (1 â&#x2C6;&#x2019; e â&#x2020;&#x2018; â&#x2C6;&#x2019; Îťa) P (a â&#x2030;¤ X â&#x2030;¤ b) = e â&#x2020;&#x2018; â&#x2C6;&#x2019; Îťa â&#x2C6;&#x2019; e â&#x2020;&#x2018; â&#x2C6;&#x2019; Îťb
7
Consideraciones La distribución exponencial es el equivalente continuo de la distribución geométrica discreta. Esta ley de distribución describe procesos en los que: - Nos interesa saber el tiempo hasta que ocurre determinado evento, sabiendo que, - El tiempo que pueda ocurrir desde cualquier instante dado t, hasta que ello ocurra en un instante tf, no depende del tiempo transcurrido anteriormente en el que no ha pasado nada.
De hecho la distribución exponencial puede derivarse de un proceso experimental de Poisson con las mismas características, pero tomando como variable aleatoria, en este caso, el tiempo que tarda en producirse un hecho.
8
Ejemplos 1- El tiempo que tarda una partícula radiactiva en desintegrarse. El conocimiento de la ley que sigue este evento se utiliza en Ciencia para, por ejemplo, la datación de fósiles o cualquier materia orgánica mediante la técnica del carbono 12, C14.
2- El tiempo que puede transcurrir en un servicio de urgencias, para la llegada de un paciente.
3- En un proceso de Poisson donde se repite sucesivamente un experimento a intervalos de tiempo iguales, el tiempo que transcurre entre la ocurrencia de dos sucesos consecutivos sigue un modelo probabilístico exponencial. Por ejemplo, el tiempo que transcurre entre que sufrimos dos veces una herida importante.
9
Ejemplos de Distribución Exponencial Ejemplo 1. Suponga que un sistema contiene cierto tipo de componente cuyo tiempo de falla en aùos estå dado por T. La variable aleatoria T se modela bien mediante la distribución exponencial con tiempo medio para la falla β = 5. Si se instalan cinco de estos componentes en diferentes sistemas, ¿cuål es la probabilidad de que al menos dos aún funcionen al final de ocho aùos?
SoluciĂłn La probabilidad de que un componente dado aĂşn funcione despuĂŠs de ocho aĂąos estĂĄ dada por: P (T > 8) =
1 5
x
â&#x2C6;Ť8 e-1/5
dt = đ?&#x2018;&#x2019; â&#x2C6;&#x2019;8/5 = 0.2
RepresĂŠntese con X el nĂşmero de componentes que funcionan despuĂŠs de ocho aĂąos. Entonces con el uso de la distribuciĂłn binomial: P (X â&#x2030;Ľ 2) = â&#x2C6;&#x2018;5đ?&#x2018;Ľ=2 b(x: 5. 0.2)= 1- â&#x2C6;&#x2018;5đ?&#x2018;Ľ=0 b(x: b. 0.2)= 1- 0.7373 = 0.2627
10
Ejemplo 2. Se sabe que el tiempo de espera de una persona que llama a un centro de atenciĂłn al pĂşblico, para ser atendido por un acesor es una variable aleatoria exponencial con Âľ= 5 minutos. Encuentre la probabilidad de que una persona llame al azar en un momento y tenga que:
a) Esperar a la sumo 5 minutos R/ La probabilidad es de 0.6321
b) Al menos 10 minutos R/ La probabilidad es de 0.1353
c) Entre 3 y 10 minutos R/ La probabilidad es de 0.4135
11
Ejemplo 3. Se sabe que el gasto mensual de agua en metros cĂşbicos en cierta localidad, tiene Âľ= 10. a) ÂżCuĂĄl es la proabilidad de que una familia que consume menos de 3 metros cĂşbicos al mes? R/ La probabilidad de que se consuma menos de 3 đ?&#x2018;&#x161;3 es de 0.2592
b) ÂżCuĂĄl es la probabilidad de que el consuo emnsual reabse los 40 metros cĂşbicos? R/ La probabilidad que el consumo rebase los 40 đ?&#x2018;&#x161;3 es de 0.018
12
DistribuciĂłn Gamma Este modelo es una generalizaciĂłn del modelo Exponencial ya que, en ocasiones, se utiliza para modelar variables que describen el tiempo hasta que se produce p veces un determinado suceso. Su funciĂłn de densidad es de la forma:
đ?&#x2018;&#x201C;(đ?&#x2018;Ľ) =
1 đ?&#x2018;? { đ?&#x203A;ź Î&#x201C;(đ?&#x2018;?)
0
đ?&#x2018;Ľ
đ?&#x2018;&#x2019;â&#x2C6;&#x2019;đ?&#x203A;ź đ?&#x2018;Ľđ?&#x2018;?â&#x2C6;&#x2019;1 , đ?&#x2018;Ľ > 0 , đ?&#x2018;Ľâ&#x2030;¤0
Como se puede observar, este modelo depende de dos parĂĄmetros positivos: Îą y p. La funciĂłn Î&#x201C;(p) es la denominada funciĂłn Gamma de Euler que representa la siguiente integral: â&#x2C6;&#x17E;
Î&#x201C;(đ?&#x2018;?) = â&#x2C6;Ť0 đ?&#x2018;Ľ đ?&#x2018;?â&#x2C6;&#x2019;1 đ?&#x2018;&#x2019; â&#x2C6;&#x2019;đ?&#x2018;Ľ đ?&#x2018;&#x2018;đ?&#x2018;Ľ Que verifica Î&#x201C;(đ?&#x2018;? + 1) = đ?&#x2018;?Î&#x201C;(đ?&#x2018;?), con lo que si, p es un nĂşmero entero positivo, Î&#x201C;(đ?&#x2018;? + 1) = p!
13
Decimos que una variable aleatoria x, sigue una distribuciĂłn gamma si su â&#x20AC;&#x153;PDFâ&#x20AC;? (la funciĂłn de su distribuciĂłn de probabilidad) es:
đ?&#x2018;&#x201C;(đ?&#x2018;Ľ; đ?&#x203A;ź, đ?&#x203A;˝ ) =
1 { đ?&#x203A;˝ đ?&#x203A;ź Î&#x201C; (đ?&#x203A;ź )
đ?&#x2018;Ľ đ?&#x203A;źâ&#x2C6;&#x2019;1
đ?&#x2018;&#x2019; â&#x2C6;&#x2019;đ?&#x2018;Ľđ?&#x203A;˝ , đ?&#x2018;Ľ > 0
0
,
otra manera
Donde tanto đ?&#x203A;˝ como đ?&#x203A;ź son positivos: (đ?&#x203A;˝, đ?&#x203A;ź ) > 0 Cuando β = 1 a esta distribuciĂłn le llamamos â&#x20AC;&#x153;Gamma EstĂĄndarâ&#x20AC;?:
đ?&#x2018;Ľ đ?&#x203A;źâ&#x2C6;&#x2019;1 đ?&#x2018;&#x2019; â&#x2C6;&#x2019;đ?&#x2018;Ľ đ?&#x2018;&#x201C;(đ?&#x2018;Ľ; đ?&#x203A;ź, đ?&#x203A;˝ ) = { Î&#x201C;(đ?&#x203A;ź )
,đ?&#x2018;Ľ â&#x2030;Ľ 0 0
, otra manera
Valor esperado: E(x) = Îź = Îą β Varianza: V(x) = Ď&#x192;2 = Îą β2 *Caso especial: Cuando Îą = 1 la distribuciĂłn gamma es una exponencial con β=
1 đ?&#x153;&#x2020;
14
DistribuciĂłn normal Es la distribuciĂłn continua mĂĄs importante, tanto en estadĂstica teĂłrica como aplicada. Si X es una variable aleatoria normal, entonces su funciĂłn de d.p. estĂĄ dada por
đ?&#x2018;&#x201C; (đ?&#x2018;Ľ ) = {
â&#x2C6;&#x2019;đ?&#x2018;Ľ
1 đ?&#x153;&#x17D;â&#x2C6;&#x161;2đ?&#x153;&#x2039;
1 đ?&#x2018;Ľâ&#x2C6;&#x2019;đ?&#x153;&#x2021; 2 ) â&#x2C6;&#x2019; ( đ?&#x2018;&#x2019; 2 đ?&#x153;&#x17D;
,
đ?&#x2018;Ľâ&#x2C6;&#x2C6;â&#x201E;?
donde Îź (mu) es la media y Ď&#x192; (sigma) es la desviaciĂłn estĂĄndar (Ď&#x192;2 es la varianza). Suponga una variable aleatoria X~ N(Îź, Ď&#x192;2), para calcular la probabilidad de que esta variable tome valores entre dos nĂşmeros a y b, entonces se calcula el ĂĄrea bajo la curva entre a y b (mediante mĂŠtodos numĂŠricos ya que la integral de la funciĂłn de distribuciĂłn no tiene soluciĂłn analĂtica). 15
Fig 2. DistribuciĂłn normal
Cuando es una distribuciĂłn normal con parĂĄmetros đ?&#x153;&#x2021; = đ?&#x2018;&#x153; đ?&#x2018;Ś đ?&#x153;&#x17D; 2 = 1, entonces a la distribuciĂłn se le conoce como distribuciĂłn normal estĂĄndar (N(0,1)) y los valores de las probabilidades estĂĄn ya tabulados.
Estandarizar una variable es fĂĄcil, puesto que si X tiene una distribuciĂłn normal con đ??¸(đ?&#x2018;&#x2039;) = đ?&#x153;&#x2021; đ?&#x2018;Ś đ?&#x2018;&#x2030;(đ?&#x2018;&#x2039;) = đ?&#x153;&#x17D; 2 , entonces la variable (estandarizada).
z=
(đ?&#x2018;Ľâ&#x2C6;&#x2019;đ?&#x153;&#x2021; ) đ?&#x153;&#x17D; 16
El Valor Z â&#x20AC;&#x201C; Estandarizar
z=
(đ?&#x2018;Ľâ&#x2C6;&#x2019;đ?&#x153;&#x2021; ) đ?&#x153;&#x17D;
En esta ecuaciĂłn, Îź es la media, Ď&#x192; es la desviaciĂłn estĂĄndar y x es un valor que nos gustarĂa evaluar. - x- Îź esta diferencia calcula que tan lejos se estĂĄ de la media miu. - Cuando se divide por Ď&#x192;, se estĂĄ calculando cuantas desviaciones estĂĄndar se estĂĄ de la media.
17
Zona 1: đ?? Âą đ?&#x;? đ??&#x2C6; 68.26% de los datos se esperan contener dentro de una desviaciĂłn estĂĄndar de la media Zona 2: đ?? Âą đ?&#x;? đ??&#x2C6; 95.46% de los datos se esperan contener dentro de dos desviaciones estĂĄndar de la media Zona 3: đ?? Âą đ?&#x;&#x2018; đ??&#x2C6; 99.73% de los datos se esperan contener dentro de tres desviaciones estĂĄndar
Fig 3. Ă reas bajo la curva de la distribuciĂłn
18
Ejemplo El tiempo de entrega de un producto se distribuye normal con media 60,5 y desviaciĂłn estĂĄndar 5,9. Si un tiempo de entrega es de 70, ÂżcuĂĄntas desviaciones estĂĄndar tiene respecto de la media? z= ( z= (
đ?&#x2018;Ľâ&#x2C6;&#x2019;đ?&#x153;&#x2021; đ?&#x153;&#x17D;
)
70â&#x2C6;&#x2019;60.5 5.9
)
= 1.61
Si estamos considerando una zona con Îź Âą 3 Ď&#x192; entonces 1,61 desviaciones estĂĄndar de la media estĂĄ al interno del ĂĄrea de la zona de 3 Ď&#x192;.
Fig 4.DesviaciĂłn 1,61
19
¿Cuántas desviaciones estándar tiene el tiempo de 100 respecto de la media?
z= (
100−60.5 5.9
)
= 6.69
Este valor está muy lejos de la zona de aceptación, recuerde que la zona de aceptación está definida por μ ± 3 σ , lo que indica que algún cambio ha ocurrido en las operaciones normales del proceso.
Fig 5. Desviación 6.69
20
DistribuciĂłn Normal - Una de las mĂĄs importantes en la EstadĂstica. - MatemĂĄtico AlemĂĄn Karl Friedrich Gauss (1777-1855) - Muchos de los fenĂłmenos del mundo real se comportan bajo esta estructura probabilĂstica. - Cuando una variable aleatoria representa a una poblaciĂłn que tiene un comportamiento probabilĂstico normal el histograma tiene una forma mĂĄs o menos simĂŠtrica.
FunciĂłn Densidad y DistribuciĂłn de Probabilidad La funciĂłn de densidad de la variable aleatoria normal X, con media Îź y varianza Ď&#x192;2, es
1 đ?&#x2018;&#x203A;(đ?&#x2018;Ľ; đ?&#x153;&#x2021;, đ?&#x153;&#x17D;) = {â&#x2C6;&#x161;2đ?&#x153;&#x2039;đ?&#x153;&#x17D;
đ?&#x2018;&#x2019;
1 â&#x2C6;&#x2019;(2)[(đ?&#x2018;Ľâ&#x2C6;&#x2019;đ?&#x153;&#x2021;)/đ?&#x153;&#x17D;]2
,
â&#x2C6;&#x2019;â&#x2C6;&#x17E; < đ?&#x2018;Ľ < â&#x2C6;&#x17E;,
Donde đ?&#x153;&#x2039; = 3,14159... y e = 2,71828
21
*Nota: Los errores en las mediciones cient铆ficas se aproximan extremadamente bien mediante una distribuci贸n normal. Una variable Aleatoria continua X que tiene la forma de campana se dice que sigue una Distribuci贸n Normal.
Fig 6. Densidad y Distribuci贸n de Probabilidad
22
Figuras importantes
Fig 7. Curvas normales con μ1 < μ2 y σ1 = σ2
Fig 8. Curvas normales con μ1 = μ2 y σ1 < σ2
23
Fig 9. Curvas normales con μ1 < μ2 y σ1 < σ2
24
Consideraciones - La moda, que es el punto sobre el eje horizontal donde la curva es un mĂĄximo, ocurre en đ?&#x2018;Ľ = đ?&#x153;&#x2021;
- La curva es simĂŠtrica alrededor de un eje vertical a travĂŠs de la media đ?&#x153;&#x2021; - La curva tiene sus puntos de inflexiĂłn en đ?&#x2018;Ľ = đ?&#x153;&#x2021; Âą đ?&#x153;&#x17D;, es cĂłncava hacia abajo si đ?&#x153;&#x2021; â&#x2C6;&#x2019; đ?&#x153;&#x17D; < đ?&#x2018;&#x2039; < đ?&#x153;&#x2021; + đ?&#x153;&#x17D;, y es cĂłncava hacia arriba en cualquier otro punto.
- La curva normal se aproxima al eje horizontal de manera asintĂłtica conforme nos alejamos de la media en cualquier direcciĂłn.
- La ĂĄrea total bajo la curva y sobre el eje horizontal es igual a 1.
- Es una buena aproximaciĂłn para la binomial y la hipergeomĂŠtrica.
25
AtenciĂłn La funciĂłn de probabilidad normal depende de Îź y Ď&#x192; y como estos valores tienen un dominio de Âąâ&#x2C6;&#x17E; entonces puede existir un nĂşmero infinito de curvas para cada Îź y Ď&#x192;.
Para evitar esto se ha encontrado una curva normal reducida o estandarizada que tenga un valor medio igual a cero y una varianza igual a 1, de tal manera que cualquier distribuciĂłn normal de Îź y varianza Ď&#x192;2 se puede convertir o estandarizar a otra distribuciĂłn.
Z=
đ?&#x2018;Ľâ&#x2C6;&#x2019;đ?&#x153;&#x2021; đ?&#x153;&#x17D;
En consecuencia de lo anterior la funciĂłn densidad es: 1
đ?&#x2018;&#x201C; (đ?&#x2018;Ľ ) = {â&#x2C6;&#x161;2đ?&#x153;&#x2039;
đ?&#x2018;&#x2019; â&#x2C6;&#x2019;đ?&#x2018;Ľ
2 /2
26
Teorema central del lĂmite (TLC) Una de las razones por las que la distribuciĂłn normal es tan importante es debido al TLC que en un caso particular afirma: Sea x1, x2, ..., xn una muestra aleatoria de cualquier poblaciĂłn, y sea đ?&#x2018;ĽĚ&#x2026; la media muestral; entonces, independientemente de cĂłmo sea la distribuciĂłn de la poblaciĂłn de donde se extrajo la muestra, la distribuciĂłn de đ?&#x2018;ĽĚ&#x2026; se aproxima a la normal N (Îź,Ď&#x192;2) conforme n crece. La forma lĂmite de la distribuciĂłn de z=
đ?&#x2018;&#x2039;Ě&#x2026;â&#x2C6;&#x2019; đ?&#x153;&#x2021; đ?&#x153;&#x17D;/ â&#x2C6;&#x161;đ?&#x2018;&#x203A;
conforme n-->â&#x2C6;&#x17E;, es la
distribuciĂłn normal estĂĄndar N(0,1). Como puede apreciar es muy similar a la z estandarizada de la DistribuciĂłn normal, sin embargo como se estĂĄ trabajando con muestras la desviaciĂłn estĂĄndar debe ser dividido entre raĂz de n. - En algunos casos la aproximaciĂłn puede ser buena para n pequeĂąa n<10. - En otros casos se necesita un n grande, n>100. - En el caso en que las x tengan la misma distribuciĂłn y no sea radicalmente diferente a la normal, entonces un nâ&#x2030;Ľ4 es suficiente. 27
El p-value es la significancia de la
Prueba de normalidad – Test cuantitativos
prueba, es el área bajo la
Es posible usar test cuantitativos para calcular el p-value asociado a la
distribución de referencia que
hipótesis nula del tipo de distribución.
esta mas allá del valor del estadístico de prueba
Existen muchas pruebas para verificar la normalidad, entre las que se encuentran las siguientes: - Ji-cuadrada para bondad de ajuste (para cualquier distribución) - Kolmogorov – Smirnov - Shapiro – Wilks - Anderson – Darling (para dist. Gauseana o Normal), usaremos ésta prueba ya implementada en Minitab: Stat/ Basic Stat/ Normality Test
28
Distribuciones que se derivan del muestreo DistribuciĂłn T de Student Es una distribuciĂłn de probabilidad que surge del problema de: - Estimar la media y desviaciĂłn de una poblaciĂłn normalmente distribuida cuando el tamaĂąo de la muestra es pequeĂąo.
Debido a que si se obtiene una muestra aleatoria de tamaĂąo n de una poblaciĂłn cuya distribuciĂłn es normal, entonces el estadĂstico:
T=
đ?&#x2018;ĽĚ&#x2026; â&#x2C6;&#x2019; đ?&#x153;&#x2021; đ?&#x2018;&#x2020;/ â&#x2C6;&#x161;đ?&#x2018;&#x203A;
â&#x2C6;ź T â&#x20AC;&#x201C; Student (v)
Grados de libertad (dt)
v = n-1
29
En la siguiente figura se muestra la grรกfica de densidades T y la normal. Como se aprecia la distribuciรณn T es similar a la normal (0,1), excepto que tiene colas mรกs pesadas.
GRAPH / PROBABILITY DISTRIB PLOT
Fig 10. Colas pesadas
30
DistribuciĂłn ji-cuadrada Usada para hacer inferencias acerca de la desviaciĂłn estĂĄndar Ď&#x192;. Sean Z1, Z2, ..., Zk, v.a. ind., â&#x2C6;ź N (Îź = 0, Ď&#x192;2 = 1), entonces la v.a. : X2= Z21 +... + Z2k
X â&#x2C6;ź X2k
Si se obtiene una muestra de tamaĂąo n, entonces el estadĂstico:
2
X=
(đ?&#x2018;&#x203A;â&#x2C6;&#x2019;1)đ?&#x2018;&#x2020; 2 đ?&#x153;&#x17D;2
Tiene una distribuciĂłn ji-cuadrada con n-1 grados de libertad (S2, es la varianza muestral).
31
Conforme crecen los grados de libertad se aproxima a una distribuci贸n normal.
GRAPH / PROBABILITY DISTRIB PLOT
Fig 11. Distribuci贸n ji-cuadrada
32
La distribución X2 tiene muchas aplicaciones en inferencia estadística. La más conocida es la de denominada prueba X2 utilizada como prueba de independencia y como prueba de bondad de ajuste y en la estimación de varianzas.
Pero también está involucrada en el problema de estimar la media de una población normalmente distribuida y en el problema de estimar la pendiente de una recta de regresión lineal, a través de su papel en la distribución t de Student.
Aparece también en todos los problemas de análisis de varianza por su relación con la distribución F de Snedecor, que es la distribución del cociente de dos variables aleatorias independientes con distribución X2.
33
DistribuciĂłn F de Fisher Sean W y Y variables aleatorias ji-cuadrada independientes con u y v grados de libertad, respectivamente. Entonces el cociente F =
đ?&#x2018;&#x160;/ đ?&#x2018;˘ đ?&#x2018;&#x152;/ đ?&#x2018;Ł
tiene una distribuciĂłn F con u grados
de libertad en el numerador, y v en el denominador, cuya funciĂłn de densidad de probabilidad estĂĄ dada por:
đ?&#x2018;&#x201C; (đ?&#x2018;Ľ ) =
đ?&#x2018;˘ đ?&#x2018;˘ đ?&#x2018;˘ 2 (2)â&#x2C6;&#x2019;1 (đ?&#x2018;˘+đ?&#x2018;Ł ) ( 2 đ?&#x2018;Ł) đ?&#x2018;Ľ
đ?&#x2018;˘
đ?&#x2018;˘
đ?&#x2018;˘
( ) ( ) [( ) đ?&#x2018;Ľ + 1] 2 2 đ?&#x2018;Ł {
đ?&#x2018;˘ 2
( )â&#x2C6;&#x2019;1
0<x<â&#x2C6;&#x17E;
34
Densidades F para diferentes grados de libertad. La distribuci贸n F se encuentra centrada con respecto a 1, y los dos par谩metros le dan flexibilidad.
Fig 12. F de Fisher
35
La importancia de la distribución F radica en que es de especial utilidad para hacer inferencia cuando se comparan varianzas, ya que si se tienen dos poblaciones con distribución normal y varianzas σ21 y σ22, respectivamente, y se toman muestras aleatorias de cada población, de tamaño n1 y n2, respectivamente, entonces la variable aleatoria formada por el cociente F =
𝑆12 / 𝜎12 𝑆22 / 𝜎22
sigue una distribución F con n1
y n2 grados de libertad en el numerador y denominador, respectivamente, donde S21 y S22 son las varianzas muestrales.
36
Inferencia Estadística La inferencia estadística es una parte de la estadística que comprende los métodos y procedimientos para deducir propiedades de una población estadística, a partir de una pequeña parte de la misma.
Fig 13. Inferencia Estadística
37
Intervalo de confianza (I.C) - Un intervalo construido alrededor de un par谩metro de una distribuci贸n.
- En este caso, un intervalo es construido alrededor de la media muestral usando la distribuci贸n muestral para capturar un % de la distribuci贸n.
Fig 14. Intervalo de confianza
38
Intervalo de confianza indica un rango â&#x20AC;&#x153;donde puede estar el parĂĄmetroâ&#x20AC;? con cierto nivel de seguridad o confianza. Construir un intervalo al 100(1 â&#x20AC;&#x201C; đ?&#x203A;ź)% de confianza para un parĂĄmetro desconocido đ?&#x153;&#x192; consiste en estimar dos nĂşmeros (estadĂsticos) L y U, de manera que la probabilidad de que đ?&#x153;&#x192; se encuentre entre ellos sea 1 â&#x20AC;&#x201C; đ?&#x203A;ź, es decir, đ?&#x2018;&#x192;(đ??ż â&#x2030;¤ đ?&#x153;&#x192; â&#x2030;¤ đ?&#x2018;&#x2C6;) = 1 â&#x2C6;&#x2019; đ?&#x203A;ź, donde L y U forman el intervalo de confianza buscando [L, U].
- Intervalo de Confianza Bilateral: El riesgo se distribuye igualmente en ambos lados đ?&#x2018;&#x192;(đ??ż â&#x2030;¤ đ?&#x153;&#x192; â&#x2030;¤ đ?&#x2018;&#x2C6;) = 1 â&#x2C6;&#x2019; đ?&#x203A;ź
- Intervalo de Confianza Unilateral: El riesgo es concentrado en un lado, đ?&#x2018;&#x192;(đ??ż â&#x2030;¤ đ?&#x153;&#x192;) = 1 â&#x2C6;&#x2019; đ?&#x203A;ź, đ?&#x2018;&#x192;(đ?&#x153;&#x192; â&#x2030;¤ đ?&#x2018;&#x2C6;) = 1 â&#x2C6;&#x2019; đ?&#x203A;ź
39
IC para la media cuando n > 30 datos
IC para la media cuando n < 30 datos
(đ??&#x2C6; đ?&#x2019;&#x201E;đ?&#x2019;?đ?&#x2019;?đ?&#x2019;?đ?&#x2019;&#x201E;đ?&#x2019;&#x160;đ?&#x2019;&#x2026;đ?&#x2019;?)
(đ??&#x2C6; đ?&#x2019;&#x2026;đ?&#x2019;&#x2020;đ?&#x2019;&#x201D;đ?&#x2019;&#x201E;đ?&#x2019;?đ?&#x2019;?đ?&#x2019;?đ?&#x2019;&#x201E;đ?&#x2019;&#x160;đ?&#x2019;&#x2026;đ?&#x2019;?)
Intervalo de confidencia bilateral
đ?&#x2018;ĽĚ&#x2026; â&#x2C6;&#x2019; đ?&#x2018;§đ?&#x203A;ź/2
đ?&#x153;&#x17D; â&#x2C6;&#x161;đ?&#x2018;&#x203A;
â&#x2030;¤ đ?&#x153;&#x2021; â&#x2030;¤ đ?&#x2018;ĽĚ&#x2026; + đ?&#x2018;§đ?&#x203A;ź/2
đ?&#x153;&#x17D; â&#x2C6;&#x161;đ?&#x2018;&#x203A;
Intervalo de confidencia superior
đ?&#x153;&#x2021; â&#x2030;¤ đ?&#x2018;ĽĚ&#x2026; + đ?&#x2018;§đ?&#x203A;ź
đ?&#x153;&#x17D; â&#x2C6;&#x161;đ?&#x2018;&#x203A;
Intervalo de confidencia inferior
đ?&#x2018;ĽĚ&#x2026; â&#x2C6;&#x2019; đ?&#x2018;§đ?&#x203A;ź
đ?&#x153;&#x17D; â&#x2C6;&#x161;đ?&#x2018;&#x203A;
â&#x2030;¤đ?&#x153;&#x2021;
Intervalo de confidencia bilateral
đ?&#x2018;ĽĚ&#x2026; â&#x2C6;&#x2019; đ?&#x2018;Ąđ?&#x203A;ź/2,đ?&#x2018;&#x203A;â&#x2C6;&#x2019;1
đ?&#x2018; â&#x2C6;&#x161;đ?&#x2018;&#x203A;
â&#x2030;¤ đ?&#x153;&#x2021; â&#x2030;¤ đ?&#x2018;ĽĚ&#x2026; + đ?&#x2018;Ąđ?&#x203A;ź/2,đ?&#x2018;&#x203A;â&#x2C6;&#x2019;1
đ?&#x2018; â&#x2C6;&#x161;đ?&#x2018;&#x203A;
Intervalo de confidencia superior
đ?&#x153;&#x2021; â&#x2030;¤ đ?&#x2018;ĽĚ&#x2026; + đ?&#x2018;Ąđ?&#x203A;ź,đ?&#x2018;&#x203A;â&#x2C6;&#x2019;1
đ?&#x2018; â&#x2C6;&#x161;đ?&#x2018;&#x203A;
Intervalo de confidencia inferior
đ?&#x2018;ĽĚ&#x2026; â&#x2C6;&#x2019; đ?&#x2018;Ąđ?&#x203A;ź,đ?&#x2018;&#x203A;â&#x2C6;&#x2019;1
đ?&#x2018; â&#x2C6;&#x161;đ?&#x2018;&#x203A;
â&#x2030;¤đ?&#x153;&#x2021;
40
Siguiendo con el ejemplo del grosor de discos En tabla 2.1 la caracterĂstica de calidad del producto (disco) es su grosor, que debe ser de 1.20 mm con una tolerancia de Âą 0.10mm. Determine el intervalo de confianza de la media.
đ?&#x2018;ĽĚ&#x2026; Âą đ?&#x2018;Ąđ?&#x203A;ź,đ?&#x2018;&#x203A;â&#x2C6;&#x2019;1 2
đ?&#x2018; â&#x2C6;&#x161;đ?&#x2018;&#x203A;
= 1,1786 Âą 1,97928 â&#x2C6;&#x2014; 0,270 / â&#x2C6;&#x161;đ?&#x2018;&#x203A;
1,18341
1,17387
Student's t distribution with 124 DF P( X <= x ) x 0,025 -1,97928 STAT/BASIC STATISTICS/1T 1
Fig 15. Grosor de discos
41
Ejemplo 4.2 En el proceso de fabricación de discos para computadoras una de las variables críticas es el rendimiento del formato. Se toma una muestra aleatoria de n=10 discos de la producción del último turno, se formatean y se reporta el rendimiento de cada disco. Los datos obtenidos son: 96.11, 91.06, 93.38, 88.52, 89.57, 92.63, 85.20, 91.41, 89.79, 92.62 Con base en estos datos interesa estimar, de manera puntual y por intervalo, la media y la desviación estándar para la población de discos de dicho turno.
Fig 16. Ejemplo
42
TamaĂąo de la muestra TamaĂąo de muestra n para lograr que la estimaciĂłn de una media poblacional đ?&#x153;&#x2021; tenga como error mĂĄximo a un nĂşmero E. Para un error de estimaciĂłn estĂĄ dado đ?&#x2018;Ąđ?&#x203A;ź,đ?&#x2018;&#x203A;â&#x2C6;&#x2019;1 2
đ?&#x2018; â&#x2C6;&#x161;đ?&#x2018;&#x203A;
, despejando n se obtiene:
đ?&#x2018;Ąđ?&#x203A;ź/2,đ?&#x2018;&#x203A;â&#x2C6;&#x2019;1 â&#x2C6;&#x2014; đ?&#x2018;&#x2020; 2 đ?&#x2018;&#x203A;= ( ) đ??¸ Como đ?&#x2018;Ą(đ?&#x203A;ź/2,đ?&#x2018;&#x203A;â&#x2C6;&#x2019;1) depende de n, y ĂŠsta es la incĂłgnita, entonces para propĂłsitos prĂĄcticos y con tamaĂąos de muestra mayores que 30, el valor de đ?&#x2018;Ą(đ?&#x203A;ź/2,đ?&#x2018;&#x203A;â&#x2C6;&#x2019;1) puede tomarse como 2. De esta manera, đ?&#x2018;&#x203A; =
4 â&#x2C6;&#x2014; đ?&#x2018;&#x2020;2 đ??¸2
43
IC para Varianzas I.C. bilateral
(đ?&#x2018;&#x203A; â&#x2C6;&#x2019; 1)đ?&#x2018; 2 (đ?&#x2018;&#x203A; â&#x2C6;&#x2019; 1)đ?&#x2018; 2 2 â&#x2030;¤đ?&#x153;&#x17D; â&#x2030;¤ 2 2 đ?&#x2018;&#x2039;đ?&#x203A;ź/2,đ?&#x2018;&#x203A;â&#x2C6;&#x2019;1 đ?&#x2018;&#x2039;1â&#x2C6;&#x2019;đ?&#x203A;ź/2,đ?&#x2018;&#x203A;â&#x2C6;&#x2019;1
I.C. superior
(đ?&#x2018;&#x203A; â&#x2C6;&#x2019; 1)đ?&#x2018; 2 đ?&#x153;&#x17D; â&#x2030;¤ 2 đ?&#x2018;&#x2039;1â&#x2C6;&#x2019;đ?&#x203A;ź,đ?&#x2018;&#x203A;â&#x2C6;&#x2019;1 2
I.C. inferior
(đ?&#x2018;&#x203A; â&#x2C6;&#x2019; 1)đ?&#x2018; 2 â&#x2030;¤ đ?&#x153;&#x17D;2 2 đ?&#x2018;&#x2039;đ?&#x203A;ź,đ?&#x2018;&#x203A;â&#x2C6;&#x2019;1
44
Determine el intervalo de confianza para la desviaciĂłn estĂĄndar del ejemplo 4.2
Fig 17. DesviaciĂłn estĂĄndar
Distrib. Chi-Cuadrado:
(đ?&#x2018;&#x203A;â&#x2C6;&#x2019;1)đ?&#x2018; 2 đ?&#x2018;żđ?&#x;?đ?&#x153;ś/đ?&#x;?,đ?&#x2019;?â&#x2C6;&#x2019;đ?&#x;?
â&#x2030;¤ đ?&#x153;&#x17D;2 â&#x2030;¤
(đ?&#x2018;&#x203A;â&#x2C6;&#x2019;1)đ?&#x2018; 2 đ?&#x2018;żđ?&#x;?đ?&#x153;ś/đ?&#x;?,đ?&#x2019;?â&#x2C6;&#x2019;đ?&#x;?
45
Prueba de Hipótesis Estadística - Una hipótesis es una declaración sobre los parámetros de una población. - Los parámetros deben estar identificados antes de hacer el análisis. - En general no tenemos datos poblacionales pero si tenemos datos muestrales de los cuales calculamos estadísticos. - Usamos estos estadísticos para hacer inferencias sobre los parámetros verdaderos de la población. - Debido a que hacemos inferencias, hay algún riesgo asociado con las decisiones que hacemos. - Por lo tanto, nunca debemos pensar de nuestros estadísticos como estimadores puntuales, más bien como intervalos sobre los cuales tenemos algún nivel de confianza que estemos prediciendo con exactitud los verdaderos parámetros de la población.
46
Hip贸tesis Nula y Alternativa
Fig 18. Hip贸tesis Nula y alternativa
47
Por ejemplo, la afirmación “este proceso produce menos de 8% de defectuosos” se puede plantear estadísticamente, en términos de la proporción p desconocida de artículos defectuosos que genera el proceso, como se hace a continuación: Ho : p = 0.08 → comúnmente se plantea como una igualdad, lo cual facilita tener una distribución de probabilidad de referencia específica HA : p < 0.08 / HA : p > 0.08 → se aceptará como cierta sólo en caso de rechazar la hipótesis nula
48
HipĂłtesis alternativa unilateral
HipĂłtesis alternativa bilateral
đ??ťđ?&#x2018;&#x153; : đ?&#x2018;? = 0.08 este proceso
đ??ťđ??´ : đ?&#x2018;? â&#x2030; 0.08 se observan menos de
produce 8% de defectuosos
8% de defectuosos como mĂĄs de 8% de defectuosos
Probar una hipĂłtesis consiste en investigar, con base en la evidencia contenida en una muestra aleatoria, si lo afirmado por Ho es verdad o no, y en caso de ser falso, se toma como verdadera la HA.
La estrategia para probar la hipĂłtesis parte del supuesto de que Ho es verdadera, y si los resultados de la investigaciĂłn contradicen en forma suficiente dicho supuesto, entonces se rechaza Ho y se acepta la HA.
En caso de que los resultados de la investigaciĂłn no demuestren claramente la falsedad de Ho, ĂŠsta no se rechaza. Es decir, la hipĂłtesis nula es verdadera mientras no se demuestre lo contrario.
49
Fig 19. Hip贸tesis nula
50
Si en efecto, Ho es verdad, el valor del estadístico de prueba debería caer dentro del rango de valores más probables de su distribución asociada, el cual se conoce como región de aceptación. Pero si cae en una de las colas de su distribución asociada, fuera del rango de valores más probables (en la región de rechazo), es evidencia en contra de que este valor pertenece a dicha distribución.
Fig 20. Región de aceptación-rechazo
51
Riesgos para la toma de DecisiĂłn
Error Tipo I - Incorrectamente Rechazar Ho cuando ĂŠsta es
Ho verdadera
Ho falsa
Aceptar Ho
DecisiĂłn correcta
Error tipo II đ?&#x203A;˝
Rechazar Ho
Error tipo I đ?&#x203A;ź
DecisiĂłn correcta
Verdadera - đ?&#x203A;ź = Probabilidad de cometer un error tipo I
Error Tipo II - Incorrectamente Aceptar Ho cuando ĂŠsta es Falsa - đ?&#x203A;˝ = Probabilidad de cometer un error tipo II - 1 â&#x2C6;&#x2019; đ?&#x203A;˝ = đ?&#x2018;?đ?&#x2018;&#x;đ?&#x2018;&#x153;đ?&#x2018;?. de rechazar Ho cuando es falsa, Potencia del Test
Fig 21. Riesgos para la toma de DecisiĂłn
52
Errores Tipo I vs. Tipo II Caso de un Juicio
Hipótesis - H0: Acusado es inocente y debe salir libre - H1: Acusado es culpable y debe ser castigado
Riesgos Error Tipo I
Castigar una persona inocente
Error Tipo II
Liberar a una persona culpable
Ho verdadera
Ho falsa
Aceptar Ho
Decisión correcta
Error tipo II 𝛽
Rechazar Ho
Error tipo I 𝛼
Decisión correcta
53
Fabricación de un paracaídas
Hipótesis - H0: Paracaídas abrirá exitosamente - H1: Paracaídas fallara al abrir
Riesgos Error Tipo I
No vender un buen paracaídas (perder una venta)
Error Tipo II
Vender un paracaídas que no se abrirá (perder un cliente)
54
Agregar una segunda maquina a la línea de producción: H0: 1 = 2 - Máquina 1 tiene la misma media que la maquina 2 - El cambio debe ser implementado. H1: 1 2 - Máquina 1 no tiene la misma media que la maquina 2 - El cambio no debe ser implementado
Riesgos α-riesgo
No usar la nueva máquina aunque tenga la misma media que la máquina antigua
β-riesgo
Usar la nueva máquina aunque tenga una media diferente que la máquina antigua
55
P-Value - El valor P representa la probabilidad de que la estadística de prueba tome un valor al menos tan extremo como el valor observado en ella cuando Ho es verdadera - Representa el nivel de significancia () más pequeño que conduciría al rechazo de Ho - Se acostumbra calificar como significativa a la estadística de prueba (y los datos) cuando se rechaza la hipótesis nula Ho, por lo que podemos considerar el valor P como el nivel más pequeño en el que los datos son significativos - El Valor P es usado para determinar si existe suficiente evidencia para rechazar la hipótesis nula en favor de la alternativa - El valor P es la probabilidad de rechazar incorrectamente la hipótesis nula
Fig 22. Regla de Decisión
56
Fig 23. Valores de P
57
Ejemplo 3-3 Libro Control EstadĂstico de la Calidad de D. Montgomery, 3 Ed. La resistencia a la tensiĂłn media de una fibra sintĂŠtica es una caracterĂstica de calidad importante. Al fabricante le gustarĂa probar la hipĂłtesis de que la resistencia media es 50 psi, utilizando alfa = 0,05. Por la experiencia anterior del fabricante, ĂŠste estĂĄ dispuesto a asumir que la resistencia a la tensiĂłn tiene una distribuciĂłn aproximadamente normal, sin embargo se desconoce la media y la varianza de la resistencia a la tensiĂłn. Se selecciona una muestra de 16 ejemplares de prueba de la fibra y se determina su tensiĂłn.
TensiĂłn: 48,89; 52,07; 49,29; 51,66; 52,16; 49,72; 48,00; 49,96; 49,20; 48,10; 47,90; 46,94; 51,76; 50,75; 49,86;51,57 đ??ťđ?&#x2018;&#x153; : đ?&#x153;&#x2021; = 50 đ?&#x2018;?đ?&#x2018; đ?&#x2018;&#x2013; đ??ťđ??´ : đ?&#x153;&#x2021; â&#x2030; 50 đ?&#x2018;?đ?&#x2018; đ?&#x2018;&#x2013;
đ?&#x2018;&#x2021;=
đ?&#x2018;ĽĚ&#x2026; â&#x2C6;&#x2019; đ?&#x153;&#x2021; ~ đ?&#x2018;&#x2021; â&#x2C6;&#x2019; đ?&#x2018;&#x2020;đ?&#x2018;Ąđ?&#x2018;˘đ?&#x2018;&#x2018;đ?&#x2018;&#x2019;đ?&#x2018;&#x203A;đ?&#x2018;Ą (đ?&#x2018;Ł â&#x2C6;&#x2019; 1) đ?&#x2018;&#x2020;/đ?&#x153;&#x2021;
58
One-Sample T: tension Test of mu = 50 vs not = 50 Variable N
Mean StDev SE Mean
tension 16 49,864 1,661
95% CI
T
P
0,415 (48,979. 50,750) -0,33 0,749
Stat/BS/1 t 1 sample/options/not equal
Fig 23. Valores de P
Fig 24. Ejemplo 3-3
59
Al fabricante le preocupa que los valores de la resistencia sean bajos đ??ťđ?&#x2018;&#x153; : đ?&#x153;&#x2021; â&#x2030;¤ 50 đ?&#x2018;?đ?&#x2018; đ?&#x2018;&#x2013; đ??ťđ??´ : đ?&#x153;&#x2021; > 50 đ?&#x2018;?đ?&#x2018; đ?&#x2018;&#x2013; One-Sample T: tension Test of mu = 50 vs > 50 95% Lower Variable N
Mean StDev SE Mean
TensiĂłn 16 49,864 1,661
0,415
Bound
T
P
49,136 -0,33 0,626
Stat/BS/1 t 1 sample/options/ greater thanl
Fig 25. Valores de resistencia bajos
60
Para los mismos datos de la TensiĂłn đ??ťđ?&#x2018;&#x153; : đ?&#x153;&#x17D; 2 = 3 đ??ťđ??´ : đ?&#x153;&#x17D; 2 â&#x2030; 3
(đ?&#x2018;&#x203A; â&#x2C6;&#x2019; 1)đ?&#x2018;&#x2020; 2 EstadĂstico de la prueba es đ?&#x2018;&#x2039; = 2 2
Test and CI for One Variance: tension Method Null hypothesis
Sigma-squared = 3
Alternative hypothesis Sigma-squared not = 3 Statistics Variable N StDev Variance tension 16 1,66
2,76
95% Confidence Intervals CI for Variable Method
CI for StDev
Variance
tension Chi-Square (1,23. 2,57) (1,51. 6,61) Test Variable Method tension Chi-Square
Statistic DF P-Value 13,80 15
0,918
61
Fig 26. Otra tensi贸n
62
Ejemplo 3-6 Montgomery En una muestra aleatoria de 80 rodamientos de cigĂźeĂąales para motor, 15 de los rodamientos tiene un acabado superficial cuya aspereza rebasa lo que permiten las especificaciones. Determine el intervalo de confianza de la fracciĂłn disconforme del proceso.
Suponiendo que es apropiada la aproximaciĂłn normal de la distribuciĂłn binomial, el IC del 95% đ?&#x2018;?Ě&#x201A; =
đ?&#x2018;Ľ 15 = = 0,1875 đ?&#x2018;&#x203A; 80
đ?&#x2018;?Ě&#x201A; (1 â&#x2C6;&#x2019; đ?&#x2018;?Ě&#x201A; ) đ?&#x2018;?Ě&#x201A; (1 â&#x2C6;&#x2019; đ?&#x2018;?Ě&#x201A; ) đ?&#x2018;?Ě&#x201A; â&#x2C6;&#x2019; đ?&#x2018;§đ?&#x203A;ź/2 â&#x2C6;&#x161; â&#x2030;¤ đ?&#x2018;? â&#x2030;¤ đ?&#x2018;?Ě&#x201A; â&#x2C6;&#x2019; đ?&#x2018;§đ?&#x203A;ź/2 â&#x2C6;&#x161; đ?&#x2018;&#x203A; đ?&#x2018;&#x203A; Normal with mean = 0 and standard deviation = 1 P( X <= x )
x
0,025 -1,95996 IC: [0.10197, 0,27302] (Exel)
Test and CI for One Proportion Sample X N Sample p 1
95% CI
15 80 0,187500 (0,108914. 0,290328) 63
Comparaciรณn de Dos Muestras Ejemplos - Media nueva mรกquina vs. Media mรกquina de referencia. - Partes del suplidor A vs. Suplidor B. - Ajustes temperatura actuales vs. Ajustes propuestos de temperatura. - Condiciรณn actual vs. Condiciรณn propuesta.
64
HipĂłtesis de 2 Muestras Se desea probar las hipĂłtesis: đ??ť0 : đ?&#x153;&#x2021;1 = đ?&#x153;&#x2021;2
vs.
đ??ť0 : đ?&#x153;&#x2021;1 â&#x2030; đ?&#x153;&#x2021;2
Fig 27. HipĂłtesis de dos muestras
65
Muestras aleatorias tomadas de cada poblaciĂłn
Fig 28. Muestras aleatorias
Usar đ?&#x153;&#x2019;Ě&#x2026;1 â&#x2C6;&#x2019; đ?&#x153;&#x2019;Ě&#x2026;2 como el mejor estimado de la diferencia en medias de la poblaciĂłn ď 1- ď 2
66
Prueba para la Igualdad de Dos Medias Prueba estadĂstica de đ?&#x153;&#x2019;Ě&#x2026;1 â&#x2C6;&#x2019; đ?&#x153;&#x2019;Ě&#x2026;2 - Estimado / Dev Std (Estimado) đ?&#x2018;Ą=
Ě&#x2026; 1 â&#x2C6;&#x2019;đ?&#x153;&#x2019; Ě&#x2026;2 đ?&#x153;&#x2019; Ě&#x2026; 1 â&#x2C6;&#x2019;đ?&#x153;&#x2019; Ě&#x2026;2 ) đ?&#x2018;&#x2020;đ?&#x2018;&#x2021;đ?&#x2018;&#x2018;đ??ˇđ?&#x2018;&#x2019;đ?&#x2018;Ł (đ?&#x153;&#x2019;
- DistribuciĂłn Muestral de đ?&#x2018;ĽĚ&#x2026;1 â&#x2C6;&#x2019; đ?&#x2018;ĽĚ&#x2026;2 Asumir que las dos muestras provienen de la misma poblaciĂłn (ď 1= ď 2) ÂżQuĂŠ tan aparte estarĂa đ?&#x153;&#x2019;Ě&#x2026;1 â&#x2C6;&#x2019; đ?&#x153;&#x2019;Ě&#x2026;2 por casualidad aleatoria?
Fig 29. DistribuciĂłn muestral
67
Del Teorema del LĂmite Central
đ?&#x2018; đ?&#x2018;Ąđ?&#x2018;&#x2018;đ??ˇđ?&#x2018;&#x2019;đ?&#x2018;Ł(đ?&#x153;&#x2019;Ě&#x2026;1 ) =
đ?&#x2018; đ?&#x2018;Ąđ?&#x2018;&#x2018;đ??ˇđ?&#x2018;&#x2019;đ?&#x2018;Ł(đ?&#x153;&#x2019;Ě&#x2026;2 ) =
đ?&#x153;&#x17D;1 â&#x2C6;&#x161;đ?&#x2018;&#x203A;1
Combinando ambas
đ?&#x153;&#x17D;12 đ?&#x153;&#x17D;22 â&#x2C6;&#x161; ) đ?&#x2018;&#x2020;đ?&#x2018;Ąđ?&#x2018;&#x2018;đ??ˇđ?&#x2018;&#x2019;đ?&#x2018;Ł(đ?&#x153;&#x2019;Ě&#x2026;1 â&#x2C6;&#x2019; đ?&#x153;&#x2019;Ě&#x2026;2 = + đ?&#x2018;&#x203A;1 đ?&#x2018;&#x203A;2
đ?&#x153;&#x17D;2 â&#x2C6;&#x161; đ?&#x2018;&#x203A;2
68
Ě&#x2026;đ?&#x;? â&#x2C6;&#x2019; DistribuciĂłn Muestral de đ??&#x152; Ě&#x2026;đ?&#x;? đ??&#x152;
đ?&#x2018;&#x2020;đ?&#x2018;Ąđ?&#x2018;&#x2018;đ??ˇđ?&#x2018;&#x2019;đ?&#x2018;Ł(đ?&#x153;&#x2019;Ě&#x2026;1 â&#x2C6;&#x2019; đ?&#x153;&#x2019;Ě&#x2026;2 ) = â&#x2C6;&#x161;
đ?&#x153;&#x17D;12 đ?&#x2018;&#x203A;1
+
đ?&#x153;&#x17D;22 đ?&#x2018;&#x203A;2
đ?&#x153;&#x17D;â&#x2C6;&#x161;
1 đ?&#x2018;&#x203A;1
+
1 đ?&#x2018;&#x203A;2
Se simplifica si đ?&#x153;&#x17D;1 = đ?&#x153;&#x17D;2 Fig 30. DistribuciĂłn muestral
69
Prueba- t: Igualdad de 2 Medias
Caso 1: đ??&#x2C6;1 = đ??&#x2C6;2
Desconocidas pero iguales đ?&#x2018;Ą=
đ?&#x153;&#x2019;Ě&#x2026;1 â&#x2C6;&#x2019; đ?&#x153;&#x2019;Ě&#x2026;2 1 1 đ?&#x2018;&#x2020;đ?&#x2018;? â&#x2C6;&#x161;đ?&#x2018;&#x203A; + đ?&#x2018;&#x203A; 1 2
Con n1+n2-2 g.l (đ?&#x2018;&#x203A;1 â&#x2C6;&#x2019; 1)đ?&#x2018; 12 + (đ?&#x2018;&#x203A;2 â&#x2C6;&#x2019; 1)đ?&#x2018; 22 đ?&#x2018;&#x2020;đ?&#x2018;? â&#x2C6;&#x161; đ?&#x2018;&#x203A;1 + đ?&#x2018;&#x203A;2 â&#x2C6;&#x2019; 2 Sp â&#x20AC;&#x153;promedio pesadoâ&#x20AC;? de s1 y s2 Caso 2: đ??&#x2C6;1 <> đ??&#x2C6;2
Desconocidas pero no iguales đ?&#x2018;Ą=
đ?&#x153;&#x2019;Ě&#x2026;1 â&#x2C6;&#x2019; đ?&#x153;&#x2019;Ě&#x2026;2 đ?&#x2018;&#x2020;2 đ?&#x2018;&#x2020;2 â&#x2C6;&#x161; 1+ 2 đ?&#x2018;&#x203A;1 đ?&#x2018;&#x203A;2
Con g.l â&#x20AC;&#x153;ajustadosâ&#x20AC;? 2
đ?&#x2018;&#x2020;2 đ?&#x2018;&#x2020;2 (đ?&#x2018;&#x203A;1 + đ?&#x2018;&#x203A;2 ) 1 2 đ?&#x2018;Ł= 2 â&#x2C6;&#x2019;2 2 (đ?&#x2018;&#x2020;1 /đ?&#x2018;&#x203A;1 ) (đ?&#x2018;&#x2020;22 /đ?&#x2018;&#x203A;2 )2 + đ?&#x2018;&#x203A;1 + 1 đ?&#x2018;&#x203A;2 + 1 70
(1-Îą)% Intervalo de Confianza para ď 1-ď 2 Un intervalo de confianza tiene la forma: Estimado Âą valor t tabulado *(Desv. Estd del estimado) đ?&#x2018;Ą0.025;đ?&#x2018;&#x203A;1+đ?&#x2018;&#x203A;2â&#x2C6;&#x2019;2 â&#x2030;&#x2C6; 2 Un IC del 95% es aprox. +/- 2 desv. estd.
Fig 31. Intervalo de confianza
71
Estimado Âą valor t tabulado*(Desv. Estd del estimado) Caso 1: đ??&#x2C6;1 = đ??&#x2C6;2
1 1 (đ?&#x153;&#x2019;Ě&#x2026;1 â&#x2C6;&#x2019; đ?&#x153;&#x2019;Ě&#x2026;2 ) Âą đ?&#x2018;Ąđ?&#x203A;źâ &#x201E;2;đ?&#x2018;&#x203A;1+đ?&#x2018;&#x203A;2â&#x2C6;&#x2019;2 â&#x2C6;&#x2014; đ?&#x2018;&#x2020;đ?&#x2018;? â&#x2C6;&#x161; + đ?&#x2018;&#x203A;1 đ?&#x2018;&#x203A;2
Caso 2: đ??&#x2C6;1 â&#x2030; đ??&#x2C6;2
đ?&#x2018; 12 đ?&#x2018; 22 (đ?&#x153;&#x2019;Ě&#x2026;1 â&#x2C6;&#x2019; đ?&#x153;&#x2019;Ě&#x2026;2 ) Âą đ?&#x2018;Ąđ?&#x203A;źâ &#x201E;2;"đ?&#x2018;&#x17D;đ?&#x2018;&#x2018;đ?&#x2018;&#x2014;đ?&#x2018;˘đ?&#x2018; đ?&#x2018;Ąđ?&#x2018;&#x2019;đ?&#x2018;&#x2018;" â&#x2C6;&#x2014; â&#x2C6;&#x161; + đ?&#x2018;&#x203A;1 đ?&#x2018;&#x203A;2
HipĂłtesis de 2 Muestras Se desea probar la hipĂłtesis: đ??ť0 : đ?&#x153;&#x17D;1 = đ?&#x153;&#x17D;2
vs.
Fig 32. HipĂłtesis de 2 muestras
đ??ť1 : đ?&#x153;&#x17D;1 â&#x2030; đ?&#x153;&#x17D;2
72
EstadĂsticos Muestrales - Muestras aleatorias tomadas de cada poblaciĂłn
Fig 33. EstadĂsticos Muestrales
- Usar đ?&#x2018;&#x2020;1 â &#x201E;đ?&#x2018;&#x2020;2 como el mejor estimado de la razĂłn de las desviaciones estĂĄndar de la poblaciĂłn đ?&#x153;&#x17D;1 â &#x201E;đ?&#x153;&#x17D;2 - Si las muestras tienen la misma desviaciĂłn estĂĄndar (Ď&#x192;1= Ď&#x192;2), entonces đ?&#x2018;&#x2020;1 â &#x201E;đ?&#x2018;&#x2020;2 debe estar cercano a 1
73
Prueba EstadĂstica F - Para probar la igualdad de las desviaciones estĂĄndar, la prueba estadĂstica es dada por:
đ?&#x2018; 1 2 đ??š=( ) đ?&#x2018; 2 - Cuando H0 es verdadera, el estadĂstico F sigue una distribuciĂłn F con n1-1 y n2-1 grados de libertad
74
Comparaciones Muestrales Pareadas - Se utiliza para comparar dos poblaciones donde las observaciones de una muestra pueden ser pareadas con las observaciones en la otra muestra.
Ejemplos - Cada unidad es sometida a ambos tratamientos - Observaciones antes y después en las mismas unidades
Dos sistemas de metrología midiendo las mismas unidades
- Grupos de unidades son partidas. Mitad de cada grupo es asignada aleatoriamente a cada tratamiento Ejemplo de Tenis de Carrera Un fabricante desea comparar dos materiales diferentes para hacer las suelas de las tenis para correr - Material A: Estándar - Material B: Mas barato
Se desea cambiar al Material B pero se teme que este sea menos durable. 75
Suponga que se ha escogido incluir los siguientes factores y niveles en un experimento: - Material: A y B - 10 corredores ¿Cómo se diseñaría este estudio? Propuesta Diseño 1
Fig 34. Propuesta de diseño 1
- Partir aleatoriamente los diez corredores en dos grupos de igual tamaño -
Asignar un grupo para usar tenis hechas con material A y asignar el otro grupo para usar tenis hechas con material B
76
- Los corredores se ejercitan como de costumbre por un periodo especificado de semanas y retornan las tenis al fabricante - El desgaste del tenis es medido para cada par y los datos son analizados usando una prueba-t de dos muestras
ÂżEs ĂŠste el mejor diseĂąo para este estudio?
77
Propuesta Diseño 2
Planteamiento muestras pareadas - Asignar aleatoriamente una tenis del Material A y una del Material B al pie izquierdo y derecho de cada corredor
¿Es éste un mejor diseño?
Fig 35. Propuesta de diseño 2
78
Muestras pareadas
Datos Experimento Pareado
Son aquellas en las que los
Diseño: Experimento Pareado
datos de ambas poblaciones se
Amount of Wear (mm)
pueden ver como pares porque
Jogger
Material A
Material B
tienen algo en común y no son
1
13.2
14.0
independientes.
2
8.2
8.8
3
10.9
11.2
4
14.3
14.2
5
10.7
11.8
6
6.6
6.4
7
9.5
9.8
8
10.8
11.3
9
8.8
9.3
10
13.3
13.6
nA= 10
NB= 10
̅ A = 10.6 X
̅ B = 11.0 X
SA= 2.45
SB= 2.52
¿Cómo se analizarían estos datos? 79
Anรกlisis Muestra Pareada Calcular una nueva columna con la diferencia en degaste para cada corredor Delta (B-A) = XB - XA Jogger
Material A
Material B
Delta (B-A)
1
13.2
14.0
0.8
2
8.2
8.8
0.6
3
10.9
11.2
0.3
4
14.3
14.2
-0.1
5
10.7
11.8
1.1
6
6.6
6.4
-0.2
7
9.5
9.8
0.3
8
10.8
11.3
0.5
9
8.8
9.3
0.5
10
13.3
13.6
0.3
Analizar la columna de deltas, no los datos iniciales
80
Delta (B-A) vs. Corredor - ¿Puede ud. indicar en este gráfico si los dos materiales tienen el mismo desgaste? - ¿Cómo se pueden comparar estadísticamente?
Fig 36. Gráfico Delta vs. Corredor
Si los materiales tienen el mismo desgaste, el delta promedio debe estar cercano a 0. 81
HipĂłtesis EstadĂstica Se quiere probar la hipĂłtesis: đ??ť0 : đ?&#x153;&#x2021;đ??´ = đ?&#x153;&#x2021;đ??ľ Desgaste medio verdadero es el mismo para ambos
đ??ť1 : đ?&#x153;&#x2021;đ??´ â&#x2030; đ?&#x153;&#x2021;đ??ľ versus
materiales A y B
Desgaste medio verdadero es diferente para los materiales A y B
Nota: La hipĂłtesis puede tambiĂŠn ser establecida como đ??ť0 : đ?&#x153;&#x2021;đ??ľ â&#x2C6;&#x2019; đ?&#x153;&#x2021;đ??´ = 0
Vs.
đ??ť1 : đ?&#x153;&#x2021;đ??ľ â&#x2C6;&#x2019; đ?&#x153;&#x2021;đ??´ â&#x2030; 0
Fig 37. HipĂłtesis estadĂstica
82
Prueba Pareada-t - Aplicar mĂŠtodos muestrales a la columna de deltas
Jogger
Material A
Material B
Delta (B-A)
1
13.2
14.0
0.8
2
8.2
8.8
0.6
3
10.9
11.2
0.3
4
14.3
14.2
-0.1
5
10.7
11.8
1.1
6
6.6
6.4
-0.2
7
9.5
9.8
0.3
8
10.8
11.3
0.5
9
8.8
9.3
0.5
10
13.3
13.6
0.3
- Recuerde el estadĂstico t de una sola muestra
đ?&#x2018;Ą=
đ?&#x153;&#x2019;Ě&#x2026; â&#x2C6;&#x2019; đ?&#x153;&#x2021;0 đ?&#x2018;&#x2020;â &#x201E; â&#x2C6;&#x161;đ?&#x2018;&#x203A;
Con n-1 grados de libertad, donde n es el nĂşmero de pares. 83
- Probar la hipĂłtesis que el delta promedio es 0 usando a = 0.05 Pair 1 2 3 4 5 6 7 8 9 10
N Rows
Delta (B-A) 0.8 0.6 0.3 -0.1 1.1 -0.2 0.3 0.5 0.5 0.3
đ?&#x2018;Żđ?&#x;&#x17D; : đ?? đ?&#x2018;Š â&#x2C6;&#x2019; đ?? đ?&#x2018;¨ = đ?&#x;&#x17D; vs.
đ?&#x2018;Żđ?&#x;? : đ?? đ?&#x2018;Š â&#x2C6;&#x2019; đ?? đ?&#x2018;¨ â&#x2030; đ?&#x;&#x17D;
đ?&#x2018;Ą=
đ?&#x153;&#x2019;Ě&#x2026; â&#x2C6;&#x2019; đ?&#x153;&#x2021;0 0.41 â&#x2C6;&#x2019; 0 = = 3.35 đ?&#x2018;&#x2020;â &#x201E; 0.39â &#x201E; â&#x2C6;&#x161;đ?&#x2018;&#x203A; â&#x2C6;&#x161;10
Prob ( t > |3.35| ) = 0.0085
10
Mean (Delta(B-A))
0.41
Std Dev (Delta(B-A))
0.39
ConclusiĂłn
84
Intervalo de Confianza - ÂżQuĂŠ tan diferentes son los materiales? - Determine un intervalo de confianza que contenga la verdadera diferencia đ?&#x153;&#x2019;Ě&#x2026; Âą đ?&#x2018;Ąđ?&#x203A;źâ &#x201E;2,đ?&#x2018;&#x203A;â&#x2C6;&#x2019;1 â&#x2C6;&#x2014; đ?&#x2018;&#x2020;â &#x201E; â&#x2C6;&#x161;đ?&#x2018;&#x203A; - Un intervalo de confianza del 95% para el ejemplo de los tenis para correr 0.41 Âą 2.26 â&#x2C6;&#x2014; 0.39â &#x201E; = (0.13,0.69) â&#x2C6;&#x161;10
ConclusiĂłn
85
- RemoviĂł la variabilidad de corredor a corredor de la comparaciĂłn.
- Mejoro la precisiĂłn (se redujo el error estĂĄndar) del estimado đ?&#x153;&#x2021;đ??´ â&#x2C6;&#x2019; đ?&#x153;&#x2021;đ??ľ Ăł đ?&#x153;&#x2021;đ?&#x2018;&#x2018; . - Resultando en una comparaciĂłn mas sensitiva que el planteamiento de dos muestras independientes.
86
Referencias
Moya, M. y Robles,N. (2010). Probabilidad y Estad铆stica: Un Enfoque te贸rico y pr谩ctico. Cartago: Tecnol贸gico de Costa Rica.
87