Sesión10 sct

Page 1

Distribuciones Muestrales (Parte I) Curso Probabilidad y Estadística Marco Alvarado Peña

Sesión 10


Objetivos de Aprendizaje Que el estudiante sea capaz de:

1. Reconocer los conceptos básicos de las técnicas de aproximación para poder aplicarlos según la situación que se esté analizando. 2. Entender la relación entre las distribuciones discretas y continuas que se pueden aproximar unas a otras según condiciones previas. 3. Observar la forma en que las aproximaciones de las distribuciones puede facilitar la vida del analista.

2


�ndice Distribuciones Muestrales (Parte I).......................................... 1 Objetivos de Aprendizaje....................................................... 2 Antes de iniciar Êsta lección se debe considerar que........ 5 ¿QuÊ es una Distribución Muestral de �? ........................... 6 Teorema Límite Central.......................................................... 7 Normal con media miu y desviación eståndar relacionada a dicho tamaùo de muestra.............................. 7 Beneficios del TLC................................................................ 7 Ejemplo 1: Walpole............................................................... 8 Ejemplo 2.............................................................................. 11 Importante............................................................................... 15 Ejemplo 8.14......................................................................... 15 Procesos con muestras......................................................... 19 Población vs. Muestras.......................................................... 21 Paråmetros Poblacionales vs. Estadísticos Muestrales..... 21 Estadísticos Muestrales son Variables Aleatorias.............. 23 Teorema Límite Central – TLC............................................... 24 Probabilidades de la Distribución Normal........................... 25 Distribución Normal Eståndar............................................... 26 3


Prueba de Hipótesis............................................................... 30 El Nuevo Paradigma............................................................... 32 Hipótesis Nula & Alternativa................................................. 33 Riesgos para la Toma de Decisión....................................... 35 Caso de un Juicio................................................................. 36 Fabricación de un paracaídas............................................... 37 Errores Tipo I vs. Tipo II........................................................ 38 Valores de P............................................................................ 39 Referencias............................................................................. 40

4


Antes de iniciar ésta lección se debe considerar que: - Inferencia estadística trata de generalizaciones y predicciones. - Se pueden muestrear poblaciones pequeñas y grandes para inferir por una población infinita. - Se calcula un estadístico a partir de una muestra que se selecciona de la población. - Estadístico es una variable aleatoria, que depende solo de la muestra por tanto debe tener una distribución de probabilidad. - La distribución de probabilidad de un estadístico se llama distribución muestral. - Esta distribución depende del tamaño de la población, de la muestra y el método de selección de estas.

5


Ě…? ÂżQuĂŠ es una DistribuciĂłn Muestral de đ?‘ż Es una distribuciĂłn que describe la variabilidad de los promedios muestrales alrededor de la poblaciĂłn Âľ. Lo mismo sucede con la variabilidad de los valores s2 (varianza muestral), alrededor de Ďƒ2 (varianza poblacional).

Hay varias distribuciones muestrales de mucha relevancia y que se usan en la cotidianidad de los procesos de producciĂłn (manufactura o servicios). La primera distribuciĂłn muestral importante que se debe

Ě…. considerar es la media đ?‘‹ Uno de los teoremas mĂĄs importantes en las aplicaciones de la estadĂ­stica es el teorema del LĂ­mite Central o TLC como se le denominarĂĄ en lo sucesivo.

6


Teorema LĂ­mite Central Si una poblaciĂłn tiene media Îź y desviaciĂłn tĂ­pica Ďƒ, y tomamos muestras de tamaĂąo n (n>30, Ăł cualquier tamaĂąo si la poblaciĂłn es conocida como "normal"), las medias de estas muestras siguen aproximadamente la distribuciĂłn:

đ?š´(đ?? ,

đ??ˆ √đ?’?

)

Normal con media miu y desviaciĂłn estĂĄndar relacionada a dicho tamaĂąo de muestra.

Beneficios del TLC a- Permite averiguar la probabilidad de que la media de una muestra concreta estĂŠ en un cierto intervalo. b- Permite calcular la probabilidad de que la suma de los elementos de una muestra estĂŠ, a priori, en un cierto intervalo. đ?‘›

∑ đ?‘‹ đ?‘– → đ?‘ ( đ?‘› đ?œ‡, đ?œŽâˆšđ?‘›) đ?‘–=1

c- Inferir la media de la poblaciĂłn a partir de una muestra. 7


Ejemplo 1: Walpole Ejemplo 8.13 Una empresa eléctrica fabrica focos que tienen una duración que se distribuye aproximadamente en forma normal, con media de 800 horas y desviación estándar de 40 horas. Encuentre la probabilidad de que una muestra aleatoria de 16 focos tenga una vida promedio de menos de 775 horas.

Algunos elementos que se deben reconocer en el enunciado es que se proporciona el comportamiento de la distribución (normal), no necesariamente siempre será así y es importante recalcarlo. Se conoce la media y la desviación estándar de la población bajo estudio, es decir, 800 horas y 40 horas respectivamente. La variable aleatoria de un tamaño n, para este caso 16 tenga una vida promedio de 775 horas. Con esta información se puede reconocer la aplicabilidad del TLC y por tanto la solución se presenta a continuación.

8


SoluciĂłn La distribuciĂłn muestral de đ?‘‹Ě… serĂĄ aproximadamente normal, con đ?œ‡ = 800 y đ?œŽđ?‘‹Ě… = 40/√16 =10 La probabilidad de que se desea estĂĄ dada por el ĂĄrea de la regiĂłn sombreada de la figura 1, ya que es el ĂĄrea bajo la curva a la izquierda de 775, es decir, menor a 775 horas.

Fig 1. Ă rea para el ejemplo 8.13

9


En correspondencia con đ?‘‹Ě… = 775 , encontramos que

�=

775 − 800 = −2.5 , 10

y por tanto equivalentemente se tiene que: đ?‘ƒ (đ?‘‹Ě… < 775) = đ?‘ƒ(đ?‘? < −2.5) = 0.0062

R/ La probabilidad de que X < a 775 horas es de un 0,62%

Este ejercicio tambiĂŠn se puede resolver por una herramienta estadĂ­stica como por ejemplo Minitab. Se debe seguir los siguientes comandos:

Probability Distributions/Normal Distribution/Cumulative

probability/, debe ingresar los valores que tiene en el problema como la media poblacional, la desviaciĂłn entre raĂ­z de n y la variable que se nos cuestiona que en este caso la variable X < a 775 horas.

10


Ejemplo 2 Las bolsas de sal envasadas por una mĂĄquina tienen Îź = 500 g y Ďƒ = 35 g. Las bolsas se empaquetaron en cajas de 100 unidades.

1. Calcular la probabilidad de que la media de los pesos de las bolas de un paquete sea menor que 495 g.

đ?‘ (500,

35

)

√100

N (500, 3.5)

495−500 đ?‘?(đ?‘‹Ě… < 495) = đ?‘? (đ?‘§ < ) = đ?‘? (đ?‘§ < −1.43) = đ?‘? (đ?‘§ < 1.43) = 3.5

= 1 − đ?‘? (đ?‘§ < −1.43) = 0.0764.

R/ La probabilidad de que la media de los pesos de las bolsas sea menor que 495 g es 7,64%

11


Fig 2. Gráfica de Distribución

Intente ahora usted de resolverlo por la herramienta estadística que elija.

12


Ejemplo 2 (continuaciĂłn)

1. Calcular la probabilidad de que una caja 100 de bolsas pese mĂĄs de 51 kg. đ?‘ (500 ∙ 100, 35 √100)

N (500, 350)

51000−50000 đ?‘? (∑ đ?‘‹Ě… > 51000) = đ?‘? ( đ?‘? > ) = đ?‘? (đ?‘? > 2.86) = 350

= 1 – p (Z < 2.86) = 0.0021

13


Fig 3. Gr谩ficas de distribuci贸n, ejemplo 2 (continuaci贸n)

14


Importante Una aplicación importante del TLC consiste en determinar valores razonables de la media de la población µ. Temas como prueba de hipótesis, estimación, control de calidad lo utilizan. Veamos el siguiente ejemplo:

Ejemplo 8.14 Un importante proceso de fabricación produce partes de componetes cilíndricos para la industria automotriz. Es importante que el proceso produzca partes que tengan una media de 5 milímetros. El ingeniero involucrado hace la conjetura de que la media de la población es de 5.0 milímetros. Se lleva a cabo un experimento en el que 100 partes elaboradas por el proceso se selccionan al azar y se mide el diámetro de cada una de ellas. Se sabe que la desviación estándar de la población es 𝜎 = 0.1 . El experimento indica un diámetro promedio de la muestra 𝑋̅ = 5.027 milímetros. ¿Esta información de la muestra parece apoyar o refutar la conjetura?

15


SoluciĂłn Este ejemplo refleja la clase de problema que se plantea a menudo y que se resuelve con la maquinaria de prueba de hipĂłtesis que se introduce en los capĂ­tulos posteriores. No utilizaremos aquĂ­ el formalismo asociado con la prueba de hipĂłtesis pero ilustraremos los principios y a la lĂłgica que se utilizan.

Si los datos apoyan o rechazan la conjetura depende de la probabilidad de que datos similares a los que se obtuvieron en este experimento đ?‘ĽĚ… = 5.027 pueden ocurrir con facilidad cuando de hecho đ?œ‡ = 5.0 (figura 8.7). En otras palabras, ÂżquĂŠ tan probable es que se pueda obtener đ?‘ĽĚ… ≼ 5.027 con n = 100 si la media de la poblaciĂłn?

Fig 4. SoluciĂłn ejemplo 8.14

16


ÂżEs đ?œ‡ = 5.0 ? Si esta probabilidad sugiere que đ?‘ĽĚ… = 5.027 no es poco razonable, la conjetura no se rechaza. Si la probabilidad es bastante baja, se puede argumentar con certidumbre que los datos no apoyan la conjetura de que đ?œ‡ = 5. La probabilidad que elijamos calcular estĂĄ dada por: Pr[|(đ?‘‹Ě… − 5)| ≼ 0.027]

En otras palabras, si la media đ?œ‡ es 5 ÂżcuĂĄl es la posibilidad de que đ?‘‹Ě… se desvĂ­e a lo mĂĄs en 0.027 milĂ­metros?

Ě…Ě…Ě… − 5) ≼ 0.027] + đ?‘ƒ[(đ?‘‹Ě… − đ?œ‡) ≤ −0.027] P [|(đ?‘‹Ě… − 5)| ≼ 0.027] = đ?‘ƒ[(đ?‘‹

đ?‘‹Ě… − 5 = 2đ?‘ƒ ( ) ≼ 2.7 0.1 √100

17


AquĂ­ simplemente estandarizamos đ?‘‹Ě… de acuerdo con el teorema del lĂ­mite central. Si la conjetura đ?œ‡ = 5.0 es cierta,

đ?‘‹Ě… −5 0.1 √100

es N (0,1). AsĂ­:

Ě… − 5.0 đ?‘‹ 2đ?‘ƒ [ ≼ 2.7] = 2 đ?‘ƒ [đ?‘? ≼ 2.7] = 2(0.0035) = 0.007 0.1/√100 De esta manera se experimentarĂ­a por casualidad una đ?‘‹Ě… que estĂĄ a 0.027 milĂ­metros de la media en sĂłlo siete de 1000 experimentos. Como resultado, este experimento con đ?‘‹Ě… = 5,027 ciertamente no proporciona evidencia que apoye la conjetura de que đ?œ‡ = 5.0

18


Procesos con muestras

Fig 5. Grรกficas de procesos con muestras

19


Fig 6. Procesos con muestras

Fig 7. Comparaci贸n de dos Medias

20


Población vs. Muestras ¿Cuál es la altura promedio de los costarricenses?

Fig 8. Población vrs Muestras

En estadística se toma un estadístico muestral y se infiere sobre un parámetro de la población.

Parámetros Poblacionales vs. Estadísticos Muestrales Un parámetro poblacional es el valor verdadero de una característica de la población.

- Valor fijo - Usualmente desconocido 21


Denotada por letras Griegas

- Verdadera Media = Âľ - Verdadera Desv Estad = Ďƒ

Ejemplo: Altura promedio de los costarricenses

Un estadĂ­stico muestral es un nĂşmero que es calculado de los datos de una muestra.

- Variable aleatoria: diferente para cada muestra - Usado para estimar parĂĄmetros poblacionales

Denotados por letras Romanas - Media muestral = đ?‘‹Ě… - Desv Estad Muestral = s

Ejemplo: Altura promedio de una muestra de 16 costarricenses.

22


Estadísticos Muestrales son Variables Aleatorias Supongamos que sabemos los parámetros poblacionales: µ = 165 cm σ = 10 cm

Fig 9. Estadísticas Muestrales

23


Teorema LĂ­mite Central – TLC Dada una distribuciĂłn de X de una poblaciĂłn con: - Media = ď ­ - DesviaciĂłn EstĂĄndar = ď ł

Entonces la distribuciĂłn de la media muestral tiene, - Media = ď ­ - DesviaciĂłn EstĂĄndar =

đ?œŽ √đ?‘›

Donde n = tamaĂąo muestra

La distribuciĂłn de la media muestral tiene una distribuciĂłn normal, si el tamaĂąo de muestra es suficientemente grande, sin importar la forma de la distribuciĂłn original.

24


Probabilidades de la Distribución Normal Caso 1: Media poblacional y desviación estándar conocidas Ejemplo: La altura de un costarricense tiene una distribución normal con  = 165 cm y  = 10cm. ¿Cuál es la probabilidad que un costarricense seleccionado aleatoriamente tenga una altura menor que 145 cm?

Fig 10. Probabilidad de distribución normal

¿Cómo se calcula el área bajo la curva? 25


Z es el nĂşmero de desviaciones estĂĄndar que X estĂĄ lejos de la media. Z es llamada la variable normal estĂĄndar. P(X <145) = P(Z < (145-165)/10) = P(Z <-2)

DistribuciĂłn Normal EstĂĄndar Cualquier distribuciĂłn normal puede ser reducida a la forma estĂĄndar con ď ­ = 0 y ď ł = 1 Para estandarizar, substraiga la media y divida por la desviaciĂłn estĂĄndar:

đ?‘?=

đ?‘‹âˆ’ đ?œ‡ đ?œŽ

Fig 11. GrĂĄfica de la probabilidad de distribuciĂłn normal

26


Reducir a la forma normal estรกndar nos permite determinar fรกcilmente probabilidades.

Fig 12. Grรกfica de la probabilidad de distribuciรณn normal

27


Ejemplo: Probabilidades de la Normal Estรกndar

Usar Minitab para encontrar P(Z<-2)

Fig 13. Pantallas de Minitab

28


Fig 14. Probabilidad de la Normal Est谩ndar

Conclusi贸n La probabilidad que su altura sea menor que 145 cm es 0.0228 29


Prueba de Hip贸tesis

Fig 15. Prueba de hip贸tesis

30


Una hipótesis es una declaración sobre los parámetros de una población. - Ejemplos: media poblacional (𝜇), desviación estándar poblacional (𝜎) - Los parámetros deben estar identificados antes de hacer el análisis

Los datos de un experimento pueden ser usados para probar la hipótesis.

31


El Nuevo Paradigma Casi nunca tenemos datos de la verdadera población. Por consecuencia, los datos que si tenemos son datos muestrales de los cuales calculamos estadísticos.

Usamos estos estadísticos para hacer inferencias sobre los parámetros verdaderos de la población.

Debido a que hacemos inferencias, hay algún riesgo asociado con las decisiones que hacemos.

Por tanto, nunca debemos pensar de nuestros estadísticos como estimadores puntuales, mas bien como intervalos sobre los cuales tenemos algún nivel de confianza que estemos prediciendo con exactitud los verdaderos parámetros de la población.

32


Hip贸tesis Nula & Alternativa

Fig 16. Hip贸tesis Nula y Alternativa

33


Fig 17. Tabla Hip贸tesis Nula y Alternativa

34


Riesgos para la Toma de Decisi贸n

Fig 18. Toma de decisi贸n

35


Caso de un Juicio

Hip贸tesis - H0: Acusado es inocente y debe salir libre - H1: Acusado es culpable y debe ser castigado

Riesgos Error Tipo I

Castigar una persona inocente

Error Tipo II

Liberar a una persona culpable

36


Fabricación de un paracaídas

Hipótesis - H0: Paracaídas abrirá exitosamente - H1: Paracaídas fallara al abrir

Riesgos Error Tipo I

No vender un buen paracaídas (perder una venta)

Error Tipo II

Vender un paracaídas que no se abrirá (perder un cliente)

37


Errores Tipo I vs. Tipo II Agregar una segunda maquina a la línea de producción: H0: 1 = 2 - Máquina 1 tiene la misma media que la maquina 2 - El cambio debe ser implementado. H1: 1  2 - Máquina 1 no tiene la misma media que la maquina 2 - El cambio no debe ser implementado

Riesgos α-riesgo

No usar la nueva máquina aunque tenga la misma media que la máquina antigua

β-riesgo

Usar la nueva máquina aunque tenga una media diferente que la máquina antigua

38


Valores de P - El valor P representa la probabilidad de que la estadística de prueba tome un valor al menos tan extremo como el valor observado en ella cuando Ho es verdadera - Representa el nivel de significancia () más pequeño que conduciría al rechazo de Ho - Se acostumbra calificar como significativa a la estadística de prueba (y los datos) cuando se rechaza la hipótesis nula Ho, por lo que podemos considerar el valor P como el nivel  más pequeño en el que los datos son significativos - El Valor P es usado para determinar si existe suficiente evidencia para rechazar la hipótesis nula en favor de la alternativa - El valor P es la probabilidad de rechazar incorrectamente la hipótesis nula

Fig 19. Regla General de Decisión

39


Referencias Moya, M. y Robles,N. (2010). Probabilidad y Estad铆stica: Un Enfoque te贸rico y pr谩ctico. Cartago: Tecnol贸gico de Costa Rica.

40


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.