7. Distribuci´on en el muestreo Estad´ıstica Ingenier´ıa Inform´ atica
Curso 2009-2010
Estad´ıstica (Aurora Torrente)
7. Distribuci´ on en el muestreo
Curso 2009-2010
1 / 21
Contenidos
1
Introducci´on. Poblaci´on y Muestra
2
Concepto de estad´ıstico
3
Estad´ısticos m´as utilizados Media muestral Varianza muestral Cuasivarianza muestral Proporci´on muestral
Estad´ıstica (Aurora Torrente)
7. Distribuci´ on en el muestreo
Curso 2009-2010
2 / 21
Introducci´ on. Poblaci´ on y Muestra
Uno de los objetivos principales de la Estad´ıstica es el de extraer informaci´on, no s´olo en peque˜ nos conjuntos de datos sino, sobre todo, en grandes poblaciones que resulta muy dif´ıcil o imposible observar los censos son muy costosos y requieren mucho tiempo para su realizaci´on Importancia de la Inferencia Estad´ıstica: permite llegar a conclusiones precisas sobre la poblaci´ on que se considera (colecci´ on grande de elementos que tienen asociadas caracter´ısticas num´ericas), observando s´olo una parte de ella relativamente peque˜ na, que se denomina muestra.
Estad´ıstica (Aurora Torrente)
7. Distribuci´ on en el muestreo
Curso 2009-2010
3 / 21
Introducci´ on. Poblaci´ on y Muestra
Las muestras deben ser representativas de las poblaciones; en caso contrario, las conclusiones obtenidas a partir de ellas no son fiables. En particular, la forma de elegir los elementos de la muestra puede dar lugar a I
I
sesgo de no respuesta: s´ olo entra en la muestra una parte de la poblaci´ on, que se autoelige sesgo de selecci´ on: s´ olo entran en la muestra elementos seleccionados con alg´ un criterio “arbitrario”
y suelen generar muestras no representativas, que producen un error sistem´atico en todo el an´alisis estad´ıstico.
Estad´ıstica (Aurora Torrente)
7. Distribuci´ on en el muestreo
Curso 2009-2010
4 / 21
Introducci´ on. Poblaci´ on y Muestra
Ejemplos de muestras no representativas Sesgo de no respuesta El jefe de ventas de la empresa quiere conocer el nivel de satisfacci´on de sus clientes con los ordenadores adquiridos. Se decide enviar un cuestionario a todos los compradores del a˜ no pasado pidi´endoles que devuelvan por correo la respuesta con su opini´ on sobre su ordenador. Se recibe un 4 % de respuestas, de las que el 78 % est´an insatisfechos con su ordenador. Se ha seleccionado la muestra mediante la respuesta voluntaria de las personas de la poblaci´on y se ha producido un sesgo de no respuesta: quienes contestan la encuesta son los m´as descontentos con su compra y quienes no tienen problemas suelen ignorar la encuesta. Si se produce una tasa muy alta de no respuesta es necesario investigar las causas, porque las personas que no responden pueden tener una opini´on muy diferente a la de las personas que contestan. Estad´ıstica (Aurora Torrente)
7. Distribuci´ on en el muestreo
Curso 2009-2010
5 / 21
Introducci´ on. Poblaci´ on y Muestra
Ejemplos de muestras no representativas (II) Sesgo de selecci´on Para conocer el inter´es por Internet de los habitantes de una ciudad, se env´ıa una encuesta por correo electr´ onico. La forma de elegir la muestra dar´a lugar a respuestas a favor del inter´es por Internet y no representa a la totalidad de la poblaci´on: se ha producido un sesgo de selecci´on.
Los errores introducidos por muestras no representativas se evitan si los elementos de la poblaci´on se incorporan a la muestra al azar o de forma aleatoria.
Estad´ıstica (Aurora Torrente)
7. Distribuci´ on en el muestreo
Curso 2009-2010
6 / 21
Introducci´ on. Poblaci´ on y Muestra
Inferencia sobre una poblaci´on a partir de una muestra Es necesario asumir que existe una distribuci´ on de probabilidad subyacente en la poblaci´on: las caracter´ısticas num´ericas de la misma pueden considerarse variables aleatorias independientes con la misma distribuci´on F si X1 , . . . , Xn son variables aleatorias independientes con funci´on de distribuci´on com´ un F , el vector aleatorio (X1 , ..., Xn ) constituye una muestra aleatoria simple de la distribuci´ on F
Nota: aunque existen otros m´etodos de muestreo, los resultados que veremos corresponden u ´nicamente al muestreo aleatorio simple.
Estad´ıstica (Aurora Torrente)
7. Distribuci´ on en el muestreo
Curso 2009-2010
7 / 21
Introducci´ on. Poblaci´ on y Muestra
M.A.S. con reposici´on y sin reposici´on Suponer las observaciones X1 , . . . , Xn independientes puede entenderse: 1
de forma exacta, si cada vez que observamos un elemento lo devolvemos a la poblaci´ on (muestreo aleatorio con reposici´ on)
2
de manera aproximada, si no devolvemos el elemento a la poblaci´on, pero el tama˜ no de la poblaci´ on es muy grande en comparaci´on con el de la muestra ⇒ la composici´ on de la poblaci´ on se altera muy poco al faltarle los elementos de la muestra (muestreo aleatorio sin reposici´ on). En la pr´actica, ´este caso es el m´as habitual.
Al tener todas las variables de la muestra la misma distribuci´on, la probabilidad de que un valor dado aparezca en la muestra depende de la probabilidad de ese valor en la poblaci´ on ⇒ la muestra es representativa.
Estad´ıstica (Aurora Torrente)
7. Distribuci´ on en el muestreo
Curso 2009-2010
8 / 21
Introducci´ on. Poblaci´ on y Muestra
Distribuci´on de la muestra Funci´ on de masa de (X1 , ..., Xn )
(Caso discreto)
P(x1 , ..., xn ) = P(x1 ) . . . P(xn )
Funci´ on de densidad de (X1 , ..., Xn )
(Caso continuo)
f (x1 , ..., xn ) = f (x1 ) . . . f (xn ) Normalmente, la distribuci´ on de la poblaci´ on F no se conoce completamente y se utilizan los datos para hacer inferencia sobre F . inferencia param´etrica: se conoce el tipo de distribuci´on F excepto algunos par´ametros desconocidos inferencia no param´etrica: no se conoce casi nada acerca de F (excepto, quiz´as, si es continua o discreta). Estad´ıstica (Aurora Torrente)
7. Distribuci´ on en el muestreo
Curso 2009-2010
9 / 21
Concepto de estad´ıstico
Estad´ısticos Una de las primeras necesidades en la inferencia es la de “simplificar” los datos muestrales:.
Definici´on: Un estad´ıstico es una funci´ on real T de la muestra aleatoria (X1 , ..., Xn ).
Por tanto, un estad´ıstico es una variable aleatoria T (X1 , ..., Xn ): distribuci´on (distribuci´ on en el muestreo) media varianza ...
Estad´ıstica (Aurora Torrente)
7. Distribuci´ on en el muestreo
Curso 2009-2010
10 / 21
Estad´ısticos m´ as utilizados
Media muestral
Media muestral Tenemos una poblaci´on de media (media poblacional) µ y varianza (varianza poblacional) σ 2 . Dada la muestra aleatoria (X1 , ..., Xn ), se define la media muestral como ¯ = X1 + ... + Xn X n ¯ viene determinado por los valores de las variables aleatorias El valor de X ¯ es una variable aleatoria. de la muestra ⇒ X
Propiedades: 1
2
¯ =µ E X 2 ¯ =σ V X n
Estad´ıstica (Aurora Torrente)
¯ tiene el mismo valor esperado que X ) (X (su varianza es menor que la de X , siendo tanto m´as peque˜ na cuanto mayor es n) 7. Distribuci´ on en el muestreo
Curso 2009-2010
11 / 21
Estad´ısticos m´ as utilizados
Media muestral
Media muestral
¯ es una suma de variables aleatorias independientes ⇒ su distribuci´on se X puede aproximar, por el TCL, a una distribuci´ on normal, cuando n → ∞:
¯: Distribuci´on en el muestreo de X σ n→∞ ¯ − X −−→ N(µ, √ ) n o tambi´en:
Estad´ıstica (Aurora Torrente)
¯ − µ n→∞ X √ −−−→ N(0, 1) σ/ n
7. Distribuci´ on en el muestreo
Curso 2009-2010
12 / 21
Estad´ısticos m´ as utilizados
Media muestral
Ejemplo: Los niveles de colesterol en la sangre de una poblaci´ on de trabajadores tiene media 202 y desviaci´ on t´ıpica 14. Se selecciona una muestra de 36 trabajadores y queremos aproximar la probabilidad de que la media muestral de sus niveles de colesterol est´ e comprendida entre 198 y 206. ¯ se distribuye aproximadamente como una Seg´ un el TCL, X 49 142 = ). Haciendo Z ≡ N(0, 1): N(µ = 202, σ 2 = 36 9 ¯ − 202 198 − 202 X 206 − 202 ¯ P(198 ≤ X ≤ 206) = P ≤ ≤ 7/3 7/3 7/3 ≈ P(−1,714 ≤ Z ≤ 1,714) = 0,913 Con otro tama˜ no muestral, por ejemplo, n = 64, repetimos los c´alculos y se obtiene P(198 ≤ X¯64 ≤ 206) ≈ 0,978, es decir, al aumentar el tama˜ no muestral, aumenta la probabilidad de que la media muestral difiera de la media poblacional en menos de 4 unidades. Estad´ıstica (Aurora Torrente)
7. Distribuci´ on en el muestreo
Curso 2009-2010
13 / 21
Estad´ısticos m´ as utilizados
Media muestral
Media muestral Caso particular: Distribuci´on de X¯ en una poblaci´on normal X ∼ N(µ, σ) Si (X1 , ..., Xn ) procede de una distribuci´ on N(µ, σ): ¯ es combinaci´on lineal de variables aleatorias normales X su distribuci´on en el muestreo es r ¯ ∼N X o tambi´en
Estad´ıstica (Aurora Torrente)
µ,
σ2 n
!
¯ −µ X √ ∼ N(0, 1) σ/ n
7. Distribuci´ on en el muestreo
Curso 2009-2010
14 / 21
Estad´ısticos m´ as utilizados
Varianza muestral
Varianza muestral
Dada una muestra aleatoria (X1 , ..., Xn ), se define la varianza muestral sn2 mediante n X ¯ )2 (Xi − X sn2 =
i=1
n
¯ , sn2 es una variable aleatoria. Al igual que X
Propiedades: n−1 2 E sn2 = σ n
Estad´ıstica (Aurora Torrente)
(la media de sn2 no coincide con σ 2 )
7. Distribuci´ on en el muestreo
Curso 2009-2010
15 / 21
Estad´ısticos m´ as utilizados
Cuasivarianza muestral
Cuasivarianza muestral Para evitar el problema anterior, se define el estad´ıstico (variable aleatoria) cuasivarianza muestral, mediante n X 2 sn−1 =
¯ )2 (Xi − X
i=1
n−1
Propiedades: 2 = σ2 E sn−1
2 (la media de sn−1 coincide con σ 2 )
Nota La notaci´on de la varianza y la cuasivarianza muestrales puede variar de un texto a otro; por ejemplo, es frecuente encontrar la varianza como s 2 y la cuasivarianza como S 2 , pero por comodidad utilizaremos la notaci´ on empleada anteriormente. Estad´ıstica (Aurora Torrente)
7. Distribuci´ on en el muestreo
Curso 2009-2010
16 / 21
Estad´ısticos m´ as utilizados
Cuasivarianza muestral
Cuasivarianza muestral 2 Teorema: Distribuci´on en el muestreo de sn−1 en poblaciones normales
2 (n − 1) · sn−1 n · sn2 = = σ2 σ2
n X ¯ )2 (Xi − X i=1
σ2
∼ χ2n−1
Intuitivamente, la justificaci´ on del teorema viene dada por el hecho de que Xi − µ si Xi es una variable aleatoria N(µ, σ), entonces ≡ N(0, 1), y como σ las Xi son independientes, la suma de los cuadrados n X
(Xi − µ)2
i=1
σ2
≡ χ2n
¯ , la nueva Si remplazamos la media poblacional µ por la media muestral X variable aleatoria contin´ ua siendo una variable chi-cuadrado, pero pierde un grado de libertad al hacer la sustituci´ on. Estad´ıstica (Aurora Torrente)
7. Distribuci´ on en el muestreo
Curso 2009-2010
17 / 21
Estad´ısticos m´ as utilizados
Cuasivarianza muestral
Cuasivarianza muestral Propiedades: 2 )= Del teorema se deduce: V (sn−1
2σ 4 n−1
Es inmediato comprobarlo, ya que: la varianza de una chi-cuadrado es el doble de sus grados de libertad: 2 (n − 1)sn−1 = 2(n − 1) V σ2 por las propiedades de la varianza: 2 (n − 1)sn−1 (n − 1)2 2 V (sn−1 ) = 2(n − 1) V = σ2 (σ 2 )2
Estad´ıstica (Aurora Torrente)
7. Distribuci´ on en el muestreo
⇒
2 V (sn−1 )=
Curso 2009-2010
2σ 4 n−1
18 / 21
Estad´ısticos m´ as utilizados
Proporci´ on muestral
Proporci´on muestral Hay situaciones en las que el par´ametro que nos interesa es una proporci´ on (frecuencia con la que cierto atributo o caracter´ıstica aparece o est´a ausente en una poblaci´ on). Sea una poblaci´on con N elementos, entre los cuales pN individuos presentan la caracter´ıstica que deseamos estudiar y (1 − p)N individuos no la presentan. Representamos por Tn el n´ umero total de unidades muestrales que poseen la caracter´ıstica de inter´es en la muestra (X1 , ..., Xn ), donde cada Xi vale 1 si se presenta la caracter´ıstica en estudio y vale 0 en caso contrario: Tn ∼ B(n, p), con p la proporci´on poblacional de dicha caracter´ıstica. E [Tn ] = np V (Tn ) = np(1 − p) Estad´ıstica (Aurora Torrente)
7. Distribuci´ on en el muestreo
Curso 2009-2010
19 / 21
Estad´ısticos m´ as utilizados
Proporci´ on muestral
Proporci´on muestral Se define el estad´ıstico (variable aleatoria) proporci´ on muestral como pˆ =
Tn n
Propiedades: 1
E [ˆ p] = p
2
V (ˆ p) =
p(1−p) n
¯ , pues pˆ es la media muestral en una poblaci´on an´alogamente al caso de X cuya caracter´ıstica en estudio toma s´ olo dos posibles valores: 0 y 1. 3
n→∞
r
p(1 − p) n
!
Por el TCL,
pˆ −−−→ N
o tambi´en
pˆ − p n→∞ p −−−→ N(0, 1) p(1 − p)/n
Estad´ıstica (Aurora Torrente)
p,
7. Distribuci´ on en el muestreo
Curso 2009-2010
20 / 21
Estad´ısticos m´ as utilizados
Proporci´ on muestral
Ejemplo: El 46 % de la poblaci´ on de una ciudad est´ a descontento con la gesti´ on realizada por el ayuntamiento. Si extraemos una muestra aleatoria de tama˜ no 200, ¿cu´ al es la probabilidad de que al menos 100 de ellos est´ en descontentos? Por un lado, p = 0,46, y nos piden calcular la probabilidad de que el total muestral de descontentos T200 sea mayor o igual que 100, o lo que es lo 100 = 0,5. Como mismo, que pˆ ≥ 200 p n→∞ pˆ −−−→ N(p, p(1 − p)/n) podemos aproximar la probabilidad pedida por: P(ˆ p ≥ 0,5) ≈ P
pˆ − 0,46
0,5 − 0,46
!
p ≥p 0,46 × 0,54/200 0,46 × 0,54/200
= P(Z ≥ 1,135) = 0,1281877 Estad´ıstica (Aurora Torrente)
7. Distribuci´ on en el muestreo
Curso 2009-2010
21 / 21