2 1 muestreo

Page 1

7. Distribuci´on en el muestreo Estad´ıstica Ingenier´ıa Inform´ atica

Curso 2009-2010

Estad´ıstica (Aurora Torrente)

7. Distribuci´ on en el muestreo

Curso 2009-2010

1 / 21


Contenidos

1

Introducci´on. Poblaci´on y Muestra

2

Concepto de estad´ıstico

3

Estad´ısticos m´as utilizados Media muestral Varianza muestral Cuasivarianza muestral Proporci´on muestral

Estad´ıstica (Aurora Torrente)

7. Distribuci´ on en el muestreo

Curso 2009-2010

2 / 21


Introducci´ on. Poblaci´ on y Muestra

Uno de los objetivos principales de la Estad´ıstica es el de extraer informaci´on, no s´olo en peque˜ nos conjuntos de datos sino, sobre todo, en grandes poblaciones que resulta muy dif´ıcil o imposible observar los censos son muy costosos y requieren mucho tiempo para su realizaci´on Importancia de la Inferencia Estad´ıstica: permite llegar a conclusiones precisas sobre la poblaci´ on que se considera (colecci´ on grande de elementos que tienen asociadas caracter´ısticas num´ericas), observando s´olo una parte de ella relativamente peque˜ na, que se denomina muestra.

Estad´ıstica (Aurora Torrente)

7. Distribuci´ on en el muestreo

Curso 2009-2010

3 / 21


Introducci´ on. Poblaci´ on y Muestra

Las muestras deben ser representativas de las poblaciones; en caso contrario, las conclusiones obtenidas a partir de ellas no son fiables. En particular, la forma de elegir los elementos de la muestra puede dar lugar a I

I

sesgo de no respuesta: s´ olo entra en la muestra una parte de la poblaci´ on, que se autoelige sesgo de selecci´ on: s´ olo entran en la muestra elementos seleccionados con alg´ un criterio “arbitrario”

y suelen generar muestras no representativas, que producen un error sistem´atico en todo el an´alisis estad´ıstico.

Estad´ıstica (Aurora Torrente)

7. Distribuci´ on en el muestreo

Curso 2009-2010

4 / 21


Introducci´ on. Poblaci´ on y Muestra

Ejemplos de muestras no representativas Sesgo de no respuesta El jefe de ventas de la empresa quiere conocer el nivel de satisfacci´on de sus clientes con los ordenadores adquiridos. Se decide enviar un cuestionario a todos los compradores del a˜ no pasado pidi´endoles que devuelvan por correo la respuesta con su opini´ on sobre su ordenador. Se recibe un 4 % de respuestas, de las que el 78 % est´an insatisfechos con su ordenador. Se ha seleccionado la muestra mediante la respuesta voluntaria de las personas de la poblaci´on y se ha producido un sesgo de no respuesta: quienes contestan la encuesta son los m´as descontentos con su compra y quienes no tienen problemas suelen ignorar la encuesta. Si se produce una tasa muy alta de no respuesta es necesario investigar las causas, porque las personas que no responden pueden tener una opini´on muy diferente a la de las personas que contestan. Estad´ıstica (Aurora Torrente)

7. Distribuci´ on en el muestreo

Curso 2009-2010

5 / 21


Introducci´ on. Poblaci´ on y Muestra

Ejemplos de muestras no representativas (II) Sesgo de selecci´on Para conocer el inter´es por Internet de los habitantes de una ciudad, se env´ıa una encuesta por correo electr´ onico. La forma de elegir la muestra dar´a lugar a respuestas a favor del inter´es por Internet y no representa a la totalidad de la poblaci´on: se ha producido un sesgo de selecci´on.

Los errores introducidos por muestras no representativas se evitan si los elementos de la poblaci´on se incorporan a la muestra al azar o de forma aleatoria.

Estad´ıstica (Aurora Torrente)

7. Distribuci´ on en el muestreo

Curso 2009-2010

6 / 21


Introducci´ on. Poblaci´ on y Muestra

Inferencia sobre una poblaci´on a partir de una muestra Es necesario asumir que existe una distribuci´ on de probabilidad subyacente en la poblaci´on: las caracter´ısticas num´ericas de la misma pueden considerarse variables aleatorias independientes con la misma distribuci´on F si X1 , . . . , Xn son variables aleatorias independientes con funci´on de distribuci´on com´ un F , el vector aleatorio (X1 , ..., Xn ) constituye una muestra aleatoria simple de la distribuci´ on F

Nota: aunque existen otros m´etodos de muestreo, los resultados que veremos corresponden u ´nicamente al muestreo aleatorio simple.

Estad´ıstica (Aurora Torrente)

7. Distribuci´ on en el muestreo

Curso 2009-2010

7 / 21


Introducci´ on. Poblaci´ on y Muestra

M.A.S. con reposici´on y sin reposici´on Suponer las observaciones X1 , . . . , Xn independientes puede entenderse: 1

de forma exacta, si cada vez que observamos un elemento lo devolvemos a la poblaci´ on (muestreo aleatorio con reposici´ on)

2

de manera aproximada, si no devolvemos el elemento a la poblaci´on, pero el tama˜ no de la poblaci´ on es muy grande en comparaci´on con el de la muestra ⇒ la composici´ on de la poblaci´ on se altera muy poco al faltarle los elementos de la muestra (muestreo aleatorio sin reposici´ on). En la pr´actica, ´este caso es el m´as habitual.

Al tener todas las variables de la muestra la misma distribuci´on, la probabilidad de que un valor dado aparezca en la muestra depende de la probabilidad de ese valor en la poblaci´ on ⇒ la muestra es representativa.

Estad´ıstica (Aurora Torrente)

7. Distribuci´ on en el muestreo

Curso 2009-2010

8 / 21


Introducci´ on. Poblaci´ on y Muestra

Distribuci´on de la muestra Funci´ on de masa de (X1 , ..., Xn )

(Caso discreto)

P(x1 , ..., xn ) = P(x1 ) . . . P(xn )

Funci´ on de densidad de (X1 , ..., Xn )

(Caso continuo)

f (x1 , ..., xn ) = f (x1 ) . . . f (xn ) Normalmente, la distribuci´ on de la poblaci´ on F no se conoce completamente y se utilizan los datos para hacer inferencia sobre F . inferencia param´etrica: se conoce el tipo de distribuci´on F excepto algunos par´ametros desconocidos inferencia no param´etrica: no se conoce casi nada acerca de F (excepto, quiz´as, si es continua o discreta). Estad´ıstica (Aurora Torrente)

7. Distribuci´ on en el muestreo

Curso 2009-2010

9 / 21


Concepto de estad´ıstico

Estad´ısticos Una de las primeras necesidades en la inferencia es la de “simplificar” los datos muestrales:.

Definici´on: Un estad´ıstico es una funci´ on real T de la muestra aleatoria (X1 , ..., Xn ).

Por tanto, un estad´ıstico es una variable aleatoria T (X1 , ..., Xn ): distribuci´on (distribuci´ on en el muestreo) media varianza ...

Estad´ıstica (Aurora Torrente)

7. Distribuci´ on en el muestreo

Curso 2009-2010

10 / 21


Estad´ısticos m´ as utilizados

Media muestral

Media muestral Tenemos una poblaci´on de media (media poblacional) µ y varianza (varianza poblacional) σ 2 . Dada la muestra aleatoria (X1 , ..., Xn ), se define la media muestral como ¯ = X1 + ... + Xn X n ¯ viene determinado por los valores de las variables aleatorias El valor de X ¯ es una variable aleatoria. de la muestra ⇒ X

Propiedades: 1

2

¯ =µ E X 2 ¯ =σ V X n

Estad´ıstica (Aurora Torrente)

¯ tiene el mismo valor esperado que X ) (X (su varianza es menor que la de X , siendo tanto m´as peque˜ na cuanto mayor es n) 7. Distribuci´ on en el muestreo

Curso 2009-2010

11 / 21


Estad´ısticos m´ as utilizados

Media muestral

Media muestral

¯ es una suma de variables aleatorias independientes ⇒ su distribuci´on se X puede aproximar, por el TCL, a una distribuci´ on normal, cuando n → ∞:

¯: Distribuci´on en el muestreo de X σ n→∞ ¯ − X −−→ N(µ, √ ) n o tambi´en:

Estad´ıstica (Aurora Torrente)

¯ − µ n→∞ X √ −−−→ N(0, 1) σ/ n

7. Distribuci´ on en el muestreo

Curso 2009-2010

12 / 21


Estad´ısticos m´ as utilizados

Media muestral

Ejemplo: Los niveles de colesterol en la sangre de una poblaci´ on de trabajadores tiene media 202 y desviaci´ on t´ıpica 14. Se selecciona una muestra de 36 trabajadores y queremos aproximar la probabilidad de que la media muestral de sus niveles de colesterol est´ e comprendida entre 198 y 206. ¯ se distribuye aproximadamente como una Seg´ un el TCL, X 49 142 = ). Haciendo Z ≡ N(0, 1): N(µ = 202, σ 2 = 36 9 ¯ − 202 198 − 202 X 206 − 202 ¯ P(198 ≤ X ≤ 206) = P ≤ ≤ 7/3 7/3 7/3 ≈ P(−1,714 ≤ Z ≤ 1,714) = 0,913 Con otro tama˜ no muestral, por ejemplo, n = 64, repetimos los c´alculos y se obtiene P(198 ≤ X¯64 ≤ 206) ≈ 0,978, es decir, al aumentar el tama˜ no muestral, aumenta la probabilidad de que la media muestral difiera de la media poblacional en menos de 4 unidades. Estad´ıstica (Aurora Torrente)

7. Distribuci´ on en el muestreo

Curso 2009-2010

13 / 21


Estad´ısticos m´ as utilizados

Media muestral

Media muestral Caso particular: Distribuci´on de X¯ en una poblaci´on normal X ∼ N(µ, σ) Si (X1 , ..., Xn ) procede de una distribuci´ on N(µ, σ): ¯ es combinaci´on lineal de variables aleatorias normales X su distribuci´on en el muestreo es r ¯ ∼N X o tambi´en

Estad´ıstica (Aurora Torrente)

µ,

σ2 n

!

¯ −µ X √ ∼ N(0, 1) σ/ n

7. Distribuci´ on en el muestreo

Curso 2009-2010

14 / 21


Estad´ısticos m´ as utilizados

Varianza muestral

Varianza muestral

Dada una muestra aleatoria (X1 , ..., Xn ), se define la varianza muestral sn2 mediante n X ¯ )2 (Xi − X sn2 =

i=1

n

¯ , sn2 es una variable aleatoria. Al igual que X

Propiedades: n−1 2 E sn2 = σ n

Estad´ıstica (Aurora Torrente)

(la media de sn2 no coincide con σ 2 )

7. Distribuci´ on en el muestreo

Curso 2009-2010

15 / 21


Estad´ısticos m´ as utilizados

Cuasivarianza muestral

Cuasivarianza muestral Para evitar el problema anterior, se define el estad´ıstico (variable aleatoria) cuasivarianza muestral, mediante n X 2 sn−1 =

¯ )2 (Xi − X

i=1

n−1

Propiedades: 2 = σ2 E sn−1

2 (la media de sn−1 coincide con σ 2 )

Nota La notaci´on de la varianza y la cuasivarianza muestrales puede variar de un texto a otro; por ejemplo, es frecuente encontrar la varianza como s 2 y la cuasivarianza como S 2 , pero por comodidad utilizaremos la notaci´ on empleada anteriormente. Estad´ıstica (Aurora Torrente)

7. Distribuci´ on en el muestreo

Curso 2009-2010

16 / 21


Estad´ısticos m´ as utilizados

Cuasivarianza muestral

Cuasivarianza muestral 2 Teorema: Distribuci´on en el muestreo de sn−1 en poblaciones normales

2 (n − 1) · sn−1 n · sn2 = = σ2 σ2

n X ¯ )2 (Xi − X i=1

σ2

∼ χ2n−1

Intuitivamente, la justificaci´ on del teorema viene dada por el hecho de que Xi − µ si Xi es una variable aleatoria N(µ, σ), entonces ≡ N(0, 1), y como σ las Xi son independientes, la suma de los cuadrados n X

(Xi − µ)2

i=1

σ2

≡ χ2n

¯ , la nueva Si remplazamos la media poblacional µ por la media muestral X variable aleatoria contin´ ua siendo una variable chi-cuadrado, pero pierde un grado de libertad al hacer la sustituci´ on. Estad´ıstica (Aurora Torrente)

7. Distribuci´ on en el muestreo

Curso 2009-2010

17 / 21


Estad´ısticos m´ as utilizados

Cuasivarianza muestral

Cuasivarianza muestral Propiedades: 2 )= Del teorema se deduce: V (sn−1

2σ 4 n−1

Es inmediato comprobarlo, ya que: la varianza de una chi-cuadrado es el doble de sus grados de libertad: 2 (n − 1)sn−1 = 2(n − 1) V σ2 por las propiedades de la varianza: 2 (n − 1)sn−1 (n − 1)2 2 V (sn−1 ) = 2(n − 1) V = σ2 (σ 2 )2

Estad´ıstica (Aurora Torrente)

7. Distribuci´ on en el muestreo

2 V (sn−1 )=

Curso 2009-2010

2σ 4 n−1

18 / 21


Estad´ısticos m´ as utilizados

Proporci´ on muestral

Proporci´on muestral Hay situaciones en las que el par´ametro que nos interesa es una proporci´ on (frecuencia con la que cierto atributo o caracter´ıstica aparece o est´a ausente en una poblaci´ on). Sea una poblaci´on con N elementos, entre los cuales pN individuos presentan la caracter´ıstica que deseamos estudiar y (1 − p)N individuos no la presentan. Representamos por Tn el n´ umero total de unidades muestrales que poseen la caracter´ıstica de inter´es en la muestra (X1 , ..., Xn ), donde cada Xi vale 1 si se presenta la caracter´ıstica en estudio y vale 0 en caso contrario: Tn ∼ B(n, p), con p la proporci´on poblacional de dicha caracter´ıstica. E [Tn ] = np V (Tn ) = np(1 − p) Estad´ıstica (Aurora Torrente)

7. Distribuci´ on en el muestreo

Curso 2009-2010

19 / 21


Estad´ısticos m´ as utilizados

Proporci´ on muestral

Proporci´on muestral Se define el estad´ıstico (variable aleatoria) proporci´ on muestral como pˆ =

Tn n

Propiedades: 1

E [ˆ p] = p

2

V (ˆ p) =

p(1−p) n

¯ , pues pˆ es la media muestral en una poblaci´on an´alogamente al caso de X cuya caracter´ıstica en estudio toma s´ olo dos posibles valores: 0 y 1. 3

n→∞

r

p(1 − p) n

!

Por el TCL,

pˆ −−−→ N

o tambi´en

pˆ − p n→∞ p −−−→ N(0, 1) p(1 − p)/n

Estad´ıstica (Aurora Torrente)

p,

7. Distribuci´ on en el muestreo

Curso 2009-2010

20 / 21


Estad´ısticos m´ as utilizados

Proporci´ on muestral

Ejemplo: El 46 % de la poblaci´ on de una ciudad est´ a descontento con la gesti´ on realizada por el ayuntamiento. Si extraemos una muestra aleatoria de tama˜ no 200, ¿cu´ al es la probabilidad de que al menos 100 de ellos est´ en descontentos? Por un lado, p = 0,46, y nos piden calcular la probabilidad de que el total muestral de descontentos T200 sea mayor o igual que 100, o lo que es lo 100 = 0,5. Como mismo, que pˆ ≥ 200 p n→∞ pˆ −−−→ N(p, p(1 − p)/n) podemos aproximar la probabilidad pedida por: P(ˆ p ≥ 0,5) ≈ P

pˆ − 0,46

0,5 − 0,46

!

p ≥p 0,46 × 0,54/200 0,46 × 0,54/200

= P(Z ≥ 1,135) = 0,1281877 Estad´ıstica (Aurora Torrente)

7. Distribuci´ on en el muestreo

Curso 2009-2010

21 / 21


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.