1
Estadística Inferencial I
Unidad 1 Distribuciones Fundamentales para el Muestreo 1.1 Introducción a la estadística inferencial 1.2 Muestreo: Introducción al muestreo y tipos de muestreo 1.2.1 Muestreo aleatorio simple
1.2.2 Muestreo aleatorio sistemático 1.2.3 Muestreo aleatorio estratificado 1.2.4 Muestreo aleatorio por conglomerado
1.3 Teorema del límite central
2
1.4 Distribuciones fundamentales para el muestreo 1.4.1 Distribución muestral de 1.4.2 Distribución muestral de 1.4.3 Distribución muestral de 1.4.4 Distribución muestral de proporciones 1.4.5 Distribución t-student. 1.4.6 Distribución muestral de 1.4.7 Distribución muestral de de varianzas
la la la la
media diferencia de medias proporción diferencia de
la varianza la relación
3
ESTADÍSTICA INFERENCIAL
Estadística inferencial es obtener la información acerca de una población, partiendo de la información que contiene una muestra. el proceso que se sigue para seleccionar una muestra se denomina muestreo. 4
Población
Muestra
Definición
Colección de elementos considerados
Parte o porción de la población seleccionada para su estudio
Características
“Parámetros”
“Estadísticos”
Símbolos
Tamaño de la población = N
Tamaño de la muestra = n
Media de la población = m Desviación estándar de la población = Desviación estándar de la s muestra = s
5
MÉTODO DE MUESTREO
Métodos no probabilísticos.- Interviene la opinión del investigador para obtener cada elemento de la muestra. Métodos probabilísticos.- Muestra que se selecciona de modo que cada integrante de la población en estudio tenga una probabilidad conocida( pero distinta de cero) de ser incluido en la muestra.
MUESTREO ALEATORIO SIMPLE
MUESTREO ALEATORIO SISTEMÁTICO
MUESTREO ALEATORIO ESTRATIFICADO
MUESTREO ALEATORIO POR CONGLOMERADO
6
MUESTREO ALEATORIO SIMPLE se trata de un procedimiento de muestreo (sin reemplazamiento), en el que se seleccionan n unidades de las n en la población, de forma que cualquier posible muestra del mismo tamaño tiene la misma probabilidad de ser elegidas. se realizan n selecciones independientes de forma que en cada selección los individuos que no han sido elegidos tengan la misma probabilidad de serlo. el procedimiento habitual consiste en numerar todos los elementos de la población y se seleccionan muestras del tamaño deseado utilizando una tabla de números aleatorios o un programa de ordenador que proporcione números aleatorios. ejemplo: un bingo, introduzco los números en una ánfora y selecciono una muestra al azar. 7
MUESTREO ALEATORIO SISTEMÁTICO
Se ordenan los individuos de la población y se numeran. - se divide la población en tantos grupos como individuos se quieren tener en la muestra. se selecciona uno al azar en el primer grupo y se elige el que ocupa el mismo lugar en todos los grupos. -la ventaja principal es que es más sencillo y más barato que el muestreo aleatorio simple, además, se comporta igual si no hay patrones o periodicidades en los datos. -la aparición de patrones desconocidos puede llevar a importantes errores en la estimación de los parámetros Ejemplo: se desea establecer una muestra 100 empleados de los 3000 que tiene una empresa, para lo cual ordeno alfabéticamente a los empleados, divido 3000/100 = 30 y selecciona a uno de cada treinta empleados 8
MUESTREO POR CONGLOMERADOS
se divide la población en grupos de acuerdo con su proximidad geográfica o de otro tipo. (conglomerados). cada grupo ha de ser heterogéneo y tener representados todos las características de la población. por ejemplo, los conglomerados en un estudio sobre la situación de las mujeres en una determinada zona rural pueden ser los municipios de la zona. 9
MUESTREO ESTRATIFICADO
Se divide la población en grupos homogéneos (estratos) de acuerdo con las características a estudiar. Por ejemplo, en un estudio de las características socioeconómicas de una ciudad los estratos pueden ser los barrios de la misma, ya que los barrios suelen presentar características diferenciales. -Se selecciona una muestra aleatoria de cada estrato tratando de que todos los estratos de la población queden representados. -Permite utilizar información a priori sobre la estructura de la población en relación con las variables a estudiar. -Obtiene representantes de todos los estratos de la población. -Diferentes opciones de selección del tamaño de la muestra en los estratos: -El mismo número en cada estrato. -Proporcional. (La más común) -Optima. 10
1.3 Teorema del lĂmite central
11
Teorema del límite central
La distribución de las medias de las muestras tiende a la normalidad independientemente de la forma de la distribución poblacional de la que sean obtenidas. Es la base de las cartas de control X-R.
12
Teorema del límite central
Por lo anterior la dispersión de las medias es menor que para los datos individuales
Para las medias muéstrales, el error estándar de la media se relaciona con la desviación estándar de la población como sigue:
sX
sX n 13
Aplicaci贸n del teorema del l铆mite central
14
Teorema del Límite Central
La distribución de las medias de las muestras tienden a distribuirse en forma normal Por ejemplo los 300 datos (cuyo valor se encuentra entre 1 a 9) pueden estar distribuidos como sigue:
50 40 30 Frec.
20 10 0 1
2
3
4
5
6
7
8
9
15
Teorema del Límite Central Población con media m y desviación estándar s y cualquier distribución.
Seleccionando muestras de tamaño n y calculando la X-media o promedio en cada una X-media 1
X-media 2
X-media 3
Conforme el tamaño de muestra se incrementa las muestras se distribuyen normalmente con media de medias m y desviación estándar de las medias de las muestras s / n. También se denomina Error estándar de la media.
Teorema del Límite Central
La distribución de las medias de las muestras tienden a distribuirse en forma normal Tomando de muestras de 10 datos, calculando su promedio y graficando estos promedios se tiene:
10 8 6 Frec.
4 2 0 3.5
4
4.5
5
5.5
6
6.5
17
1.4 Distribuciones fundamentales para el muestreo
18
1.4 Distribuciones fundamentales para el muestreo Es la descripción de una característica particular de un fenómeno a partir de datos numéricos; por ejemplo la estatura de estudiantes, tamaño de plantas, tiempo de reacción de animales a cierto estimulo, edad de la población escolar, cantidad de piezas fabricadas por hora, etc..,.Las técnicas se utilizan en casi todos los aspectos de la vida; se diseñan encuestas para recabar la información previa al día de elecciones y así predecir el resultado de las mismas, se seleccionan al azar consumidores para obtener información con el fin de predecir la diferencia con respecto a ciertos productos 19 etc.
Distribuciones muéstrales 1.4.1 Distribución muestral de 1.4.2 Distribución muestral de 1.4.3 Distribución muestral de 1.4.4 Distribución muestral de proporciones 1.4.5 Distribución t-student. 1.4.6 Distribución muestral de 1.4.7 Distribución muestral de de varianzas
la la la la
media diferencia de medias proporción diferencia de
la varianza la relación
20
distribuci贸n muestral de la media
21
Distribución Muestral de Diferencia de Medias
se tienen dos poblaciones distintas, la primera con media 1 y desviación estándar 1, y la segunda con media 2 y desviación estándar 2. Más aún, se elige una muestra aleatoria de tamaño n1 de la primera población y una muestra independiente aleatoria de tamaño n 2 de la segunda población; se calcula la media muestral para cada muestra y la diferencia entre dichas medias. La colección de todas esas diferencias se llama distribución muestral de las diferencias entre medias o la distribución muestral del estadístico 22
Distribución muestral de Proporciones
Existen ocasiones en las cuales no estamos interesados en la media de la muestra, sino que queremos investigar la proporción de artículos defectuosos o la proporción de personas con teléfono, etc en la muestra. La distribución muestral de proporciones es la adecuada para dar respuesta a estas situaci ones. Esta distribución se genera de igual manera que la distribución muestral de medias, a excepción de que al extraer las muestras de la población s e calcula el estadístico proporción (p=x/n en donde “ x” es el número de éxitos u observaciones de interés y “ n” el tamaño de la muestra) en lugar de la media de cada muestra que era lo que calculamos antes.
23
DISTRIBUCION DE LA DIFERENCIA DE PROPORCIONES
De dos poblaciones se toman dos muestras aleatorias independientes de tamaños n1 30 y n2 30, y en cada una de ellas se observa una característica o cualidad. La proporción muestral de elementos con una característica se define como:
24
25
En probabilidad y estadistica la distribución-t o distribución t de Student es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeña. A la teoría de pequeñas muestras también se le llama teoría exacta del muestreo, ya que también la podemos utilizar con muestras aleatorias de tamaño grande. 26
Distribución t-student Si X 1 , X 2 ,..., X n es una muestra aleatoria de una 2 n ( m , s ). Población (X) con distribución normal
Entonces ( X m ) ( s / n) se distribuye t-student con n-1 grados de libertad. Se utiliza en vez de la distribución normal cuando sigma es desconocida (que la aproxima con n > 100)
( X m ) ( s / n) t n 1
27
Función de Distribución t-student [( k 1) / 2] f ( x) k [k / 2][ x 2 / 2 1]( k 1) / 2 x (, )
K=1
K=10
K=100
28
Funci贸n de Distribuci贸n t-student
29
s
k ; k 3 k 2
Distribución t de Student
La media y la varianza de la distribución t son:
m 0
s
k ; k 3 k 2
De una muestra aleatoria de n artículos, la probabilidad de que
xm t s/ n Caiga entre dos valores especificados es igual al área bajo la distribución de probabilidad t de Student con los valores correspondientes en el eje X, con n-1 grados de libertad 30
s
k ; k 3 k 2
Distribución t de Student Ejemplo:
La resistencia de 15 sellos seleccionados aleatoriamente son: 480, 489, 491, 508, 501, 500, 486, 499, 479, 496, 499, 504, 501, 496, 498
¿Cuál es la probabilidad de que la resistencia promedio de los sellos sea mayor a 500?. La media es 495.13 y la desviación estándar es de 8.467.
t = -2.227 y el área es 0.0214
t
495.13 500 2.227 8.467 / 15
31
El supuesto fundamental es que la población tiene distribución normal con media y varianza . De esta población se obtiene una muestra aleatoria de tamaño n. La varianza de la muestra se define como:
32
Distribución de la varianza
Sea una población donde se observa la variable aleatoria X . Supongamos que X N ( µ, σ ) Independientes entre si Xi N ( ) µ , σ 1 2 XX X , ,..., n ¾Consideramos una muestra aleatoria simple, m.a.s., de tamaño n, formada por las v.a., , ,..., X1 X2 X n
33