132669748 muestreo pdf

Page 1

MAGISTER EN INVESTIGACIÓN SOCIAL Y DESARROLLO DEPARTAMENTO DE SOCIOLOGÍA Y ANTROPOLOGÍA FACULTAD DE CIENCIAS SOCIALES UNIVERSIDAD DE CONCEPCION

TÉCNICAS DE MUESTREO

PROFESORA: MARÍA PAZ CASANOVA LAUDIEN APUNTES DE CLASE AÑO 2008 – 02


Programación de Técnicas de Muestreo:

Se proyectan las siguientes sesiones de clase, basadas en material de clase, apunte de la profesora y texto guía. La asistencia mínima exigida es de un 75%. Sesión 1: Capítulos 1, 2. Sesión 2: Capítulo 3. Sesión 3: Capítulo 4 (4.1-4.5). Sesión 4: Capítulo 4 (4.6-4.7, Ej.). Sesión 5: Capítulo 5 (5.1-5.5). Sesión 6: Capítulo 5 (5.6-5.11, Ej.). Sesión 7: Capítulo 6 (6.1-6.4). Sesión 8: Capítulo 6 (6.5-6.9, Ej.). Sesión 9: Capítulo 7. Sesión 10: Capítulo 8 (8.1-8.5). Sesión 11: Capítulo 8 (8.6-8.9, Ej.). Sesión 12: Capítulo 9. Sesión 13: Capítulo 10. Sesión 14: Capítulo 11, 12. Sesión 15: Evaluación. Texto guía: Scheaffer Richard L., Lyman Ott R. , Mendenhall William (1987). Elementos de Muestreo. Grupo Editorial Iberoamérica, México.


Evaluación del curso: El curso se evaluará mediante un único trabajo final el cual se describe a continuación. Trabajo Final del Curso: Descripción del trabajo: En base a un problema real del área de su interés, realice las siguientes actividades: 1) Narre brevemente la situación que motiva o justifica la investigación; delimite la población a estudiar, defina variables y parámetros de interés. 2) Plantee el problema, pregunta de investigación o hipótesis. 3) Diseñe un plan de muestreo, justifique el que se utilizó o bien critique el que se utilizó y propongas uno mejor. 4) Calcule tamaños de muestra, especifique las restricciones o condiciones impuestas. 5) Estime parámetros puntualmente y por intervalos. 6) Dé repuesta a la pregunta que motiva la investigación. Informes y fechas: Se solicitan dos informes. -

El primero debe contener los puntos 1 y 2, y una propuesta del punto 3. El segundo debe estar completo (puntos 1 a 6).

Evaluación del trabajo: La nota final dependerá de las evaluaciones parciales de ambos informes, donde el segundo contiene al primero con las correcciones solicitadas. -

Primer informe: 27 de octubre, 30%. Segundo informe: 01 de diciembre, 70%.


Técnicas de Muestreo Clase 1: Introducción (primera parte) Incerteza y azar: En lenguaje coloquial hablamos de estadísticas de fútbol, por ejemplo, refiriéndonos a promedios y frecuencia de ciertos eventos, sin embargo este concepto no es adecuado técnicamente. La estadística es la ciencia que estudia la incerteza, de modo que si un problema tiene una solución fija exacta, no es materia de la estadística sino de las matemáticas. La incerteza se relaciona con el concepto de evento o fenómeno aleatorio, entendemos por fenómeno aleatorio un evento o situación cuyo resultado no se conoce, y para el cual existe más de un resultado posible. Por ejemplo, resultado del lanzamiento de un dado, postura expresada por un encuestado elegido al azar respecto de un planteamiento, ingreso per cápita de una familia elegida al azar en cierto sector. En rigor, cuando hablamos de una selección al azar nos referimos a que los individuos o elementos han sido numerados, estos números (como esferas numeradas, papeles numerados, etc) han sido depositados en un recipiente y mezclados, para luego seleccionar uno de ellos (y por tanto un individuo) sin mirar los números. Por supuesto, es poco práctico en la mayoría de los casos, llevar una tómbola para realizar la selección de elementos. Existen métodos alternativos, como el uso de la tabla de números aleatorios, números aleatorios de una calculadora (función “RAN”), números aleatorios de excell (función “=aleatorio()”). 1) Tabla de números aleatorios: • Determinar el número de dígitos del tamaño de la Población N: El tamaño de la Población N tiene una cierta cantidad de dígitos (por ejemplo N=6.114 tiene cuatro dígitos). • Selección del punto de partida: Se escoge un punto inicial de la tabla sin mirarla, por ejemplo, fila 5 (horizontal) y columna 12 (vertical). • Selección del camino a realizar: Se decide, antes de mirar la tabla, el camino a seguir con los números dentro de la tabla, por ejemplo, se seguirá hacia la derecha (o se seguirá hacia abajo, o en diagonal, etc). • Se eligen los números: Se sigue la pauta decidida en los dos puntos anteriores, escogiendo números de la cantidad de dígitos deseados, hasta completar el tamaño de muestra deseado n y eliminando aquellos que sean mayores a N o que estén repetidos. Por ej., considere n=10. Ejemplo: Columna 12

Fila 4 Æ

19947 73392 64136 92337 90965 67897

89710 05985 16705

0 0 7 5 8 9 6 9 5 8 9 9 9 2 8 6 5 4 3 2 9 6 1 52 1 3 5 65 3 4 2 9 3 2 0 0 5 3 9 0 8 7 4 3 0 3 8 0 7 9 4 85 6 9 4 81 6 0 0 4 6 6 9 7 0 2 8 5 8 9 4 0 8 2 3 5 2 3 7 53 2 1 5 22

85071 05345

8 5722

6 9 5 3 3 4 0 6 3 8 5 1 2 4 4 2 7 1 1 2 5 5 9 86 3 9 3 35

21852 50617

10713

4063

1 3 4 8 7 0 3 8 4 2 4 7 7 9 2 0 2 1 94 2 6 4 67

Números elegidos: 5.722, 6.953*, 3.406, 3.851, 2.442, 7.112*, 5.598, 5.393, 3.521, 8.525*, 617, 1.071, 3.406**, 3.134. La muestra son los números en negrita (* se eliminan por ser mayor que N y ** se elimina por estar repetido).


2) Números aleatorios de la calculadora: La calculadora, al presionar la tecla RAN entrega un número entre cero y uno, con una cierta cantidad de decimales. Se leen sólo la cantidad de dígitos deseados, eliminando valores superiores a N o repetidos. 3) Números aleatorios de excell: Excell se puede usar igual que la calculadora, pero también hay otras formas, por ejemplo, para seleccionar 10 números entre 1 y 6.114, la siguiente fórmula sólo requerirá eliminar repetidos: =redondear.mas(aleatorio()*6114;0). Esta fórmula no entregará ceros ni números superiores a 6.114, elegidos al azar, y sin decimales (por eso la instrucción redondear y el cero al final que indica el número de decimales). Conceptos de Muestreo:

Población

P

Muestra

m

Se define como Población al conjunto de todos los individuos o elementos respecto de los cuales se desea inferir o de interés para el estudio. La población debe ser bien definida al iniciar el estudio. Como muestra la Figura, una muestra es un subconjunto de la Población. Este subconjunto será utilizado para, en base a los hallazgos en este conjunto, proyectar las conclusiones a la Población completa. Para que tenga sentido realizar esta proyección, la muestra debe cumplir con ciertas propiedades. En particular, debe ser representativa de la Población, es decir, una Población en tamaño pequeño. Para que con una alta probabilidad se den en la muestra características semejantes a las de la población, esta muestra debe satisfacer que, todos los individuos o elementos de la Población deben tener la misma probabilidad de pertenecer a ella. Para lograr esto, en un nivel muy básico, es necesario escoger la muestra al azar. Es por esto que se habla de muestra aleatoria. El objetivo del estudio siempre se refiere a ciertas características de la población, las cuales son medidas a los individuos de la muestra. Los individuos o elementos de la población son las unidades a ser medidas. En ocasiones, la selección de elementos requiere acceder primero a unidades más grandes que incluyen varios elementos, en este caso se habla de unidades de muestreo.


El conjunto del cual se extrae la muestra se denomina marco muestral, y consiste de algún tipo de lista de los elementos de la población. En muchas ocasiones el marco muestral no es igual a la población, y se puede requerir más de un marco muestral para acceder a la población completa. Cuando no existe un marco muestral completo para una población, será necesario redefinir la población a la cual se proyectarán las conclusiones. Las características que se miden a los individuos, se denominan variables. Por ejemplo: - sueldo (variable) de los obreros de la ciudad (elemento de la población), - número de integrantes (variable) de la familia (elemento de la población), - postura política (variable) de un residente (elemento de la población). Respecto de las variables, el interés no está centrado en valores particulares medidos en ciertos individuos, sino en ciertos parámetros o medidas poblacionales de ellas. Por ejemplo: - sueldo de los obreros Æ Parámetro: sueldo promedio de todos los obreros de la ciudad. - número de integrantes de la familia Æ Parámetro: número total de habitantes de la villa. - postura política de los residentes Æ Parámetro: porcentaje de los residentes que son de derecha. Los parámetros son características poblacionales de la variable de interés. Por lo general son desconocidos (se requeriría un censo para conocer su valor) pero su valor es fijo o constante. Se define como estadístico a una función matemática de los valores de la muestra, por ejemplo la suma de ellos, el valor mayor, la multiplicación de ellos, etc. Como la muestra es aleatoria, es decir, no es fija, puede constar de diferentes elementos, entonces el estadístico, como depende de ella o se calcula en base a ella, también es aleatorio, es decir, puede tomar diferentes valores. Existen infinitos estadísticos, tantos como funciones matemáticas uno pueda crear; sin embargo algunos de ellos son de interés, en particular aquellos que de algún modo son análogos a los parámetros. A estos estadísticos se les conoce como estimadores. Cada parámetro tiene asociado un estimador. Los estimadores son estadísticos que sirven para estimar un parámetro. Por ejemplo: - Parámetro: sueldo promedio de todos los obreros de la ciudad Æ Estimador: sueldo promedio de los obreros en la muestra. - Parámetro: número total de habitantes de la villa Æ Estimador: promedio de habitantes por casa en la muestra multiplicado por el número de casas de la villa. - Parámetro: porcentaje de los residentes que son de derecha Æ Estimador: porcentaje de individuos de derecha en la muestra. Naturalmente, al ser estadísticos, los estimadores también son aleatorios.


Tipos de Muestreo: No en todos los casos el diseño del muestreo es el mismo, en efecto hay varios tipos de muestreo. La selección del diseño a utilizar se basa en la estructura de la población (si está constituida o no de subgrupos, el grado de heterogeneidad de éstos y la accesibilidad de los elementos). 1) Muestreo Aleatorio Simple M.A.S.: La población no presenta subgrupos o estos son desconocidos para el investigador y la variable a ser medida en ella tiene un comportamiento relativamente homogéneo. Por ejemplo, interesa estudiar la postura política de los N mineros de Lota, los cuales son todos varones. Se realiza un empadronamiento y se selecciona una muestra al azar de n mineros de dicha lista. 2) Muestro Aleatorio Estratificado M.A.E.: La población presenta subgrupos llamados estratos que, respecto de la variable medida, tienen la característica de ser heterogéneos entre ellos (diferentes) y homogéneos dentro de ellos (la estratificación agrupa a los individuos con aquellos similares a ellos). Por ejemplo, interesa estudiar los sueldos de la totalidad de los N trabajadores de un hospital. Estos individuos se pueden estratificar por estamento. Para ello se establecen los tamaños de cada estamento (N1 médicos, N2 enfermeros, N3 auxiliares de enfermería, N4 otros profesionales de la salud, N5 administrativos, N6 auxiliares de limpieza, N7 guardias, y se seleccionan muestras en cada uno, de tamaños proporcionales, n1,..., n7, Ni ni tales que n = n1+...+n7 y = para todo i = 1,...,7. N n 3) Muestreo Sistemático M.S.: La población no presenta subgrupos o estos son desconocidos para el investigador y la variable a ser medida en ella tiene un comportamiento relativamente homogéneo. Además se cuenta con un marco muestral completo ordenado en el cual los individuos están numerados o pueden numerarse fácilmente. Finalmente, el ordenamiento en el marco muestral no guarda relación con la variable de interés, en el sentido de que no se observa algún tipo de patrón, por ejemplo cíclico, en ellos. Por ejemplo, se desea estudiar el comportamiento sexual de los N = 4.900 estudiantes de primer año de la Universidad de Concepción, los cuales están ordenados en un listado en orden alfabético. La muestra corresponderá a un 5% de la población (n = 245). Esto significa que se seleccionará en forma sistemática uno de cada k = 20 individuos (k =

N 4.900 = = 20). Para definir el número inicial, se selecciona un 245 n

número al azar entre 1 y k = 20, sale elegido el número 16. El primer individuo en la muestra es el que corresponde en la lista al 16. A partir de este número se salta cada vez 20 para elegir el que sigue, es decir, se escoge a los individuos número 16, 36, 56, 76, 96, 116, ... , 4.896.


4) Muestreo por Conglomerados M.C.: La población presenta subgrupos llamados conglomerados que, respecto de la variable medida, tienen la característica de ser heterogéneos dentro de ellos (variados representando cada conglomerado a una población en miniatura) y homogéneos entre ellos (los conglomerados son semejantes entre ellos de modo que da lo mismo seleccionar uno u otro). Además, existen problemas de acceso a los elementos, y la selección de conglomerados los soluciona, en muchas ocasiones los conglomerados son unidades de muestreo. Por ejemplo, se conduce un estudio de la necesidad de un centro abierto para niños en una población que está compuesta de 50 edificios de departamentos. Interesa obtener una muestra del 10% de las familias, para lo cual se seleccionan al azar 5 de los 50 edificios y luego se realiza la consulta en todos los departamentos de los edificios en la muestra. 5) Muestreo Multietápico M.M.: Para acceder a las unidades muestrales, es preciso realizar una sucesión de aproximamientos, desde entidades más grandes a entidades más pequeñas. Cada aproximación o etapa involucra un proceso aleatorio. Por ejemplo, interesa estudiar el fenómeno Bullying en cursos (unidad muestral) de primer ciclo de educación básica para las comunas principales de la zona urbana de la provincia. Para ello se definen las comunas involucradas (Población: cursos de primer ciclo básico en colegios de Concepción, Talcahuano, Chiguayante, San Pedro de la Paz, Hualpén y Penco) y se definen sectores físicos (por estrato socioeconómico) dentro de las comunas. Se indaga sobre el número de colegios fiscales, particulares y subvencionados (clasificación por dependencia) en cada sector y la cantidad de cursos de educación básica existentes. De esta forma se establece la cantidad de cursos a escoger por dependencia y por comuna (M.A.E. doble, por comuna y dependencia, 18 estratos) y cada tamaño muestral se subdivide proporcionalmente para los sectores (M.A.E.). En cada sector se han empadronado los cursos existentes en listas por dependencia (3 listas por sector). Se eligen al azar (M.A.S.) los cursos de las listas. Se concurre para entrevistar a los profesores, apoderados y alumnos de los cursos seleccionados. Los tamaños de muestra, la forma de selección de ellas muestra y el cálculo de estimadores se abordarán para cada tipo de muestreo en los capítulos siguientes.


Técnicas de Muestreo Clase 2: Introducción (segunda parte) Tipos de Variables Aleatorias: En general la información total obtenida de la muestra debe resumirse mediante: - Tablas, - Gráficos, - Medidas (estimadores, estadísticos). Tanto los estimadores como los estadísticos son variables aleatorias, por lo cual tienen una distribución (llamada distribución muestral, ya que su variabilidad se debe a que la muestra es aleatoria). Las variables aleatorias corresponden a características numéricas de los individuos. Cada variable aleatoria tiene asociado un Recorrido, el recorrido es el conjunto de valores posibles, valores que puede asumir esta característica. Cada uno de los valores que pueden asumir estas variables aleatorias, es decir, cada elemento del recorrido, tiene asociada una función de probabilidad, es decir una función matemática que indica cuán posible es que se obtenga tal valor. Esta función matemática se conoce como Distribución de Probabilidad. Las variables aleatorias (v.a.) y pueden ser de dos tipos: - Discretas, - Continuas. Un conjunto es contable si es finito, es decir, se puede contar sus elementos. Un conjunto es numerable si se puede numerar sus elementos en algún orden, es decir, asignarle un número a cada elemento. Un conjunto numerable no necesariamente es finito, hipotéticamente uno podría numerar infinitamente sus elementos, ya que tienen un orden específico. Las v.a. discretas son aquellas cuyo recorrido es numerable o contable. Ejemplos: Número de hijos de una mujer, Número de años de servicio de un empleado, Edad (años cumplidos), Años de estudio, etc. Las v.a. continuas son aquellas cuyo recorrido no es numerable ni contable, sino que entre cada par de valores posibles existen infinitos valores más. Ejemplos: Estatura, peso de una persona. En ocasiones una variable continua puede medirse mediante una escala de medición discreta. Ejemplos: Edad real (25 años, dos meses, 13 días, 5 horas, 3 minutos, 5 segundos, etc.) Æ Edad en años cumplidos (25 años) Sueldo líquido real ($354.211,6666…) Æ Sueldo líquido en pesos ($354.212). En otras ocasiones una variable continua o discreta se puede medir en intervalos.


Ejemplos: • Marque a qué categoría de sueldo pertenece usted: a. Menos de $300.000 b. $300.001 a $800.000 c. Más de $800.000. • En qué grupo etáreo se ubica el jefe de hogar: a. Menos de 30 años b. Entre 30 y 45 años c. Entre 46 y 60 años d. Más de 60 años Finalmente hay variables que se categorizan, es decir, los números se transforman en una clasificación no numérica. Si se trata sólo de dos categorías, se dice que la variable se ha dicotomizado. • Grupo etáreo del jefe de hogar: Joven (18-40), Adulto (41-59), Adulto mayor (más de 60). • Grupo de nivel socioeconómico: A, B, C. D. E. • ¿Viven menores de edad en el domicilio? Sí (1 ó más menores de edad), No (0 menores de edad). • ¿El sueldo per cápita es superior a $200.000? Si ($200.000 ó más), No (menos de $200.000). Distribuciones de Probabilidad importantes: Variable Aleatoria Discreta Importante: Binomial: Un experimento es cualquier situación que genera diversos resultados. Un experimento Bernoulli es un experimento dicotómico a cuyos resultados se denomina éxito y fracaso, para el cual las realizaciones son independientes (si la muestra es aleatoria se asegura la independencia) y la probabilidad de éxito es constante (si la muestra es extraía de una población o subpoblación homogénea se asegura que la probabilidad de éxito es igual para todos los individuos). La probabilidad de éxito se denota por p. Una v.a. Binomial se puede definir como: “número de éxitos en n realizaciones de un experimento Bernoulli”. Se denota por X ~ b(n, p). El nº de realizaciones n es fijo. Ejemplo: Se encuesta a 100 personas extraídas al azar (independientes) de la fuerza de trabajo femenina de la ciudad de Concepción (¿será homogéneo este grupo?), para consultarles respecto una modificación en la ley laboral (experimento), que les afecta. Población: fuerza laboral femenina de la ciudad. X: “Nº de personas (de un total de 100 encuestadas) que están a favor (éxito) de la modificación.” X ~ b(n=100, p), donde p es la proporción real en la población de personas a favor de la modificación. Histograma: Gráfico de barras verticales, que ubica en el eje horizontal los valores de la variable en intervalos de tamaño constante, y en el eje vertical la frecuencia o el número de ocurrencias en cada intervalo (se puede reemplazar la frecuencia por el porcentaje).


% de individuos

Ejemplo:

Edad

Probabilidad

Variables aleatorias Continuas Importantes: Uniforme: Todos los valores son igualmente probables. Si se construye un histograma la figura es semejante a la siguiente:

X

Probabilidad

Exponencial: Los valores bajos son altamente probables y las probabilidades decrecen rápidamente para valores altos. Si se construye un histograma la figura es semejante a la siguiente:

X

Probabilidad

Normal: El histograma resulta simétrico (un lado corresponde al reflejo del otro, como visto en un espejo) y unimodal (un solo valor máximo). Los valores centrales son más probables y las probabilidades decrecen rápidamente para valores alejados del centro. Si se construye un histograma la figura es semejante a la siguiente:

X


Verificación de Modelos: Para verificar si un modelo es binomial, se debe realizar un análisis intelectual del problema. Para verificar los modelos continuos en cambio, es conveniente realizar la gráfica del histograma. Parámetros y Estimadores Binomial: El parámetro de interés es la proporción poblacional p y el estimador es la proporción muestral pˆ . El cálculo de p requiere un cálculo sobre toda la población, cuyo tamaño es N: p = homogéneas, pˆ = X n

Nº éxitos en la muestra Nº realizacio nes

=

Nº éxitos en la población N

. En poblaciones

.

Normal: El parámetro de interés es la media poblacional o esperanza µ y el estimador es la media muestral o promedio µˆ . N

El cálculo de µ se realiza sobre toda la población, de tamaño N: µ =

∑X i =1

i

.

N n

En poblaciones homogéneas, para una muestra de tamaño n,

∑X

µˆ = X = i=1

n

i

.

La distribución normal además tiene otro parámetro, es la varianza poblacional σ2. Su estimador es la varianza muestral σˆ 2 = S2. La raíz cuadrada de la varianza poblacional es la desviación estándar σ, medida de la variabilidad o dispersión de los valores poblacionales. La raíz cuadrada de la varianza muestral es la desviación estándar S, medida de la variabilidad o dispersión de los valores muestrales. El cálculo de σ2 se realiza sobre toda la población, cuyo tamaño es N: N

2

σ =

∑ (X i =1

i

− X) 2

N

. En poblaciones homogéneas, si el tamaño de muestra es n, se n

2

tiene que σˆ = S = 2

∑ (X i =1

i

− X) 2

n -1

.

Medidas: Proporción, media y varianza no son las únicas medidas que existen. Las medidas, en general, se dividen en medidas de localización y variabilidad, y se pueden clasificar del modo siguiente:


Características de las Distribuciones: Muestra Aleatoria: Conjunto de variables aleatorias (valores medidos en los individuos) independientes (los individuos fueron extraídos al azar) y con igual distribución (provienen de la misma Población homogénea). Esto se denota como m.a. ó i.i.d. Notación: θ Æ Parámetro; θˆ Æ Estimador. Distribución normal: Parámetro µ Æ Estimador µˆ =⎯X. Parámetro σ2 Æ Estimador σˆ 2 = S2. Distribución binomial: Parámetro p Æ Estimador pˆ = X . n

Media Poblacional o Esperanza: N

E(X) =

∑X i =1

i

es el promedio de la variable en la Población.

N

El estadístico análogo es la media muestral ⎯X. Propiedades: Sea a, b constantes y X, X1, …, Xn variables. • E(a) = a, • E(a X) = a E(X), • E(a X + b) = a E(X) + b, •

n

E( ∑ X i ) = i=1

n

∑ E(X ) i=1

i

=

n E(X).

Igual Distribución Varianza Poblacional: N

V(X) =

∑ (X i =1

i

− X) 2

N

es el promedio de las desviaciones cuadradas respecto de la

media en la Población. El estadístico análogo es la varianza muestral S2. Propiedades: Sea a, b constantes y X, X1, …, Xn variables. • V(a) = 0, • V(a X) = a2 V(X), • V(a X + b) = a2 V(X), •

n

V( ∑ X i ) i=1

=

n

∑ V(X ) i=1

i

Independencia

=

n V(X).

Igual Distribución

Propiedades de Bondad de los Estimadores: • Insesgamiento: E( θˆ ) = θ Æ La distribución muestral de alrededor de θ ó centrada en θ. • Varianza pequeña: V( θˆ ) Æ La distribución muestral de dispersa, está concentrada alrededor de θ.

θˆ se ubica θˆ es poco


Resultados Importantes: Normal: X ∼ N(µ, σ2) Æ E(X) = µ; V(X) = σ2. n

E(⎯X ) = E(

∑X i=1

i

n

n

) = 1 E(∑ X ) = 1 ∑ E(X ) = n n i

n i=1 i =1 Æ⎯X es estimador insesgado de E(X) = µ.

i

1 ⋅ n ⋅ E(X i ) = E(X) = µ. n

n

∑X

i

n 1 1 n V(X) σ 2 1 = V ( X ) = V(X ) = ⋅ n ⋅ V(X ) = . ∑ ∑ i i i n n n n2 n 2 i=1 n2 i =1 Æ la varianza de⎯X decrece a medida que el tamaño de muestra crece. E(S2) = V(X) = σ2 Æ S2 es estimador insesgado de V(X) = σ2. Binomial: X ∼ b(n, p) Æ E(X) = n p; V(X) = n p (1- p). 1 X 1 E( pˆ ) = E( ) = E(X) = ⋅ n ⋅ p = p. n n n Æ pˆ es estimador insesgado de p. X p ⋅ (1 − p) 1 1 V( pˆ ) = V ( ) = 2 V (X) = 2 ⋅ n ⋅ p ⋅ (1 − p) = . n n n n Æ la varianza de pˆ decrece a medida que el tamaño de muestra crece.

V(⎯X ) =

V(

i=1

)=

Características de la Distribución Normal:

Teorema del Límite Central TLC: Para muestras grandes (n ≥ 30 ó n ≥ 50), se tiene que, independiente de la V(X) ). distribución original de las observaciones: ⎯X ≈ N(E(X), n Algunas consecuencias y observaciones importantes son las siguientes: σ2 • Si la distribución de origen es normal: ⎯X ∼ N(µ, ). n V(X) • Si la distribución de origen es continua no normal: ⎯X ≈ N(E(X), ). n p ⋅ (1 - p) • Si la distribución de origen es binomial: pˆ ≈ N(p, ). n


Teorema de Chebyshev: Para muestras de cualquier tamaño (en particular pequeñas), se tiene que, V(θˆ ) . independiente de la distribución original: P(| θˆ - θ| ≤ B) ≥ 1 – B2 Algunas consecuencias y observaciones importantes son las siguientes: V(X) • Distrib. normal u otra continua: P(|⎯X – µ| ≤ 2 σ n ) ≥ 1– =¾. 4 V(X) 2 V(X) V(pˆ ) • Distrib. binomial: P(|pˆ – p| ≤ 2 p ⋅ (1 − p) n ) ≥ 1– =¾. 4 V(pˆ ) 2 V(pˆ ) Error de Estimación e Intervalo de Confianza: El error de estimación es la diferencia absoluta entre el valor real y el valor estimado de un parámetro Æ E = | θˆ - θ|. En el caso normal, corresponde a E = | µˆ - µ|. En el caso binomial, corresponde a E = | pˆ - p|. Se denota por B al error máximo permitido y por (1 – α) al nivel de confianza en la estimación. Esto se resume en la siguiente expresión: P(| θˆ - θ| ≤ B) = 1 – α. Esta expresión también es análoga a decir que, con un nivel de confianza (1- α) se tiene que el verdadero valor θ pertenece al Intervalo de Confianza [ θˆ - B, θˆ + B]. El nivel de confianza quiere decir que, si se construyeran un gran número de intervalos, cada uno basado en una muestra extraída al azar, el verdadero valor del parámetro estaría contenido en el porcentaje dado por 1 – α de ellos.

Intervalos de Confianza y TLC Para tamaños de muestra grande, podemos decir que: • Con 95% de confianza, µ está en el intervalo [⎯X - 2 σ n ;⎯X + 2 σ n ] • Con 95% de confianza, p está en el intervalo [ pˆ -2 p ⋅ (1 − p) ; pˆ +2 p ⋅ (1 − p) ] n

n

Como σ es un valor desconocido, se puede aproximar por S, especialmente si la muestra es grande. De igual forma, p se puede aproximar por pˆ .

Intervalos de Confianza y Teorema de Tchebyshev Para tamaños de muestra cualquiera (pequeño), podemos decir que: • Con 75% de confianza, µ está en el intervalo [⎯X - 2 σ n ;⎯X + 2 σ n ] • Con 75% de confianza, p está en el intervalo [ pˆ -2 p ⋅ (1 − p) ; pˆ +2 p ⋅ (1 − p) ] n

n

También en este caso se pueden aproximar σ y p. Si la muestra es pequeña, existen alternativas para S (se verán más adelante)y p se puede aproximar por el valor medio 0,5.


Ejercicios: 1) Considere el conjunto dado a continuación y correspondiente a los sueldos de los 50 empleados de una repartición. a. Calcule los valores poblacionales µ = E(X) y σ = V(X) . b. Realice el histograma de los datos. c. Obtenga 20 muestras de tamaño 5. i. Para cada una calcule ⎯X, S y el intervalo de confianza para µ. ii. Vea a cuántos intervalos pertenece el valor real de µ. iii. Realice el histograma de valores de ⎯X. iv. Comente. d. Obtenga 20 muestras de tamaño 30. i. Para cada una calcule ⎯X, S y el intervalo de confianza para µ. ii. Vea a cuántos intervalos pertenece el valor real de µ. iii. Realice el histograma de valores de ⎯X. iv. Comente. 2) Considere el conjunto dado a continuación y correspondiente a la postura de los 50 empleados de una repartición respecto de las nuevas políticas de la empresa. a. Calcule el valor poblacional p. b. Realice el histograma de los datos (codifique como 1: a favor y 0: en contra). c. Obtenga 20 muestras de tamaño 5. i. Para cada una calcule pˆ y el intervalo de confianza para p. ii. Vea a cuántos intervalos pertenece el valor real de p. iii. Realice el histograma de valores de pˆ . iv. Comente. d. Obtenga 20 muestras de tamaño 30. i. Para cada una calcule pˆ y el intervalo de confianza para p. ii. Vea a cuántos intervalos pertenece el valor real de p. iii. Realice el histograma de valores de pˆ . iv. Comente.


Ayuda para trabajo en Excell Datos Problema 1 (sueldos de los 50 empleados de una repartición, ordenados): 156.000 173.000 178.000 215.000 218.000 235.000 240.000 250.000 269.000 278.000

279.000 279.000 287.000 290.000 297.000 298.000 319.000 320.000 323.000 332.000

340.000 343.000 346.000 352.000 353.000 356.000 367.000 386.000 391.000 412.000

414.000 423.000 430.000 440.000 451.000 459.000 477.000 490.000 510.000 530.000

546.000 557.000 570.000 580.000 605.000 649.000 684.000 699.000 716.000 740.000

a) Ubique los datos en una columna de Excell, con el título Sueldos (columna A). A Sueldos 156.000 173.000 178.000 Etc.

b) Utilice los siguientes intervalos para los datos: 151.000-200.000, 201.000-250.000, 251.000, 300.000, etc. Escríbalos en una columna de Excell con el título Intervalos (columna B). B Intervalos 151-200 201-250 251-300 Etc.

Para utilizar estos intervalos, se debe ubicar en una columna de Excell los límites superiores de los intervalos: 200.000, 250.000, 300.000, etc. Llame a esa columna Clases (columna C). C Clases 200.000 250.000 300.000 Etc.

c) Debajo de la Columna Sueldos calcule promedio y desviación estándar (poblacional), con las fórmulas en el ejemplo: 716.000 50 740.000 51 52 Promedio 53 =promedio(A2:A51) 54 Varianza Poblacional 55 =varp(A2:A51) 56 Desv. Est. Poblacional 57 =raiz(A55)


d) Para el histograma de los datos, se utiliza la columna Clases. Presione los Menú Herramientas – Complementos – marque Herramientas para Análisis – Aceptar (esto se hace una sola vez, después quedan activadas las opciones estadísticas). Luego para acceder a las herramientas estadísticas, presione los Menú Herramientas – Análisis de Datos – Histograma. Se abre un cuadro de diálogo donde se debe completar la información como en el siguiente ejemplo:

e) La imagen obtenida será la que se muestra en el siguiente ejemplo:


Haciendo clic sobre las barras se marcarán las columnas fuente del gráfico, la idea es ubicarse con el Mouse sobre la columna destacada en morado, presionar botón izquierdo del Mouse, y mover el cuadr morado a la columna de los Intervalos:

f) Obtenga las frecuencias relativas o porcentajes, calculando, al lado de las Frecuencias, con la fórmula en el ejemplo: D E F Clases Frecuencia Porcentaje 200000 3 =E2/50 250000 5

Arrastre la fórmula de la celda F2 hacia abajo, desde la esquina inferior derecha hasta F13 y presione el Menú de porcentaje:

g) Ahora presione otra vez las barras del gráfico y mueva la columna azul a la de porcentajes. Finalmente reduzca con el Mouse el largo de las columnas de fuente de los datos:


h) Finalmente el gráfico se puede mejorar eliminando la Leyenda (el cuadro que dice Frecuencia), ensanchando las columnas (botón derecho sobre las barras, Formato de Serie de Datos – Opciones – Ancho del Rango: 0 – Aceptar), cambiando dirección o tamaño de las letras (botón derecho sobre eje horizontal, Formato de Ejes – Fuente – Tamaño 7 – Alineación: 0 grados – Aceptar) y cambiando los títulos. Distribución de Sueldos de Empleados de una Repartición 18% 16%

Porcentaje

14% 12% 10% 8% 6% 4% 2% 0% 151-200

201-250

251-300

301-350

351-400

401-450

451-500

501-550

551-600

601-650

651-700

701-750

Intervalos de Sueldos

i) Para generar las muestras, en la Hoja 2 copie la columna A de la Hoja 1. Luego cree una columna de Probabilidades (columna C). Como todos los datos deben tener la misma probabilidad de salir elegidos y son 50, la probabilidad es 1/50=0,02: 1 2 3 4

A B Sueldos Probabilidades 156.000 0,02 173.000 0,02 178.000 0,02


Luego presione los Menú: Herramientas – Análisis de Datos – Generación de Números Aleatorios y rellene los datos del cuadro de diálogo como en la figura:

j) Luego ponga título a cada columna en que se presenta una muestra extraída del conjunto: 1 2 3 4 5 6

A B Sueldos Probabilidades 156.000 0,02 173.000 0,02 178.000 0,02 215.000 0,02 218.000 0,02

C Muestra 1 477000 414000 716000 386000 546000

D Muestra 2 352000 279000 451000 319000 740000

k) En las filas inferiores calcule los estimadores para cada muestra: promedio (=promedio(…)), desviación estándar muestral (=desvest(…)), y construya las fórmulas del límite inferior y superior de cada intervalo, recordando que n=5.


Datos Problema 2 (postura de los 50 empleados de una repartición, respecto de una nueva política de la empresa): En contra En contra En contra En contra En contra A favor En contra En contra En contra En contra

En contra A favor En contra A favor A favor En contra En contra A favor En contra En contra

En contra En contra En contra A favor A favor En contra A favor A favor En contra En contra

En contra En contra En contra A favor En contra En contra En contra En contra En contra En contra

A favor En contra A favor En contra En contra En contra En contra A favor En contra En contra

Los desarrollos en este caso son muy semejantes a los del problema 1, pero presentan algunas diferencias, en primer lugar, que es factible definir la distribución de probabilidad poblacional a ojo o con la función Contar.si (vea el ejemplo) y luego dividiendo por 50 para calcular la probabilidad: 1 2 3 4 5 6 7

A Postura En contra En contra En contra En contra En contra A favor

B Resultados A favor En contra Codificación 1 0

C Frecuencia =CONTAR.SI(A2:A51;"A Favor") Probabilidad =C1/50

Entonces, en la generación de muestras (números aleatorios) sólo se usarán como fuente de los datos Codificación y Probabilidad: .


Técnicas de Muestreo Clase 3: Elementos del Problema de Muestreo Tamaño de la Muestra: Cada elemento de la población contiene una cierta cantidad de información relativa a ella, a las variables en juego, a sus distribuciones y a sus parámetros; sin embargo cada unidad muestreada implica un costo, lo que motiva la determinación del mínimo tamaño muestral que permita el logro de los objetivos de la estimación (precisión y confianza deseadas), dada la variabilidad (desviación estándar del estimador) existente y el tamaño de la Población. De estos cuatro factores, dos son propios del problema y no se pueden alterar (variabilidad, tamaño de la población), mientras que los otros dos son definidos por el investigador (precisión y confianza). El ideal es que se pueda contar con que las mediciones hayan sido realizadas en forma exacta. En caso contrario, se habla de error de medición. Este tipo de error debe minimizarse. Definiciones importantes: Elemento: Objeto al cual se le pueden tomar (y eventualmente se le toman) las mediciones. Población: Colección de elementos acerca de los cuales se desea realizar inferencias. Unidades de muestreo: Colecciones no traslapadas de elementos que cubren la población completa. Marco muestral: Lista de unidades de muestreo. Muestra: Una colección de unidades seleccionadas de uno o de varios marcos muestrales. Diseño del Muestreo: El objetivo del muestreo es la estimación de parámetros de la población. La estimación se basa en la información muestral. La precisión de esta estimación es determinada por el investigador como el error máximo de estimación B. E = |θ – θˆ | ≤ B. La probabilidad 1 – α de que la estimación tenga un error que no supere a esta cota se denomina nivel de confianza. P( E ≤ B) = P(|θ – θˆ | ≤ B) = 1 – α. Como se vio anteriormente, si consideramos B = 2·σ( θˆ ) y: • el tamaño de muestra n es grande, o la distribución es normal, se tiene que la probabilidad es 1 – α = 0,95 (95%); • el tamaño de muestra n es pequeño, se tiene que la probabilidad es 1 – α = 0,75 (75%).


Note que la cantidad 2·σ( θˆ ) corresponde al error de muestreo, lo cual es muy diferente del error de medición. Intervalos de Confianza: Una forma general de escribir un Intervalo de Confianza de probabilidad o nivel 1 – α para θ (las cotas que probablemente contengan al parámetro), es la siguiente: [ θˆ – 2·σ( θˆ ); θˆ + 2·σ( θˆ ) ] = [ θˆ – B; θˆ + B ]. Fuentes de Error en Encuestas y Posibles Soluciones: Como se mencionó antes, existe el error de muestreo, que se debe únicamente a que no es posible medir la población completa, y el error de medición, que se refiere a errores provenientes no de la selección de individuos sino de la medición misma. Respecto de estos últimos podemos mencionar algunos subtipos: 1) Omisión: Si se desea realizar inferencias sobre una población, es importante considerar que aquellas personas que acceden a responder a la encuesta no necesariamente constituyen una muestra representativa de ella. Muchas veces las personas que no responden a una encuesta corresponden a un grupo con características diferentes, las cuales motivan que no respondan. Por ejemplo, si a un individuo un tema le es indiferente, es muy posible que no responda, sólo para no darse el trabajo de hacerlo; mientras que si el individuo está desconforme con la situación de la que se trata, se verá muy motivado a expresar su opinión. Incluso, si el individuo piensa que la consulta no tiene como fin producir algún tipo de cambio, independiente de que el tema le interese o preocupe, probablemente no responderá. Basar las inferencias en una muestra con alto porcentaje de omisión llevará a conclusiones sesgadas (inclinadas en algún sentido, a cierto grupo). Soluciones: Los incentivos son una forma de evitar omisiones, sin embargo, estos deben ser ofrecidos a la muestra seleccionada al azar, ya que una muestra basada en aquellas personas que, al saber que habían incentivos, decidieron responder, sería sesgada. Estos incentivos pueden ser económicos (dinero, artículos), pero también puede ser la seguridad de que las respuestas permitirán mejorar la situación se la que se trata o de los entrevistados. 2) Respuestas inexactas: En este caso nos referimos tanto a las respuestas inexactas que son entregadas con la intención de mentir u ocultar la verdad, como a aquellas que se responden en forma equivocada porque la pregunta no es clara para quien la responde. En el primer caso, se debe presentar las preguntas de tal forma que la persona no se sienta amenazada ni cohibida, o de forma que se amortigüe al máximo su efecto; mientras que en el segundo caso, previo a editar la versión final del cuestionario, es un buen ejercicio presentar el cuestionario a amigos que nos ayuden a determinar si se las preguntas se entienden.


Soluciones: Un adecuado adiestramiento de los encuestadores permitirá obtener respuestas difíciles o sobre temas incómodos. Por otra parte, la revisión pronta de la planilla de datos permitirá verificación de información extraña (valores imposibles por ejemplo), y recuperación de datos mientras los encuestados aún están disponibles. 3) Sesgo de selección: Es una práctica común y muy inconveniente, reemplazar en forma más o menos arbitraria a los individuos muestreados ausentes por sus vecinos. En este caso, así como en el caso de no respuesta, la ausencia de los individuos podría guardar relación con su postura frente a las interrogantes que se les plantearán, por ejemplo, puede que sea más común (probable) encontrar en el domicilio a una familia con niños que a una conformada por adultos solamente, lo cual puede sesgar las respuestas de los individuos. La única forma de obtener una muestra representativa y que satisfaga las propiedades de éstas, es medir a los individuos debidamente seleccionados en forma aleatoria. Soluciones: Las reentrevistas programadas en diferentes horarios y días de la semana son una forma de minimizar las omisiones en una encuesta que se realiza en terreno. Métodos de recolección de datos: Algunos métodos de recolección de datos son: 1) Entrevista Personal: Se tiende a tener menos omisión cuando el individuo es confrontado en forma personal. Las ventajas de una entrevista son: el lenguaje no verbal es considerado, se puede explicar las preguntas evitando omisiones; desventajas son: se puede provocar sesgo por las actitudes o gestos del entrevistador, si el entrevistador no es experimentado puede cohibir al encuestado o perder información. En general, se puede usar una pauta rígida o un punteo. Si se trata de una entrevista técnica, se requiere del individuo su opinión experta, por lo cual es conveniente llevar debidamente escritas las preguntas e interiorizarse del tema previamente. Si se trata de una entrevista testimonial, en cambio, se da libertad al encuestado para que se exprese libremente. 2) Entrevista Telefónica: Las entrevistas telefónicas resultan más económicas que las personales, sin embargo deben ser más cortas, ya que el encuestado tiende a impacientarse. Por otra parte, generalmente utilizar la guía telefónica como marco muestral produce sesgo, ya que no todas las casas tienen teléfono, de las que tienen no todas están en la guía y muchos teléfonos de la guía no corresponden a casas. 3) Cuestionarios Autoaplicados: Las encuestas en que no se cuenta con un entrevistador, sino que el individuos las responde por sí mismo, son más económicas. En ocasiones se hacen en un lugar específico al cual concurren los encuestados; pero la mayoría de las veces se hacen llegar por correo, postal o electrónico, este tipo de encuestas tiene muy bajo porcentaje de respuesta. En cualquiera de los casos, la encuesta debe redactarse de forma muy cuidadosa, para evitar errores u omisiones.


4) Observación Directa: Un muestreo en el cual no se realiza mediciones a las personas puede ser obtenido de primera fuente (número de vehículos que pasan por cierta intersección, por ejemplo). También, en ocasiones, se requiere información objetiva, presente en archivos, la cual es más exacta que aquella que pudieran proveer los mismos individuos muestreados (fichas de hospital, por ejemplo). En general este tipo de muestreo es demoroso pero económico. Diseño de un Cuestionario: El diseño cuidadoso del instrumento (cuestionario) permitirá disminuir las potenciales fuentes de error de medición. Algunos factores a considerar son: 1) Orden de las Preguntas: Si las preguntas están relacionadas entre sí, y están presentadas en un orden específico, éste puede incidir en las respuestas de los individuos, ya que a medida que se responde puede ir generando en ellos un estado anímico (inducido por las preguntas) que produzca percepciones distintas a las que se hubieran manifestado al enfrentarse a ellas en forma individual. Por ejemplo, “1)¿Ha presenciado usted alguna vez un acto delincuencial? 2)¿Algún conocido suyo ha sufrido a causa de la delincuencia? 3)¿Se siente ud. atemorizado por la delincuencia?” Por otra parte, es conveniente ubicar las preguntas menos complicadas al principio, por un efecto de rompe-hielo (por ejemplo, “sexo”), las medianas al final (por ejemplo, “ubíquese en un rango de ingreso familiar”) y las más difíciles en la parte central, ya sea porque el rompe-hielo permite hacer la pregunta (por ejemplo, “ha experimentado usted en su familia alguna situación de violencia intrafamiliar”), o porque la pregunta requiere concentración por parte del encuestado, el cual estará cansado al final de la encuesta (por ejemplo, “ubíquese en un rango de gastos mensuales en alimentación”). Finalmente, ciertas preguntas tienen un orden lógico, debido a la información que proveen, y existen preguntas de filtro que permiten indicar a un individuo que no se requiere que responda a algún grupo de ellas. 2) Preguntas cerradas y abiertas: En general las preguntas abiertas se usan en estudios exploratorios, cuando aún no se han detectado las posibles respuestas que darán los encuestados. Las ventajas de las preguntas cerradas se relacionan con un menor tiempo de codificación de la información, y con una lectura más objetiva de las respuestas. Hay que tener cuidado con que las preguntas cerradas cumplan con dos condiciones: ser exhaustivas (cada individuos debe poder responder a la pregunta, nadie puede quedar excluido) y excluyentes (cada individuo debe poder marcar una sola alternativa). Por ejemplo, “¿Cuál es su Hobby?” no es exhaustiva porque hay individuos que no tienen hobby, mientras que, “Marque el tipo de música que escucha: a) Folclórica b) Metal c) Clásica d) Pop ...” no es excluyente, porque el individuo puede escuchar música de varios tipos. Aunque se debe evitar opciones neutras, a las que el encuestado se puede inclinar para salir del paso, en ocasiones el individuo realmente no sabe o no tiene posición respecto de cierto planteamiento; para preservar la exhaustividad, se debe incluir la opción neutra (no sé, no se pronuncia).


3) Redacción ambigua: Es importante que las preguntas sean claras para todos los encuestados. Por ejemplo: “años de educación” puede llevar a algunos encuestados a responder sobre los años de estudios superiores y a otros sobre la escolaridad completa. Si la encuesta será respondida por personas de cierto grupo, el lenguaje debe ser el adecuado a ellos (niños, personas sin educación, etc). Por otra parte, las preguntas deben redactarse de forma que no induzcan a una respuesta particular ni den indicios de que quien diseña e instrumento tiene tal o cual posición. Por ejemplo, “¿qué opinión le merece el mal manejo del problema del transantiago?”. Finalmente, la forma en que se plantea la pregunta debe hacer sentir al encuestado que toda respuesta es admisible. Por ejemplo, “¿con qué frecuencia se emborracha usted? a) más de dos veces a la semana b) máximo dos veces a la semana c) muy rara vez e) nunca”, hace sentir que emborracharse es normal, no así “¿se emborracha usted frecuentemente? a) si b) no. Planificación de una Encuesta: Los principales aspectos a considerar a la hora de planificar una encuesta son: 1) Objetivos: Es importante tener claros los objetivos de la investigación a la hora de confeccionar el cuestionario, para cumplirlos todos y para no realizar preguntas innecesarias. 2) Población Objetivo: Es importante definir la Población de forma que sea posible extraer la muestra a partir de ella, que se cuente con un marco muestral. 3) Marco Muestral: Se construye un marco muestral que sea lo más parecido posible a la población. 4) Diseño del Muestreo: Se decide el tipo de muestreo óptimo y se obtiene el tamaño de muestra requerido. 5) Métodos de Medición: Se escoge el tipo de encuesta o entrevista a realizar, de acuerdo al tipo de individuos y a los objetivos. 6) Instrumentos de Medición: Se construye con mucho cuidado el instrumento (encuesta, entrevista). 7) Selección y adiestramiento de investigadores de campo: Se debe instruir a los encuestadores sobre qué información recopilar y cómo hacerlo. 8) Prueba Piloto: La utilización de una muestra piloto permite revisar el proceso de muestreo diseñado, las habilidades de los encuestadores, las preguntas del instrumento, etc. Todo esto permite modificaciones antes de aplicar la encuesta final. Por otra parte, esta Prueba Piloto también permite estimar la variabilidad existente, con el fin de definir más claramente el tamaño muestral. 9) Organización del Trabajo de Campo: Se debe confeccionar un protocolo que incluya todos los pasos que se deben dar para recolectar, almacenar, controlar, codificar, procesar y analizar la información. 10) Análisis de Datos: Se debe listar, en el protocolo, el detalle de todos los análisis estadísticos a realizar, y los aspectos que serán incluidos en el reporte final. Esto se debe planificar antes de recolectar la información, ya que el tipo de datos recolectados, las técnicas estadísticas a utilizar y los objetivos de la investigación están íntimamente vinculados.


Por ejemplo, si el objetivo es verificar que cierta intervención ha disminuido el riesgo social en la mayoría de los individuos, es necesaria una medición antes y una medición después de la intervención, y es necesario que estas mediciones se realicen ambas veces en los mismo individuos para realizar la prueba de muestras pareadas. Ejercicios: Para los siguientes problemas, considere la información disponible y determine el tamaño de muestra a considerar, siendo que el tipo de muestreo óptimo es aleatorio simple: 1) Se desea conocer la proporción de individuos que están a favor de una propuesta en una población de 50 empleados de una repartición. Se quiere, con una confianza alta, estimar la proporción real con un error máximo del 10%. a) Calcule el tamaño de muestra si no se puede obtener una muestra piloto. b) Calcule el tamaño de muestra si una muestra piloto de tamaño n = 5 arrojó una persona a favor. c) Calcule el tamaño de muestra si se sabe que es proporción está entre el 20 y 40%. d) Calcule el tamaño de muestra si se sabe que esa proporción está entre 40 y 60%. e) Comente diferencias y similitudes entre los resultados obtenidos para los casos (a) a (d). f) En base a (a) obtenga la muestra respectiva del conjunto de datos de la clase anterior, estime la proporción y construya un intervalo de confianza para ella. g) En base a la idea planteada en (b), obtenga una muestra piloto de tamaño 5, y en base a su resultado, obtenga el tamaño muestral definitivo, la muestra, el estimador y el intervalo de confianza. h) Comente las semejanzas y diferencias entre los resultados obtenidos para los casos (g) y (h). 2) Se desea conocer el sueldo promedio de los individuos en una población de 50 empleados de una repartición. Se quiere, con una confianza alta, estimar la media real con un error máximo del $15.000. a) Calcule el tamaño de muestra si se cree que la desviación estándar de los sueldos es a lo más de $50.000. b) Calcule el tamaño de muestra si una muestra piloto de tamaño n = 5 arrojó una desviación estándar de $70.000. c) Comente diferencias y similitudes entre los resultados obtenidos para los casos (a) y (b). d) En base a (a) obtenga la muestra respectiva del conjunto de datos de la clase anterior, estime la media y construya un intervalo de confianza para ella. e) En base a la idea planteada en (b), obtenga una muestra piloto de tamaño 5, y en base a su resultado, obtenga el tamaño muestral definitivo, la muestra, el estimador y el intervalo de confianza. f) Comente las semejanzas y diferencias entre los resultados obtenidos para los casos (d) y (e).


Ayuda: Para muestreo aleatorio simple: n

µˆ = X =

∑ Xi i=1

n n

∑ ( Xi − X)2 i =1

⎛ n 2⎞ ⎜ X ⎟ − n ⋅ X2 ⎜∑ i ⎟ ⎝ i=1 ⎠ n −1

σˆ = S =

σ(µˆ ) =

X pˆ = n

σ(pˆ) =

El error máximo de estimación es B = 2 · σ( θˆ ).

Si el tamaño de la Población N es finito, n =

Para una muestra grande o normal y un nivel de confianza 95%, el tamaño de muestra se calcula despejando n0 desde B = B0, donde B0 es el error máximo permitido.

n −1

=

S n

p ⋅ (1 − p) n

n0 n 1+ 0 N

. En caso contrario, n = n0.


Técnicas de Muestreo Clase 4: Muestreo Aleatorio Simple Introducción: Si el diseño del proceso de muestreo asegura que cada posible muestra tiene la misma probabilidad de resultar elegida, se habla de Muestreo Aleatorio Simple. Esta condición no es equivalente a aquella que hemos establecido anteriormente: todos los individuos tienen la misma probabilidad de ser elegidos; sin embargo, el hecho de que todas las posibles muestras sean equiprobables implica que todos los individuos lo son. Para asegurar la condición de muestras equiprobables, se deben escoger todos los individuos en la muestra en forma aleatoria desde la población sin reemplazo (sin reemplazo significa que no se puede seleccionar a un mismo individuo más de una vez y con reemplazo significa que cada vez que se selecciona un elemento, todos pueden ser elegidos, incluso los que fueron seleccionados antes). Esto se hace mediante un sorteo en el cual se seleccionan n individuos de los N existentes en la población. En primer lugar los N individuos de la población son numerados (en muchos casos ya lo están) y posteriormente se eligen n individuos utilizando una tómbola, una tabla de números aleatorios, números aleatorios de la calculadora o del computador, o cualquier otro método que preserve el azar. Una muestra escogida de esta forma se denomina Muestra Aleatoria Simple y el diseño se conoce como Muestreo Aleatorio Simple (MAS). Este diseño es adecuado cuando la población es homogénea respecto de la característica de interés, o bien no se puede a priori obtener información sobre eventuales grupos en ella. Cálculos: El cálculo de la combinatoria permite determinar cuántas posibles muestras existen: CNn = ⎛⎜⎜ N⎞⎟⎟ = N! , ⎝ n ⎠ n! ⋅ (N − n)! ⎛ N⎞ ó ⎜⎜ ⎟⎟ es una notación para la expresión que se lee Combinatoria ⎝n⎠ de N sobre n y se interpreta como “de cuántas formas se pueden seleccionar n elementos de un grupo de N elementos”, y donde N! es una notación para la expresión que se lee Factorial de N, se interpreta como “todas las formas en que se pueden ordenar N elementos” y se calcula como el producto de los números desde 1 hasta N, es decir: N! = N · (N – 1) · (N – 2) · … · 3 · 2 · 1. donde

CNn


Parámetros de interés: En general, los parámetros de interés o a estimar en estos casos, son: 1) Si la variable de interés X es continua: • Media µ (promedio de la variable en la población), por ejemplo, X: “ingreso familiar mensual de los residentes de Hualpén”, µ = ingreso familiar promedio de los residentes de Hualpén. • Total τ (suma de los valores X de los individuos en la población), por ejemplo, X: “Nº de infracciones cursadas a conductores de taxi-colectivo de la ciudad de Concepción (2007)”, τ = número total de infracciones cursadas en 2007 a conductores de taxi-colectivo de Concepción. 2) Si la variable X es dicotómica: • Proporción p (proporción o porcentaje de individuos en la población con la característica de interés), por ejemplo, X: “número de cesantes en una muestra extraída de los titulados en el año 2006 en la UdeC", p = proporción de los titulados en la UdeC el año 2006 que se encuentran cesantes. Estimadores e intervalos: El objetivo de este diseño de muestreo, como en cualquier otro, es la estimación de parámetros de la población. Los estimadores son insesgados y de varianza mínima y dependiendo de si el tamaño muestral final es grande o pequeño, se generan intervalos con nivel de confianza 95% ó 75%, respectivamente. Dado un tamaño poblacional N, para cada parámetro θ nos interesa su estimador θˆ , pero para establecer la precisión de la estimación, también nos interesa el error estándar (desviación estándar del estimador) σ( θˆ ) y en particular el error estándar estimado s(θˆ ) = σˆ (θˆ ) .

Para establecer límites entre los cuales se encuentra el parámetro se utiliza su error de estimación B, de donde se obtiene el intervalo de confianza. Finalmente se requiere el tamaño muestral n. Todos estos cálculos se obtienen para •

N < 20), en n N-n cuyo caso las cantidades consideran un factor de corrección . N -1 N ≥ 20), en tamaño de población grande respecto del tamaño muestral ( n cuyo caso el factor de corrección se elimina por ser superior a 0,95, es decir cercano a 1. En este caso se habla de población infinita.

tamaño de población pequeño respecto del tamaño muestral (


1) Parámetro Media µ: •

El estimador es µˆ =⎯X

El error estándar es σ(µˆ ) =

• • • •

σ

N-n σ ; con N grande σ(µˆ ) ≈ . n N-1 n S N-n S El error est. estimado es s(µˆ ) = σˆ (µˆ ) = ; con N grande s(µˆ ) ≈ . n N-1 n El error de estimación es B = 2 ⋅ s(µˆ ) .

El intervalo de confianza es [X - B; X + B] , de nivel 95% si n grande y 75% en caso contrario. 4 ⋅N⋅ σ2 4 ⋅σ2 = n El tamaño de muestra es n = ; con N grande . (N - 1) ⋅ B 2 + 4 ⋅ σ 2 B2 Si se cuenta con una muestra piloto, σ se reemplaza por su desviación estándar Sp, es decir, n =

4 ⋅ N ⋅ S p2 (N - 1) ⋅ B 2 + 4 ⋅ S p2

y con N grande n =

4 ⋅ Sp2 B2

.

2) Parámetro Total τ = N · µ: • •

El estimador es τˆ = N · µˆ = N ·⎯X (N - n) ; con N grande σ( τˆ ) ≈ σ ⋅ N . n ⋅ (N - 1) n (N - n) El error estándar estimado es s( τˆ ) = σˆ ( τˆ ) = S ⋅ N ⋅ ; con N grande n ⋅ (N - 1) s( τˆ ) = S ⋅ N . n El error de estimación es B = 2 ⋅ s(τˆ) . El error estándar es σ( τˆ ) = σ ⋅ N ⋅

El intervalo de confianza es [X - B; X + B] , de nivel 95% si n grande y 75% en caso contrario.

El tamaño de muestra es n =

4 ⋅N⋅ σ2 ; con N grande (N - 1) ⋅ ( B )2 + 4 ⋅ σ 2 N

2

2

2

n = 4 ⋅ N ⋅ σ = 4 ⋅ σ . Si se cuenta con una muestra piloto, σ se reemplaza B2 ( B )2 N

por su desviación estándar Sp, es decir, n =

4 ⋅ N ⋅ S p2 (N - 1) ⋅ ( B )2 + 4 ⋅ S p2 N

grande n =

4 ⋅ N2 ⋅ Sp2 B2

=

4 ⋅ Sp2

( NB )2

.

y con N


3) Parámetro Proporción p:

El estimador es pˆ = X . n

El error estándar es σ(pˆ) =

• • •

p ⋅ (1 − p) N - n p ⋅ (1 − p) ⋅ ; si N grande σ(pˆ) ≈ . n N -1 n pˆ ⋅ (1 − pˆ) N - n El error estándar estimado es s(pˆ) = ⋅ ; si N grande n -1 N-1 pˆ ⋅ (1 − pˆ) s(pˆ) ≈ . n −1 El error de estimación es B = 2 ⋅ s(pˆ) . El intervalo de confianza es [pˆ - B; pˆ + B], de nivel 95% si n grande y 75% en caso contrario. 4 ⋅ N ⋅ p 0 ⋅ (1 − p 0 ) El tamaño de muestra es n = , donde p0 es la (N - 1) ⋅ B 2 + 4 ⋅ p 0 ⋅ (1 − p 0 ) 4 ⋅ p 0 ⋅ (1 − p 0 ) . proporción en una muestra piloto; con N grande n = B2 Si no se cuenta con una muestra piloto, pero se sabe que la proporción está entre ciertos límites, se escoge el valor p0 más cercano a 0,5 en el intervalo. Finalmente, si no se tiene ningún indicio del valor de p, se utiliza el valor N p0 = 0,5, de donde n = y si N es grande n = 12 . 2 (N - 1) ⋅ B + 1 B

Muestreo con probabilidades proporcionales al tamaño: Todo el desarrollo anterior se basa en el concepto de que todos los elementos de la población son igualmente importantes para el estudio, respecto de la información que entregan; sin embargo, en algunos casos, los elementos de la población no entregan información equivalente, ya que sus tamaños difieren, y estos tamaños se vinculan a la cantidad de información que contienen. Cuando hablamos de tamaño no necesariamente se trata de cantidad de individuos, sino de alguna característica del elemento que se vincula a la variable de interés en forma significativa. En estos casos es conveniente asignarle pesos o ponderaciones πi diferentes a los elementos seleccionados que permitan una representación diferenciada en la muestra, en la cual aquellas unidades con mayor información de interés tengan mayor probabilidad de ser seleccionadas. La asignación de ponderaciones es previa a la recolección de la información, pero el conocimiento previo de la variable de interés no es posible, si así lo fuera la muestra no sería necesaria. En lugar de la información de interés X, para designar las ponderaciones π se puede buscar una variable que esté relacionada con ella (digamos Y), en función de las cuales se puedan construir las ponderaciones. Este procedimiento provoca que las unidades en la población tengan diferentes probabilidades de ser elegidas, en efecto, que la probabilidad de ser elegida sea aproximadamente proporcional a la información que entregan.


Por ejemplo, si interesa la productividad científica de las universidades chilenas (X: número de artículos en revistas de corriente principal publicados en el último año), una variable relacionada con ella es el número de doctores en la planta de la universidad (Y). Esta variable permitirá estimar la ponderación π. Para designar las ponderaciones se realiza, para cada elemento de la población, el siguiente cálculo: Y πi = i , YT donde YT es la suma de todos los valores Yi en la población, es decir: YT =

N

∑ Yj . j =1

Naturalmente, las estimaciones no pueden ser las mismas que en los desarrollos anteriores, debido a que ciertas unidades han sido ponderadas más que otras, por lo cual se debe reducir su influencia en el momento de la estimación; esto se logra dividiendo por la ponderación. Es así como se obtienen estimadores insesgados y de varianza mínima. La selección de la muestra se hace de la siguiente manera: • Se construye una tabla en que la primera columna contiene a los elementos de la población, la segunda las ponderaciones π y la tercera los valores acumulados de π (cada valor acumulado es el acumulado anterior más el valor actual). • Se escogen n números aleatorios entre 0 y 1. • Para cada número aleatorio escogido se escoge el elemento con valor acumulado superior a él y para el cual el valor acumulado anterior es inferior a él. Por ejemplo: Elemento π π acumulado 1 0,2 0,2 0 + 0,2 2 0,25 0,45 0,2 + 0,25 3 0,15 0,6 0,45 + 0,15 4 0,1 0,7 0,6 + 0,1 5 0,2 0,9 0,7 + 0,2 6 0,1 1 0,9 + 0,1 Si los n = 3 números aleatorios son 0,375 – 0,499 – 0,070, estos se relacionan con los elementos Elemento 2: 0,2<0,375<0,45; Elemento 3: 0,2<0,499<0,6; Elemento 1: 0<0,07<0,2. Así la muestra incluye a los tres primeros elementos.

Estimadores e intervalos en muestreo con probabilidades proporcionales al tamaño: X Es conveniente construir la variable Z, como X , es decir, Zi = i , para realizar π πi más fácilmente las operaciones, por otra parte, en este caso deja de tener importancia el tamaño poblacional, de modo que no se usa factor de corrección.


1) Parámetro Media µ: n

1 Zi = Z . ∑ N N ⋅ n i =1

El estimador es µˆ =

El error estándar es σ( µˆ ) =

El error estándar estimado es s(µˆ ) =

El error de estimación es B = 2 ⋅ s(µˆ ) .

• •

σZ N⋅ n

. SZ N⋅ n

.

El intervalo de confianza es [X - B; X + B] , de nivel 95% si n grande y 75% en caso contrario. 4 ⋅ σ 2Z El tamaño de muestra es n = 2 2 . Si se cuenta con una muestra piloto, N ⋅B 4 ⋅ S 2Zp σZ se reemplaza por su desviación estándar SZp, es decir, n = 2 2 . N ⋅B

2) Parámetro Total τ = N · µ: •

El estimador es τˆ = ⎯Z

El error estándar es σ( τˆ ) =

El error estándar estimado es s( τˆ ) =

• •

El error de estimación es B = 2 ⋅ s( τˆ ) . El intervalo de confianza es [X - B; X + B] , de nivel 95% si n grande y 75% en caso contrario. 4 ⋅ σ 2Z El tamaño de muestra es n = . Si se cuenta con una muestra piloto, B2 4 ⋅ S 2Z σZ se reemplaza por su desviación estándar SZp, es decir, n = . B2

σZ n

.

SZ n

.

Ejercicios: 1) La empresa distribuidora de agua potable y el municipio ha financiado un estudio basado en una muestra aleatoria simple de 100 medidores de agua controlados dentro de una comunidad para estimar el promedio de consumo diario por casa, durante un período de sequía. La media y desviación estándar muestrales fueron, respectivamente, ⎯x = 12,5 y s = 11,2. El número total de casas en la comunidad es N = 10.000. a) Estime el consumo diario promedio de agua por familia, puntualmente y por intervalo. Interprete. b) Estime el consumo diario total de agua en la comunidad, puntualmente y por intervalo. Interprete.


c) Imagine que una muestra piloto arrojó los valores de promedio y desviación estándar dados y obtenga el tamaño muestral necesario para estimar el consumo total con un error máximo de 10.000. d) Si se deseara utilizar un muestreo proporcional al tamaño, ¿de qué forma lo diseñaría? 2) En una encuesta de opinión se entrevistó a 1684 adultos de todo Estados Unidos (Gainesville Sun, julio 4, 1983). En la encuesta se reportó tener un 6% de margen de error para los resultados referentes a las proporciones de entrevistados que estaban a favor ciertas decisiones. a) ¿Qué puede decir respecto del error reportado? b) Estime la proporción de estadounidenses a favor de cierta decisión, puntualmente y por intervalo, si en la muestra 950 personas se pronunciaron a favor. Interprete. c) ¿Qué tamaño muestral hubiese obtenido usted si considerara aceptable un error de estimación del 2% (considere que son varias decisiones las que están en juego)? d) ¿Qué tamaño muestral hubiese obtenido usted si considerara aceptable un error de estimación del 2% y si respecto de las decisiones se sabe que a lo más un 35% está a favor de cualquiera de las decisiones? 3) La Tabla adjunta muestra gastos de consumo personal en Estados Unidos para una selección de bienes y servicios (en millones de dólares). Categoría 1981 1982 Vehículos automotores 101,6 109,9 Muebles y enseres domésticos 93,3 93,5 Alimentos 375,9 396,9 Ropa 115,3 119,0 Gasolina y aceite 94,6 91,5 Combustible y carbón 20,7 20,0 Vivienda 302,0 334,1 Funcionamiento de la vivienda 128,4 144,3 Transporte 65,5 68,4 Fuente: The World Almanac – Book of Facts, 1984 edition. a) Seleccione una muestra de tres categorías con probabilidades proporcionales a los gastos de 1981. En base a ella estime puntualmente y por intervalo el gasto total personal de 1982, en millones de dólares. Interprete. b) ¿Qué tamaño muestral hubiese obtenido usted si considerara aceptable un error de estimación del 100? Utilice valores obtenidos en (a) como si fuesen una muestra piloto. 4) Se está formulando un caso legal para el sindicato de secretarias de cierta empresa, quienes alegan que les están pagando un sueldo injustamente bajo. Las 64 secretarias de la empresa tienen un sueldo mensual promedio de $350.000, con una desviación estándar de $25.000; mientras que el sueldo promedio de las secretarias en la ciudad en que se localiza la empresa es de $390.000. ¿Es posible sustentar el alegato de las secretarias mediante argumentos estadísticos? De ser así, plantee los argumentos y las premisas que los fundamentan.


5) La comisión para la igualdad de oportunidades de empleo acusa a una empresa de la novena región de transgredir las normas en contra de la discriminación racial, puesto que de sus 100 empleados solamente 30 son de origen indígena. Se sabe que en el área de mercado laboral para esa empresa el 36% de los empleados disponibles son de origen indígena. ¿Se puede sostener la acusación con argumentos estadísticos? De ser así, plantee los argumentos y las premisas que los fundamentan.


Técnicas de Muestreo Clase 5: Muestreo Aleatorio Estratificado Introducción: Como se vio en el capítulo introductorio, la elección del diseño de muestreo depende de factores relativos a la estructura de la población. En este capítulo abordaremos el caso en el cual la población está compuesta de grupos que son heterogéneos entre ellos respecto de la variable de interés, pero que presentan un comportamiento homogéneo de la variable dentro de ellos. Estos grupos se conocen como Estratos. En estos casos se suele utilizar el método conocido como Muestreo Aleatorio Estratificado, el cual consiste en la selección de muestras aleatorias simples independientes dentro de los subgrupos o Estratos. La utilización del Muestreo Aleatorio Estratificado (MAE) permite reducir la variabilidad total del estimador utilizado, ya que ésta depende de la variabilidad de la variable de interés, la cual es baja dentro de los grupos. Como sabemos, la variabilidad del estimador incide en el error de estimación, de modo que se obtendrá una estimación mucho más precisa. Ventajas de la Estratificación: Por supuesto, la estratificación se realiza debido a sus ventajas y cuando éstas lo ameritan. Algunos de estos beneficios son: 1) Mayor precisión: Para un mismo tamaño muestral, la estratificación produce un límite más pequeño para el error de estimación que el que se generaría a partir de un MAS. Este resultado es más efectivo mientras más homogéneos sean internamente los estratos, es decir, mientras más adecuada y necesaria sea la estratificación. Por ejemplo, estratificar por sexo en un estudio relacionado con el peso reducirá notablemente la variabilidad; en un estudio relacionado con sueldos, si se cree que existe discriminación al respecto. 2) Reducción de costos: La estratificación en grupos convenientes permite reducir los costos monetarios y temporales de la recolección de datos. Por ejemplo si se trata de individuos que viven en diferentes sectores, organizar el proceso de recolección en cada sector por separado resulta más económico. 3) Estimaciones para los estratos: La estratificación permite, a la vez que estimar respecto del grupo total, obtener estimaciones de los estratos mismos. Cuando éstos son grupos de interés, estos resultados resultan muy útiles. Si la estratificación es por grupos socioeconómicos, será mucho más útil contar con las mediciones para cada grupo particular que para el grupo total.


Proceso de Estratificación: El proceso de estratificación es un diseño de muestreo en etapas. Una vez que se ha determinado que el MAE es el diseño más adecuado, las etapas son las siguientes: 1) Definición de Estratos: Definir claramente los L estratos existentes en la población, de modo que cada elemento de la población pertenezca a un estrato y sólo a un estrato. 2) Tamaño de los Estratos: Determinar o estimar el tamaño de cada estrato N1, …, NL, donde naturalmente el tamaño de la población es la suma de los tamaños de los estratos: N =

L

∑N . i=1

i

3) Tamaño muestral: Determinar el tamaño muestral total y por estrato es un proceso que se realiza de diferentes formas, las cuales serán mencionadas más adelante. 4) Selección de la muestra: Seleccionar la muestra dentro de cada uno de los estratos en forma independiente mediante un diseño de MAS. Estimadores e intervalos:

El objetivo de este diseño de muestreo es la estimación de parámetros de la población y de los estratos. Los estimadores son insesgados y, dependiendo de las prioridades establecidas, de varianza mínima o con costo mínimo. Dependiendo de si el tamaño muestral por estrato es grande o pequeño, se generan intervalos con nivel de confianza 95% ó 75%, respectivamente. Para las estimaciones, es necesario precisar la notación por estratos. Las medias, desviaciones estándar y proporciones para las muestras del i-ésimo estrato se denotan, respectivamente, por ⎯Xi, Si y pˆ i ; mientras que los respectivos parámetros se denotan por µi, σi y pi. En ocasiones se cuenta con poca información previa, lo cual dificulta la estimación de las desviaciones estándar. En estos casos se puede usar la siguiente regla: Máximo - Mínimo . σi ≈ 4

También se contará con estimaciones para el caso en que los tamaños de los N estratos son muy grandes respecto de las muestras ( i ≥ 20 para todos los ni N estratos) y para el caso en que no es así ( i ≥ 20 para algún estrato). ni


a) Parámetro Media µ: a) Global:

1 L ∑ Ni ⋅ X i N i=1

El estimador es µˆ E =

El error estándar es σ( µˆ E ) = σ( µˆ ) ≈

1 N

1 N

L

∑ Ni ⋅ (Ni - ni ) ⋅ i=1

σ i2 ; con N1, …, NL grandes ni

Ni ⋅ σ i2 . ∑ ni i=1 L

2

El error estándar estimado es s( µˆ E )= σˆ (µˆ E ) =

1 N

L

∑ Ni ⋅ (Ni - ni ) ⋅ i=1

S i2 ; con ni

1 L Ni ⋅ S i2 . ∑ N i=1 n i El error de estimación es B = 2 · s( µˆ E ). 2

N1, …, NL grandes grandes s( µˆ E ) ≈ • •

El intervalo de confianza es [X - B; X + B] , de nivel 95% si n1, …, nL grandes y 75% en caso contrario. L N2 ⋅ σ i2 4∑ i wi i =1 El tamaño de muestra es n = , con wi tal que ni = wi · n. L 2 2 2 N ⋅ B + 4 ∑ Ni ⋅ σ i i=1

Si se cuenta con una muestra piloto, σi se reemplaza por su desviación L N2 ⋅ S i2 4∑ i wi i =1 estándar Si, es decir, n = . L 2 2 2 N ⋅ B + 4 ∑ Ni ⋅ S i i=1

b) Por estrato:

El estimador es µˆ i = ⎯Xi.

El error estándar es σ( µˆ i ) =

El error estándar estim. es s( µˆ i ) =

• •

σ (Ni - n i ) ⋅ σ i2 ; si Ni grande σ( µˆ i ) ≈ i . Ni ⋅ n i ni

Si (Ni - n i ) ⋅ S i2 ; si Ni grande s( µˆ i ) ≈ . Ni ⋅ n i ni El error de estimación es Bi = 2 · s( µˆ i ). El intervalo de confianza es X i - B i ; X i + B i , de nivel 95% si ni grande y 75% en caso contrario.

[

]


b) Parámetro Total τ = N · µ: a) Global:

• •

El estimador es τˆE = N · µˆ E = El error estándar es σ( τˆE ) = σ( τˆE ) ≈

L

∑N ⋅ X . i

i=1

L

∑ Ni ⋅ (Ni - ni ) ⋅ i=1

σ i2 ; con N1, …, NL grandes ni

Ni ⋅ σ i2 . ∑ ni i=1 2

L

El error estándar estimado es s( τˆE )= σˆ (τˆE ) = N1, …, NL grandes grandes s( τˆE ) ≈

• •

i

L

∑ Ni ⋅ (Ni - ni ) ⋅ i=1

S i2 ; con ni

Ni ⋅ S i2 . ∑ ni i=1 L

2

El error de estimación es B = 2 · s( τˆE ). El intervalo de confianza es [ τˆE – B; τˆE +`B], de nivel 95% si n1, …, nL grandes y 75% en caso contrario. L N2 ⋅ σ i2 4∑ i wi i=1 El tamaño de muestra es n = , con wi tal que ni = wi · n. L 2 2 B + 4 ∑ Ni ⋅ σ i i=1

Si se cuenta con una muestra piloto, σi se reemplaza por su desviación L Ni2 ⋅ S i2 4∑ wi i=1 estándar Si, es decir, n = . L 2 2 B + 4 ∑ Ni ⋅ S i i=1

b) Por estrato:

El estimador es τˆi = Ni ·⎯Xi.

N ⋅σ Ni ⋅ (Ni - ni ) ⋅ σ i2 El error estándar es σ( τˆi ) = ; si Ni grande σ( τˆi ) ≈ i i . ni ni

El error estándar estimado es s( τˆi ) = s( τˆi ) ≈

• •

Ni ⋅ S i ni

Ni ⋅ (Ni - ni ) ⋅ S i2 ; si Ni grande ni

.

El error de estimación es Bi = 2 · s( τˆi ). El intervalo de confianza es [τˆi - B i ; τˆi + B i ] , de nivel 95% si ni grande y 75% en caso contrario.


c) Parámetro Proporción p: a) Global:

1 L El estimador es pˆ E = ∑ Ni ⋅ pˆ i . N i=1

El error estándar es σ(pˆ E ) = grandes σ(pˆ E ) ≈

1 N

Ni ⋅ (Ni - n i ) ⋅ p i ⋅ (1 − p i ) ; con N1, …, NL ni i=1 L

Ni2 ⋅ p i ⋅ (1 − p i ) . ∑ ni i=1 L

El error estándar estimado es s(pˆ E ) =

1 N

Ni ⋅ (Ni - n i ) ⋅ pˆ i ⋅ (1 − pˆ i ) ; con ni − 1 i=1 L

Ni2 ⋅ pˆ i ⋅ (1 − pˆ i ) . ∑ ni − 1 i=1 El error de estimación es B = 2 ⋅ s(pˆ E ) . El intervalo de confianza es [pˆ E - B; pˆ E + B] , de nivel 95% si n1, …, nL grandes y 75% en caso contrario. L Ni2 ⋅ p i ⋅ (1 − p i ) 4∑ wi i =1 El tamaño de muestra es n = , donde pi son las L 2 2 N ⋅ B + 4∑ Ni ⋅ p i ⋅ (1 − p i ) N1, …, NL grandes s(pˆ E ) ≈

• •

1 N

1 N

L

i=1

proporciones en una muestra piloto. Si no se cuenta con una muestra piloto, pero se sabe que las proporciones están entre ciertos límites, se escogen los valores pi más cercanos a 0,5 en el intervalo. Finalmente, si no se tiene ningún indicio de los valores pi, se utiliza el valor L Ni2 ∑w L N2 1 pi = 0,5, de donde n = 2 i=1 2 i y si N es grande n = 2 2 ∑ i . N ⋅ B i=1 w i N ⋅B + N b) Por estrato:

Xi , con Xi número de ocurrencias del evento de ni interés en la pésima muestra. p i ⋅ (1 − p i ) Ni - ni ; si Ni grande El error estándar es σ(pˆ i ) = ⋅ ni Ni - 1

El estimador es

σ(pˆ i ) ≈

p i ⋅ (1 − p i ) . ni

pˆ i =


El error estándar estimado es s(pˆ i ) = s(pˆ i ) ≈

• •

pˆ i ⋅ (1 − pˆ i ) Ni - n i ⋅ ; si N grande ni - 1 Ni - 1

p i ⋅ (1 − p i ) . ni − 1

El error de estimación es B i = 2 ⋅ s(pˆ i ) . El intervalo de confianza es [pˆ i - B i ; pˆ i + B i ], de nivel 95% si n grande y 75% en caso contrario.

Tamaños Muestrales por Estrato:

Anteriormente hemos designado simplemente como wi a las ponderaciones que permiten determinar que proporción de la muestra total es extraída de cada estrato. En esta sección veremos cómo escoger estas ponderaciones. El criterio general para designar los tamaños muestrales consiste en obtener una cantidad de información suficiente, logrando error de estimación bajo y al menor costo posible. Esto implica que los métodos de asignación están influenciados por tres factores: • •

El costo de obtener información en cada estrato hará que se limite la cantidad de información originaria de estratos donde el costo para obtenerla es muy alto. La variabilidad de las observaciones dentro de los estratos hace que en algunos estratos sea necesaria una mayor cantidad de información para lograr una estimación precisa, debido a su mayor variabilidad, mientras en otros estratos una cantidad pequeña de información es suficiente por su homogeneidad. Los tamaños relativos de los estratos motivan que se utilice más información de los estratos grandes que de los pequeños.

Estos factores nos llevan a tres métodos, según cuál de ellos es el que prima: 1) Asignación óptima ajustada por costos: i) ERROR FIJO: Este caso considera tanto los costos en cada estrato, las diferentes variabilidades en ellos, y sus tamaños relativos, ajustando tamaño muestral total y en los estratos para un error de estimación máximo fijo B. a) Media µ: ⎡ L N ⋅σ ⎤ ⎡ L ⎤ 4 ⋅ ⎢ ∑ i i ⎥ ⋅ ⎢ ∑ Ni ⋅ σ i ⋅ c i ⎥ ci ⎦ ⎢⎣ i=1 c i ⎥⎦ ⎣ i=1 ; n= wi = L L Nj ⋅ σ j N2 ⋅B 2 + 4 ⋅ ∑ Ni ⋅ σ i2 ∑ i=1 cj j=1

Ni ⋅ σ i


b) Total τ:

Ni ⋅ σ i wi =

L

ci ; n= Nj ⋅ σ j

⎡ L N ⋅σ ⎤ ⎡ L ⎤ 4 ⋅ ⎢ ∑ i i ⎥ ⋅ ⎢ ∑ Ni ⋅ σ i ⋅ c i ⎥ ⎦ ⎣⎢ i=1 c i ⎦⎥ ⎣ i=1 L

B 2 + 4 ⋅ ∑ Ni ⋅ σ i2

cj

j=1

i =1

c) Proporción p: p i ⋅ (1 − p i ) ci

Ni ⋅

wi =

L

∑N j=1

j

p j ⋅ (1 − p j )

L

∑ j=1

;n=

ci Nj

L

N ⋅B + 4 ⋅ ∑ Ni ⋅ p i ⋅ (1 − p i ) 2

cj

Ni y wi =

⎡L p ⋅ (1 − p i ) ⎤ ⎡ L ⎤ 4 ⋅ ⎢ ∑ Ni ⋅ i ⎥ ⋅ ⎢∑ Ni ⋅ p i ⋅ (1 − p i ) ⋅ c i ⎥ ci ⎦ ⎣⎢ i=1 ⎦⎥ ⎣ i=1 2

;

i=1

⎡ L Ni ⎤ ⎡ L ⎤ ⎢∑ ⎥ ⋅ ⎢ ∑ Ni ⋅ c i ⎥ ⎦ ⎢ i=1 c i ⎦⎥ ⎣ i=1 ; n=⎣ , si no se conocen los pi (pi = 0,5). N2 ⋅B 2 + N

cj

ii) COSTO FIJO: Este caso considera tanto los costos en cada estrato, las diferentes variabilidades en ellos, y sus tamaños relativos, ajustando tamaño muestral total y en los estratos para un costo máximo fijo C. a) Media µ y total τ:

Ni ⋅ σ i

wi =

L

ci ; n= Nj ⋅ σ j cj

j=1

C L

∑w

i

. ⋅ Ci

i=1

b) Proporción p: p i ⋅ (1 − p i ) ci

Ni ⋅

wi =

L

∑N j=1

j

p j ⋅ (1 − p j ) cj

; n=

C L

∑w

i

. ⋅ Ci

i=1

Ni y wi =

L

∑ j=1

ci ; n= Nj cj

C L

∑w i=1

i

, si no se conocen los pi (pi = 0,5). ⋅ Ci


2) Asignación óptima ajustada por variabilidad:

Este caso no considera los costos (asume que son todos iguales), pero si considera las diferentes variabilidades en los estratos y sus tamaños relativos, ajustando tamaño muestral total y en los estratos para un error de estimación máximo fijo B. a) Media µ:

wi =

Ni ⋅ σ i L

∑Nj ⋅ σ j

; n=

j=1

⎤ ⎡L 4 ⋅ ⎢ ∑ Ni ⋅ σ i ⎥ ⎦ ⎣ i=1

2

L

N2 ⋅B 2 + 4 ⋅ ∑ Ni ⋅ σ i2 i =1

b) Total τ: 2

⎤ ⎡L 4 ⋅ ⎢ ∑ Ni ⋅ σ i ⎥ N ⋅σ ⎦ ⎣ i=1 wi = L i i ; n = L B 2 + 4 ⋅ ∑ Ni ⋅ σ i2 ∑Nj ⋅ σ j j=1

i=1

c) Proporción p:

wi =

Ni ⋅ p i ⋅ (1 − p i ) L

∑ N j ⋅ pi ⋅ (1 − p i )

;

n=

j=1

y wi =

2

L

N2 ⋅B 2 + 4 ⋅ ∑ Ni ⋅ p i ⋅ (1 − p i ) i =1

2

Ni

; n=

L

∑N j=1

⎤ ⎡L 4 ⋅ ⎢∑ Ni ⋅ p i ⋅ (1 − p i ) ⎥ ⎦ ⎣ i=1

N , si no se conocen los pi (pi = 0,5). N ⋅B 2 + N 2

j

3) Asignación proporcional:

Este caso no considera los costos (asume que son todos iguales), ni tampoco considera las diferentes variabilidades en los estratos, es decir, asume que no difieren demasiado; pero sí considera los tamaños relativos de ellos. El tamaño muestral total y en los estratos se ajusta para un error de estimación máximo fijo B. a) Media µ:

wi =

Ni L

∑Nj j=1

;

n=

⎤ ⎡L 4 ⋅ N ⋅ ⎢∑ Ni ⋅ σ i2 ⎥ ⎦ ⎣ i=1 L

N2 ⋅B 2 + 4 ⋅ ∑ Ni ⋅ σ i2 i =1


b) Total τ:

wi =

Ni

;

L

∑N j=1

⎤ ⎡L 4 ⋅ N ⋅ ⎢∑ Ni ⋅ σ i2 ⎥ ⎦ ⎣ i=1 n= L B 2 + 4 ⋅ ∑ Ni ⋅ σ i2

j

i=1

c) Proporción p:

wi =

Ni L

∑Nj

;

n=

j=1

y wi =

Ni j=1

L

N2 ⋅B 2 + 4 ⋅ ∑ Ni ⋅p i ⋅(1 − p i ) i =1

2

; n=

L

∑N

⎤ ⎡L 4 ⋅ N ⋅ ⎢∑ Ni ⋅p i ⋅(1 − p i )⎥ ⎦ ⎣ i=1

N , si no se conocen los pi (pi = 0,5). N ⋅B 2 + N 2

j

Regla para formar los estratos:

En la mayoría de los casos es posible relacionar la variable de interés con otras variables que permiten una estratificación en grupos que están predefinidos o que tienen sentido por sí mismos (grupos socioeconómicos, residentes de una localidad, sexo, grupos etáreos, estatus laboral, etc.), sin embargo, en ocasiones sólo se cuenta con un conocimiento mínimo de la variable de interés, dado por frecuencias aproximadas (por ejemplo sueldos promedio por grupos socioeconómicos obtenidos de un estudio anterior) o la distribución de una variable muy relacionada (por ejemplo nivel educacional mediano de los individuos puede estar relacionado con el sueldo). En estos casos, para la estratificación se recurre al histograma (gráfico de barras verticales), y se observa en él cuantas cimas hay, estas indican en muchos casos que existe la superposición de distribuciones de diferentes grupos, y permite determinar el número de estratos. Por ejemplo, el histograma siguiente:


se puede entender como la superposición de los siguientes histogramas:

Uno puede detectar en forma aproximada en qué lugar se ubican los cortes observando las cimas (*) y valles. Veamos la distribución de frecuencias de sueldos en cierta empresa (miles de pesos): Sueldo 100-200 200-300 300-400 400-500 500-600 600-700 700-800 800-900 900-1000

Nº individuos 4 9 49* 36 49* 16 36* 25 4

De aquí se puede estimar que los intervalos que permiten la estratificación son aproximadamente 100 - 450, 450 - 650, 650 - 1000. Existe otro método, y es el siguiente: • Se construye la distribución de frecuencias. • Se agrega una columna con raíz de la frecuencia. • Se agrega una columna acumulando la raíz de la frecuencia. • El valor final de la última columna se divide por el número de estratos. • Se busca los valores aproximados que acumulan el valor obtenido en el punto anterior y sus múltiplos.


En el ejemplo: Intervalo 100-200 200-300 300-400 400-500 500-600 600-700 700-800 800-900 900-1000

Frecuencia 4 9 49 36 49 16 36 25 4

Raiz de Frecuencia 2 3 7 6 7 4 6 5 2

Raíz Frec Acumulada 2 5 12* 18* 25 29* 35 40 42*

El valor final 42 se divide por 3, esto da: 14. Los múltiplos son 14, 28, 42. Estos valores (*) se buscan en la última columna. Así se llega aproximadamente a los siguientes intervalos para los estratos: 100 - 430, 430 - 680, 680 - 1000; los cuales son bastante semejantes a los intervalos encontrados antes. Estratificación después de seleccionar la muestra:

Existen casos en los cuales claramente es adecuado usar un diseño de muestreo estratificado, sin embargo no es posible determinar el estrato al cual pertenecen los individuos antes de recolectar la muestra, por ejemplo, una encuesta telefónica impide determinar previamente el sexo de la persona que responderá la llamada, en un sistema de archivo hospitalario no computacional, no se puede saber la razón por la cual concurre el paciente a emergencia antes de observar la ficha. Para estratificar la información en forma posterior a la recolección de datos es necesario conocer aproximadamente los tamaños relativos de los estratos. Por ejemplo si los tamaños de dos estratos son iguales (50%), w1 = w2 = 0,5. En otro caso, si tres estratos corresponden aproximadamente a un 40%, 30% y 30% de la población, w1 = 0,4; w2 = w3 = 0,3. Con esta información, ya es posible realizar la recolección. En estos casos, lo que se debe hacer es tomar una muestra de la población, como se haría con una muestra aleatoria simple, del tamaño deseado, cada observación es estratificada a posteriori y luego se obtienen los estimadores. El último paso consiste en balancear la información, es decir, cada estimador debe ponderarse por la proporción que corresponde a ese estrato en la población:


1) Media µ: a) Global:

L

L

El estimador es µˆ E = ∑ w i ⋅ µˆ i = ∑ w i ⋅ X i i=1

• • • •

El error estándar es σ( µˆ E ) =

i=1

L

∑ w i2 ⋅ i=1

σ i2 . ni

El error estándar estimado es s( µˆ E )=

L

∑ w i2 ⋅ i=1

S i2 . ni

El error de estimación es B = 2 · s( µˆ E ). El intervalo de confianza es [X - B; X + B] , de nivel 95% si n1, …, nL grandes y 75% en caso contrario. b) Por estrato:

El estimador es µˆ i = ⎯Xi.

El error estándar es σ( µˆ i ) ≈

El error estándar estim. es s( µˆ i ) ≈

• •

σi ni

. Si

. ni El error de estimación es Bi = 2 · s( µˆ i ). El intervalo de confianza es X i - B i ; X i + B i , de nivel 95% si ni grande y 75% en caso contrario.

[

]

2) Parámetro Total τ = N · µ: a) Global:

El estimador es

El error estándar es σ( τˆE ) = N ⋅

• • •

τˆE = N ⋅ µˆ E L

∑ w i2 ⋅ i=1

σ i2 . ni

El error estándar estimado es s( τˆE )= N ⋅

L

∑ w i2 ⋅ i=1

S i2 . ni

El error de estimación es B = 2 · s( τˆE ). El intervalo de confianza es [τˆ - B; τˆ + B] , de nivel 95% si n1, …, nL grandes y 75% en caso contrario.


b) Por estrato:

El estimador es τˆi = Ni ·⎯Xi.

El error estándar es σ( τˆi ) ≈

El error estándar estimado es s( τˆi ) ≈

• •

El error de estimación es Bi = 2 · s( τˆi ). El intervalo de confianza es [τˆi - B i ; τˆi + B i ] , de nivel 95% si ni grande y 75% en caso contrario.

Ni ⋅ σ i ni

. Ni ⋅ S i ni

.

3) Parámetro Proporción p: a) Global:

L

El estimador es pˆ E = ∑ w i ⋅ pˆ i . i=1

w i2 ⋅ p i ⋅ (1 − p i ) . ∑ ni i =1 L

El error estándar es σ(pˆ E ) ≈

El error estándar estimado es s(pˆ E ) ≈

• •

El error de estimación es B = 2 ⋅ s(pˆ E ) . El intervalo de confianza es [pˆ E - B; pˆ E + B] , de nivel 95% si n1, …, nL grandes y 75% en caso contrario.

w i2 ⋅ pˆ i ⋅ (1 − pˆ i ) . ∑ ni − 1 i=1 L

b) Por estrato:

Xi , con Xi número de ocurrencias del evento de ni interés en la pésima muestra. p i ⋅ (1 − p i ) El error estándar es σ(pˆ i ) ≈ . ni

El estimador es

pˆ i =

p i ⋅ (1 − p i ) . ni − 1

El error estándar estimado es s(pˆ i ) ≈

• •

El error de estimación es B i = 2 ⋅ s(pˆ i ) . El intervalo de confianza es [pˆ i - B i ; pˆ i + B i ], de nivel 95% si n grande y 75% en caso contrario.


Ejercicios: 1) ¿Bajo qué condiciones ocurre que la estratificación produce grandes ganancias en precisión respecto del muestreo aleatorio simple? Suponga costos constantes.

2) Una corporación desea estimar el número total de horas-hombre perdidas debido a accidentes de los empleados en un mes determinado. Ya que los obreros, los técnicos y los administrativos tienen tasas de accidentes diferentes, el investigador decide usar muestreo aleatorio estratificado, con cada grupo formando un estrato. Datos de años previos presentan las varianzas mostradas en la tabla anexa, para el número de horas-hombre perdidas por empleado en los tres grupos, y de datos actuales se obtuvieron los tamaños de los estratos.

I Obreros σ1 = 6 N1 = 152

II Técnicos σ2 = 5 N2 = 92

III Administrativos σ3 = 3 N3 = 27

a) Determine la asignación de Neyman para una muestra de n = 30 empleados. b) Estime el número total de horas-hombre perdidas durante el mes indicado y establezca un límite para el error de estimación. Use los datos de la tabla anexa, obtenida de una muestra de 18 obreros, 10 técnicos y 2 administrativos.

8 0 6 7

I Obreros 24 16 0 4

0 32 16 4

9 18

5 2

8 0

II Técnicos 4 5 0 24 8 12 3 2 1

III Administrativos 1 8

8

c) Calcule e interprete el Intervalo de Confianza para el total de horas-hombre perdidas. d) Si el costo por hora perdida para individuos en los estratos es, respectivamente, $5.000, $8.000 y $12.000. ¿Cuál sería el máximo costo posible estimado?


3) Se forma una comisión de zonificación para estimar el valor promedio de avalúo en un suburbio residencial de una ciudad. El uso de ambos distritos de votantes en el suburbio como estratos es conveniente porque se tienen disponibles listas separadas de las viviendas de cada distrito. a) De los datos en la tabla anexa estime el valor promedio del avalúo para todas las casas del suburbio.

I N1 = 110 n1 = 20 n1

∑ x i = 240.000 i=1 n1

∑x i=1

2 i

= 2.980.000.000

II N2 = 168 n2 = 30 n2

∑x i=1 n2

∑x i=1

i

2 i

= 420.000 = 6.010.000.000

b) Establezca un límite para el error de estimación (nótese que se utiliza asignación proporcional). c) Construya e interprete el intervalo de confianza.


4) Una psicóloga que está trabajando con un grupo de adultos con retraso mental desea estimar su tiempo de reacción promedio a cierto estímulo. Ella considera que varones y mujeres probablemente presentarán una diferencia en tiempos de reacción, por lo que desea estratificar en base a los sexos. El grupo de 96 personas tiene 45 varones. Estudios previos de este tipo han revelado que los tiempos presentan una amplitud aproximada de 5 a 20 segundos para los varones y de 3 a 14 segundos para las mujeres. Los costos del muestreo son los mismos para ambos estratos. a) Usando la asignación óptima, encuentre el tamaño de muestra aproximado necesario para estimar el tiempo dev reacción promedio para el grupo con un límite aproximado de un segundo. b) Asigne tamaños muestrales a los estratos.


5) Un ayuntamiento municipal está interesado en ampliar las instalaciones de un centro de atención diurna para niños con retraso mental. La ampliación va a incrementar los costos de asistencia a los niños del centro. Se va a realizar una encuesta por muestreo para estimar la proporción de familias con niños afectados que utilizarán las instalaciones ampliadas. Las familias están divididas en aquellas que usan las instalaciones y aquellas que no lo hacen. Algunas familias viven en la ciudad donde se encuentra localizado el centro, y otras viven en las áreas rurales o suburbanas de los alrededores. Entonces se usa muestreo aleatorio estratificado con personas en la ciudad que usan las instalaciones, personas de los alrededores que las usan, personas en la ciudad que no las usan y personas en los alrededores que no las usan, formando respectivamente los estratos 1, 2, 3 y 4. Aproximadamente 90% de los que usan las instalaciones y 50% de los que no las usan van a utilizar las nuevas instalaciones. Los costos para efectuar la observación de un cliente actual es 4 y, debido a la dificultad para localizar a quienes no usan las instalaciones, los costos de observación para quienes no usan las instalaciones es 8. Registros existentes arrojan los siguientes tamaños para los estratos: N1 = 97, N2 = 43, N3 = 145, N4 = 68. a) Encuentre el tamaño de muestra aproximado y la asignación necesaria para estimar la proporción poblacional con un límite de 0,05 para el error de estimación. b) Llevada a cabo la encuesta, se obtienen las siguientes proporciones de familias que usarán las nuevas instalaciones: pˆ 1 = 0,87; pˆ 2 = 0,93; pˆ 3 = 0,60; pˆ 4 = 0,53. c) De acuerdo al desarrollo en (b) vea si se logró el límite de error de estimación deseado. d) Considere que el costo total del muestreo se fija en C = 400. Elija el tamaño de muestra y la asignación que minimiza la varianza del estimador pˆ E para este costo fijado.


6) Si no se tiene información disponible sobre la variable de interés primordial, digamos X, entonces la estratificación óptima puede ser aproximada mediante el uso de otra variable, digamos Y, la cual está altamente correlacionada con X. Suponga que un investigador desea estimar el número promedio de días de ausencia por enfermedad, otorgados por cierto grupo de empresas en un año determinado. No se tiene disponible información referente a días de ausencia por enfermedad, pero se puede contar con información sobre el número de empleados por empresa. Suponga que para estas empresas se tiene que el número total de días de ausencia por enfermedad está altamente correlacionado con el número de empleados.

Nº de empleados 0 – 10 11 – 20 21 – 30 31 – 40 41 – 50 51 – 60 61 – 70 71 – 80 81 – 90 91 – 100 101 – 110 111 – 120 Total

Frecuencia 2 44 6 6 5 7 10 14 19 13 3 7 96

Use los datos de frecuencia de la tabla anexa para dividir óptimamente las 96 empresas en L = 4 estratos, a) para los cuales sea posible usar tamaños de muestra iguales. b) con ayuda del histograma. c) con ayuda de alguna regla estudiada.


7) Un analista de investigación de mercados quiere estimar la proporción de personas que favorece el producto de su compañía respecto a un producto similar de una compañía rival. El área de prueba para esta investigación es el estado de Nueva Cork. Él también está interesado en obtener estimaciones separadas para la proporción de personas con edades de 18 a 25 años y para mayores de 25 años. Analice posibles diseños para la encuesta.

¿Qué diseño usará? ¿Cómo estimará el tamaño muestral n? ¿Qué estimaciones realizaría? ¿En base a qué herramienta se concluye respecto de la preferencia del público? e) Suponga que se sabe que para la empresa rival el 60% de los consumidores del producto tienen entre 18 a 25 años y el 40% tiene más de 25 años. Además se sabe que el consumo de ese producto es masivo. Estime el tamaño muestral total y la asignación muestral por estratos, si se desea un error máximo de estimación de 5%. f) Suponga que se encuentra que las proporciones estimadas de acuerdo a la muestra configurada en (g) son pˆ 1 = 0,65; pˆ 2 = 0,48. Construya intervalos de confianza y concluya respecto del éxito delproyecto en la población total y en los estratos. a) b) c) d)


Técnicas de Muestreo Clase 6: Estimación de Razón, Regresión y Diferencia Introducción: Existen casos en los cuales la variable a estimar Y está relacionada con otra variable X, la cual es más fácil de medir. En estos casos, mediante las relaciones entre ambas variables, es posible realizar las estimaciones deseadas. Existen tres métodos para realizar este tipo de estimación indirecta, los cuales son Estimación de Razón, Estimación de Regresión y Estimación de Diferencia. Estimación de Razón: Este tipo de estimación se utiliza cuando: • La variable de interés Y está relacionada en forma directa con cierta variable X. Esto se debe verificar de dos formas: o gráficamente se aprecia una relación como la de la Figura 6.1, que es lineal (línea recta) y pasa por el origen (el cero)

Figura 6.1: Diagrama dispersión variables directamente relacionadas

o el coeficiente de correlación muestral r es superior a ½, donde r se calcula en Excell ubicando los vectores de datos en columnas adyacentes, por ejemplo en las celdas a1 – a10 y b1 – b10, mediante la expresión “=coef.de.correl(a1:a10;b1:b10)” o bien manualmente mediante la siguiente expresión: r=

.

• El interés está centrado (generalmente) en estimar el Total τ. • El número de unidades N puede ser desconocido. • La variable X es fácil de medir, mientras que la medición de Y es difícil, costosa o destruye las unidades al medirse.


1) Parámetro Total τY: En estos casos se puede expresar el total de Y como el total de X multiplicado por el cuociente entre la media de Y y la de X:

τY = τX ·

,

y por lo tanto su estimador se puede expresar en función de sus estimadores. Muestreo Aleatorio Simple: a) Estimador: b) Error est.:

Y

=

X

·

.

σ( Y) =

c) Error est. estimado: s( Y) = d) Error de estimación:

.

·

·

B = 2 · s( Y).

.

e) Tamaño muestral: n =

Ejemplo: Se desea estimar el total de individuos que viven en una población. La unidad de muestreo es la manzana, se puede contar el número de casas (X) pero es difícil contar el número de individuos (Y) en una manzana, sin embargo se puede escoger algunas casas al azar para estimar el promedio de individuos por manzana ⎯Y y también se puede estimar el promedio de casas por manzana ⎯X . El cuociente

indica el promedio de individuos por casa, de modo que si

estimamos el total de casas, se contará con una estimación para el total de individuos. En efecto, X = M · ⎯Y , donde M es el total de manzanas. Finalmente, note que Y = · ⎯Y. Suponga que se sabe que hay 87 manzanas, se eligió una muestra de 10 manzanas y se contó el número de individuos que vivían en esas 10 manzanas, resultando ser 356 personas; entonces⎯Y = 35.6, M = 87 y Y = 87 · 35.6 = 3.097,2. Se estima que aproximadamente 3.097 personas viven en esa población. 2) Parámetro Razón R =

:

En algunos casos, a diferencia de lo expuesto antes, el parámetro de interés es efectivamente la razón entre ambos totales R =

,

en cuyo

caso se puede utilizar como estimador el cuociente de totales o de promedios, según sea el objetivo del estudio.


Muestreo Aleatorio Simple:

=

a) Estimador:

b) Error est.:

=

ó

.

σ( ) =

c) Error est. estimado: s( ) =

.

·

·

d) Error de estimación: B = 2 · s( ).

.

e) Tamaño muestral: n =

Ejemplo: Se desea estimar el cuociente entre el endeudamiento personal en créditos de cierto banco, actual y del año anterior. El endeudamiento promedio actual, por cliente, es de⎯Y = $431.000 y el del año anterior es ⎯X = $489.000. El interés se relaciona con endeudamiento personal, de modo que se estima en base al cuociente de promedios: = 88,1%. El endeudamiento disminuyó en un 11,9%. Ahora bien, si interesa el cuociente entre créditos totales otorgados este año y el año anterior, se requiere estimar los totales, para lo cual se requiere el número de clientes actual, NY = 3.694, y del año anterior, NX = 3.145. Luego

=

= 1,035 = 103,5%. El total de

créditos otorgados aumentó en un 3,5%.

3) Parámetro media µY: Finalmente, si por algún motivo no se cuenta con la media de la variable de interés, desde la primera y última expresiones es factible derivarla:

µ Y = R · µX , y estimarla en función de sus términos. Muestreo Aleatorio Simple: a) Estimador: b) Error est.:

Y

=

·

X.

σ( Y) =

c) Error est. estimado: s( Y) = d) Error de estimación: B = 2 · s( Y).

.

·


.

e) Tamaño muestral: n =

Ejemplo: Se desea estimar la inversión promedio mensual de los 40 asociados (en forma conjunta) de cierta compañía para el año próximo. Se toma una muestra aleatoria de 10 personas del grupo y se realiza la consulta relativa a su inversión del próximo año. El total resulta ser Y = $23.400.000, mientras que la inversión total del año pasado fue de τX = $146.025.000. El año pasado habían 45 asociados y se estima que el año próximo habrán 43 asociados. Es así como el promedio del año pasado de inversión mensual por socio corresponde a X(45) / 45 = $146.025.000 / (45 · 12) = $270.417, y para el año próximo corresponde a

Y(10)/10 = $23.400.000/ (10·12) = $195.000.

Entonces el cuociente se estima como = $195.000 / $270.417 = 0,72. Note que si el año pasado hubiera habido 43 asociados (como habrá el próximo año), la inversión promedio mensual habría alcanzado la suma de X(43) = $270.417 · 43 = $11.627.917. Finalmente,

Y(43) =

·

X(43) = 0,72 · $11.627.917 = $8.385.000.

MUESTREO ALEATORIO ESTRATIFICADO: Para el muestreo aleatorio estratificado se realizan las estimaciones ya sea de razón R, total τY ó media µY dentro de los estratos y luego se utilizan las fórmulas ya conocidas.


Estimación de Regresión: Este tipo de estimación se utiliza cuando: • La variable de interés Y está relacionada linealmente con cierta variable X, pero la línea no pasa por el origen. Esto se debe verificar de dos formas: o gráficamente se aprecia una relación como la de la Figura 6.2 (línea recta pero no pasa por el origen)

Figura 6.2: Diagrama dispersión variables linealmente relacionadas

o el coeficiente de correlación muestral r es superior a ½, como en el caso del Estimador de Razón (la correlación también se puede calcular como la raíz cuadrada de R2 o R Cuadrado, Figura 6.3). • El interés está centrado en estimar la Media µY ó el Total τY. • El número de unidades N puede ser desconocido si el interés se centra en la estimación de la Media µY. Para estimar el Total τY se requiere específicamente conocer el valor de N. • La variable X es fácil de medir, en general se asume conocida; mientras que la medición de Y es difícil, costosa o destruye las unidades al medirse. Para empezar el análisis es necesario tomar una muestra de individuos a los cuales se les mide la variable Y y la variable X. Estos pares de datos servirán para la realización del Diagrama de Dispersión. Por otra parte, es importante tener valores estimados o exactos de la variable X (si no son exactos se deberá contar con otra muestra más grande, ya que se basarán las estimaciones más en X que en Y). Al establecer la relación entre X e Y (con los pares de datos), si efectivamente esta es lineal, quiere decir que Y se puede expresar aproximadamente en función de X de la siguiente manera: Y = a + b · X. El valor b en la expresión anterior es especialmente necesario para las estimaciones al usar este método, y se obtiene de dos formas:


o a partir de Excell (botón derecho sobre un punto, Agregar Linea de Tendencia, Lineal, Presentar ecuación en el gráfico, presentar el valor R cuadrado en el gráfico, cerrar o aceptar). El resultado se aprecia en la Figura 6.3, donde el valor b es el que acompaña a X (en la figura b = 0,5401), y es conveniente tomar este camino debido a que permite, a la vez, verificar la relación lineal que no pasa por el origen (pasa por a, que corresponde al valor que se suma en la expresión, es decir, en el ejemplo a = 1,76).

Figura 6.3: Ecuación de la recta y R2.

o Los valores de a y b se pueden calcular a partir de la correlación r, desviaciones estándar SX, SY y y promedios, del modo siguiente: b=r·

;

a = ⎯Y – b ·⎯X,

o El valor de b se puede obtener mediante una fórmula de Excell, y el valor de a en función de él y de los promedios se X e Y, como: b = “=ESTIMACION.LINEAL(a1:a10;b1:b10)” a = ⎯Y – b ·⎯X o El valor de b se puede obtener en forma manual, y el valor de a en función de él y los promedios: b=

;

a = ⎯Y – b ·⎯X.

1) Parámetro media µY: Contando con éstos valores, r, a, b, ya se conoce la relación entre X e Y y podemos realizar la estimación. Muestreo Aleatorio Simple: a) Estimador: b) Error est.:

Y

σ( Y) =

= ⎯Y + b · (

X

–⎯X) . ≈

, b real..


c) Error est. estimado: ≈

s ( Y) =

, b estimado.

d) Error de estimación: B = 2 · s( Y).

.

e) Tamaño muestral: n =

2) Parámetro Total τY: En estos casos se puede expresar el total de Y como N veces el promedio:

τY = N · µ Y , y por lo tanto su estimador se puede expresar en función del estimador de la media. Muestreo Aleatorio Simple: a) Estimador: b) Error est.:

Y

=N·

Y

= N · [⎯Y + b · ( ≈

σ( Y ) =

X

–⎯X)]. , b real..

c) Error est. estimado: ≈

s( Y ) =

d) Error de estimación: B = 2 · s( Y ). e) Tamaño muestral: n =

.

, b estimado.


Estimación de Diferencia: Este tipo de estimación se utiliza cuando: • La variable de interés Y está relacionada linealmente con cierta variable X, la línea no pasa por el origen, pero la pendiente es uno (b = 1, la recta es diagonal en 45°). Esto se debe verificar de dos formas: o gráficamente se aprecia una relación como la de la Figura 6.4 (línea recta que no pasa por el origen, con b ≈ 1)

Figura 6.4: Variables linealmente relacionadas con pendiente 1

o el coeficiente de correlación muestral r es superior a ½, como en los otros casos. • El interés está centrado en estimar la Media µY ó el Total τY. • El número de unidades N puede ser desconocido si el interés se centra en la estimación de la Media µY. Para estimar el Total τY se requiere específicamente conocer el valor de N. • La variable X es fácil de medir, en general se asume conocida; mientras que la medición de Y es difícil, costosa o destruye las unidades al medirse. Al igual que en el caso de estimación de Regresión, en este caso se requiere un conjunto de individuos en los cuales se hayan medido ambas variables, X e Y, para establecer si la relación existe, pero las estimaciones de X se deben obtener de una forma más exacta (muestra mayor o la población). Al establecer la relación entre X e Y, si efectivamente esta es lineal con pendiente 1, quiere decir que Y se puede expresar aproximadamente en función de X de la siguiente manera: Y = a + X. El valor b se omite por ser igual a uno. Se debe construir la variable D = Y – X, para cada dato, y se calcula en base a ella su media ⎯D y su desviación estándar SD.


1) Parámetro media µY: Muestreo Aleatorio Simple: a) Estimador: b) Error est.:

Y

=

X

+⎯D.

σ( Y) = SD ·

, si b = 1. ≈

c) Error est. estimado: s( Y) =SD ·

, se estima que b = 1.

d) Error de estimación: B = 2 · s( Y).

.

e) Tamaño muestral: n = 2) Parámetro Total τY:

También aquí se puede expresar el total de Y como N veces el promedio:

τY = N · µ Y , y por lo tanto su estimador se puede expresar en función del estimador de la media. Muestreo Aleatorio Simple: a) Estimador: b) Error est.:

Y

=N·

Y

=N·[

σ( Y) = SD ·

+⎯D]. , si b = 1.

c) Error est. estimado: s( Y) =SD · d) Error de estimación: B = 2 · s( Y ). e) Tamaño muestral: n =

X

.

, se estima b = 1.


Ejercicios: 1) Se realizó una encuesta de consumo familiar con el fin de determinar qué porcentaje de los ingresos anuales son gastados en alimentación en una pequeña comunidad formada por 150 familias. Se cuenta con una muestra aleatoria simple de 14 familias, cuya información se presenta en la tabla adjunta. a. Realice la estimación de Razón y encuentre un límite para el error de estimación. b. Si se conoce el Ingreso anual total de las familias en la comunidad, el cual es 4.800.000, estime el gasto total en alimentación de la comunidad. Familia Ingreso anual Gasto en alimentación 1 25.100 3.800 2 32.200 5.100 3 29.600 4.200 4 35.000 6.200 5 43.400 5.800 6 26.500 4.100 7 8 9 10 11 12 13 14

28.700 28.200 34.600 32.700 31.500 30.600 27.700 28.500

3.900 3.600 3.800 4.100 4.500 5.100 4.200 4.000

2) Un trabajador social quiere estimar la relación entre número de dormitorios por departamento y el número de personas que los habitan, en un determinado barrio de zona urbana que cuenta con 275 departamentos. La muestra arrojó un promedio de 9,2 habitantes por departamento, con desviación estándar 2,273 y un promedio 2,6 dormitorios por departamento, con desviación estándar de 1,061. La correlación entre ambas variables (número de habitantes y número de dormitorios por departamento) es de 0,933 y la desviación estándar de la cantidad de habitaciones faltantes para que cada persona tenga su propio dormitorio es de 1,339. a. Utilice estimación de la razón y calcule el límite para el error de estimación. b. Estime de la mejor forma posible el total de habitantes en la zona urbana estudiada, si se sabe que hay 100 departamentos de 2 dormitorios, 150 de tres dormitorios y 25 de cuatro dormitorios.


3) Interesa estimar la relación entre el número de personas por en situación de pobreza extrema para todas las razas y para las personas de origen indígena en cierta región. Se seleccionaron algunas comunas de la región en forma aleatoria del total de 32 comunas, obteniéndose la información en la tabla adjunta. a. Estime la proporción de indígenas en el grupo de personas en situación de pobreza extrema y el límite para el error de estimación. b. Si se sabe que el total de individuos que se clasifican en situación de pobreza extrema en la región es de 25.232 personas, estime el total de indígenas en esta situación en la región. Comuna 1 2 3 4 5 6

Total de todas las razas 417 869 1.284 547 699 391

Total de indígenas 157 652 1.135 497 669 241


Técnicas de Muestreo Clase 7: Muestreo Sistemático Introducción: Existen ocasiones en las cuales la muestra a seleccionar y la población son muy grandes, por lo cual seleccionar una muestra aleatoria simple resulta largo. También en muchas ocasiones se cuenta con un marco muestral ordenado. En estos casos resulta mucho más sencillo considerar un método que en muchos casos es equivalente al muestreo aleatorio simple en cuanto a precisión, pero que en términos de facilidad para obtener la muestra resulta muchísimos más sencillo, y se trata del muestreo aleatorio sistemático Obtención de la muestra: Para seleccionar una muestra aleatoria sistemática de tamaño n desde una población de tamaño N, la cual se encuentra ordenada y numerada en un marco muestral: • Se obtiene la frecuencia k ≤ N/n. • Se elige un número al azar entre 1 y k, digamos c. • La muestra consiste de los valores: c, c + k, c + 2 k, c + 3 k … • En este caso se habla de una muestra sistemática de 1 en k. Por ejemplo, si N=124 y n=13, entonces k ≤ 124/13 = 9,5, k = 9. Supongamos que al elegir un número al azar entre 1 y 9, se obtiene el valor c = 6; entonces el primer valor de la muestra es 6 y los demás valores se obtienen sumando sucesivamente 9 hasta completar los n = 13 valores, correspondientes a los individuos numerados como: 6, 15, 24, 33, 42, 51, 60, 69, 78, 87, 96, 105, 114. Esta es una muestra sistemática de 1 en 9. Utilización del muestreo sistemático: El muestreo sistemático lleva a resultados absolutamente equivalentes a los del muestreo aleatorio simple si la población se encuentra ordenada y numerada en un marco muestral en el cual el orden no guarda relación con la variable de interés. En este caso, tanto el tamaño muestras, como las estimaciones, sus errores estándar y los errores de estimación coinciden con el muestreo aleatorio simple. Tipos de población: Para clasificar las poblaciones, nos referiremos al marco muestral. Este puede ser de tres tipos, respecto del orden de las unidades y el valor medido: a) Aleatorio: las unidades no siguen ningún patrón en el marco muestral. En este caso no existe ninguna diferencia teórica entre muestreo aleatorio simple y sistemático, aunque la selección es más sencilla. b) Ordenado: las unidades en el marco muestral se encuentran ordenadas en forma creciente respecto de la variable de interés (Figura 1): en este caso, dada la uniformidad con que es seleccionada la muestra, se ven representados en forma casi equitativa todos los posibles valores de la variable de interés, por lo cual la precisión de la estimación es mayor a


la del muestreo aleatorio simple, es decir, • El tamaño muestral requerido es menor. • El error estándar es menor. • El error de estimación es menor.

Figura1: Muestreo sistemático en marco muestral creciente

c) Periódico: las unidades en el marco muestral se encuentran ordenadas de tal manera que los valores de la variable varían en forma cíclica con respecto de la variable de interés: en este caso, dependiendo del punto inicial y de la frecuencia, diferentes muestras arrojan estimaciones muy diferentes y por lo tanto la variabilidad es muy grande, mayor a la del muestreo aleatorio simple y por lo tanto la precisión de la estimación es inferior, es decir, • El tamaño muestral requerido es mayor. • El error estándar es mayor. • El error de estimación es mayor.

Figura2: Muestreo sistemático en marco muestral cíclico


Entonces es claro que, cuando existe algún comportamiento de tipo cíclico en la variable, el muestreo sistemático debe evitarse, a menos que se utilicen técnicas correctivas: • Cada cierta cantidad de unidades se elige un nuevo valor inicial. Ejemplo: N = 100, n = 11, k ≤ 9.1, k = 9. El primer valor elegido al azar entre 1 y 9 es c = 6, se elige entonces 6, 15, 24, luego entre los valores 25 a 33 se elige un valor al azar, supongamos que es c = 26, entonces se agrega a la muestra 26, 35, 44; en este punto se elige otro valor incial entre 44 y 52, supongamos que sale escogido el valor 50, entonces se agrega el 59 y 68. Ahora se elige un valor al azar entre 69 y 77, supongamos que sale el 73, se agrega entonces el 82 y 91. Se elige un último valor inicial entre 92 y 100 y supongamos que sale el 94. Al sumarle 9 se obtiene 103, es decir nos pasamos en 3. Empezando de nuevo se debe agregar el valor 3. La muestra final seleccionada son los individuos numerados: 3, 6, 15, 24, 26, 35, 44, 50, 59, 68, 73, 82, 91. • Se toman muestras sistemáticas con réplicas, es decir en lugar de una muestra sistemática se toman varias con diferentes puntos iniciales. Ejemplo: N = 100, n = 12, se toman 4 réplicas, es decir, cada una tiene n0 = 3 datos. K0 ≤ N/n = 100/3 = 33,3, k0=33. Los cuatro valores iniciales se eligen al azar entre 1 y 33. Supongamos que sale el 2, el 31, el 14 y el 22. Entonces las réplicas de las muestras contienen a los individuos mumerados con los valores: 2, 35, 68; 31, 65, 98; 14, 47, 80; 22, 55, 88. Correcciones en el tamaño muestral: Dependiendo de la relación que guarden los valores en la muestra sistemática, se obtienen valores alternativos del tamaño muestral, en base a la expresión siguiente: 4 ⋅ Sm2 ⋅ (1 − 2 ⋅ ρ ) n= B2 − 8 ⋅ ρ ⋅ S2m Una forma para estimar el valor de ρ es la siguiente: S2m − σ 2 , ρ= 2 ⋅ (n − 1) ⋅ σ 2 donde σ2 es la varianza de la población, la cual se puede estimar mediante una muestra piloto aleatoria simple o bien obtener de estudios anteriores, y donde S2m es la varianza obtenida a partir de la muestra aleatoria sistemática. Claramente la estimación de ρ se obtiene en forma posterior a la toma de la muestra sistematica, por lo cual será útil para un estudio posterior. Algunas ayudas, si aún no se cuenta con un valor de ρ, son las siguientes: • Si los valores obtenidos en la muestra son muy parecidos, sin embargo la variabilidad de la población es mucho mayor que la de la muestra, se evidencia que existe un comportamiento cíclico o periódico. En este caso la correlación de la muestra ρ es grande, y por lo tanto n crece. • Si los valores obtenidos en la muestra están ordenados de menor a mayor o al revés, ocurre que los valores son cada vez más diferentes y la variabilidad de la población es igual a la de la muestra. En este caso se evidencia un comportamiento ordenado y en este caso la correlación de la muestra es negativa aunque cercana a 0, y por lo tanto n decrece.


Si los valores obtenidos en la muestra varían sin un patrón y la variabilidad de la población es igual a la de la muestra, se trata de un comportamiento aleatorio, y en este caso la correlación de la muestra es ρ ≈ 0 y el tamaño de la muestra es el mismo que en el caso del muestreo aleatorio simple.

Ejercicios: 1) En la tabla anexa se presentan los datos de tasas de divorcio por cada 1000 personas en Estados Unidos para una muestra sistemática del siglo pasado. Año 1900 1905 1910 1915 1920 1925 1930 1935 1940

Tasa de divorcio 0,7 0,8 0,9 1,0 1,6 1,5 1,6 1,7 2,0

Año 1945 1950 1955 1960 1965 1970 1975 1980

Tasa de divorcio 3,5 2,6 2,3 2,2 2,5 3,5 4,8 5,2

a. Estime la tasa promedio de divorcio anual para el período 1900 – 1980 y establezca un límite para el error de estimación. b. En este caso, ¿es mejor el muestreo sistemático o el muestreo aleatorio simple? 2) Los funcionarios de cierta sociedad profesional desean determinar la proporción de miembros que apoyarán varias enmiendas propuestas en las prácticas de arbitraje. Se selecciona una muestra sistemática de 1 en 10 desde la lista en orden alfabético de los 650 socios activos. a. Si 48 socios en la muestra están a favor de los cambios propuestos, estime la proporción de votos favorables que recibirá el proyecto, en forma puntual y por intervalo. Concluya. b. Indique las razones por las cuales el muestreo sistemático es o no adecuado en este caso. 3) La tabla anexa muestra la cantidad real de faltas por turno en un mes en cierta empresa. Suponga que no se cuenta con dicha información pero se desea diseñar un método de muestreo adecuado para recolectarla, en el marco del cual un inspector estará presente en algunos de los turnos tomando nota de las faltas. Se ha optado por un muestreo sistemático. a. Determine el tamaño de muestra adecuado para estimar el promedio de fallas con un error máximo de 0,5 y confianza de 95% si se cree que el número de faltas se mueve entre 2 y 10. b. Indique las ventajas o desventajas de este tipo de muestreo respecto del muestreo aleatorio simple. c. Obtenga una muestra sistemática utilizando los hallazgos en (a). d. Proponga dos métodos de mejoramiento de la estimación en (c).


e. Compare los resultados en (c) y (d) con los valores reales. Turno Faltas Turno Faltas Turno Faltas 1 11 31 11 61 11 2 3 32 4 62 4 3 6 33 8 63 8 4 11 34 10 64 11 5 4 35 3 65 3 6 8 36 8 66 7 7 11 37 10 67 10 8 4 38 4 68 4 9 7 39 8 69 7 10 11 40 11 70 11 11 3 41 3 71 3 12 7 42 6 72 7 13 11 43 11 73 10 14 3 44 3 74 4 15 6 45 7 75 6 16 11 46 11 76 10 17 3 47 3 77 4 18 7 48 8 78 8 19 11 49 11 79 11 20 3 50 3 80 4 21 7 51 8 81 7 22 10 52 10 82 10 23 4 53 3 83 3 24 7 54 7 84 6 25 11 55 10 85 11 26 3 56 3 86 4 27 6 57 8 87 8 28 11 58 11 88 11 29 3 59 3 89 4 30 8 60 7 90 6 91 10


Técnicas de Muestreo Clase 8: Muestreo por Conglomerados Introducción: Existen ocasiones en las cuales la población a estudiar es de difícil acceso e incluso no se conoce su tamaño ni se dispone de un marco muestral; sin embargo, existen muchos pequeños grupos dentro de ella que no deberían diferir mayormente entre ellos (respecto de la variable de interés) y que, por otra parte, si se encuentran al menos listados en alguna parte, por lo cual si se considerara como unidad de muestreo a estos grupos sería más sencillo realizar el muestreo. En estos casos es conveniente realizar un muestreo por conglomerados. Definición de Conglomerado: Es importante diferenciar con claridad un conglomerado de un estrato. Como vimos anteriormente, los estratos son subconjuntos de la población que son (dentro de ellos) relativamente homogéneos respecto de la variable de interés, pero diferentes unos de otros (heterogéneos entre ellos). En esos casos, cada estrato es abordado como una población distinta al momento de diseñar el muestreo y es muy importante que todos ellos sean representados en la muestra, precisamente debido a sus diferencias. Por el contrario, cuando hablamos de conglomerados, estamos frente a subconjuntos de la población con características tales que entre ellos son muy similares (homogéneos), pero donde la diversidad se presenta dentro de ellos (heterogéneos). En estos casos cada uno de los conglomerados es una pequeña copia de miniatura de la población. De este hecho se deriva que: • Debido a su heterogeneidad interna, la totalidad del conglomerado aporta información sobre la población completa, de modo que es conveniente incluirlos íntegramente en la muestra. En esto difiere notablemente del muestreo estratificado, donde la similitud interna no hace necesario incluir los estratos completos, bastan algunas unidades para representarlos. • Debido a su tamaño, el cual generalmente es reducido, pocos conglomerados no son, en general, suficientes para realizar las estimaciones. Los estratos tienden a ser de mayor tamaño. • Debido a su similaridad, la inclusión de uno u otro en la muestra es equivalente, por lo cual se puede seleccionar al azar a algunos de ellos. En el caso del muestreo estratificado, por el contrario, todos los estratos deben estar representados, pues corresponden a diferentes realidades. Utilización del muestreo por Conglomerados: El muestreo por conglomerados se utiliza cuando: • No existen estratos claramente definidos, o bien se está muestreando dentro de ellos (en cuyo caso los estratos se están tratando como si fueran poblaciones). • La población es grande y está conformada por pequeños subconjuntos con las características de conglomerados.


• Puede que no se cuente con un marco muestral. • Se cuenta con una lista o marco de los conglomerados. • Las distancias entre las unidades hacen que se pueda reducir notablemente los costos si, en lugar de acceder a unidades escogidas aleatoriamente en la población se accede a todas las unidades de un grupo de conglomerados elegidos al azar. Notación: Al seleccionar una muestra por conglomerados, la unidad de muestreo es el conglomerado, por lo que se elige al azar un número de n conglomerados desde una población de N conglomerados, la cual se encuentra ordenada y numerada en un marco muestral, el cual en muchos casos es un mapa (manzanas por ejemplo). Es así como en este caso el número de individuos en la muestra corresponde a la suma de todos los individuos en los conglomerados seleccionados. Se denota por mi al número de elementos o individuos en el i-ésimo conglomerado de la población, se denota por M al número total de individuos en la población (valor desconocido) y por ⎯M al tamaño promedio de los conglomerados en la población (también desconocido):

.

y

Por otra parte, se denota por ⎯m al tamaño promedio de los conglomerados en la muestra (valor que se puede observar):

. Ahora bien, el total de la variable medida en los individuos del conglomerado i-ésimo se denota por yi, y corresponde a la suma de las mediciones en el conglomerado, de donde el promedio de la variable y estimador de la media corresponde a la suma de totales dividida por la suma de los tamaños. El total de la población, por su parte, sale de multiplicar el promedio por el número de individuos en la población. Media µ: Estimador: , Error estándar estimado de la media: ≈

,

Límite para el error de estimación de la media: El estimador del error estándar es insesgado si los conglomerados son de igual tamaño m y en número de conglomerados n es grande (n≥20).


Total τ: Estimador: Si se conoce el tamaño de la población M: , Si no se conoce el tamaño de la población M, se requiere conocer el número total de conglomerados N: , Error estándar estimado del total: ≈

,

Límite para el error de estimación del total: Las estimaciones del total y de la media son insesgadas solamente cuando los tamaños de los conglomerados son iguales. Proporción p: Estimador: , donde ai es el número de individuos en el i-ésimo conglomerado que posee la característica de interés. Error estándar estimado de la proporción: ≈

,

Límite para el error de estimación de la media: El estimador de la proporción es insesgado solamente si los conglomerados son de igual tamaño. Cálculo del tamaño muestral: El estimador de la varianza de la variable de interés σ2 se denota por calcula como: =

.

y se


Media µ: Si la varianza se conoce de estudios anteriores, el tamaño de muestra corresponde a: = y en caso contrario, se calcula corresponde a:

,

de una muestra piloto y el tamaño de muestra =

.

Total τ: Si la varianza se conoce el tamaño de muestra corresponde a:

,

= y en caso contrario, se calcula

: =

,

Proporción p: En este caso se requiere la estimación de la varianza de la incidencia de la y el característica de interés por conglomerado que se denota por tamaño de muestra corresponde a: =

.

Muestreo por Conglomerados con probabilidades proporcionales al tamaño del conglomerado: Es lógico que el total yi de un estrato guarde relación con el tamaño del mismo, que establezcan la de donde, se puede asignar pesos a los estratos: πi = probabilidad de que un estrato aparezca en la muestra. Naturalmente, como se vio en el capítulo 4 (muestreo aleatorio simple), es necesario luego quitar el peso en la estimación dividiendo por πi y este método conduce a estimaciones con menor error de estimación: Media µ: Estimador:

, con

el promedio de la variable de interés en el conglomerado i-ésimo.

Error estándar estimado de la media: , Límite para el error de estimación de la media:


Total τ: Estimador:

, Error estándar estimado del total: , Límite para el error de estimación de la media:

Ejercicios: 1) Un politólogo desarrolla una prueba para medir el grado de conocimientos sobre acontecimientos actuales, dado como un porcentaje. Él desea estimar el grado promedio de conocimientos en cierto colegio, pero la dirección no permite sacar a los estudiantes seleccionados en la muestra de las clases, aunque sí permite interrumpir algunas clases realizando la prueba a cursos completos. El número de cursos en el colegio es 108, el investigador seleccionó al azar a 25 de ellos y aplicó la prueba a los cursos completos. Los resultados se encuentran en la tabla anexa. Curso 1 2 3 4 5 6 7 8 9 10 11 12 13

N° estudiantes en el curso 29 25 35 15 31 22 27 25 19 30 18 21

Total de las calificaciones 1.590 1.510 1.490 1.610 800 1.720 1.310 1.427 1.290 860 1.620 710 1.140

Curso 14 15 16 17 18 19 20 21 22 23 24 25

N° estudiantes en el curso 40 38 28 17 22 41 32 35 19 29 18 31

Total de las calificaciones 1.980 1.990 1.420 900 1.080 2.010 1.740 1.750 890 1.470 910 1.740

a) Estime el grado de conocimientos y el error de estimación para los estudiantes de la escuela analizada. b) El politólogo desea escoger una muestra en un colegio semejante que tiene 100 cursos. ¿Cuál debería ser el tamaño muestral si se admite error de estimación máximo de 2 puntos y nivel de confianza del 95%?


2) Una investigación sobre número de casas, número de residentes y número de habitaciones de las casas, se basa en el estudio de 8 manzanas escogidas al azar en una ciudad. Manzana

N° de casas

N° de residentes

N° de habitaciones

1

12

40

58

2

14

39

72

3

3

12

26

4

20

52

98

5

12

37

74

6

8

33

57

7

10

41

76

8

6

14

48

a) Estime el número promedio de residentes por casa y el límite para el error de estimación. b) Estime el número promedio de habitaciones por residente y establezca un límite para el error de estimación. 3) Imagine que los datos en el problema 1 corresponden a los 25 cursos de un pequeño colegio en el cual se pretende tomar una muestra por conglomerados para estimar el grado de conocimientos de acontecimientos actuales en dicho colegio. a) Calcule el tamaño muestral adecuado para realizar la estimación con un error de estimación máximo de 10 puntos y un 95% de confianza, si se tiene información relativa a que los puntajes en general están entre 35 y 95. b) Realice el ejercicio utilizando la técnica de selección con probabilidades proporcionales al tamaño del conglomerado, considerando el tamaño muestral en (a) y estime el grado de conocimientos en forma puntual y por intervalos.


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.