Universidad Nacional de Tres de Febrero
Maestría en Generación y Análisis de Información Estadística
Carrera de Estadística
Técnicas Muestrales para No Estadísticos (1) Guía de Aplicaciones (Parte I) (2) Contenido Temas ACLARACIÓN
Aplicaciones Nº
Hoja Nº
-
2
s
Diseños Muestrales
1a4
2
s
Generalidades de Muestreo – Distribuciones Muestrales – Estimadores
5a9
2
s
Técnicas de Muestreo – Muestreo No Probabilístico
10 y 11
8
s
Técnicas de Muestreo – Muestreo Probabilístico
12 a 14
9
s
Métodos de Muestreo – Comparaciones y Estimaciones
15 a 21
10
s
Censo, Muestras y Técnicas Muestrales - Comparaciones
22
16
s
Métodos de Muestreo – MAS – Estimaciones – Dispersiones
23 a 24
18
s
Utilización de las Muestras: Estimación y Verificación
25 a 36
19
s
Determinación del Tamaño de la Muestra (n) en MA
37 a 46
22
s
Método de Estimación por Razón (MERa
47 a 49
27
s
Aplicación del MERa utilizando una Planilla de Cálculo Excel
50
31
s
Método de Estimación por Regresión (MERe) (y comparaciones con MESE y MERa)
51
33
s
Aplicación de la Selección con Probabilidades Desiguales Sin Reposición (SR)
52
37
s
Aplicación de la Selección con Probabilidades Desiguales
53
40
(1) (2)
Autor: Ernesto Alfredo ROSA. Como sucede con la Guía de Aspectos Conceptuales, esta Guía de Aplicaciones, con las modificaciones y agregados que se consideraron oportunos, está basada en un texto preparado para un Curso / Taller sobre Técnicas de Muestreo Aplicado, realizado en la UNTREF, en el 2º cuatrimestre del año 2011.
1
ACLARACIÓN Debido que para este Curso de Muestreo, se aparte del conocimiento básico de una serie de conceptos de Estadística Descriptiva, Cálculo de Probabilidades y Estadística Inferencial (que deben ser repasados), el orden y presentación de los planteos de esta Guía, no siguen en todos los casos una lógica de acumulación sucesiva de conocimientos, pudiendo un mismo planteo ser de utilidad para ejemplificar distintos puntos del Curso presentados en momentos diferentes.
Diseños Muestrales 1. El peso de los niños al comenzar la escuela primaria, tiene un promedio de 30 Kg. Se sabe por experiencias anteriores que la Desviación Típica o Estándar es de 4 Kg. Se desea realizar un estudio muestral para verificar el desarrollo de los niños de una región integrada por 350 escuelas primarias, a las que ingresan en promedio 50 alumnos en cada una. Describir el diseño de muestra que se sugeriría realizar.
2. El rendimiento de una variedad de maíz. tiene una variable normal con una media de 70 kg. por parcela y un Desvío Estándar de 10 kg. Se requiere la obtención de una muestra que permita evaluar el rendimiento del maíz producido en una región que contiene unas 5.000 parcelas, con un error inferior a los 2 kg/parcela y un nivel de confianza del 95 %. Describir el diseño de muestra que se sugeriría realizar.
3. Se sabe que las variedades nacionales de papa se conservan comúnmente en pilas cubiertas de chala. Al estimar su rendimiento debe tenerse en cuenta que las papas conservadas de esa forma a la intemperie, sufren una merma de alrededor del 20 %. Para evaluar la merma efectiva en una campaña en particular, se obtendrá una mue stra de las papas conservadas con ese método. Describir el diseño de muestra que se sugeriría realizar.
4. De acuerdo con los datos del Censo Nacional de Población y Viviendas del 2001, el 73% de las viviendas de una región de la Provincia de Santa Fe está ocupada por sus dueños. Se desea verificar si esa cifra se mantenía vigente en el Censo del 2010, para lo cual, de las cédulas censales existentes se obtendrá una muestra del 5 % del total. Describir el diseño de muestra que se sugeriría realizar.
Generalidades de Muestreo – Distribuciones Muestrales – Estimadores 5. Se analiza la variable cantidad de hijos (y) en un grupo de 4 parejas (Población: N = 4), donde los valores de cada una de las unidades de la población son: yi = 1 - 2 - 3 - 4 Esta es una Población de una variable discreta con distribución uniforme que tiene la siguiente forma y características:
2
N = 4 ; yi = 1 a 4 ; Am = 4 - 1 = 3 hijos
f(xi)
Cada valor de variable tiene frecuencia 1, es decir que:
1
f(yi) = 1 para todo yi El Total de hijos de la población de las 4 parejas es: 0
1
2
3
4
xi
Y = Σ y i = 1 + 2 + 3 + 4 = 10 hijos y el Promedio de hijos por pareja es: Y
= µ = Σ yi
= 10 / 4 = 2,5 hijos por pareja
N
La Variancia y el Desvío Estándar de la población son:
Σ ( yi − µ ) 2 La Variancia: σ = = (1/N) ? yi2 - µ2 = (1/4)(1+4+9+16) – 6,25 =7,5–6,25 N 2 x
=1,25 hijos2 El Desvío Estándar es: σ = (1,25)1/2 = 1,12 hijos Además, si se desea calcular: la Cuasi Variancia (S2 , no utilizada en la práctica), será:
S x2 =
Σ ( yi − µ ) 2 = [1/(N-1)] (? yi2 - µ2 ) = (1/3)[(1+4+9+16) – 4.6,25] =(1/3).5 =1,67 hijos 2 N −1
Debe tenerse presente que como valor poblacional, esta medida no tiene sentido calcularla. Hasta aquí los datos de la Población. De esa Población de 4 unidades, se pretende extraer todas las Muestras posibles de tamaño 2 con MAS, para estimar la Media, la Variancia y la Variancia del Estimador Media Muestral. Respuestas / Resultados Primer Caso: Muestras Sin Reposición (SR): Si de esa población de N = 4 parejas se desearan extraer Muestras de tamaño 2 (n = 2), la cantidad de muestras distintas Sin Reposición (SR) de tamaño n = 2, son las combinaciones sin repetición de “4 tomados de a 2”, es decir 6 muestras diferentes. Ellas son: n1 = 1 – 2 ; n2 = 1 – 3 ; n3 = 1 – 4 ; n4 = 2 – 3 ; n5 = 2 – 4 ; n6 = 3 – 4 n
El Estimador del Parámetro Promedio es: y = (1/n)
∑y i=1
i
−
Si se calcula el valor del Estimador y para cada muestra se tiene: −
y1 = 1 . 5
−
y2 = 2
−
y 3 = 2. 5
−
y 4 = 2. 5
−
y5 = 3
−
y 6 = 3 . 5 hijos en cada caso.
Cada uno de esos promedios es la suma de los dos valores de cada muestra dividida por dos. 3
Puede observarse que en función de las distintas muestras al azar de igual tamaño que se pueden extraer de la población, se obtienen distintos valores del Estimador, lo que lo convierte en una nueva variable con 6 resultados (uno para cada muestra), lo que determina la Distribución de las Medias Muestrales cuyo gráfico y características son las siguientes: Cantidad de muestras = 6 ;
Muestra Nº
yi
y
1
1–2
1,5
2
1–3
2,0
3
1–4
2,5
4
2–3
2,5
5
2–4
3,0
Resultados (medias) diferentes = 5 ;
6
3–4
3,5
Am = 3,5 – 1,5 = 2 hijos
Cuatro valores de medias tienen frecuencia 1, y otra (la del centro) 2: El Promedio de las 6 medias es: y = 15 / 6 = 2,5 hijos = µ −
f( y ) 2
La Variancia de la distribución de las 6 medias es:
1
σˆ 2 ( yˆ ) = [(1,5-2,5)2 + (2-2,5)2 + 2.(2,52,5)2 + (3-2,5)2 + (3,5-2,5)2] / 6 = 2,5 / 6 = 0,4167 hijos2 ;
que puede verificarse que coincide con:
0
1,5
2
2,5
3
3,5
−
y
σˆ 2 ( yˆ ) = [σ2 / n].[(N - n) / (N - 1)] = [1,25 / 2].[(4 - 2) / (4 - 1)] = 0,625 . 2 / 3 = 0,4167 hijos2
Resumiendo, con este simple ejemplo, pueden extraerse las siguientes conclusiones: Se pudo verificar que la distribución de las medias muestrales tiene el mismo promedio que la distribución de la variable original (en la población), y una dispersión que es menor a la que tiene la población. El análisis de la fórmula de la variancia del Estimador de µ permite concluir que el resultado será menor cuanto mayor sea la muestra n, y que será nula en el caso que la muestra coincida con la población, es decir n = N. Agregando a lo anterior los Estimadores de la Variancia Poblacional , debe tenerse en cuenta si las extracciones se realizan Con o Sin Reposición: En el Primer Caso desarrollado de Muestras Sin Reposición (SR): Las Muestras posibles son 6 (como ya se mencionó, las combinaciones de 4 tomados de a 2), todas con la misma Probabilidad de salir (1 / 6). Los Estimadores del Parámetro σ 2x son: s n 2 : Es la Variancia Muestral calculada dividiendo por “n”: s n 2 = (1 / n).
n
∑ ( yi − y ) 2
i =1
s n −12 : Es la Variancia Muestral calculada dividiendo por “(n – 1)” (Cuasi Variancia):
4
s n −12 = [1 / (n - 1)].
n
∑
( y i − y ) 2 = [1 / (n - 1)].
i =1
n
∑y i=1
2 i
– [n / (n - 1)]. y 2
En la Tabla que se incluye a continuación, para cada una de las 6 Muestras posibles SR (1ª columna), se calculan las fórmulas de la Variancia y Cuasi Variancia, obteniéndose los resultados de las columnas 2ª y 3ª. Muestra
sn 2
s n −12
1-2
0.25
0.5
1-3
1
2
1-4 2-3 2-4
2.25 0.25 1
4.5 0.5 2
3-4
0.25
0.5
σ 2x = θ
1.25
1.667
E (θˆ)
0.833
1.667
Para obtener la Esperanza del Estimador de la Variancia (s n 2 ) y de la Cuasi Variancia (s n −12 ) se debe calcular la suma de cada uno de sus resultados ponderados por sus probabilidades, siendo estas constantes e iguales a (1/6): E(s n 2 ) = (1 / 6) (0,25 + 1 + 2,25 + 0,25 + 1 + 0,25) = 5 / 6 = 0,833 hijos2 E(s n −12 ) = (1 / 6) (0,5 + 2 + 4,5 + 0,5 + 2 + 0,5) = 10 / 6 = 1,667hijos2 Se comprueba que mientras E(s2 ) es insesgado de su Parámetro (coinciden en 1,667 hijos2 ), la E(s*2 ) da menor al Parámetro que intenta estimar (es sesgado).
Segundo caso: Muestras Con Reposición (CR): Muestra
sn 2
s n −12
1-1 1-2
0 0.25
0 0.5
1-3 1-4
1 2.25
2 4.5
2-1 2-2 2-3
0.25 0 0.25
0.5 0 0.5
2-4 3-1 3-2
1 1 0.25
2 2 0.5
3-3 3-4
0 0.25
0 0.5
4-1 4-2 4-3
2.25 1 0.25
4.5 2 0.5
4-4
σ =θ
0 1.25
0 1.667
E (θˆ)
0.625
1.25
2 x
Las Muestras distintas posibles son 16 (combinaciones de 4 tomadas de a 2 con repetición), y también en este caso todas tienen la misma Probabilidad de salir (1 / 16). Como en el caso anterior, en la Tabla, para cada una de las 16 Muestras posibles CR (1ª columna), se calculan las fórmulas de la Variancia y Cuasi Variancias, obteniéndose los resultados de las columnas 2ª y 3ª. Con las mismas fórmulas de s n 2 y s n −12 , se obtienen: E(s n 2 ) = (1 / 16)(0 + 0,25 + 1 + 2,25 + 0,25 + … + 0,25 + 0) = 10 / 16 = 0,625 hijos2 E(s n −12 ) = (1 / 16)(0 + 0,5 + 2 + 4,5 + 0,5 + . + 2 + 0,5 + 0) = 20 / 16 = 1,25 hijos2 En este caso de Muestras CR, se comprueba nuevamente que mientras el Estimador de la Cuasi Variancia es insesgado de la Variancia Poblacional (coinciden en 1,25 hijos2 ), el Estimador de la Variancia subestima al Parámetro en cualquiera de sus expresiones (es sesgado). El Estimador de la Variancia del Estimador Promedio CR: σˆ 2 ( yˆ ) = [σ2 / n] = [1,25 / 2] = 0,625 hijos2
5
6. Cinco grupos familiares se componen de 1, 2, 3, 4 y 5 personas respectivamente. Se van a seleccionar dos de ellos para integrarlos a un estudio relativo a consumo de artículos de tocador. Es decir que esto equivale a calcular una variable aleatoria “y” (cantidad de componentes de los dos grupos familiares), como la suma de otras dos tomadas al azar sin reposición cuyos valores individuales son los anteriores. a) Determinar la cantidad de posibles muestras a extraer por Muestreo Aleatorio Simple (MAS) b) Calcular la distribución de los resultados de esas muestras y graficarla. c) Calcular el Estimador del Total para cada una de esas posibles Muestras y graficar su distribución. d) Calcular la función de distribución acumulativa y graficarla. ) ) e) Calcular E(y); V(y); E( Y ) y V( Y ). Respuestas / Resultados a) La cantidad de posibles muestras está determinada por las Combinaciones de 5 tomadas de a 2: C5,2 = 5! / (2! . 3!) = 10 muestras posibles b) Las distintas muestras y los resultados de sumar los grupos familiares que las componen son: Muestra
y
Muestra y
1+2
3
1+3
2+4
6
2+5
Muestra
y
Muestra y
Muestra
y
4
1+4
5
1+5
6
2+3
5
7
3+4
7
3+5
8
4+5
9
Con estos valores, la distribución de frecuencias es la siguiente: xi
fi
3
1
4
1
5
2
6
2
7
2
8
1
9
1
fi
Gráficamente:
2 1
0
3
4
5
6
7
8
9
xi
) N n c) Las Estimaciones del Total de cada una de esas Muestras se calculan con: Y = ∑ yi es n i=1 decir: el Factor de Expansión 5 / 2 = 2,5 por la suma de cada Muestra (del punto b).
) Yi
fi
7,5
1
10
1
12,5
2
15
2
17,5
2
20
1
22,5
1
fi
Gráficamente:
2 1
0
7,5
10
12,5
15
17,5
20
22,5
) Yi 6
Es decir que se obtiene la misma distribución del punto b), pero multiplicados los valores de la variable por el Factor de Expansión (2,5), lográndose la Distribución del Estimador del Total. d) Las frecuencias acumuladas dan: xi
) Yi
Fi
3
7,5
1
4
10
2
5
12,5
4
6
15
6
7
17,5
8
8
20
9
9
22,5
10
e) E(x) = 6 personas
Fi
10
5
0
3
4
5
6
7
8
9
xi
V(x) = 3 personas2
;
)
E(Y ) = 15 personas
Gráficamente:
;
V(x) = 18,75 personas2
7. Una caja contiene 6 tubos eléctricos de los cuales 2 son defectuosos. Se selecciona al azar de la caja una muestra de 2 artículos sin reposición. a) Hallar la función de probabilidad del número de artículos defectuosos en la muestra de 2. b) Hallar el valor esperado de los artículos defectuosos. Respuestas / Resultados xi
fi
xi . f i
0
6
0
1
8
8
2
1
2
Total
15
10
a) x i (cant. de artículos defectuosos en una muestra de 2 = 0 – 2 Las muestras posibles son 15 (Combinaciones de 6 tomadas de a 2). b) E (x ) = 10 / 15 = 0,67 artículos defectuosos Se puede resolver con la definición de Esperanza (S x i. f i / n), y utilizando la Func. de Prob. Hipergeométrica [E(x) = n.p].
8. En un laboratorio de investigación biológica, se selecciona un conjunto de 100 cobayos que padecen una cierta enfermedad para aplicarles un tratamiento. Sobre los mismos se obtuvo un tiempo medio de supervivencia de 46 semanas, conociéndose por experiencias anteriores que la variancia era de 36 semanas2. ¿ Qué puede decirse desde el punto de vista Estadístico, respecto a la validez de esa muestra para medir el tiempo medio de supervivencia de los cobayos ?
9. En una región agrícola en la cual se siembra predominantemente una cierta variedad de trigo, una compañía productora de semillas ha desarrollado una nueva variedad T y desea conocer su rendimiento promedio. Para ello se siembran ocho lotes experimentales con la nueva variedad y se obtienen los siguientes rendimientos (en toneladas por ha):
7
3,15 – 3,92 – 4,26 – 3,72 – 4,19 – 3,42 – 4,38 – 4,50 ¿ Qué puede decirse desde el punto de vista Estadístico, respecto a la validez de esa muestra para estimar el rendimiento promedio de la variedad T de trigo ?
Técnicas de Muestreo – Muestreo No Probabilístico 10. Ante la elección del Jefe de Gobierno de la Ciudad de Buenos aires, dos consultoras (A y B) son contratadas para realizar encuestas en la Vía Pública de tipo “circunstancial”. Ambas encuestas deben ser realizadas con las siguientes especificaciones: ü
No se adjudican cuotas de ningún tipo para la selección de las personas a entrevistar.
ü
La única consigna que reciben los encuestadores es “entrevistar a la mayor cantidad de personas posibles durante un tiempo determinado” (por ejemplo tres horas).
ü
Por costumbre, un encuestador de la consultora A decide pararse en la mitad de una cuadra de una calle peatonal sumamente concurrida (por ejemplo Florida). En esa posición entrevistará a las personas que pasen estando él libre, y accedan a ser entrevistados.
ü
Otro encuestador de la consultora B decide recorrer la misma cuadra de una esquina a la otra, entrevistando a aquellas personas que se crucen con él estando libre (y accedan a hacerlo).
ü
Suponiendo que la entrevista de cada consultora dura lo mismo (por ej. 10 min.), y que la tasa de acceder a la entrevista es también igual para cada encuestador, ¿cuál de los encuestadores entrevistará a más personas en las tres horas de trabajo?
Respuestas: Sin entrar en detalles que requerirían otras especificaciones previas (densidad de los transeúntes, cambios en la densidad y movilidad a través de las tres horas, etc.), y suponiendo que todo permanece constante durante el tiempo de trabajo, sólo debe agregarse otro supuesto: La velocidad del encuestador B al caminar de una esquina a la otra es igual a la velocidad de los transeúntes. Con las condiciones dadas, no existe ninguna razón para pensar que alguno de los encuestadores puede realizar más entrevistas que el otro. Mientras que el encuestador A ve pasar a todas las personas que circulan por la cuadra, el encuestador B ve pasar solamente a los que vienen de frente, pero al doble de velocidad, y cuando vuelve sucede lo mismo pero en sentido contrario. •
En resumen: en las tres horas de trabajo, los dos encuestadores enfrentan a la misma cantidad de personas, y si la tasa de entrevista es la misma, realizan (o deberían realizar), igual cantidad de entrevistas.
11. ¿ Cuál es la forma de estimar la cantidad de peces que hay en un lago ? Este tipo de problemas es bastante frecuente en las ciencias naturales (cantidad de bacterias en un cierto espacio, cantidad de microbios en un cuerpo, cantidad de animales de un cierto tipo en un ambiente selvático, cantidad de glóbulos rojos en la sangre, etc.), y la particularidad que tiene es que consiste en calcular la cantidad de “unidades no fijas o movibles” existentes en una superficie o volumen determinado. Respuesta: 8
Se debe recurrir al denominado “Método de Captura y Recaptura”. La particularidad de que las “unidades” en estudio no están fijas (como sería el caso de cantidad de árboles de un bosque, o cabellos de una cabeza), sino que se mueven permanentemente en el espacio a muestrear; agregado a que no se dispone fácilmente del volumen (o superficie) total (aunque se podría calcular estimando previamente la profundidad promedio del lago). Una de las pocas formas de resolver estimativamente este tipo de problemas, es recurriendo al “Método de Captura y Recaptura”, en este caso de peces. Este sistema consiste en extraer una muestra importante de peces, reponerlos “marcados” con algún sistema que no influya en su vida en el lago, y luego de un tiempo volver a seleccionar otra muestra relevante de peces del mismo lago, controlando cuantos de ellos son de los “marcados”. Calculando la inversa de la proporción de peces “marcados” que se obtienen en la recaptura, se estima la cantidad total de peces del lago. Esto se debe a que suponiendo aleatorización total de la segunda muestra, puede suponerse que la proporción de peces marcados debe ser representativa de la población de los peces del lago. Expandiendo los resultados de la segunda muestra (por regla de tres simple), se tiene: N (cantidad total de peces)= (n1 . n2 ) . (1/ n2k ) Donde: N: Población. Cantidad total de peces en el lago. n1 : Primera Muestra de peces extraída del lago (o de fichas de la caja 1). n2 : Segunda Muestra de peces extraída del lago. n2k: Cantidad de peces “marcados” en la segunda Muestra extraída del lago.
Técnicas de Muestreo – Muestreo Probabilístico 12. Uso de Tablas de Números al Azar. a) Manejo de Tablas. Selección Aleatoria de una Muestra de 5 Números de un dígito Con Reposición (CR). b) Ídem Sin Reposición (SR). c) Ídem a) y b) pero con Números de 4 dígitos. d) Uso de la Planilla Excel para selección de Números Aleatorios entre 0 y 1. Seleccionar una Muestra de 10 Números. e) Uso de la Planilla Excel para selección de Números Aleatorios entre 1 y 1.000. Seleccionar una Muestra de 10 Números. 13. En una empresa de investigación de mercados se diseña una muestra a partir de la Guía Telefónica, seleccionándose al azar 10 personas cuyos apellidos comiencen con A, otras 10 cuyos apellidos comiencen con B, y así para cada una de las letras del alfabeto (supongamos que son 26 letras), obteniéndose en total una muestra de 260 personas. a) Suponiendo que todas las personas figuran en la Guía Telefónica, ¿ qué método de muestreo se utilizó ?
9
b) ¿ Puede decirse que cada una de las personas de la Guía, tuvo la misma probabilidad de ser elegida ? c) Con este tipo de Muestra: ¿ Qué tipo de sesgo o vicio se ocasiona ? (de diseño o selección; de no respuesta; o de respuesta “tendenciosa” o incorrecta) d) Suponiendo que no todas las personas figuran en la Guía Telefónica, debido a que algunos de ellos por pedido expreso fueron eliminados: ¿ Se tiene el mismo sesgo anterior o es diferente ? Respuesta: e) Una muestra de 10 de cada letra inicial, podría provenir de suponer que cada letra es un Estrato, y se extrae el mismo tamaño de Muestra de cada uno. f) NO, ya que cada letra inicial tiene cifras muy diferentes de personas, lo que genera distintas Tasas de Muestreo y probabilidades para cada letra. g) Si se supusiera que las personas con apellidos de iniciales diferentes tienen distintas opiniones, se comete un error de diseño o selección. h) Si no todas las personas figuran en la Guía Telefónica, se introduce además un sesgo de cobertura o de marco muestral no coincidente con la población de referencia. Es decir que el Dominio es distinto a la Población en estudio. 14. ¿ Cuál es la forma de estimar la cantidad de cabellos que tiene la cabeza de una persona ? Este tipo de problemas es bastante frecuente en diversas actividades, ya que consiste en calcular la cantidad de “unidades fijas” existentes en una superficie determinada. Por ejemplo, determinar la cantidad de árboles de un bosque, o las viviendas de una ciudad, etc. Se requiere describir el Diseño Muestral a utilizar, para cada uno de los siguientes casos: a.
Muestreo Aleatorio Simple (MAS) (describiendo como sería la forma de estimar la cantidad de cabellos).
b.
Muestreo Sistemático (MS)
c.
Muestreo Estratificado (MAE)
d.
Muestreo por Conglomerados (MC)
Respuestas: a. Con MAS: Describir el Diseño Muestral. En realidad, bajo ciertos supuestos, es uno de los problemas más simples del Muestreo, ya que el Estimador a aplicar es el de “Simple Expansión” que no es otra cosa que una regla de tres simple. Suponiendo que la cantidad de cabellos se distribuye en forma homogénea o con igual densidad en toda la cabeza (lo que no siempre es aceptable), el problema consiste en calcular la cantidad existente en una superficie pequeña (por ej.: 1 cm cuadrado). Disponiendo de la superficie total de la parte de la cabeza con cabellos de la persona (S), todo consiste en aplicar una regla de tres simple: § Si en 1 cm 2 hay n1 cabellos § En S cm 2 habrá X cabellos = (n1 . S) / 1 ; (en una persona “normal” esta cifra da aproximadamente N = 150.000 cabellos).
10
Si se sabe que la densidad es diferente en las diversas partes de la cabeza, convendría seleccionar varios cm 2 , habiendo previamente identificado cada cm 2 de la cabeza (tal vez lo mas complicado de la técnica). Suponiendo una superficie de 1.000 m2 (N), si se extrae una Muestra de 20 cm 2 elegidos al azar, de la que resultan: n1 , n2 , …., n20 cabellos por cm 2 , el Estimador por MESE sería: § Si en 20 unidades de 1 cm 2 cada una hay
∑ n
= (n1 + n2 + ….+ n20 ) cabellos;
§ En S = 1.000 cm 2 habrá X cabellos = N .
∑ n
/ n.
20
i =1
i
20
i =1
i
El mismo criterio se aplicaría en el caso que se tuviese que calcular lo árboles de un bosque, las fallas en una pieza textil, las casas de una ciudad (mediante fotos aéreas), etc. b.
Con MS: Describir el Diseño Muestral. Si se sospechara que la distribución homogénea no sea aceptable, puede recurrirse a un MS, cuyo recorrido garantiza una cobertura mejor distribuida de la cabeza (mientras el salto no lleve la selección siempre a los bordes o siempre al centro de la cabeza). Previamente debería recuadrarse la cabeza (lo mas complicado del procedimiento), identificando los primeros k cuadrados, eligiendo uno de ellos al azar, e ir recorriendo los restantes en forma de “serpentina” hasta elegir los n que constituirán la Muestra. El Estimador sería similar al anterior.
c.
Con MAE: Describir el Diseño Muestral. En el caso que la distribución homogénea no sea aceptable, y se recurra a un MAE, la técnica de Muestreo y el Estimador se complican, ya que se debería dividir S en tantas partes o zonas como densidades distintas se tengan (Estratos), proponerse una regla de tres simple para cada zona, y finalmente combinar todas las estimaciones en un Estimador ponderado por la superficie de cada zona.
d.
Con MC: Describir el Diseño Muestral. Es un diseño que dificultosamente se pueda aplicar en este caso, ya que se debería tener la cabeza dividida en sectores (Conglomerados), todos con similares características, que combinen dentro de si las diversas densidades de cabellos. Si se lo lograra, con seleccionar uno de esos sectores al azar, contar los cabellos que contiene y multiplicar después por la cantidad de sectores, se lograría la estimación.
Métodos de Muestreo – Comparaciones y Estimaciones 15. Métodos de Muestreo – Comparaciones I Se tiene un Barrio de 9 unidades (familias) divididas en 3 grupos (Estratos) de 3 familias cada uno, y 3 Manzanas (Conglomerados) de 3 familias cada uno. Los valores de la variable cantidad de componentes del grupo familiar incluyendo al Jefe del Hogar (xhji), son los siguientes: Grupo o Estrato (h) I II III
Manzanas o Conglomerados (j) A B C 1 2 3 6 8
4 9
5 7
Suponiendo que se desea extraer una Muestra de 3 familias, para estimar el promedio de la variable xhi (cantidad de componentes de los grupos familiares), y la cantidad total de personas que componen la Población del barrio, determinar: 11
a) La cantidad de posibles Muestras diferentes, con MAS. b) La cantidad de posibles Muestras con MS si las unidades están ordenadas por Conglomerados (1º las de A, luego las de B y luego las de C)(identificar las muestras). c) La cantidad de posibles Muestras con MS si las unidades están ordenadas por Estratos (1º las del I, luego las del II y luego las del III)(identificar las muestras). d) La cantidad de posibles Muestras con MAE (identificar las muestras). e) La cantidad de posibles Muestras con MC (identificar las muestras). f) Seleccionar 5 muestras por MAS, y estimar con ellas el promedio de personas por vivienda, el total de personas del barrio, y los Desvíos Estándar de ambos Estimadores. g) Seleccionar todas las MS posibles con las familias ordenadas por Conglomerados, y estimar con ellas el promedio de personas por vivienda, el total de personas del barrio, y los Desvíos Estándar de ambos Estimadores. h) Seleccionar todas las MS posibles con las familias ordenadas por Estratos, y estimar con ellas el promedio de personas por vivienda, el total de personas del barrio, y los Desvíos Estándar de ambos Estimadores. i) ¿ Qué sucede si se pide lo mismo con las posibles MC ?
16. Métodos de Muestreo – Comparaciones II En la tabla adjunta, se dispone un Población de 12 letras clasificadas en dos Estratos (V y M), y tres Conglomerados (1, 2 y 3). Se indicarán varios casos de Muestra de 4 letras, y de acuerdo a aquellas que las compongan, debe indicarse que tipo de diseño muestral puede haberse aplicado, considerando los siguientes: ü MAS: Muestreo Aleatorio Simple
Estratos Conglomerados
V
M
1
A
B
G
H
2
C
D
I
J
3
E
F
K
L
ü MS: Muestreo Sistemático (horizontal)
ü MAE: Muestreo Estratificado (Proporcional) ü MC: Muestreo por Conglomerados Siendo: N = 12 y n = 4; las Muestras a analizar son las siguientes: a. Muestras a analizar Caso
Muestra
Además, responder las siguientes preguntas:
a)
C D
B
S
b)
A F
C
I
c)
C
D
G
L
d)
B C
J
K
b. ¿ Cuántas y cuá les son las posibles Muestras Sistemáticas que se podrían extraer ? c. ¿ Cuántas son las posibles muestras con cada uno de los otros tres métodos de Muestreo ? Analizar los resultados.
Respuestas: a) Las cuatro Muestras propuestas en la tabla anterior, pueden provenir de los siguientes métodos: 12
Caso
Método Muestral Posible
Muestra MAS
MAE
MS
MC
a)
C D
B
S
SI
SI
NO
SI
b)
A
F
C
I
SI
NO
NO
SI
c)
C
D
G
L
SI
SI
NO
NO
d)
B C
J
K
SI
SI
SI
NO
Es decir: §
la (a) solamente no puede provenir de un MS (pero si de cualquiera de los otros 3).
§
la (b) no puede ser ni de un MS ni de un MAE.
§
la (c) no puede ser de un MS ni de un MC.
§
la (d) no puede originarse en un MC .
En resumen: el único método que puede originar a cualquier Muestra es el MAS. b) Al fijarse una Muestra de 4 de una Población de 12, se tendrá un “salto” de: k = N / n = 12 / 4 = 3 Es decir que el “salto” será de una letra de cada tres (1 / 3). El k equivale también a la cantidad de posibles MS diferentes; es decir que son tres. Eligiendo el primer número al azar entre las tres primeras letras, y trasladándose en forma horizontal, las tres posibles muestras son: (A – H – I – F), (B – C – J – K) (planteada en el punto d) y (G – D – E – L). c) Las respuestas son: ü MAS: Las Combinaciones de 12 tomadas de a 4: 495 muestras posibles. ü MAE: Deben sacarse 2 de las 6 letras de cada Estrato: es decir las Combinaciones de 6 tomadas de a 2: 15 casos de cada Estrato; que se combinan a su vez entre sí, dando: 15 . 15 = 225 muestras posibles. ü MC: Las únicas muestras posibles son 3: cada uno de los 3 Conglomerados. En definitiva puede concluirse que el MAS cubre todas las posibles Muestras que pueden extraerse de una Población (incluyendo todas las del MS, MAE y MC), y que los tipos de Muestreo que más limitan la cantidad de posibles Muestras diferentes son el MS y el MC.
17. Métodos de Muestreo – Comparaciones III En el último Congreso del Instituto Internacional de Estadística (ISI), se inscribieron 1.697 personas, de las cuales en uno de los días se registra la concurrencia de 1.268 divididas en 20 conferencias y otras actividades paralelas. Los concurrentes de ese día fueron numerados en forma correlativa por un directivo que recorrió cada sala, obteniéndose la siguiente numeración: 13
Sala
Numeración
Sala
Numeración
Sala
Numeración
Sala
Numeración
Sala
Numeración
1
1 - 61
2
62 - 85
3
86 - 96
4
97 - 138
5
139 – 150
6
151 - 182
7
183 - 240
8
241 - 408
9
409 -510
10
511 – 544
11
545 - 789
12
790 - 816
13
817 - 824
14
825 - 870
15
871 - 892
16
893 - 960
17
961 - 1017
18
1018 – 1120
19
1121 - 1249
20
1250 - 1268
Se desea extraer una Muestra Sistemática de los concurrentes de ese día para determinar el grado de satisfacción y opinión sobre el Coloquio. Si se determina una fracción de muestreo de uno en cincuenta, responder las siguientes preguntas: a)
Esa razón de muestreo, ¿ garantiza que todas las salas/conferencias estén representadas ?
b)
¿ Cuál es el mayor valor de k que garantiza que todas las salas estén representadas en la muestra ?
c)
En ese caso, ¿ Cuál debería ser el tamaño de la muestra a observar (n) ?
d)
En el caso que se deseara una muestra en la que se tengan solamente dos personas de cada sala ¿ qué método debería utilizarse ?
Respuestas: a) NO. Ya que: k = 50 provocaría que varias de las salas sean salteadas totalmente, ya que tienen una concurrencia inferior a 50 (por ejemplo las salas: 2, 3, 4, etc.), y podrían no ser incluidas en la muestra con el “salto” de 1 en 50. b) Para que todas las salas estén representadas en la muestra, el salto más alto que garantice eso debe coincidir con el tamaño de la sala más pequeña, es decir 1 / 8 (es decir k = N / n = 1.268 / n = 8), ya que la sala que menos concurrentes tiene es la Nº 13 con esa cifra. c) El tamaño de la muestra debería ser n = 1.268 / 8 = 158,5 = 158 o 159 según cuál sea el número inicial con que se comience el salto sistemático. d) Se aplicaría una Muestra Estratificada con n = 40, y una distribución igual en cada Estrato.
18. Métodos de Muestreo – Comparaciones IV Determinar el método o técnica de muestreo que se aplica en los siguientes casos: a) Un camión que transporta 1.000 unidades de perfume, dispuestas en 50 cajones de 20
unidades cada uno. Para controlar su contenido, se selecciona una muestra de 5 cajones verificándose un parte de cada uno de los envases que ellos contienen. b) En un curso de 160 alumnos, el profesor elegirá 10 de ellos, ordenándolos por sus números
de legajos, seleccionando uno al azar de los primeros 16, y contando a partir de ese, uno de cada 16. c) En el mismo caso anterior, el profesor decide entrevistar a los primeros 10 que lleguen a la
clase. Respuestas: a) Se utiliza un Muestreo por Conglomerados donde cada cajón es un conglomerado. b) Se utiliza un Muestreo Sistemático con k = 16 y n = 10. 14
c) No es una muestra aleatoria. Entraría dentro de la categoría de muestreo “intencionado”, no probabilístico. 19. Muestreo y Análisis Exploratorio de Datos Ø Se tienen tres Poblaciones (A, B, C), cada una de ellas clasificadas en dos Estratos (1 y 2). Ø El tamaño de cada Población y cada Estrato es el siguiente: NA1 = 1.500; NA2 = 4.500; NB1 = 1.200; NB2 = 1.400; NC1 = 2.500; NC2 = 2.600. Ø La distribución de cada Estrato de cada Población se presenta en los Diagramas de Caja que se disponen a continuación: Escala de la variable Estrato 1 Población A Estrato 2 Estrato 1 Población B Estrato 2 Estrato 1 Población C Estrato 2 De esas Poblaciones, se extraerán Muestras con el fin de realizar estimaciones respecto a la variable involucrada, disponiéndose para ello de los siguientes posibles Diseños Muestrales: I. Muestreo Simple al Azar. II. Muestreo Estratificado con tamaños de muestra iguales para cada Estrato (ni constante para todo i). III. Muestreo Estratificado con tamaños de muestra proporcionales para cada Estrato (ni proporcional a cada Ni). Teniendo en cuenta esa información, determinar: a) ¿ Para cuáles de las Poblaciones son comparables los Diseños Muestrales I y II ? b) ¿ Para qué Población es mejor el Diseño Muestral II ? c) ¿ Para qué Población es mejor el Diseño Muestral III ? Respuestas: a) Los Diseños Muestrales I y II son comparables o no presentan diferencias sustanciales en
la Población de tipo B. b) El Diseño Muestral II es el más acorde a la Población de tipo C. No obstante ello, el
Diseño III debería dar resultados equivalentes. c) El Diseño Muestral III es el más acorde a la Población de tipo A.
15
20. Previo al censo a realizarse en el año 2010, para mediados de ese año se quiso estimar la cantidad de habitantes de un conjunto de 50 ciudades. Para hacerlo se las separó en 2 grupos, de acuerdo a las cifras del censo de 2001, dividiéndoselas de acuerdo a la cantidad de habitantes registrada en ellas de la siguiente forma : Grupo (h)
Características Ciudades 2001
Cantidad
1
Ciudades de X o más habitantes
10
2
Ciudades con menos de X habitantes
40
TOTAL
50
Del conjunto se extrae una Muestra de 20 ciudades y se las encuesta, obteniéndose los siguientes resultados (siendo xhi = cantidad de habitantes de la ciudad i en el grupo h): Grupo (h)
nh
Σ xhi
Σ x2hi
1
4
120
4.200
2
16
80
800
TOTAL
20
200
5.000
a) Con las cifras de estas 20 ciudades (expresadas en miles), estimar la cantidad de habitantes de las 50 ciudades y la dispersión de esa estimación. b) Ídem (a) para cada uno de los 2 Grupos en que se dividieron las ciudades.
c) Calcular los Coeficientes de Variación de cada una de las Estimaciones.
21. Una empresa tiene 1.200 empleados de los cuales 1.000 son hombres. Para una consulta muestral en la que interesa discriminar los resultados por sexo se seleccionan 100 hombres y 100 mujeres (muestra total: 200 personas). Responder los siguientes planteos: a. ¿ Qué tipo o técnica de Muestreo se está aplicando ? b. Para obtener resultados de la totalidad de los empleados, ¿ pueden ponderarse las respuestas por 6 ? (1.200 / 200 = 6). ¿ Porqué ? c. Si así no fuese, ¿ cuáles deben ser los factores de expansión a utilizar ? Respuestas: a) Es un Muestreo Estratificado con muestras de igual tamaño para cada Estrato. b) Habiéndose aplicado ese tipo de muestreo, no pueden ponderarse las respuestas por 6, ya que se aplicaron Tasas de Muestreo diferentes en cada Estrato. c) Las Tasas de Muestreo fueron: TMV = 100 / 1.000 = 1 / 10; TMM = 100 / 200 = 1 / 2. los Factores de Expansión son sus inversas: FEV = 10; FEM = 2.
Censo, Muestras y Técnicas Muestrales - Comparaciones 22. SITUACIÓN § Una ciudad consta de 600 manzanas que han sido zonificadas en 6 zonas (I a VI). Cada una de esas 6 zonas tiene diferentes características, las que han sido codificadas con letras (A a Z), utilizándose para cada manzana una letra de acuerdo a sus particularidades sobresalientes. La 16
letra …. corresponde a las manzanas en las que existe por lo menos un Centro Asistencial para la Salud, los que deben ser cuantificados. PRESENTACIÓN § Disponer en una transparencia o diapositiva, una cuadrícula de 30 filas x 20 columnas que represente a las 600 manzanas de esa ciudad. Cada cuadro es identificado con la letra que caracteriza a las manzanas. A partir de esa cuadrícula de 600 casilleros (Ver APÉNDICE 1): a. Se realizará un Censo de las manzanas con Centros Asistenciales (es decir letras ….), reproduciendo las características que usualmente se tienen en esos casos, es decir: con recursos escasos y restricciones de tiempo. Cada participante realizará su propio Censo y registrará la cantidad de letras …. que encuentre en un minuto. b. También se realizarán estimaciones de la cantidad de manzanas con Centros Asistenciales (es decir cuadros con letras ….), a través de Muestras de diversos tipos (MAS, MS, ME y MC). Todas las muestras serán de 30 manzanas. Los criterios a utilizar serán: I.
Para el Muestreo Aleatorio Simple (MAS), seleccionar 30 Nros. aleatorios con el Excel (o una tabla de Nros. al azar). Cada participante realizará su propia Muestra, y estimará con ella la cantidad de …. de la cuadrícula.
II. Para el Muestreo Sistemático (MS), algunos seleccionarán 1 de cada 20 manzanas, recorriéndolas por filas, de izquierda a derecha, seleccionando la 1ª al azar de 1 a 20. III. Otros harán el recorrido por columnas de arriba hacia abajo con la misma mecánica. IV. Otros recorrerán en forma de serpentina, dentro de cada Zona desde la I a la VI, siempre eligiendo la 1ª al azar en la Zona I. V. Para el Muestreo Estratificado (MAE) se seleccionará una Muestra de 5 en cada una de las 6 Zonas (las que constituyen Estratos), haciéndolos algunos al azar, y otros sistemáticamente. VI. Para el Muestreo por Conglomerados (MC) se deberán definir Conglomerados de diversas formas, y cada uno aplicará alguna de ellas. c. Comparar los resultados de las diversas Muestras, obtenidas todas con criterios y esquemas diferentes, analizando especialmente: ü
¿ Cuántas son las Muestras posibles con cada tipo de Muestreo ?
ü
¿ Cuáles Muestras tuvieron menos error ?
ü
¿ Se puede tener una idea de la precisión en cada caso ?
La Población de letras se incluye como APÉNDICE 1 de esta Guía.
17
Métodos de Muestreo – MAS – Estimaciones – Dispersiones 23. Durante el último Censo Económico de 2004, en una localidad de la Provincia de Entre Ríos se censaron 32.000 comercios. A comienzos de este año, a partir de la base de datos construida con las respuestas al censo, se obtuvo una MAS de 400 comercios entre los que se obtuvo la siguiente información: ü 50 de los censados en 2004 ya no existían más. ü Los empleados de los comercios detectados ascendían a 1.000 personas. ü Los dedicados a artículos alimenticios eran 80. ü Las ventas de estos últimos el año anterior fueron de 16 millones de $. ü Las ventas totales de la muestra durante el año anterior alcanzaron 120 millones de $. A partir de esta información muestral, estimar: a) b) c) d) e) f)
¿ Cuántos de los 32.000 comercios censados en 2004 se dedicaban al rubro alimentos?. ¿ Qué cantidad de empleados tenían ?. La cantidad de comercios que ya no existen más. ¿ Cuál hubiese sido el monto total de las ventas de la población de comercios en el año anterior. El porcentaje de comercios que siguen existiendo actualmente. El promedio de ventas de los comercios alimenticios.
24. En la sede de un Banco de relevancia, se desea hacer un estudio con respecto al café que consumen sus empleados. Del total de 405 que allí se desempeñan, se selecciona una Muestra Simple al Azar (MAS) de 31, consultándoselos en relación a la cantidad de pocillos de café consumidos en una jornada. Los resultados obtenidos se observan en la siguiente tabla:
yi
fi
Donde:
0
9
yi = Cantidad de pocillos de café consumidos en una jornada.
1
5
fi = Cantidad de empleados que consumen esa cantidad de pocillos de café.
2
6
En base a esa información se requiere calcular:
3
5
a.
4
3
La estimación del Promedio de pocillos de café consumidos por empleado en la jornada; el Desvío Estándar y el Coeficiente de Variación (CV) del Estimador.
5
2
b.
6
1
Estimar el Total de pocillos de café consumidos por todos los empleados del Banco en la jornada; el Desvío Estándar y el CV del Estimador.
c. d.
Estimar el Porcentaje de empleados que no toman café, el Desvío Estándar y el CV del Estimador. Estimar el Total de empleados que toman 1 o más pocillos de café; el Desvío Estándar y el CV del Estimador.
Respuestas / Resultados
yi = Es la cantidad de pocillos de café (pc) consumidos en la jornada por el empleado i ésimo. 18
Al no tenerse ninguna consigna en contrario, las estimaciones se realizarán mediante el Método de Estimación de Simple Expansión (MESE).
c.
yi
fi
yi. f i
yi2 . f i
0
9
-
-
1
5
5
5
s 2 = (208 / 30) – 1,93552 . (31 / 30) = 3,06 pc2 σˆ 2( yˆ ) = [(405 – 31) / 405] . (3,06 / 31) = 0,091 pc2
2
6
12
24
σˆ ( yˆ ) = 0,302 pc ;
3
5
15
45
CˆV(yˆ)%= (0,302 / 1,9355) . 100 = 15,6 %
4
3
12
48
5
2
10
50
σˆ 2 ( yˆ ) =
= 4052 . 0,091 = 14.963,11 pc2
6
1
6
36
σˆ 2 ( yˆ ) =
122,32 pc
Total
31
60
208
CˆV(yˆ)%= (14.963,11 / 783,88). 100 = 15,6 %
pˆ = (9 / 31) = 0,29 σˆ 2 ( pˆ ) =
;
a.
b.
y = (60 / 31) = 1,9355 pc
yˆ = 405 . 1,9355 = 783,88 pc
;
pˆ % = (9 / 31) . 100 = 29,035 % de los empleados no toman café
[(p . q) / n] . [(N-n) / N] = [(0,29 . 0,71) / 31] . [(405-31) / 405] = 0,6133
σˆ 2 ( pˆ %) = 0,6133 . 100 = 61,33 %
σˆ ( pˆ ) = 0,0783
;
σˆ ( pˆ %) = 7,83%
Cˆ V ( pˆ )% = (7,83 / 29,035) . 100 = 27,0 %
d.
Nˆ A = 405 . (1 – 0,71) = 287,42 empleados no toman café 2 2 σˆ 2 NA = [(N-n) / N]. [(p . q) / (n-1)] . N = [(405-31) / 405] . [(0,29 . 0,71) / 30] . 405 = 1.040,33
σNA = σˆ ( aˆ ) = 32,25 pc
;
CVp = Cˆ V ( aˆ ) = (32,25 / 287,42) . 100 = 11,22 %
Utilización de las Muestras: Estimación y Verificación 25. En un estudio sobre desnutrición infantil, se tomaron aleatoriamente 225 niños con las condiciones necesarias para el estudio, cuya altura promedio dio 0.85 m. con una variancia de 0.09 m2. Si se sabe que la altura se distribuye en forma normal, determinar un intervalo de confianza para la altura promedio de los niños con un nive l de confianza del 95 %.
26. En una investigación se desea estimar el porcentaje medio de incremento de sacarosa en la caña de azúcar luego de habérsele aplicado un producto compuesto con sales de molibdeno y otros metales que tienden a inhibir procesos enzimáticos. Para llevar a cabo la experiencia, fueron seleccionadas 37 plantas de caña de azúcar a las cuales se les aplicó el producto, obteniéndose una media de 0,84 por ciento y una desviación de 0,18 por ciento. Sabiéndose que la distribución de la variable en estudio (incremento de sacarosa en la caña de azúcar), tiene distribución normal, analizar si es posible realizar lo solicitado con esta información. 19
27. Intentándose realizar la medición del producto bruto del sector servicios del Partido de Baradero, a partir del último Censo Económico realizado (2004), se seleccionó una muestra MAS de 600 establecimientos de ese tipo, encontrándose que 80 de ellos ya no existían. Si la totalidad de establecimientos de servicios censados fue de 23.520, estimar puntualmente y por medio de un intervalo de confianza del 99 %, la cantidad de establecimientos censados que ya no existen.
28. En un barrio de la ciudad de Buenos Aires, la cantidad de familias que lo habita es de aproximadamente 20.000. De ellas se extrae una muestra de 500 familias con el objeto de realizar un estudio de opinión en relación a la calidad de un producto y el precio que se estaría dispuesto a abonar por el mismo. Los resultados de la misma proveen la información del siguiente cuadro. Con ella responder las preguntas que se agregan a continuación: Opinión sobre el Producto • Muy Bueno • Bueno • Regular
Muestra a) Estimar puntualmente por MESE la cantidad de familias que opinan que el producto es Malo. Familias b) Calcular un intervalo de confianza del 90 % 50 para estimar la proporción de familias que 200 consideran la calidad como “ Bueno ”. 150 c) ¿ Qué sucedería con el intervalo si el riesgo fijado
• Malo
75
• Sin Opinión
25
fuese del 15 % ?. d) ¿ Y qué sucedería con el intervalo si la muestra hubiese sido de 200 familias ?.
e) Estimar con un nivel de riesgo del 5 % la cantidad de familias del barrio que creen que la calidad del producto es “Malo”. f) ¿ Qué sucedería con el Intervalo si la población del Barrio fuese de 200.000 familias ?.
29. Algunas variedades nacionales de papa que se conservan comúnmente en pilas cubiertas de chala, y al estimar su rendimiento debe considerarse que las papas conservadas a la intemperie sufren una merma. Se parte del supuesto de que esa merma es de alrededor del 18 %. Al realizarse un ensayo, de las 150 papas empleadas sólo 22 resultaron estar en mal estado. A un nivel de significación del 10 %, ¿ es factible mantener el supuesto respecto a la proporción de papas en mal estado ?
30. Una empresa constructora de quinchos, realiza un estudio en la zona oeste del Gran Buenos Aires, relativo a la superficie promedio de los quinchos existentes. Un informe de dos años antes, indicaba que la superficie tenía una distribución aproximadamente normal. Para estimar ese parámetro y la variancia con un grado de confianza del 90 %, se selecciona una muestra de 16 casas con la que se estima que la media de superficie es de 30 m2 y el desvío estándar de 6 m2. a) Estimar la superficie promedio por MESE. b) Estimar la dispersión del estimador.
20
31. Las dimensiones de una pieza que ha de ser acoplada a otras para montar una máquina completa son especificadas como de distribución Normal con una media de 2,5 mm. Si la pieza es demasiada corta o muy larga, no encaja. El gerente de planta decide continuar con el proceso de montaje a menos que se encuentre una evidencia sustancial de que la dimensión media no es de 2,5 mm. Si en base a la evidencia muestral la afirmación es estadísticamente aceptable, entonces se asume que el valor promedio es de 2,5 mm y se deja que el proceso continúe. En cambio, si la afirmación no está apoyada por la evidencia muestral, el gerente de la planta puede decidir detener el proceso para llevar a cabo los ajustes necesarios. En base a estas consideraciones: ¿ Cuál sería el asesoramiento Estadístico que se le daría al Gerente que debe decidir si el proceso continúa en operación o no ?
32. En el planteo anterior, supongamos que se extrae una muestra de 144 piezas (de las que se acoplan con las restantes), y con ellas se calcula la dimensión media en 2,44 mm y una dispersión de 0,06 mm. ¿ Cuál debe ser la decisión del Gerente de planta ?, ¿ seguir con el proceso o detenerlo para hacer ajustes ? Hacer la comprobación con un nivel de confianza del 99 %. Respuestas / Resultados El proceso productivo debe ser detenido para hacer los ajustes correspondientes, ya que se rechaza la H0 ) µ = 2,5 mm.
33. En una estación de TV se considera que la proporción de televidentes de una serie que se proyecta en el horario de la tarde no es superior al 2 %. Para verificar tal afirmación en una consultora de verificación de audiencias se extrae un MAS de 100 televidentes, encontrándose que veían la serie en una proporción del 5 %. Verificar la hipótesis de la estación televisora con un nivel de confianza del 90 %.
34. En una región de la provincia de Santa Fe, históricamente la cosecha promedio de maíz fue de 5,4 toneladas por ha. Para un año dado en el que el clima no fue particularmente bueno, se seleccionaron en forma aleatoria para la misma variedad de maíz 9 parcelas, las que arrojaron una cosecha promedio de 5,2 toneladas por ha. y una desviación estándar de 0,43 toneladas. Si se adopta que la producción por ha. se distribuye en forma normal, a un nivel de significación del 0.05, ¿ existe alguna razón para creer que este año la producción será inferior que la producción promedio normal ?
35. Un torno debe ser reajustado cuando el promedio de la medida de sus piezas producidas difiere significativamente de 20 cm. Adoptando que dicha medida tiene una distribución Normal, y que tomando una muestra de 25 piezas se obtuvo una media de 20,9 cm. con una desviación estándar de 1,3 cm., trabajando con un nivel de error del 1%: a. ¿ Puede decirse que la máquina debe reajustarse ? b. Y si la muestra hubiese sido de 250 piezas, ¿ cambiaría la conclusión anterior ? c. Y si la Variancia hubiese sido de 4 cm2 , ¿ podría cambiar la conclusión del punto a) ?
21
d. Y si la media de la muestra del planteo hubiese sido de 19,1 cm, ¿ cambiaría la conclusión del punto a) ? e. Y si la media de la muestra del planteo hubiese sido de 20,1 cm, ¿ podría cambiar la conclusión del punto a) ? Respuestas / Resultados a. Debe reajustarse (ya que se Rechaza H0 ). b. No (ya que una mayor muestra disminuye la dispersión del estimador y se agranda la zona de Rechazo de H0 ). c. Si (ya que una mayor dispersión achica la zona de Rechazo de H0 ). d. No (ya que se mantiene igual o similar la zona de Rechazo de H0 ). e. Si (ya que se aleja el valor muestral se aproxima al que se está comprobando, y se aleja de la zona de Rechazo de H0 ).
36. Un fabricante de televisores afirma en su póliza de garantía que en el pasado solo un 10 % de sus aparatos de televisión necesitaron reparación durante sus primeros dos años de operación. Con el fin de probar la validez de esta afirmación, la Agencia de Defensa del Consumidor selecciona por MAS una muestra de 100 aparatos de televisión adquiridos en los últimos dos años, y encuentra que 14 de ellos requirieron alguna reparación en su operación. ¿ Cuál sería la conclusión de la Agencia, trabajando con un nivel de riesgo del 5 % ?
Determinación del Tamaño de la Muestra (n) en MAS 37. En una empresa dedicada a la fabricación de lámparas eléctricas, se utiliza un procedimiento industrial mediante el cual, las lámparas de 100 w resultaban tener en su duración una distribución Normal cuya media era 500 horas, con un desvío estándar de 80 horas. Habiendo pasado tres meses del último mantenimiento a fondo efectuado en la línea de producción, se desea estimar la duración media con un error máximo en la prueba del 2 % de la duración, con un nivel de confianza del 95 %, para lo cual de la producción total de un día se extraerá una MAS. a) ¿ Cuál deberá ser el tamaño de la muestra a extraer ? b) ¿ Que sucede con la muestra si se acepta que el error en la estimación a realizar sea de 20 horas ? c) ¿ Y si el nivel de confianza se fija en el 98 % ?, ¿ La muestra a observar deberá ser mayor o menor ? d) ¿ Y si la distribución de las lámparas no hubiese sido Normal ?, ¿ Serían válidas las conclusiones de la muestra del caso (a) ? e) ¿ Y si se adopta que la producción del día (10.000 lámparas) es el total de la población a trabajar ?, ¿ hubiese cambiado el tamaño de la muestra del punto (a) ?
38. Los responsables del Sector de Abastecimiento de un Centro Comercial del oeste del Gran Buenos Aires, necesitan estimar el monto total que las familias de su zona de influencia, destinarán a los gastos de artículos de librería y afines durante el segundo trimestre del año. Para hacerlo deben determinar el tamaño de la muestra de familias a encuestar, sabiendo que el total de las mismas (las que habitan su zona de influencia), es de aproximadamente 4.000, y 22
que el año anterior el promedio de los gastos del mismo trimestre fue de $ 180 por familia y la dispersión llegó a los $ 50. a. La estimación se la quiere realizar con un nivel de confianza del 95 %, e intentando que la estimació n difiera del monto total desconocido en menos del 10 %. b. ¿ Cuál hubiese sido el tamaño de la muestra si el barrio hubiese tenido 40.000 familias ? c. ¿ Cuál hubiese sido el tamaño de la muestra si la dispersión poblacional hubiese sido mayor que la verificada el año anterior ? (por ejemplo $ 100). d. ¿ Cual hubiese sido la muestra requerida si el nivel de confianza hubiese sido de sólo el 80 %? e. Y en el caso de que se pidiera hacer la estimación con menor error (por ejemplo sólo el 5 % del total del año previo), ¿ qué pasaría con el tamaño de la muestra ? Respuestas a. La información disponible es la siguiente: §
N =
4.000 familias
§
σx =
50 $
§
1-α
=
§
d
=
0,95
?
k = 1,96
10 % de 4.000 . 180 $ = 72.000 $ (se parte del supuesto que el promedio por familia es similar al del año anterior)
Con ella se debe calcular el tamaño de muestra: n = (N 2 .k2 .σ2 )/[d2 +( N2 .k2 .σ2 )/N] =4.0002 .1,962 .502 /[72.0002 +(4.0002 .1,962 .502 /4.000)]= =153.664.000.000 / (5.184.000.000 + 153.664.000.000 / 4.000) = = 153.664.000.000 / 5.184.000.000 + 38.416.000 = 153.664.000.000 / 5.222.416.000 =29,4 ~ 30 familias (para el tamaño de n siempre se redondea hacia arriba) El tamaño de muestra obtenido no puede ser considerado “grande”, con lo cual no sería posible llevarlo adelante, ya que a partir de esa muestra no sería factible adoptar que el estimador del total que con ella se calcule, tiene una distribución Normal (supuesto implícito al utilizar el valor de k de esa función). Una opción es que la población original tuviera distribución Normal, condición desconocida y no aceptable al trabajarse con los gastos familiares (en librería o en lo que sea), distribución usualmente asimétrica. b. Al ser mayor la Población de referencia, la muestra necesaria debe ser también mayor (verificarlo algebraicamente), pero, como se lo mencionó en el ejemplo del punto anterior, puede comprobarse que pese a que la población es 10 veces mayor el tamaño de muestra no crece proporcionalmente (y según el tamaño que se obtenga será válida o no). Puede comprobarse fácilmente que suponiendo el caso de N extremo (es decir considerándolo infinito), en este caso se aplica la fórmula de n simplificada: n = (N 2 .k2 .σ2 ) / d2 =4.0002 .1,962 .502 /72.0002 = 153.664.000.000 / 5.184.000.000 = 29,64 ~ ~ 30 familias es decir que si considerando el caso de N máximo prácticamente la muestra no se modifica, tampoco lo hará con N = 40.000.. c. Una dispersión mayor hubiese requerido lógicamente una muestra mayor que la represente (verificarlo algebraicamente). d. Razonablemente, a menor exigencia en grado de confianza, la muestra a obtener debe ser menor (verificarlo algebraicamente). 23
e. A menor error en la estimación pretendida, es lógico que la muestra tenga que ser mayor (verificarlo algebraicamente).
39. En el mismo problema del Sector de Abastecimiento del Centro Comercial del oeste del Gran Buenos Aires (Nº 38), se necesita estimar la proporción de personas que realizan compras entre la totalidad que ingresa cada fin de semana. La estimación se la quiere realizar con un nivel de confianza del 90 %, y de modo que el valor resultante no supere el 5 % en más o en menos de la proporción real desconocida. a. Determinar el tamaño de muestra con el que se puedan satisfacer los requisitos fijados, sabiendo que estudios realizados por una consultora en otros centros comerciales, sugieren que cerca del 30 % de los que ingresan a los mismos finalmente realizan alguna compra. b. ¿ Qué hubiese sucedido si se conocía que durante un fin de semana, las personas que ingresan al Centro Comercial son aproximadamente 5.000 ? c. ¿ Y si no se tuviese información sobre la posible proporción de personas que realizan compras entre las que ingresan al Centro comercial ?, ¿ se hubiese podido hacer algo ? Respuestas: a) La información disponible es la siguiente: §
N = personas que ingresan al Centro comercial por fin de semana: desconocida
§
p
=
0,30
?
q = 0,70
§
1-α =
0,90
?
k = 1,645
§
d
=
5%
§
N
= desconocida (cantidad de personas que ingresan al centro comercial el fin de semana)
Con ella se debe calcular el tamaño de muestra, donde al desconocerse N se puede aplicar la fórmula reducida: n = (k2 . p.q) / d2 = 1,6452 . 0,3 . 0,7 / 0,052 =2,71 . 0,21 / 0,0025 = 227,3 ~ 228 personas muestra que puede ser considerada suficientemente grande como para que el estimador de la Proporción tenga una distribución aproximadamente Normal. b) Al conocerse el tamaño tentativo de la Población, se debería utilizar la fórmula ampliada, la que debería proporcionar un tamaño de muestra algo menor al anterior (verificarlo algebraicamente). c) Ante un caso de determinación de tamaño de muestra en el que se dan condiciones para estimar una proporción, si se desconoce cual es tentativamente el valor de P (situación razonable ya que es lo que se desea estimar), lo que puede hacerse es ponerse en la “peor situación”, y que es suponer que la P es cercana a la mitad (es decir 0,50). Este supuesto es el que da un tamaño de muestra máximo, con lo cual se cubre sobradamente cualquier posible situación. Bajo ese supuesto, el tamaño de la muestra daría: n = 271 personas.
40. Continuando con el mismo problema anterior (Nº 38 y 39): el del Sector de Abastecimiento del Centro Comercial del oeste del Gran Buenos Aires): a. Si se tuviera como objetivo el estimar la cantidad de potenciales compradores de un fin de semana (es decir, cuántos de los que ingresan al Centro pueden resultar compradores), 24
para determinar el tamaño de la muestra de personas a observar, estamos ante el caso de tener que estimar “la Cantidad de Casos Favorables” (ya que las personas que ingresan al Centro durante el fin de semana pueden ser clasificados en “compradores” y “no compradores”). b. Suponiendo que se baja la pretensión del nivel de confianza, de modo que la estimación se cumpla en un 90 % de los casos. c. Además de lo anterior, en el Sector de Abastecimiento, deciden aceptar que la diferencia entre el estimador y el parámetro puede ser del doble (es decir d = 500 personas). Respuestas: a. Ante ello, los profesionales del Sector Comercialización deben suministrar los datos necesarios para hacer el trabajo, como por ejemplo: §
Total de personas que ingresan el fin de semana al Centro: ~ 10.000.
§
Proporción histórica de las personas que compran algo: desconocida (adoptaremos el supuesto de “peor situación”, es decir que el valor de P es cercano a 0,50.
§
Nivel de Confianza o Seguridad con el que se quiere trabajar (es decir la Probabilidad de que la estimación que luego se realice sea correcta): elevada = 99 % (esto determina que k = 2,575).
§
Amplitud del intervalo con el que se estimará la cantidad de potenciales compradores: 500 personas (podría haberse dado como una proporción cercana al 5 % del total de personas que ingresan al Centro). Siendo AM = 500 ; d = AM / 2 = 250 personas.
Con estas condiciones, la muestra debería ser: n = (N 2 . k2 . p.q) / [d2 + (N 2 . k2 . p.q) / N] = = (10.0002 . 2,5752 . 0,5 . 0,5) / [2502 +(10.0002 . 2,5752 . 0,5 . 0,5) / 10.000] = = (100.000.000 . 6,63 . 0,25) / [62.500 + (100.000.000 . 6,63 . 0,25) / 10.000 = = 165.765.625 / (62.500 + 16.576,5625) = 165.765.625 / 79.076,5625 = 2.096,27 ~ ~ 2.097 personas Visto el resultado obtenido (una muestra sumamente grande que supera el 20 % de la población que ingresa al Centro), es probable que se les deba decir a los profesionales del Sector de Abastecimiento que las condiciones impuestas resultan exageradas, y que si desean disminuir el probablemente elevado costo de hacer la muestra, deberían “suavizar” un poco los requisitos. b. En este caso, z = 1,645, lo que deriva en que: n = 67.657.002 / 62.500 + 6.765,7 = = 67.657.002 / 69.265,7 = 976,775 ~ 977 personas Es decir que con el cambio realizado en el nivel de confianza, la muestra disminuye a menos de la mitad. c. En esta posición: n = 67.657.002 / 250.000 + 6.765,7 =263,5 ~ 264 personas Con lo cual la muestra resulta 8 veces menos que la inicial y casi la cuarta parte de la anterior.
41. En la localidad de Rafaela (Prov. de Santa Fe), se realizará una investigación relativa al consumo de bebidas gaseosas. Específicamente, se extraerá un MAS de habitantes de modo que 25
se pueda estimar el gasto total de la población en ese tipo de productos, con un intervalo de confianza del 95 % cuya amplitud sea de $ 20.000. Se sabe que la dispersión del consumo es de $ 80, y que la población de referencia es de 10.000 personas. a) ¿ Cuál deberá ser el tamaño de la muestra a extraer ? b) ¿ Qué sucedería con el tamaño de la muestra si la dispersión hubiese sido de $ 100 ? c) ¿ Y si el nivel de confianza exigido fuese del 99 % ? ¿ Cómo hubiese incidido en el tamaño de la muestra ? d) ¿ Y si el error o diferencia aceptable entre estimación y parámetro se hubiese fijado en $ 8.000 ? (cómo cambiaría el tamaño de la muestra ? e) ¿ Y si la población de Rafaela fuera de 20.000 habitantes ? ¿ Influye eso en la muestra a seleccionar ? f) Si se quisiera estimar el porcentaje de habitantes que consumen habitualmente bebidas gaseosas, con un error no superior al 2 %, ¿ qué tamaño de muestra debería elegirse ?
42. Si en el planteo inicial anterior (Nº 41), se deseara estimar el gasto promedio de la población con un error máximo de $ 1, y un nivel de riesgo del 10 %, a)
¿ Cuál debería ser el tamaño de la MAS a observar ?
b)
¿ Y si la muestra será la realizada en forma Sistemática ? ¿ Cuál debería ser su tamaño ?
c)
Si se desconociera la dispersión del consumo de bebidas gaseosas, ¿ se podría haber determinado el tamaño de la muestra a extraer ?
43. El Grupo de Estudios Sociales (GES) de la Facultad de Ciencias Sociales de la UBA, desea estimar el salario medio mensual de los obreros de una gran empresa industrial utilizando una muestra. Siendo que la cantidad total de obreros es de aproximadamente 12.500, habiéndose fijado que la estimación se realizará con un riesgo del 1 %, con un error inferior o igual a 10 $, y suponiendo que la dispersión se mantiene como el año anterior en 125 $: a) Determinar la dimensión de la muestra de obreros a extraer. b) ¿ Cuál hubiese sido el tamaño de esa muestra si se desconocía la cantidad total de obreros de la empresa ? c) Calcular un nuevo tamaño de muestra si, ante el costo del trabajo de campo, en el GES se acepta un error en la estimación de 50 $. d) ¿ Qué pasaría con la muestra del punto (a) si estudios previos indican que la dispersión en realidad en de $ 100 ?
44. En el mismo caso anterior (Nº 43), se desea estimar con un intervalo de confianza el monto total de los salarios que se abona mensualmente en esa empresa, y se lo quiere hacer con un nivel de confianza del 95 %, y de modo que la amplitud del intervalo no exceda los $ 100.000. Calcular el tamaño de la muestra que satisfaga esas condiciones.
45. Una empresa dedicada a la producción de circuitos electrónicos simples, los agrupa en lotes de 6.000 unidades. Ante cada entrega sus clientes les devuelven los circuitos con fallas o defectos 26
de fabricación. Se desea iniciar un estudio sobre esos circuitos rechazados, para lo que se requiere conocer su magnitud (aspecto no recopilado hasta la fecha), aunque las especificaciones de los equipos utilizados para la producción indican que deberían ser cercanos a un 2 % de las unidades producidas. Si se adopta que un lote es una población, y se acepta estimar la cantidad de circuitos con fallas con un error máximo de 5 y un nivel de seguridad del 90 %: a) Calcular el tamaño necesario de muestra. b) ¿ Qué sucedería con esa muestra si los lotes fueran de 600 circuitos ? c) ¿ Qué sucedería con esa muestra si se acepta un error de hasta 10 circuitos ? d) Y si la confianza fuera del 98 %, ¿ Qué sucedería con la muestra ?
46. En la misma empresa anterior (Nº 45), se pretende estimar el porcentaje real de los circuitos fallados, y se lo quiere hacer con una probabilidad del 99 %, y una diferencia aceptable con lo especificado por las normas de fabricación de no más del 10 %. a) ¿ Cuál deberá ser la cantidad de unidades a controlar ? b) Si la muestra hubiese dado que se debían observar 100 unidades, y en ella se hubiesen obtenido 3 circuitos defectuosos, estimar el % de unidades defectuosas con un nivel de confianza del 99 %.
Método de Estimación por Razón (MERa) 47. Para analizar la eficiencia de un Estimador por Razón, es posible comparar con un ejemplo simple, los resultados de su Estimador del Promedio, en casos de asociaciones diferentes con la variable auxiliar: Se tienen 4 conjuntos de pares de datos: A – B – C – D. Para cada conjunto se tienen Muestras de 3 unidades sobre las que se miden las dos variables: yi ; xi . Los valores de yi son siempre los mismos, cambiándose los de xi para poder hacer las comparaciones (aunque su total no varía). Se agrega además para cada uno de los conjuntos el valor del Coeficiente de Correlación: A
yi
xi
2
B
yi
xi
1
2
4
2
8 TOTAL
14
Coef. Correl.
1 : Máxima Positiva
yi
xi
yi
xi
4
2
2
2
1
4
2
4
4
4
4
4
8
1
8
1
8
2
7
14
7
14
7
14
7
- 0.86 : Elevada Negativa
C
- 0,25 : Baja Negativa
D
0,02 : Muy Baja Positiva
Siendo que en todos los casos el Estimador por Razón da igual (en cada conjunto: R = 14 / 7 = 2), el cotejo de la eficiencia puede hacerse comparando las dispersiones de los Estimadores.
Respuestas N −n S2 > En el caso del MESE, el Estimador tiene la siguiente Variancia: σˆ 2 ( yˆ ) = . N n donde al desconocerse el N, se elimina el Factor de Corrección (es como si la Población fuese infinita o las Muestras se obtuvieran Con Reemplazo). 27
yˆ = 14 / 3 = 4,67 ;
Siendo para los 4 conjuntos:
n
∑
S 2 = 1 σˆ 2 ( yˆ ) = n n ( n − 1)
en este ejemplo sería:
2
y i – [ y 2 / (n-1)] =
i =1
1 . 84 – (4,672 / 2) = 3,1 3 .2
2 n ( y i − Rˆ . x i ) ∑ > La Variancia del Estimador del Promedio en el MERa es: σˆ 2 ( yˆ R ) = (1 − f ) . i =1 n ( n − 1 )
En esa expresión, la parte (1 − f ) . = 1 / 3 = 0,33 es constante; y la 2ª parte es lo que varía. n
Comparando para los conjuntos A, B, C y D lo que es variable de muestra en muestra multiplicada por el valor constante: ü
σˆA 2 ( yˆ R) =
0,33 . [ (2 – 2 . 1)2 + (4 – 2. 2)2 + (8 – 2 . 4)2] = 0,33 . 0 = 0
ü
σˆB 2 ( yˆ R) =
0,33 . [ (2 – 2 . 4)2 + (4 – 2. 2)2 + (8 – 2 . 1)2] = 0,33 . 72 = 24
ü
σˆC 2 ( yˆR ) =
0,33 . [ (2 – 2 . 2)2 + (4 – 2. 4)2 + (8 – 2 . 1)2] = 0,33 . 56 = 18,67
ü
σˆ
•
2 D
( yˆ R) =
0,33 . [ (2 – 2 . 1)2 + (4 – 2. 4)2 + (8 – 2 . 2)2] = 0,33 . 32 = 10,67
En el caso A (total correlación positiva entre las variables), la variancia del Estimador es nula, por lo cual el uso del Estimador por Razón permite una estimación perfecta, y naturalmente más precisa que la del MESE. σˆA
•
2
( yˆ R) =
0.
En el caso B, la elevada correlación inversa entre ambas variables, genera por el contrario un Estimador por Razón muy impreciso.
•
σˆB 2 ( yˆ R) = 24.
El caso C (de baja correlación entre las variables), también produce un Estimador por Razón muy inestable aunque mejor que el B.
•
(*)
σˆC 2 ( yˆR ) = 18,67.
Finalmente, el caso D, en que las variables casi no están correlacionadas (apenas positivamente con un CD del 14 %). σˆ
2 D
( yˆ R) =
10,67, tiene una precisión intermedia.
Salvo el caso A (con elevada relación positiva entre las variables), en los demás la Precisión de los Estimadores MERa es peor que la del MESE (En B y C por tenerse relación negativa, y en el D por baja relación positiva).
48. Se tiene una Población de N = 5 unidades (Manzanas: a, b, c, d y e), de la que se extraerá una Muestra de n = 3 manzanas. Para cada una, se dispone de las mediciones de dos variables: xi (cantidad de parcelas) e yi (cantidad de viviendas construidas).
2
n
(*)
(y La parte variable del Estimador es: ∑ i =1
i
− Rˆ .x i )
( n − 1)
28
Unidad
yi
xi
a
1
2
b
3
5
La cantidad de muestras posibles es C5,3 = 10.
c
4
6
Total variable yi : 23 ; Total variable xi : 34.
d
7
10
Promedio variable yi : 4,6 ; Promedio variable xi : 6,8.
e
8
11
Total
23
34
Promedio
4,6
6,8
Dado lo reducido de la Población y de la Muestra, se seleccionan todas las Muestras posibles, y con cada una se realiza una estimación del Total y del Promedio, por MESE y por MERa.
Respuesta 1
2
3
5
6
7
8
9
∑ xi
yˆ
yˆ
yˆ R
yˆ R
4 n
n
10
11
Desvío Total
Desvío Promedio
Muestras Posibles
yi
xi
∑ yi
a-b-c
1-3-4
2-5-6
8
13
13,33
2,67
20,92
4,18
-7,59
-1,51
a-b-d
1-3-7
2-5-10
11
17
18.33
3.67
22,00
4,40
-3,67
-0,73
a-b-e
1-3-8
2-5-11
12
18
20
4
22,67
4,53
-2,67
-0,53
a-c-d
1-4-7
2-6-10
12
18
20
4
22,67
4,53
-2,67
-0,53
a-c-e
1-4-8
2-6-11
13
19
21.67
4.33
23,26
4,65
-1,59
-0,32
a-d-e
1-7-8 2-10-11
16
23
26.67
5.33
23,65
4,73
3,02
0,6
b-c-d
3-4-7
5-6-10
14
21
23.33
4.67
22,67
4,53
0,66
0,14
b-c-e
3-4-8
5-6-11
15
22
25
5
23,18
4,64
1,82
0,36
b-d-e
3-7-8 5-10-11
18
26
30
6
23,54
4,71
6,46
1,29
c-d-e
4-7-8 6-10-11
19
27
31.67
6.33
23,93
4,79
7,74
1,54
Esperanza
23
4,6
22,85
4,57
Parámetro
23
4.6
23
4.6
i =1
i =1
( yˆ -
yˆR )
( yˆ -
yˆ R )
En la Tabla anterior se observan: ü
En las columnas 1, 2 y 3 se tiene: cada una de las Muestras de n = 3 manzanas, y los resultados de medir ambas variables en cada un de ellas.
ü
En las columnas 4 y 5 se tienen las sumas de los valores de cada Muestra para cada una de las variables: ∑x y ∑y n
i =1
ü
n
i
i =1
i
Las columnas 6 y 7 muestran los resultados de los Estimadores del Total ( yˆ ) y del Promedio ( yˆ ) de cada Muestra, obtenidos por el MESE.
ü
Las columnas 8 y 9 contienen los resultados de los Estimadores por Razón del Total (
yˆ R )
y
del Promedio( yˆ R). ü
Las columnas 10 y 11 presentan las diferencias o desvíos entre las Estimaciones por el MERa y sus Parámetros, para el Total y el Promedio.
Además de poder observarse todo el procedimiento de los Estimadores por Simple Expansión y Razón, al obtenerse todas las Muestras posibles que se pueden extraer, es factible comparar las Esperanzas de los Estimadores con sus Parámetros, observándose: 29
ü
El Parámetro Total es 23 (cantidad de viviendas construidas en las 5 manzanas), y el Promedio de viviendas por manzana es de 4,6.
ü
Se observa que los Estimadores por MESE son insesgados, ya que sus Esperanzas coinciden con los respectivos Parámetros.
ü
Los Estimadores por Razón son sesgados, ya que dan: para el Total: 22,85; y para el Promedio 4,57.
49. Tomando como referencia la Tabla elaborada en el caso anterior (Nº 48), al disponerse de todas las muestras posibles en un MAS y las Estimaciones generadas por los Estimadores, es posible también calcular y comparar las Dispersiones de los Estimadores. Respuesta: 1 2 Muestras Posibles
yˆ
3
4
5
yˆ
yˆ R
yˆ R (
6
7
Desvío Total
Desvío Promedio
yˆ - yˆR )
(
yˆ - yˆ R)
8 (
yˆ -23) 2/2
9 ( yˆ -4,6)2 /2
(
10
11
yˆR -23) 2 /2
( yˆ R -4,6)2 /2
a-b-c
13,33
2,67
20,92
4,18
-7,59
-1,51
46,75
1,86
2,16
0,09
a-b-d
18.33
3.67
22,00
4,40
-3,67
-0,73
10,90
0,43
0,50
0,02
a-b-e
20
4
22,67
4,53
-2,67
-0,53
4,50
0,18
0,05
0,00
a-c-d
20
4
22,67
4,53
-2,67
-0,53
4,50
0,18
0,05
0,00
a-c-e
21.67
4.33
23,26
4,65
-1,59
-0,32
0,88
0,04
0,03
0,00
a-d-e
26.67
5.33
23,65
4,73
3,02
0,6
6,73
0,27
0,21
0,01
b-c-d
23.33
4.67
22,67
4,53
0,66
0,14
0,05
0,00
0,05
0,00
b-c-e
25
5
23,18
4,64
1,82
0,36
2,00
0,08
0,02
0,00
b-d-e
30
6
23,54
4,71
6,46
1,29
24,50
0,98
0,15
0,01
c-d-e
31.67
6.33
23,93
4,79
7,74
1,54
37,58
1,50
0,43
0,02
Suma
230
46
228,5
45,7
Variancias
13,84
0,55
0,3666
0,0150
Promedio
23
4,6
22,85
4.57
Desvíos Estándar
3,72
0,74
0,6055
0,1225
En la Tabla anterior se tiene: ü
En las columnas 8 a 11 se incluyen las sumas de los desvíos al cuadrado de cada uno de los Estimadores del Total y del Promedio, con MESE y MERa, que permiten calcular en las últimas 2 filas las Variancias y Desvíos Estándar.
ü
Se aprecia que los Desvíos Estándar de los Estimadores por MESE (el del Total da 3,72 viviendas y el del Promedio 0,74 viviendas), son mucho más elevados que los de los Estimadores por MERa (el del Total da 0,61 viviendas, y el del Promedio 0,12 viviendas). En ambos casos, las dispersiones por Razón son 6 veces menos que las que se tienen por Simple Expansión.
Conclusiones: ü
Los Estimadores del MERa, si bien son sesgados respecto a los del MESE, son mucho más precisos, lo que se confirma con sus Dispersiones considerablemente menores.
ü
Esto es usualmente así, siempre que los MERa se obtengan con una variable auxiliar (la xi ), que tenga una razonable correlación con la variable de análisis (la yi ). En el caso de la población de 5 manzanas, las dos variables (x i :cantidad de parcelas - y i :cantidad de viviendas), tienen un coeficiente de correlación muy alto (0,9975). 30
ü
La Esperanza de la Variancia del Estimador yˆ R [E(
σˆ 2 ( yˆ ) ], es 0,007702. R
Aplicación del MERa utilizando una Planilla de Cálculo Excel 50. Con el fin de tener una aproximación a problemas más reales se realizará una aplicación comparando los Estimadores por MESE con los 3 del MERa, utilizando una Planilla de Cálculo Excel. En los puntos siguientes se analizará paso por paso, las diversas etapas a cubrir para realizar esta aplicación. Ver APÉNDICE 2 (archivo en Excel), compuesto de 3 Planillas. a. Se dispone de una Base de Viviendas cuya Población es de 100 unidades (N = 100), para las que se dispone de diversas variables de las que se ha seleccionado: Consumo Promedio de Agua y Superficie en m2 . Este conjunto conformará la 1ª Hoja del archivo en Excel (denominada “Base de Datos”). Los datos se disponen desde la fila Nº 15. Su encabezamiento es el siguiente: A
B
C
D
E
F
G
HeI
J
K
Nº Aleatorio
Nº de Orden
Y/X
X= Superf. m2
Y = Consumo Prom. Agua (lts.)
Selección
MESE
R1
R2
R3
b. En la misma 1ª Hoja (Arriba), disponer una serie de datos y cálculos resultantes de las operaciones realizadas con la misma (es decir con la Población completa de 100 viviendas. En la realidad esta información no debería conocerse (salvo la variable auxiliar X), y se la dispone a los únicos efectos de poder compararlas con las de las Muestras. El esquema de los datos a disponer es el siguiente: DATOS DE LA BASE DE 100 VIVIENDAS (Variables: En análisis: Consumo Promedio de Agua (lts.) – Auxiliar: Superficie (m2 ) Datos Poblacionales
Última Muestra
MESE
Correlación Consumo agua y superficie
0,74
N
100
Razón Poblacional
2,720
n
19
Muestra n= Total
4.596
12.502
19
MSA
R1
Auxi
0,043
Auxi
1.236,16
2,71
Esti Raz R1
R2
R3
Datos
100
100
100
Promedio
2,77
45,96
125,02
Promedio
124,56
124,74
129,60
128,27
Variancia
0,62
247,47
2.439,62
Variancia
2.094,59
52,70
0,62
1,05
Desvío
0,8
15,7
49,4
Desvío
45,77
7,26
0,79
-1,27
Donde:
Corresponden a Datos Poblacionales Corresponden a datos Muestrales y cambian con cada Muestra diferente (a presionar cualquier tecla).
c. Utilizando algún sistema para la selección de Muestras por MAS (o MS), seleccionar Muestras de tamaño 19 (n = 19) (*). El resultado conformará la 2ª Hoja del archivo en Excel (denominada “Muestras”).
(*)
Podría ser cualquier otro número lógico para una Población de N = 100.
31
El sistema aplicado permite que cada vez que se oprime F9, se generen números aleatorios en la Columna A de la 1ª Planilla, lo que deriva que en la Columna F (Selección), Fila 15 (correspondiente a la 1ª vivienda de la Base), la función [=+IF(A15<=$G$5/$G$4;1;0)], genera un “0” (si la vivienda no entra en la muestra) o un “1” (si la vivienda es seleccionada). d. En los casilleros siguientes de la Columna F, (Filas 16 a 114), la función [=+IF(A15<=($G$5-SUM($F$15:F15))/($G$4-COUNT($F$15:F15));1;0)], se van generando para cada fila un “0” o un “1”, con lo que se conforma la muestra de 19 viviendas de las 100 que integran la Base. e. Con la Muestra generada, se valorizan los diversos Estimadores por Simple Expansión y Razón de las Columnas G a K de la Hoja Base. Por ejemplo, en la Columna G (MESE), fila del Promedio, la función [=AVERAGE(G15:G114)] permite obtener para la Muestra, el valor 120,34, valor del MESE. Todos los valores de los casilleros Muestrales.
provienen de los respectivos Estimadores
f. Pero las viviendas seleccionadas cambian cada vez que se presiona F9, perdiéndose la información de la Muestra anterior. Para evitarlo, con una “Mini Macro” se trasladan los resultados de cada Muestra a la 2ª Hoja (“Muestras”), en la que se van registrando línea por línea los resultados de aplicar los diversos Estimadores. g. En esta Hoja (“Muestras”), se vuelcan los resultados de los 4 Estimadores de 3.000 Muestras (Columnas C a F; Filas 21 a 3020). Los valores característicos de cada uno de estos 3.000 conjuntos de datos (Promedio, Variancia, Desvío Estándar, Máximo y Mínimo), se resumen en una Tabla que tiene el siguiente formato: Estimador
MESE
R1
R2
R3
Promedio Última Muestra
122,97
124,00
123,76
122,49
Parámetro
Datos
3.000
3.000
3.000
3.000
Promedio
124,84
124,96
127,28
125,98
Variancia
75,877
49,162
54,188
53,062
Desvio
8,711
7,012
7,361
7,284
Máx
164
150
155
154
Mín
91
98
103
102
CV
6,98
5,61
5,78
5,78
125,02
h. En la misma Hoja (Columnas H a P), se confeccionan las Distribuciones de Frecuencias de los valores de los 4 Estimadores, con intervalos de amplitud 3 lts. a partir de 90 y hasta 165. i. Se abre una 3ª y última Hoja (“Distribuciones”), en la que se representan gráficamente en forma conjunta, las 4 Distribuciones de Frecuencias de los valores de los 4 Estimadores, resultando el Gráfico que se observa a continuación:
32
500
400
300
200
100
0 95
105
115
MSA
125
R1
135
R2
R3
145
155
Par
En el mismo se aprecia claramente que, correspondiendo la recta blanca perpendicular al eje vertical al valor del Promedio Poblacional, se tiene: ü
De las 4 Distribuciones, las más “centradas” corresponden al MESE / MAS y al R1 (la azul y la roja respectivamente).
ü
La R3 (la verde), también está centrada pero su dispersión es mayor.
ü
La R2 (la amarilla), está levemente corrida a la derecha (su Promedio supera al Parámetro).
ü
Las Dispersiones relativas (CV) de cada uno de los 4 Estimadores tienen la siguiente relación: CVR1 < CVR2 = CVR3 < CVMESE
Independientemente de los resultados obtenidos en esta aplicación, debe recordarse que: ü
Los Estimadores MESE y R3 son Insesgados, pero que registran mayor dispersión que los otros dos.
ü
Por ende, los Estimadores R2 y R3 son Sesgados pero tienen menor dispersión.
ü
Si los valores de la variable x son muy dispares (de magnitudes muy diferentes), es preferible el uso del R2 antes que el R1 , ya que: n
En el Rˆ 1 = ∑ yi i =1
n
∑x
i
los valores absolutos influyen en los resultados.
i =1
1 n y 1 n En el Rˆ 2 = ∑ i = ∑ ri = r n i=1 x i n i=1
al realizarse el cociente individual de cada par de valores, no influyen las magnitudes de la variable auxiliar.
Método de Estimación por Regresión (MERe) (y comparaciones con MESE y MERa) 51. Se tiene una Población de 20 familias, sobre las cuales se intenta estimar la cantidad de días de permanencia promedio en sus viajes de vacaciones (yi). Para hacerlo se recurrirá a una Muestra de 4 familias extraídas por MAS, a la que se aplicará el MESE, y a partir del 33
conocimiento de otras variables auxiliares (xi), el MERe y el MERa. Las variables auxiliares disponibles son: XA – Cantidad de personas que participan del viaje. XB – Cantidad de viajes a realizar en un cierto período. En cada una de estas variables auxiliares se conoce el valor de sus Promedios Poblacionales ( X ), que son coincidentes en su valor: X A = 4,1 personas y X B = 4,1 viajes. Resumiendo: a partir de la Muestra de n = 4 familias, se desea estimar la cantidad de días de permanencia promedio en sus viajes de vacaciones, haciéndoselo con diversos métodos de Estimación. Respuestas De la Población de 20, se extrae una Muestra de 4 familias, de la que resultan los siguientes valores: Datos Muestrales
Cálculos con variable auxiliar A
Cálculos con variable auxiliar B
(x i − x ) ( yi − y ) (xi − x )2 (x i − x ) ( yi − y ) (x i − x ) ( yi − y ) (xi − x )2 (x i − x ) ( yi − y )
yi
x iA
x iB
4
1
6
-3
-2
9
6
2
-2
4
-4
5
4
5
0
-1
0
0
1
-1
1
-1
7
5
4
1
1
1
1
0
1
0
0
8
6
1
2
2
4
4
-3
2
9
-6
24
16
16
0
0
14
11
0
0
14
-11
Datos disponibles (a partir de la Muestra, las 3 primeras columnas de la Tabla N = 20 ; n = 4 ;
):
ˆ X = 4,1 personas o viajes ; Yˆ = 24 / 4 = 6 días = b0A = b0 B ;
Rˆ = 24 / 16 = 1,5
;
x A = 16 / 4 = 4 personas
;
x B = 16 / 4 = 4 viajes
La relación entre ambas variables medidas con el Coeficiente de Correlación Lineal de Pearson es:
) ρ A = 0,9297
) ρ B = - 0,9297
;
Cálculos de las Estimaciones: Con el MESE: Yˆ = 24 / 4 = 6 días (ya mencionado en los Datos disponibles), es decir, que independientemente de otros elementos, la Estimación de Y por el MESE, sería de Yˆ = 6 días de permanencia en sus viajes de vacaciones. Con el MERa: (con las columnas agregadas de las variables auxiliares A y B): yˆ RA = (24 / 16) . 4,1 = 6,15 días
;
yˆ RB = (24 / 16) . 4,1 = 6,15 días
Coinciden las Estimaciones con ambas variables. Con el MERe: (también con las columnas agregadas de las variables auxiliares A y B): b0 A = b0 B = Yˆ = 6
;
b1 A = 11 / 14 = 0,7857 ;
b1B = -11 / 14 = - 0,7857 34
A yˆ reg = 6 + 0,7857 . (4,1 – 4) = 6,0786 días
;
B yˆ reg = 6 - 0,7857 . (4,1 – 4) = 5,9214 días
Cálculo de los Estimadores de la Variancias de los Estimadores: Con el MESE: i
yi
[1/(n-1)] (yi - Yˆ )2
σˆ 2 ( yˆ ) = [S2 / n].[(N - n) / (N - 1)] =
1
4
(1/3).(4 - 6 )2 = 4/3
[3,33 / 4].[(20 - 4) / (20 - 1)] = 2 0,8325 . 16 / 19 = 0,8325 . 0,8421 = 0,7012 días
2
2
5
(1/3). (5 - 6 ) = 1/3
3
7
(1/3). (7 - 6 )2 = 1/3 2
4
8
(1/3). (8 - 6 ) = 4/3
S
24
S2 = 10/3 = 3,33
σˆ ( yˆ )
= 0,8373 días
El CV = 0,8373 / 6 = 0,13955 o 13,96 %
Con el MERa: Datos Muestrales
Estimador con variable auxiliar A
yi
x iA
x iB
(yi - R . x i )
4
1
6
Estimador con variable auxiliar B
A 2
[4 – 1,5 . 1]2 = 2,5 2 2
5
4
5
[5 – 1,5 . 4] = -1
7
5
4
8
6
24
16
2
=
B 2
(yi - R . x i ) 6,25
[4 – 1,5 . 6]2 = -5 2 2
2
=
25,00
=
1,00
[5 – 1,5 . 5] = --2,5
=
6,25
[7 – 1,5 . 5]2 = -0,5 2
=
0,25
[7 – 1,5 . 4]2 = 1 2
=
1,00
1
[8 – 1,5 . 6]2 = -12
=
1,00
[8 – 1,5 . 1]2 = 6,52
=
42,25
16
S (yi - R . x i )
8,50
S (yi - R . x i )
A 2
B 2
74,50
Para las Estimaciones de las Variancias con las variables auxiliares A y B se tendría:
∑ (yi − Rˆ ⋅ xi ) n
1 − f σˆ 2A ( yˆ R ) = n
i =1 ⋅
2
2
= [1 – (4 / 20)] / 4 . (4 - 1) . 8,50 = 0,0667 . 8,50 = 0,5667 días
n −1
∑ (yi − Rˆ ⋅ xi ) n
1 − f i =1 σˆ B2 ( yˆ R ) = ⋅ n
) σˆA ( yR ) = ) ˆ σB ( yR) =
2
n −1
2
= [1 – (4 / 20)] / 4 . (4 - 1) . 74,50 = 0,0667 . 74,50 = 4,9667 días
(0,5667)1/2 = 0,75 días El CVA = 0,75 / 6,15 = 0,12195 o 12,20 % (4,9667)1/2 = 2,23 días El CVB = 2,23 / 6,15 = 0,36260 o 36,26 %
Se observa que la Dispersión del MERa respecto a A es algo menor que la del MESE, lo que se ) debe a la elevada relación existente entre las variables ( ρ A = 0,9297), pero la que se obtiene respecto a B es mucho mayor, situación que se tiene debido a que la variable yi con la x iB tiene una ) orientación negativa o inversa (pese a que la relación es también elevada: ρ B = - 0,9297), lo que la convierte en una variable no conveniente para se utilizada como auxiliar. Con el MERe: 35
Datos Muestrales
Cálculos con variable auxiliar A
Cálculos con variable auxiliar B
yi
x iA
x iB
A 2 [ ( yi − y ) - b1 . (x i − x ) ]
B 2 [ (x i − x ) - b1 . ( yi − y ) ]
4
1
6
[-2 - 0,7857 . (-3)] 2 = 0,3571 2 = 0,1275
[-2 - 0,7857 . (2)]2 = 3,57142 = 12,75
5
4
5
[-1 - 0,7857 . (0)]2 = -1 2 =
[1 - 0,7857 . (1)]2 = 0,2143 2 = 0,0459
7
5
4
[1 - 0,7857 . (1)]2 = 0,2143 2 = 0,0459
8
6
1
24
16
16
[2 - 0,7857 . (2)]
2
1,00
[-1 + 0,7857 . (0)]2 = -1 2 =
2
2
1,00 2
= 0,4286 = 0,1837
[-2 + 0,7857 . (-3)] = -4,3571 = 18,98
1,3571
32,7839
Para la variable auxiliar A la Variancia será: 1−f n sˆ 2yˆreg = .∑ [( y i − y ) − b 1.( x i − x )]2 = [1 – (4/20)] / 4.(4-2].1,3571 = n.(n − 2) i=1 2
= (0,8 / 8) . 1,3571 = 0,1 . 1,3571 = 0,13571 días El Desvío Estándar será:
sˆ yˆ = 0,3684 días ; el CVA = 0,3684 / 6,0786 = 0,0606 o 6,06 % reg
Para la variable auxiliar B la Variancia será: 1−f n sˆ 2ˆyreg = .∑ [( y i − y ) − b 1.( x i − x )]2 = [1 – (4/20)] / 4.(4-2].32,7839 = n.(n − 2) i=1 2
= (0,8 / 8) . 32,7839 = 0,1 . 32,7839 = 3,27839 días Desvío Estándar será:
sˆ yˆreg = 1,8106 días ; el CVA = 1,8106 / 5,9214 = 0,3058 o 30,58 %
RESUMEN COMPARADO DE LOS ESTIMADORES POR SIMPLE EXPANSIÓN, RAZÓN Y REGRESIÓN Y SUS DISPERSIONES Y DISPERSIONES RELATIVAS Caso Analizado
Estimación de Y (días)
Dispersión (días)
Coef. de Variación (%)
Simple Expansión
6,00
0,8373
13,96
Razón con Variable A
6,15
0,75
12,20
Razón con Variable B
6,15
2,23
36,26
Regresión con Variable A
6,0786
0,3684
6,06
Regresión con Variable B
5,9214
1,8106
30,58
ü
Se aprecia que la relación entre los CV es: CVReA < CVRaA < CVMESE < CVReB < CVRaB
ü
Los Coeficientes de Correlación dan:
ü
Los Gráficos correspondientes al MERe son:
?A = 0,93
;
?A = – 0,93
36
La Recta de Regresión de Y en función de XA es: A yˆ reg =
y + b 1 (X − x A ) =
= 6 + 0,7857 . (4,1 – x iA)
?A = 0,93
La Recta de Regresión de Y en función de XB es: B yˆ reg =
y + b1 (X − xB ) =
= 6 - 0,7857 . (4,1 – x iB)
?B = – 0,93
COMENTARIOS: ü
Las Estimaciones puntuales del Promedio no difieren demasiado entre los diversos métodos, debiendo recordarse que excepto la del MESE, todas las demás provienen de Estimadores sesgados.
ü
Debe tenerse presente que para que las Variancias del MERe sean válidas, los valores de n deberías ser grandes, y en este caso se desarrollaron con muestras muy pequeñas (n = 4).
ü
La correlación entre Y y ambas X es elevada, pero con la XA es positiva (0,93) y con la XB negativa (– 0,93).
ü
Reafirmando estas particularidades, en este caso, el Estimador por Regresión con la variable A dio un resultado mucho más preciso que cualquiera de los otros (su CV es del 6 %).
ü
Con CV algo más elevados (el doble), en 2ª instancia se encuentran los Estimadores por Razón con la variable A y el del MESE.
ü
Los Estimadores más imprecisos son lo del MERe y MERa ambos con la variable B, y esto se debe a que la relación con la variable de análisis (Y), es alta pero negativa.
Aplicación de la Selección con Probabilidades Desiguales Sin Reposición (SR) 52. Ejemplo relativo al cálculo de los πi a partir del conocimiento de los Pi: de una Población de N = 4 unidades se desea extraer una Muestra de n = 2 SR, cuyas probabilidades de selección se agregan a la siguiente Tabla: 37
Unidad
Pi
Recordando que :
U1
0,1
πi : determina la probabilidad de que la i-ésima unidad sea
U2
0,2
seleccionada en la Muestra de tamaño 2, es decir que esta puede aparecer en la primera unidad elegida o en la segunda.
U3
0,3
U4
0,4
Total
1
πij: es la Probabilidad de que la i-ésima y la j-ésima unidades integren ambas la muestra de n = 2 unidades.
En la selección del 1º elemento, la probabilidad de cada uno es Pi. Para la elección del 2º elemento la probabilidad será: Pi / (1 – Pi) (ya que de los 4 elementos iniciales, el 1º seleccionado ya no existe, y en cada paso se van reconstruyendo las probabilidades con los elementos que quedan). En definitiva el valor de π i para i = 1 sería:
P P P p1 = P1 + P2 ⋅ 1 + P3 ⋅ 1 + P4 ⋅ 1 1 − P3 1 − P4 1 − P2 La parte que aparece entre paréntesis en la fórmula, corresponde a la probabilidad de que P1 aparezca en segundo lugar porque primero apareció cada una de las restantes unidades. Generalizando la expresión anterior (ver detalles en el ANEXO II. Punto 3), se llega a que la 4 P P fórmula general es: pi = Pi ⋅ 1 - i + ∑ i 1 − Pi i=1 1 − Pi
En el ejemplo se tendría: Respuestas Unidad (Ui )
Prob. 1ª Unidad = Pi
U1
Probabilidad 2ª Unidad si 1ª es Ui = Pi / (1 – Pi )
πi
U1
U2
U3
U4
0,1
-
0,2222
0,2222
0,2222
0,2345
U2
0,2
0,25
-
0,25
0,25
0,4413
U3
0,3
0,4286
0,4286
-
0,4286
0,6083
U4
0,4
0,6667
0,6667
0,6667
-
0,7159
Total
1
2,0000
Los valores de la columna de los π i fueron calculados con la fórmula indicada más arriba, y puede verificarse que la suma de los mismos da n = 2. Para los p i;j se considera que la unidad aparezca en la primera y no en la segunda, o no aparezca en la primera y si en la segunda (al ser SR es imposible que la misma unidad aparezca en ambas extracciones). Siendo que es la probabilidad de que las unidades i-ésima y j-ésima estén ambas en la muestra, en el ejemplo (para i = 1 y j = 2), π12 es la probabilidad de que aparezca la unidad 1 en la primera extracción y la unidad 2 en la segunda o la unidad la unidad 2 en la primera y la unidad 1 en la segunda. 38
La expresión genérica queda (ver detalles en el ANEXO II. Punto 3): pi; j = Pi ⋅
Pj 1 − Pi
+ Pj ⋅
1 Pi 1 = Pi ⋅ P j ⋅ + 1 − Pj 1 − Pi 1 − Pj
Respuestas A esta forma de calcular las π i y π ij se la suele llamar “forma natural de cálculo”. En el ejemplo de N = 4 y n = 2, el resultado es: π 1 = 0,234524, los valores de π i y π ij obtenidos según las fórmulas (8) y (9), y la Tabla completa quedarían: 1 / (1 - Pi)
Muestra
p i;j
Muestra
p i;j
0,9
0,234524 1,111111
U1 ; U2
0,047222
U2 ; U3
0,160714
0,2
0,8
0,441270 1,25
U1 ; U3
0,076190
U2 ; U4
0,233333
U3
0,3
0,7
0,608333 1,428571
U1 ; U4
0,111111
U3 ; U4
0,371429
U4
0,4
0,6
0,715873 1,666667
Unidad
Pi
1 - Pi
U1
0,1
U2
TOTAL 1,0 (*)
pi
-
2,0
-
TOTAL
(*)
1,0
(*)
La suma da realmente 0,999999. La diferencia a 1 se debe a los redondeos de los decimales.
Suponiendo que en ese ejemplo se tiene una variable Yi que toma los siguientes valores en la población: Y1 = 2 ; Y2 = 3 ; Y3 = 7 ; Y4 = 10; se tendría: Se puede apreciar que el Parámetro Total, en este caso es:
Unidad
Yi
Pi
pi
U1
2
0,1
0,234524
U2
3
0,2
0,441270
Y = ∑ y
U3
7
0,3
0,608333
La Variancia Poblacional da:
U4
10
0,4
0,715873
4
i =1
i
= 22
n
sˆ
2
(yˆ H − T ) = ∑ i
p ⋅p − p ∑ i pj i; j j> i i; j n
yi yj ⋅ − p p j i
2
= 9 , 4603
y el Desvío Estándar Poblacional resulta: TOTAL
22
1,0
s (yˆ H− T ) = 9,4603 = 3, 0758
2,0
Nótese que en la Tabla anterior, las sumas de las probabilidades (Pi ) da 1; la de los pi da n = 2; y el Parámetro Total da 22. En la Tabla siguiente, se calcula el Estimador H-T del Total Poblacional, y la Dispersión del mismo. Muestras diferentes
yˆ H−T
yi
p i;j
yˆ H−T . p i;j
sˆ H - T 2 (yˆ H −T ) sˆ YGS 2 (yˆ H −T ) sˆ YGS( yˆ H −T )
U1 ; U2
2
3
15,3265 0,047222
0,723748
-56,668181
3,5634
1,8877
U1 ; U3
2
7
20,0348 0,076190
1,526451
-63,711951
7,7428
2,7826
U1 ; U4
2
10
22,4969 0,111111
2,499653
-10,695957
15,1282
3,8895
U2 ; U3
3
7
18,3054 0,160714
2,941934
-27,188910
14,8589
3,8547
U2 ; U4
3
10
20,7675 0,233333
4,845743
14,061727
18,1919
4,2652
U3 ; U4
7
10
25,4758 0,371429
9,462451
51,856150
1,0455
1,0225
TOTAL
19
47
1,0
22,0 39
NOTA: obsérvese la “inestabilidad” del Estimador de la Variancia del Estimador de H-T ( sˆ H - T 2 (yˆ H −T ) , 4 de cuyos 6 resultados dan negativo (casilleros ), mientras que no 2 sucede lo mismo con la corrección de YGS ( sˆ YGS (yˆ H −T ) ). Las primeras 3 columnas de la Tabla corresponden a la identificación de las posibles Muestras, y los valores de las variables resultantes. Los valores de la 4ª columna ( yˆ H−T ) son las Estimaciones del Total obtenidas a partir del Estimador de H-T en cada una de esas posibles Muestras, a la que siguen la 5ª columna de los ponderadores p i;j y la 6ª del Producto de ambas, que corresponde a la E( yˆ H−T ) (en la que verifica que la suma da 22, confirmándose que el Estimado de H-T es Insesgado), es decir: E ( yˆ H−T ) = yˆ H−T . p i;j = 22 Las últimas 3 columnas corresponden a sˆ H - T 2 (yˆ H −T ) , sˆ YGS 2 (yˆ H −T ) y sˆ YGS( yˆ H −T ) , Estimaciones de la Variancia (por H-T y YGS) y el Desvío Estándar del Estimador de YGS. La Tabla completa de las diversas Muestras de tamaño n = 2 extraídas de la Población de tamaño N = 4 para el Estimador de H-T se agrega a continuación: Muestras diferentes
p i;j
sˆ H - T 2 (yˆ H −T ) . p i;j
U1 ; U2
0,047222
-2,67598
0,168271
U1 ; U3
0,076190
-4,85421
0,589924
U1 ; U4
0,111111
-1,18844
1,680909
U2 ; U3
0,160714
-4,36964
2,388033
U2 ; U4
0,233333
3,281065
4,244771
U3 ; U4
0,371429
19,26088
0,388329
Suma
1,000000
9,453668
9,460237
sˆ YGS 2 (yˆ H −T ) . p i;j
En la misma se observa que mientras la estimación de la Variancia según la propuesta por H-T [ sˆ H - T (yˆ H −T ) ], conduce a que en 4 de las 6 muestras posibles de un resultado negativo (casilleros rosados resaltando que es un estimador “inestable”), el resultado del Estimador de la Variancia de YGS [ sˆ YGS2 ( yˆ YGS ) ], en todos los casos es positivo y con menor variabilidad.
No obstante lo observado, excepcionalmente también podrían aparecer Variancias negativas con la expresión de YGS. Siendo que la Variancia Poblacional calculada utilizando las expresiones (4) o (5) del Apunte Conceptual, da como resultado 9,46, puede hacerse la misma comprobación con los Estimadores de la Variancia del Estimador, para lo cual se deben multiplicar todas las estimaciones obtenidas por la probabilidad de cada Muestra (π ij). Sin considerar las diferencias debidas a los redondeos (9,454 y 9,460), puede comprobarse que ambos Estimadores de la Variancia del Estimador son Insesgados. En realidad, es muy complicado calcular los π ij cuando el tamaño de la muestra es mayor que dos, o requiere formas especiales de selección que demoran y complican los cálculos. En consecuencia es raro seleccionar muestras multivariables de tamaño moderado, aún de tamaño pequeño, con probabilidad variable y SR.
Aplicación de la Selección con Probabilidades Desiguales 53. Se tiene una Base de Viviendas con una Población de 15 Unidades (Ui), en las que se miden las variables X (ABL mensual en $) e Y (consumo de agua en cada una en m3 ). Se desea estimar con una Muestra de 2 viviendas (utilizando el MAS), la Cantidad Total de agua consumida 40
(dato desconocido), usando como variable auxiliar el monto del ABL, información disponible a partir de Rentas de la Municipalidad. Para llevar a cabo la selección, es conveniente recurrir a una Tabla de cálculos del tipo: 4
5
6
7
Fi = Acum. Pi
1/ Pi (*)
Acum. Xi
Xi . (1 / P i )
0,020
0,020
50,000
10
500
100
5.000,00
20
0,040
0,060
25,000
30
…
200
5.000,00
U3
14
0,028
0,088
35,714
44
…
150
5.357,14
U4
46
0,092
0,180
10,870
90
…
400
4.347,83
U5
12
0,024
0,204
41,667
102
500
130
5.416,67
U6
64
0,128
0,332
7,813
166
…
700
5.468,75
U7
52
0,104
0,436
9,615
218
…
500
4.807,69
U8
25
0,050
0,486
20,000
243
…
240
4.800,00
U9
41
0,082
0,568
12,195
284
…
380
4.634,15
U10
33
0,066
0,634
15,152
317
…
350
5.303,03
U11
18
0,036
0,670
27,778
335
…
210
5.833,33
U12
60
0,120
0,790
8,333
395
500
680
5.666,67
U13
50
0,100
0,890
10,000
445
…
530
5.300,00
U14
24
0,048
0,938
20,833
469
…
220
4.583,33
U15
31
0,062
1,000
16,129
500
…
380
6.129,03
Total
X = 500
1,000
-
-
-
-
810 (*)
S(Yi / Pi ) = 11.083,34 (*)
(*)
1
2
3
Ui
Xi
Pi =
U1
10
U2
Xi X
8 Yi
9
(*)
Yi / Pi
(*)
Para las unidades elegidas.
yˆ = 810 / 2 = 405 m3 ;
yˆ
= 15 .405 = 6.075 m 3 ; yˆ PPS = 1 S(Yi / Pi ) = (1 / 2) 11.083,34 = 5.541,67 m 3 n
El contenido de la Tabla es el siguiente: §
Columna 1: se identifican las Unidades de la Población de N = 15 (las Viviendas de la Base), desde U1 a U15 .
§
Columna 2: se registra el dato disponible del monto del ABL mensual (Xi en $).
§
Columna 3: se calcula la probabilidad de selección de cada vivienda (P i
=
Xi X
), valor
variable y proporcional al monto del ABL de cada una. La suma da 1. §
Columna 4: se calculan las probabilidades acumuladas para cada Unidad (Fi).
§
Columna 5: se calcula la inversa de la probabilidad de selección de cada vivienda, lo que constituye el Factor de Expansión (FE) de cada Unidad. En realidad solo se necesitan los correspondientes a las Unidades seleccionadas en la Muestra (las sombreadas en celeste).
§
Columna 6: se calculan los valores acumulados de Xi para cada Unidad, dato que se utiliza para la selección aleatoria de la Muestra de 2 viviendas.
41
§
Columna 7: se calcula el producto del monto de ABL de cada vivienda por el FE [Xi . (1 / Pi)], lo que constituye un control del trabajo, ya que en todos los casos debe reproducir el Total de la variable Xi, es decir 500. Columna no necesaria.
§
Columna 8: se registra el valor de la variable Y (consumo de agua en m3 ) para las viviendas seleccionadas en la Muestra.
§
Columna 9: se calcula el cociente entre el consumo de agua en las viviendas elegidas (Yi), y la probabilidad de selección de cada una (Pi), o lo que es lo mismo se multiplica la variable en estudio por el FE [Yi . (1 / Pi)]. Cada resultado constituye una Estimación del consumo total de agua de la Población de 15 viviendas. La Estimación ( yˆ PPS ), es el promedio de cada una de las Estimaciones individuales: 5.541,67 m3 , que puede compararse con la que se lograría con el MESE: y ˆ = 6.075 m3.
42