Statistics Inferencial Statistics: Muestreo
OpenMaths.com 1.1.5.5.1
Ver 01:03/02/2010
NOTA La clasificación decimal de todos los temas de este manual tienen implícito el comienzo 1.1.5.5.1 correspondiente a
1
SCIENCE
1.1
MATHEMATICS
1.1.5
STATISTICS
1.1.5.5
INFERENCIAL STATISTICS
1.1.5.5.1
MUESTREO
COPYLEFT Este material así como los applets, powerpoints, videos y archivos de sonido asociados, puede ser distribuido bajo los términos y condiciones definidos en Open Publication License versión 1.0 o posterior (La versión más reciente está disponible en http://www.opencontent.org/openpub/). El contenido está sujeto a constantes cambios sin previo aviso. Su fin es didáctico y solo pretende la universalización de la cultura. Está escrito en base a la colaboración de las miles de personas que componen nuestra comunidad OpenUepc. Se ha exigido a los autores que referencien todas las fuentes utilizadas y figuran al final del texto. Cualquier distribución del mismo debe mencionar a OpenUepc como fuente. Miguel Pérez Fontenla miguelperez@edu.xunta.es INDICE AUTORES
Iniciado por: Miguel Pérez Fontenla 12/12/2009
TABLA DE CONTENIDO INTRODUCCION .................................................................................................................... 3 History ................................................................................................................................... 3 CONCEPTOS BÁSICOS.......................................................................................................... 4 Poblacion y Muestra .............................................................................................................. 4 Parámetros ............................................................................................................................. 5 MÉTODOS DE MUESTREO................................................................................................... 7 Muestreo aleatorio simple ..................................................................................................... 7 Números aleatorios ................................................................................................................ 7 Muestreo sistemático ............................................................................................................. 8 Muestreo estratificado ........................................................................................................... 9 Definición: Distribución óptima ........................................................................................ 9 Estratificación cruzada: .................................................................................................... 10 Muestreo por cuotas ......................................................................................................... 10 Muestreo por conglomerados .............................................................................................. 11 Muestreo polietápico ........................................................................................................ 11 Muestreo polietápico por cuotas ...................................................................................... 12 Otros tipos de muestreos ..................................................................................................... 12 Incidental.......................................................................................................................... 12 Accidental ........................................................................................................................ 12 Por voluntarios ................................................................................................................. 13 Muestreo juicio ................................................................................................................ 13 Muestreo de bola de nieve ............................................................................................... 13 Muestreo subjetivo por decisión razonada ....................................................................... 13 DISTRIBUCION MUESTRAL .............................................................................................. 17 Conceptos básicos ............................................................................................................... 17 Muestras aleatorias........................................................................................................... 18 Parámetros y Estadísticos ................................................................................................ 19 Propiedades de los Estadísticos ....................................................................................... 20 Distribución de la Media ..................................................................................................... 22 Error medio ...................................................................................................................... 22 Teorema Central del Límite aplicado a muestras. ........................................................... 23 Distribución de la proporción .............................................................................................. 26 Distribucion de diferencias de medias muestrales ............................................................... 29 Distribución de diferencias de proporciones muestrales ..................................................... 31
INTRODUCCION 1
INTRODUCCION 2
INTRODUCCION La inferencia estadística es el proceso usado para estudiar alguna característica de una población, habitualmente numerosa, a través de una muestra o parte más pequeña de la misma que nos haga manejable y económico llevar a cabo tal estudio. Se divide en tres grandes campos: • • •
Muestreo Estimación Test de hipótesis
Vamos a continuación a explorar el primero de estos tres procesos con el suficiente detenimiento para que puede cubrir las expectativas de hasta los primeros ciclos de cualquier carrera universitaria.
History Random sampling by using lots is an old idea, mentioned several times in the Bible. In 1786 Pierre Simon Laplace estimated the population of France by using a sample, along with ratio estimator. He also computed probabilistic estimates of the error. These were not expressed as modern confidence intervals but as the sample size that would be needed to achieve a particular upper bound on the sampling error with probability 1000/1001. His estimates used Bayes' theorem with a uniform prior probability and it assumed his sample was random. The theory of small-sample statistics developed by William Sealy Gossett put the subject on a more rigorous basis in the 20th century. However, the importance of random sampling was not universally appreciated and in the USA the 1936 Literary Digest prediction of a Republican win in the presidential election went badly awry, due to severe bias [1]. More than two million people responded to the study with their names obtained through magazine subscription lists and telephone directories. It was not appreciated that these lists were heavily biased towards Republicans and the resulting sample, though very large, was deeply flawed. http://en.wikipedia.org/wiki/Sampling_(statistics)
INTRODUCCION 3
CONCEPTOS BÁSICOS Cuando se quiere realizar un estudio estadístico, es habitual que la población de estudio sea muy grande, lo que nos convierte el estudio de la misma en, o bien caro o muy costoso económicamente, o bien muy largo en su duración. Para atajar, existe la posibilidad de tomar una pequeña muestra de la población y realizar nuestro estudio sobre ella y extrapolar los resultados a la población total de manera que vamos a tratar que nuestros estudios sean lo más acertados posibles. Esta idea es en lo que, básicamente, consiste el muestreo o teoría de muestras. La idea es simple, pero llevarla a cabo no tanto. Elegir la muestra, parece sencillo, pero tiene sus complejidades. Por ejemplo, si queremos estudiar la intención de voto para unas elecciones, no deberíamos tomar la muestra exclusivamente en una macrodiscoteca, ni en una convención de un sindicato, ni en hogar del jubilado ni en una calle cara y céntrica de Madrid. La muestra debe ser representativa de la población que vamos a estudiar, y en una macrodiscoteca suele haber gente mayoritariamente muy joven y en una calle céntrica y comercial de Madrid, pongamos calle Serrano, pues el nivel económico de sus habitantes no es parecido a la media del país. Por ello, la primera condición para elegir una muestra, es que sea aleatoria, es decir, los elementos que la compongan deben ser elegidos al azar. La segunda, que debe ser representativa de la población a estudiar, de manera que el estudio de la muestra sea lo más similar posible al estudio de toda la población. Para hacer un estudio estadístico sobre una muestra, se deben definir inicialmente lo siguiente 1. Definir la población a estudiar 2. Determinar el tamaño de la muestra necesaria 3. Establecer una técnica de muestreo
Poblacion y Muestra Definición: Población Denominamos población al conjunto de elementos al que va dirigida una investigación estadística (en el caso de estadística descriptiva) o un experimento aleatorio (estadística matemática) Denominamos tamaño de un población al número de elementos que la componen, puede ser finita o infinita Denominamos población diana a la totalidad de la población a la que se refiere el estudio Denominamos población accesible o de estudio al subconjunto de la población diana en el cual los datos están disponibles o son fáciles de conocer. Definición: Muestra CONCEPTOS BÁSICOS 4
Denominamos muestra al grupo o subconjunto limitado de individuos de entre la población accesible, debidamente elegidos, al que realmente vamos a estudiar de forma que nos represente a toda la población para sometarla al estudio estadístico con el proposito de que los resultados que obtengamos poder extrapolarlos a la población completa. Denominamos tamaño de la muestra al número exacto de elementos que la componen. Este debe ser óptimo en cuanto a que sea lo menor posible (ahorro de costes y tiempos) sin pérdida de información. Un número insuficiente de elementos puede impedir encontrar diferencias o asociaciones buscadas en el estudio mientras que un número excesivo, aparte de caro, puede detectar como significativas diferencias o asociaciones de la población que en realidad son irrelevantes Para determinar el apropiado tamaño muestral se utilizan técnicas estadísticas que pronto veremos, incluidas en lo que se denomina Inferencia estadística . Estas técnicas tienen como premisas siempre dos condicionantes: •
• •
Variabilidad del fenómeno estudiado. Por ejemplo, no es lo mismo estudiar la razas de la población de London o New York, que son un crisol de ellas, que estudiarla en Beiging ó Tokio donde mayoritariamente la población es China o Japonesa. En cualquier caso, a mayor variabilidad, necesitaremos una muestra también mayor. Exigencia deseada de las estimaciones que la componen el denominado Nivel de confianza, el error deseado, la precisión en la estimación El nivel de confianza es la probabilidad de que el intervalo de confianza hallado en nuestro estudio para el parámetro que se estima, contenga efectivamente el verdadero valor de dicho parámetro
Definicion: Muestreo y encuesta Denominamos muestreo al proceso estadístico seguido para la extracción de una muestra. Denominamos encuesta al proceso de obtener información de la muestra.
Parámetros Definición: Parámetro Denominamos parámetros de la población a las características numéricas que deseamos conocer de la población mediante el muestreo. Los más típicos en matemáticas son la media, la desviación y la proporción, pero en medicina podríamos hablar de otros tales como la prevalencia, la sensibilidad o la especificidad. El muestreo presenta limitaciones, pues es frecuente concluir datos erróneos, nunca se sabe si la elección de la muestra es del todo correcta, y no siempre las personas que la llevan a cabo dominan la técnica del muestreo. Tampoco obtenemos una información certera de toda la población, lo que hacemos es suponer que la totalidad de los elementos se comportarán como la muestra. Sin embargo, la imposibilidad de abarcar la población completa, el coste económico que ello supone y la premura de tiempo con la que se suelen necesitar los estudios estadísticos hacen del muestreo una técnica imprescindible en estadística. CONCEPTOS BÁSICOS 5
Ejemplos Para una campaña contra el consumo de alcohol y drogas entre los adolescentes gallegos se desean conocer los hábitos de consumo en determinada ciudad. La población diana son todos los adolescentes de Galicia. Por celebrarse un botellón cada jueves en Santiago de Compostela, elegimos esos adolescentes como población accesible pero como no los vamos a estudiar a todos hacemos una encuesta sobre una muestra de 100 estudiantes entre dos institutos de secundaria, uno céntrico y otro rural. Ejemplo 2 Se desea calcular la cantidad de dinero que se gastan los españoles en vacaciones. Resulta obvio que no sería razonable elegir la muestra de entre personas alojadas exclusivamente en hoteles de 4 y 5 estrellas, pero el hecho de decidir donde buscar la muestra para que resulte homogénea y representativa con la población que queremos estudiar en este caso, que son veraneantes pues no resulta ni obvio ni intuitivo.
CONCEPTOS BÁSICOS 6
MÉTODOS DE MUESTREO Muestreo no probabilístico donde no se usa el azar, sino el criterio y experiencia del propio investigador. Presenta mucho sesgo y no es fiable pero aunque este método no tiene mucho de científico puede resultar útil en determinadas inspecciones policiales y fiscales, donde se puedan intuir las bolsas o colectivos de fraude o delincuencia. Muestreo aleatorio o probabilístico donde el diseño de la muestra sigue los estándares probabilísticos, conocemos las probabilidades previas de cada suceso posible y la muestra es lo más representativa de la población a estudiar Cuando un elemento de la población, tras ser seleccionado para la muestra es devuelto a la población de manera que pueda ser seleccionado de nuevo, firemos que se tarta de muestreo con repetición. Por ejemplo, si entre los 20 alumnos de una clase se quiere nombrar un delegado y un representante del consejo escolar, un mismo alumno puede representar ambos cargos. Cuando una vez seleccionado un elemento para la muestra, éste ya no puede volver a ser seleccionado, diremos que estamos en un muestro sin repetición. Por ejemplo, seleccionar tres cartas del mazo para jugar a la escoba, es una muestra del mazo sin repeticion
Muestreo aleatorio simple Diremos que una muestreo es aleatorio simple cuando todas las posibles muestras de un determinado tamaño extraídas de una población tienen la misma probabilidad de ser seleccionadas. Las observaciones se realizan con reemplazamiento de manera que la población es idéntica en todas las extracciones aunque ello comporte que algún individuoo pueda ser elegido más de una vez. Este tipo de muestreo es adecuado en el caso de poblaciones pequeñas y homogéneas y que los elementos que la forman sean perfectamente identificables. Es una exigencia imprescindible la aleatoriedad de la muestra. Para ello hay técnicas que iremos viendo a continuación.
Números aleatorios Existen tablas de números aleatorios, como la que adjuntamos al final deste tema. También los ordenadores incluyen la función RANDOM() en la práctica totalidad de los sistemas operativos y lenguajes de programación. En Excel castellano concretamente tenemos la función ALEATORIO() que genera un número aleatorio entre 0 y 1 aunque estos números son en realidad pseudo-aleatorios pues surgen de una fórmula determinística aunque tienen suficientes garantías de que la muestra elegida con ellos podamos considerarla como aleatoria. El sistema para elegir una muestra aleatoria consiste en establecer una correspondencia biyectiva, elemento a elemento, entre la colección de números aleatorios obtenidos de nuestra tabla y la población. Ejemplo MÉTODOS DE MUESTREO 7
Supongamos que en una inspección, de los 1200 pacientes de un hospital queremos elegir a 2 para entrevistarlos y proporcionarles una encuesta de calidad. Un primer método elemental y básico para elegir a dos pacientes sería, primero tener identificados los pacientes del 0001 al 1200 y, a continuación, con la ayuda de una urna y diez papeletas con los números del 0 al 9 e ir extrayendo 4 papeletas con repetición hasta ir completando los dos números necesarios. El problema de elección con las unidades de millar, en las que solo necesitamos 0 ó 1, pues el número más grande es el 1200, se soluciona repitiendo la extracción hasta que aparezca 0 ó 1, pero no usar solo esos dos papeles, pues entonces tendrían mucha más probabilidad del 1000 al 1200 que solo hay 200 pacientes, que del 0001 al 0999 que hay 999. Con la ayuda del ordenador se nos hace menos laborioso. En el número de casillas Excel que necesitemos escribimos ENTERO(1+ALETARIO()*1199) y tendremos nuestros números aleatorios Cuando nos encontramos ante poblaciones numerosas y heterogéneas el método aleatorio simple no nos vale, dado que es inalcanzable el llegar a numerar e identificar a todos los miembros de la población. Imagínate una encuesta sobre el consumo de alcohol entre adolescentes gallegos. El solo hehco de numerarlos e identificarlos ya es un problema de gran envergadura. En estos casos se utrilizan otros métodos, de entre los cuales destacamos • • •
Muestreo sistemático Muestreo estratificado Muestreo por conglomerados
Muestreo sistemático Supongamos que la población tiene un tamaño N y disponemos de una lista de los mismos. Supongamos que queremos obtener una muestra de tamaño n Dividimos lista de la población en n grupos o intervalos de tamaño m, de forma que n‧m = N. A m se le denomina coeficiente de elevación. Se toma un elemento al azar del primero de los grupos (entre 1 y m) que llamamos origen. Si el elemento seleccionado fue el i-ésimo, se toma el elemento (i + m) al azar del grupo 2, el (i + 2m) del grupo 3,...., así hasta el i + (n-1)m del grupo n. De esta manera, obtenemos n elementos, uno de cada uno de los n grupos. Si la lista la elaboramos de manera que los elementos próximos tengan características semejantes, este muestreo tiende a ser más preciso que el muestreo aleatorio simple. Sin embargo corremos un riesgo que consiste en que puedan existir periodicidades no evidentes, por ejemplo una máquina produce una pieza defectuosa cada m fabricadas y este m coincide con el tamaño de los grupos entonces la muestra elegida nos saldría siempre, o bien con todos sus elementos defectuosos, o bien con todos ellos correctos, y en ambos casos provocará una distorsión decisiva en nuestro estudio.
MÉTODOS DE MUESTREO 8
Muestreo estratificado En este método suponemos que tenemos información sobre la población que nos permita dividirla en subconjuntos (o estratos) lo más homogéneos posibles y en cada estrato se aplica un muestreo aleatorio simple. De ahí que también se denomine muestreo aleatorio simple estratificado. Los estratos se determinan basándose en experiencias previas o tomando experiencias piloto. El número de elementos que se toma de cada estrato puede hacerse de múltiples maneras: Si se toma la misma cantidad de cada estrato el muestreo se denomina de elección uniforme. Si el reparto es proporcional al número de elementos de cada estrato diremos que es de elección proporcional Ejemplo Si una población posee un 20% de mujeres y un 80% de hombres, nos interesa que la muestra mantenga la misma proporción. Si estuviésemos experimentando un medicamento y queremos comparar sus efectos entre una población con un 40% de fumadores y un 60% de no fumadores, la muestra debe respetar la esta proporción poblacional existente entre ambos. De la misma forma, si la población la dividimos en niveles culturales, es importante que la muestra también los represente en proporciones similares. Por ejemplo, en sondeos de opinión política, es importante que las muestras sean proporcionales a los niveles económicos, culturales, geográficos, sexo y edad de la población a estudiar. Supongamos una población de tamaño N que se divide en k estratos cuyos tamaños son: N1, N2, .....,Nk (con N1 +N2 +.....+Nk =N). Para obtener una distribución proporcional hemos de tener en cuenta que : n1
N
1
=
n N
2
= ....... =
2
n N
k k
=
n , de donde se obtiene que n = N • n para N N i
i
i=1,2,3,4,.... k donde n es tamaño de la muestra. Esta sería una distribución proporcional, pero hay otras formas de distribuir porciones de una muestra entre los distintos estratos, que serían: • • •
Distribución óptima. Estratificación cruzada. Muestreo por cuotas.
Definición: Distribución óptima En la Distribución optima, no sólo se maneja el tamaño del estrato, como en la distribución proporcional, sino que también se maneja la variabilidad (o cualquier otra característica pertinente) del estrato. La idea de la Distribución óptima, trata de jugar no sólo con el tamaño del estrato, sino que también pretende jugar con la variabilidad del mismo, de forma que parece lógico que los MÉTODOS DE MUESTREO 9
estratos de mayor variabilidad le correspondan muestras mayores. Si σ1, σ2, σ3, ...., σk son las desviaciones típicas de los k estratos podemos explicar tanto los tamaños de los estratos, así como su variabilidad.
n
1
N 1 •σ 1
=
n
2
N 2 •σ 2
=
n
3
N 3 •σ 3
= ........ =
n
k
N k •σ 1k
de donde se obtienen los tamaños muestrales de la distribución óptima o Distribución de Neyman (su inventor) que se obtienen por la fórmula:
n= i
n⋅N ⋅σ para i=1,2,...., k y n= n1+n2+.......+nk ⋅ + ⋅ + ....... + ⋅ N σ N σ N σ i
1
1
2
i
2
k
k
Estratificación cruzada: La estratificación no se limita a una variable única de clasificación o una característica y las poblaciones a menudo se estratifican atendiendo a diversos criterios de ordenación o clasificación. Así por ejemplo si queremos realizar un estudio entre los alumnos de distintos IES podríamos estratificar la muestra atendiendo al nivel de estudios, al sexo, a la especialidad,.... Así parte de la muestra se dedicaría a los alumnos de sexo femenino del 1º de Bachillerato técnico, otra parte a los alumnos de sexo masculino de 1º Bachillerato artístico, y así sucesivamente. Así y hasta cierto punto una estratificación de este tipo, llamada estratificación cruzada, incrementará la precisión de las estimaciones y otras generalizaciones que se usan comúnmente en el muestreo de opinión y las investigaciones de mercado. Muestreo por cuotas En el muestreo por cuotas, el investigador establece estratos de la población, determina el número de individuos a seleccionar en cada uno de ellos y elige intencionadamente individuos para completar las cuotas establecidas. Se asemeja al muestreo aleatorio por estratos en cuanto que supone un conocimiento previo de la población que permite diferenciar segmentos o estratos dentro de la misma, pero se distancia de aquél por el hecho de que aquí los individuos que constituyen la cuota aportada a la muestra por cada estrato no son determinados aleatoriamente, sino en función de otros criterios (accesibilidad, comodidad, economía, etc.). La única condición impuesta es que los individuos cumplan los requisitos fijados en las cuotas. El muestreo por cuotas no es un muestreo de tipo probabilístico, y por tanto no permite llevar a cabo estimaciones rigurosas en las que podamos calibrar el error cometido. Ejemplo Si se quiere hacer un sondeo sobre la mejora de los servicios de salud, por ejemplo se le pide que encueste a 10 mujeres de entre 35 y 45 años que sean asalariadas, 20 hombres de entre 30 y 45 años que vivan en pisos de 3 o 4 habitaciones, a 3 hombres de mas de 60 años que estén jubilados.... esto es lo que se determina un muestreo por cuotas y es relativamente económico, lo único es que las muestras resultantes no cumplen las características esenciales de las muestras aleatorias. Por tanto estos MÉTODOS DE MUESTREO 10
muestreos, por cuotas en esencia son muestras de opinión, pero no son válidos para realizar un estudio estadístico formal.
Muestreo por conglomerados En ocasiones los elementos de la población se agrupan en distintos subconjuntos disjuntos, relativamente pequeños, que denominamos conglomerados y se seleccionan al azar algunos de ellos para incluirlos en la muestra total. Si estos conglomerados coinciden con áreas geográficas, este muestreo se llama también muestreo por áreas. Aunque las estimaciones basadas en el muestreo por conglomerados, por lo general no son tan fiables como las obtenidas por muestreos aleatorios simples del mismo tamaño, son más baratas. Es mucho más económico visitar a familias que viven en el mismo vecindario, que ir visitando a familias que viven en un área muy extensa.
Ejemplo Supongamos que en un área geográfica, una ciudad, se desea conocer los patrones variables de los gastos familiares y, para ello, se decide tomar una muestra de 500 familias. La primera dificultad es encontrar un patrón estadístico actualizado, por lo que se desecha esa idea y se decide dividir el área en distritos que no se solapen (subconjuntos disjuntos), podrían ser manzanas de casas, o distritos postales, o incluso barrios. Entonces seleccionamos algún distrito al azar y todas las familias de ese distrito compondrían nuestra muestra. Muestreo polietápico Si tras dividir a la población en conglomerados se toma completo uno de los conglomerados definidos, el muestreo se denomina de una etapa. Si dentro de cada conglomerado se numera la lista de unidades elementales que lo contiene y se vuelve a obtener una nueva muestra de éstos, el muestreo se denomina bietápico o con submuestreo. Ejemplo Se desea estudiar la prevalencia (nº casos existentes dividido por el número casos total) de una enfermedad en la población de niños de edad escolar, se puede seleccionar en una primera etapa 10 institutos o centros escolares, entre todos los existentes, pero como todavía pueden ser muy numerosos el número de alumnos en cada uno de ellos, en una segunda etapa se puede seleccionar los alumnos a estudiar eligiendo solo 3 grupos escolares de alumnos dentro de cada isntituto. Si creemos que la muestra sigue siendo muy numerosa, en una tercera etapa podríamos tomar de cada grupo aquellos alumnos cuyo primer apellido está entre la A y la M. Ejemplo MÉTODOS DE MUESTREO 11
Supongamos que los 150 alumnos de 1º bach de un instituto de secundaria se dividen en 5 grupos de 30 alumnos cada uno, que denominamos grupos A, B, C, D y E. Cada uno de estos grupos es un conglomerado y podría ser una muestra de una etapa. Sin embargo si la muestra la queremos hacer de 12 alumnos, tendremos que hacer un nuevo muestreo sobre el grupo elegido, de ahí que el muestreo global se denominaría bietápico Muestreo polietápico por cuotas Cuando se tienen instrucciones finales acerca del tipo de elementos que debe seleccionar en la última etapa de un muestreo polietápico, el muestreo se denomina muestreo polietápico por cuotas Ejemplo
Supongamos que en una elecciones se desea obtener el voto de los 100 primeros votantes que acuden a votar a un colegio electoral, pero la empresa ya tiene datos que ellos consideran altamente fiables acerca del voto de los jubilados y de las mujeres trabajadoras. Entonces el entrevistador tiene instrucciones de obtener solo datos de hombre trabajadores en activo y jóvenes desempleados de ambos sexos. Esto sería un muestreo por cuotas
Otros tipos de muestreos Incidental En el muestreo incidental el investigador determina deliberadamente qué individuos formaran parte de la muestra, tratando de escoger a los casos considerados típicamente representativos de la población. Los criterios de elección suelen basarse generalmente en el conocimiento teórico sobre el tema objeto de estudio. Ejemplo Para estudiar el problema del absentismo escolar, un investigador puede seleccionar los alumnos de un centro situado en una zona de trabajadores agrícolas temporeros que han de desplazarse en determinadas épocas del año, los alumnos de un centro situado en una barriada marginal de una gran ciudad y los de un centro de zona residencial, dado que por su conocimiento teórico del problema sabe que éstos representan los diferentes tipos de comportamientos en relación a la asistencia a clase. Accidental En el muestreo accidental se seleccionan determinados individuos o grupos de individuos sin que exista ningún criterio aparente. Ejemplo
MÉTODOS DE MUESTREO 12
Para realizar un estudio determinado, el investigador elige los alumnos de un centro que se encuentra próximo a su lugar de trabajo. Este tipo de muestreo se considera el más alejado de la posibilidad de generalizar a la población los resultados obtenidos. Por voluntarios Es una técnica que conviene evitar porque las personas que se presentan al estudio suelen estar influidas por algún tipo de característica que puede afectar de forma importante en el resultado del estudio. Muestreo juicio Hay casos en los que no se pueden calcular las probabilidades de las muestras y lo que se hace es buscar individuos de los que se juzga de antemano que poseen un conocimiento profundo del tema bajo que se estudia y que, por consiguiente, la información que aportan es de suma importancia. Muestreo de bola de nieve Indicado para estudios de poblaciones clandestinas, minoritarias o muy dispersas pero en contacto entre sí. Consiste en identificar sujetos que se incluirán en la muestra a partir de los propios entrevistados. Partiendo de una pequeña cantidad de individuos que cumplen los requisitos necesarios estos sirven como localizadores de otros con características análogas. Muestreo subjetivo por decisión razonada En este caso las unidades de la muestra se eligen en función de algunas de sus características de manera racional y no casual. Una variante de esta técnica es el muestreo compensado o equilibrado, en el que se seleccionan las unidades de tal forma que la media de la muestra para determinadas variables se acerque a la media de la población. Fuente: http://es.wikipedia.org/wiki/Muestreo_en_estad%C3%ADstica#T.C3.A9cnicas_de_muestreo
MÉTODOS DE MUESTREO 13
Resumen de ventajas e inconvenientes de los tipos de muestreo
Aleatorio simple
CARACTERISTICAS
VENTAJAS
Muestra de tamaño n de una población de N unidades, cada elemento tiene una probabilidad de inclusión igual y conocida de n/N.
Sencillo y comprensión.
INCONVENIENTES de
fácil
Cálculo rápido de medias y varianzas. Se basa en la teoría estadística, y por tanto existen paquetes informáticos para analizar los datos
Sistemático
Conseguir un listado de los N elementos de la población Determinar tamaño muestral n.
Fácil de aplicar. No siempre es necesario tener un listado de toda la población.
Definir un intervalo k=N/n. Elegir un número aleatorio, r, entre 1 y k (r=arranque aleatorio). Seleccionar los elementos de la lista. Estratificado
Conglomerados
Cuando la población está ordenada siguiendo una tendencia conocida, asegura una cobertura de unidades de todos los tipos.
Requiere poseer un listado completo de toda la población. Cuando se trabaja con muestras pequeñas es posible que no represente a la población adecuadamente.
Si la constante de muestreo está asociada con el fenómeno de interés, las estimaciones obtenidas a partir de la muestra pueden contener sesgo de selección
En ocasiones resulta conveniente estratificar la muestra según ciertas variables de interés. Para ello debemos conocer la composición estratificada de la población objetivo a muestrear. Una vez calculado el tamaño muestral apropiado, éste se reparte de manera proporcional entre los distintos estratos definidos en la población usando una simple regla de tres.
Asegura que la muestra representa adecuadamente a la población en función de los estratos definidos.
Se realizan varias fases de muestreo sucesivas (polietápico)
Es muy eficiente cuando la población es muy grande y dispersa.
El error estándar es mayor que en el muestreo aleatorio simple o estratificado.
La necesidad de listados de las unidades de una etapa se limita a aquellas unidades de muestreo seleccionadas en la etapa anterior.
No es preciso tener un listado de toda la población, sólo de las unidades primarias de muestreo.
El cálculo del error estándar es complejo.
Se ha de conocer la distribución en la población de las variables utilizadas para la estratificación.
Se obtienen estimaciones más precisa
En la práctica se pueden combinar el uso de varios de los métodos de muestreo que hemos analizados para un mismo estudio.
MÉTODOS DE MUESTREO 14
TABLA DE NUMEROS ALEATORIOS 22 19 16 78 03
17 36 77 43 28
68 27 23 76 28
65 59 02 71 26
84 46 77 61 08
68 13 09 20 73
95 79 61 44 37
23 93 87 90 32
92 37 25 32 04
35 55 21 64 05
87 39 28 97 69
02 77 06 67 30
22 32 24 63 16
57 77 25 99 09
51 09 93 61 05
61 85 16 46 88
09 52 71 38 69
43 05 13 03 58
95 30 59 93 28
06 62 78 22 99
58 47 23 69 35
24 83 05 81 07
82 51 47 21 44
03 62 47 99 75
47 74 25 21 47
50 47 44 66 31
45 64 05 71 56
36 55 51 01 36
33 87 30 99 54
12 74 01 89 63
36 41 37 48 71
23 10 89 72 65
00 11 01 05 60
20 65 53 60 32
63 83 49 92 33
15 67 56 54 37
30 01 34 95 58
50 60 52 91 44
85 01 53 35 37
79 37 07 89 33
89 01 44 74 03
37 80 99 66 97
71 33 41 31 86
02 58 87 77 56
34 90 01 50 11
86 75 51 97 63
52 11 33 03 35
10 79 75 49 72
31 90 75 70 07
75 05 53 49 75
78 16 72 66 59
05 77 33 99 84
09 23 79 01 64
44 02 58 19 82
01 77 29 18 12
41 09 65 76 00
51 61 10 12 23
01 87 11 05 88
48 25 81 88 20
91 21 77 92 61
00 28 84 54 15
58 06 01 45 86
78 24 80 33 72
11 25 01 35 65
07 93 35 06 61
30 16 01 52 31
65 71 03 94 11
99 13 69 59 12
30 59 95 77 02
01 78 29 78 39
01 23 79 71 91
80 05 11 03 63
38 47 14 77 10
59 47 16 70 35
88 25 05 77 51
85 44 85 16 87
33 28 61 77 05
37 51 95 23 92
72 30 86 02 87
29 28 57 77 01
69 71 93 09 78
10 89 10 61 51
11 20 11 87 01
76 53 56 25 48
05 49 05 21 89
28 56 40 28 43
01 34 01 06 19
01 52 01 24 13
01 53 01 25 93
35 85 63 93 07
01 03 01 16 59
93 99 31 71 39
41 41 41 13 40
58 87 96 59 30
29 11 57 78 01
29 51 90 23 33
11 33 11 05 91
66 75 42 47 38
87 07 44 47 63
05 53 05 25 79
03 72 82 44 13
28 56 89 05 05
28 79 01 51 85
26 58 10 87 87
08 12 12 01 01
73 99 12 78 78
37 23 23 89 79
32 48 39 01 01
04 20 20 53 76
05 77 33 49 62
69 15 15 56 71
30 62 29 19 19
16 80 29 13 13
09 81 29 53 45
05 01 91 07 07
88 31 29 44 87
69 11 11 99 67
58 12 12 41 68
28 02 02 87 58
99 39 85 01 01
35 79 73 33 33
07 61 39 33 00
44 10 10 75 66
75 35 72 75 91
47 51 51 53 28
40 47 60 72 69
65 05 45 12 30
36 51 36 05 16
54 30 33 88 09
63 01 12 92 05
71 37 36 90 67
65 89 23 11 01
60 01 00 42 29
32 53 20 44 01
33 49 63 05 30
37 56 15 50 03
58 34 30 45 28
44 52 50 36 28
37 53 85 33 26
33 07 79 12 08
03 44 89 15 28
97 99 37 30 06
86 41 71 50 24
56 87 02 85 25
11 01 34 79 93
63 51 86 51 16
35 33 52 33 71
72 75 10 75 13
07 75 31 75 59
75 53 75 53 78
28 40 37 01 47
06 01 89 80 83
24 01 01 33 51
25 01 53 58 62
93 63 49 90 74
16 01 56 75 95
71 31 34 11 10
13 41 52 79 11
59 96 53 90 56
78 77 07 05 05
23 12 44 37 67
05 23 99 89 01
47 80 41 01 56
47 20 87 53 01
25 35 01 49 36
44 15 51 56 01
05 12 33 34 80
51 69 75 52 33
30 00 75 53 58
01 29 53 07 90
37 79 40 44 09
89 11 01 99 61
01 12 01 41 87
53 02 01 87 25
49 81 63 01 21
97 21 73 56 09
67 58 37 34 61
63 44 32 52 87
99 37 04 53 25
61 33 05 07 21
46 03 69 44 28
38 59 30 99 06
03 86 16 41 24
93 12 09 87 25
22 11 05 01 93
00 40 88 51 16
33 51 69 33 71
75 80 58 75 13
11 07 28 75 59
07 63 99 53 78
30 28 56 03 23
33 06 34 28 05
79 24 52 28 47
58 25 53 26 47
01 93 07 08 25
09 16 44 73 28
61 71 99 37 06
87 13 41 32 24
25 59 87 04 25
21 78 01 05 93
91 88 37 16 41
01 69 89 71 10
91 58 01 13 11
01 28 53 59 65
89 99 49 78 83
01 35 56 23 67
03 07 34 05 01
31 44 52 47 52
95 75 53 47 01
50 47 07 25 17
28 41 56 47 01
11 10 34 05 80
14 11 52 51 33
16 65 53 30 58
05 83 07 01 90
50 67 44 37 75
45 01 99 89 11
36 52 41 01 79
33 01 87 53 90
12 01 01 49 05
15 01 09 56 82
30 80 61 34 34
50 33 87 52 01
85 58 25 53 10
79 90 21 07 12
00 67 41 20 69
29 01 10 44 30
19 86 11 90 16
11 01 65 32 09
07 22 83 64 05
30 01 67 97 88
31 80 01 67 69
59 33 80 63 58
93 58 01 99 28
01 90 35 61 99
37 75 16 46 35
58 11 71 38 07
44 79 13 03 44
37 90 59 93 75
33 05 78 22 47
03 37 23 69 51
73 89 05 81 33
86 01 47 21 75
61 53 47 99 75
11 49 25 21 53
43 56 15 28 40
58 34 30 06 01
78 52 50 24 01
07 53 85 25 01
23 07 79 93 63
MÉTODOS DE MUESTREO 15
Ejemplo - Ejercicio En un I.E.S. hay 120 alumnos en 2º de Bachillerato que se han divido en cinco grupos A, B, C, D y E de 24 alumnos y que, además, provenientes de 4 zonas o pueblos. • Zona 1: 20 alumnos • Zona 2: 32 alumnos • Zona 3: 60 alumnos • Zona 4: 8 alumnos Hay que elegir una muestra de 10 alumnos para hacerles una serie de preguntas. Utiliza los métodos de muestreo aleatorio estudiados para escoger la muestra. Solución a) Muestreo aleatorio simple Tomamos a los 10 alumnos de la tabla aleatoria tomando grupos de números de 3 cifras a partir de donde deseemos (vamos a hacerlo desde el principio), desechando los que sean mayores de 12 hasta que completemos los 10. Saldrían 098, 053, 062, 120, 032, 100, 048, 056, 052, 104, 020, 025 b) Muestreo sistemático Dividimos los 120 alumnos en 10 grupos de 12, por orden alfabético, por ejemplo, y si tomo, por ejemplo, el 6º alumno del grupo 1 , los restantes serían 13, 25, 37, 49, 61, 73, 85, 97, 109. c) Muestreo por estratos Si consideramos cada área geográfica como un estrato, tendremos que escoger los 10 alumnos proporcionales al número de alumnos que provienen de cada área es decir, si elijo n1 alumnos de la zona 1, n2 de la zona 2, n3 de la zona 3 y n4 de la zona 4 se tiene que cumplir que
n =n 1
2
20
32
=
n =n 3
60
8
4
=
10 de donde resulta n = 2; n = 3; n = 6; n = 1 1 2 3 4 120
Ahora tendríamos que hacer muestreo aleatorio simple para elegir o o o o
2 alumnos entre los 20 de la zona 1, 3 alumnos entre los 32 de la zona 2, 6 alumnos entre los 60 de la zona 3 y 1 alumno entre los 8 de la zona 4.
d) Muestreo por conglomerados Un conglomerado puede ser un grupo, que lo elegimos al azar entre los 5 grupos existentes. Nos colocamos en un lugar cualquiera de la tabla aleatoria y el primer número del 1 al 5 que surja será el grupo elegido, imaginémonos que es el grupo D que tiene 24 alumnos, pues volvemos a realizar muestreo aleatorio simple para elegir a 10 alumnos de entre los 24 del grupo D
MÉTODOS DE MUESTREO 16
DISTRIBUCION MUESTRAL Conceptos básicos Veamos ahora el concepto de distribución muestral, que es de gran importancia en toda la teoría que vamos a desarrollar a continuación. Ejemplo introductorio Supongamos una población finita de tamaño N = 5, de cinco trabajadores de una empresa cuyos salarios en euros son { 500, 1000, 1500, 2000, 2500 } En inferencia estadística, en lugar de llamarle ξ a la, en este caso, variable aleatoria “salario”, le vamos a llamar X mayúscula, por lo que X:Ω ⇾ ℝ que a cada elemento de la población, que en este caso son los 5 trabajadores, lo lleva en su salario. Normalmente la media y la varianza nos e conocen, de hecho es lo que se pretende habitualmente estimar, pero como en este ejemplo son solo 5 trabajadores es obvio conocer su media y su varianza (o mejor su desviación para usar números más pequeños): 500 + 1000 + 1500 + 2000 + 2500 = 1500 , y su La media de esta población es: µ = 5 varianza:
( 500 − 1500 ) + (1000 − 1500 ) + (1500 − 1500 ) + ( 2000 − 1500 ) + ( 2500 − 1500 ) σ = 2
2
2
2
2
2
5
Pero si en lugar de esta empresa, hablásemos de toda la población española de asalariados, estos dos datos no los sabríamos. Aquí en este ejemplo nos viene muy bien saberlos para razonar lo buenas o malas que son las aproximaciones mediante muestreo. Supongamos que deseamos obtener una muestra sin reemplazamiento de tamaño n = 2. 5 Si la muestra es de tamaño n = 2, hay C5,2 = = 10 posibilidades de muestras 2 distintas que, de hecho, son las siguientes, donde a cada una le calculamos su media, varianza y su desviación: nº muestra Muestra (xi, xj)
xi
V(xi)
D.T.(xi)
1 2 3 4 5 6 7 8
750 1000 1250 1500 1250 1500 1750 1750
62500 250000 562500 1000000 62500 250000 562500 62500
250 500 750 1000 250 500 750 250
500 500 500 500 1000 1000 1000 1500
1000 1500 2000 2500 1500 2000 2500 2000
DISTRIBUCION MUESTRAL 17
= 500000
9 10
1500 2000
2500 2500
2000 2250
250000 62500
500 250
Si analizamos estos datos, resulta que tenemos una población de la que ya sabemos a priori que tiene media µ = 1500 y σ2 = 500,000, y tomando todas las posibles muestras de tamaño 2 vemos que la media de estas muestras varía desde 750 hasta 2250, lo cual indica el tremendo error que podemos llegar a cometer si no conociésemos la media de nuestra población de referencia y quisiésemos estimarla con las medias xi de muestras de tamaño 2. Tampoco las varianzas van muy allá, variando desde 62,500 hasta 1,000,000, cuando la realidad es 500,000. Si calculamos la distribución de probabilidad todas estas medias xi representamos, resulta: Medias Muestrales
0,25
0,20 Probabilidades
Probabilidad Media xi 750 1/10 1000 1/10 1250 2/10 1500 2/10 1750 2/10 2000 1/10 2250 1/10
y las
0,15
0,10
0,05
0,00 750
1000
1250
1500
1750
2000
2250
Salarios
Si calculamos la media de estas medias muestrales: 7 1 1 2 2 2 1 1 µ x = ∑ xi pi = 750 ⋅ + 1000 ⋅ + 1250 ⋅ + 1500 ⋅ + 1750 ⋅ + 2000 ⋅ + 2250 ⋅ = ... 10 10 10 10 10 10 10 i =1 15000 = 1500 ... = 10 Mientras que la media de las varianzas de las medias resulta: E[V ( xi )] = 312500 luego la media µx coincide con la media de la población µ mientras que la varianza ha disminuido ostensiblemente de 500,000 a 312,500 lo que también nos da una idea de los tremendos errores que podemos llegar a cometer haciendo muestreos inadecuados y no tomando los estimadores apropiados. Este ejemplo, nos debe servir para intuir el método que vamos a seguir matemáticamente de ahora en adelante. Volvemos al principio y vamos a definir y acordar formas de notación para toda la teoría de muestreo, estimación y contraste de hipótesis. Muestras aleatorias Consideremos una población de tamaño N, de objetos { x1, x2, x3,...,xN } tan grande que decidimos tomar muestras de tamaño n, donde n ≤ N . DISTRIBUCION MUESTRAL 18
Llamemos Xi al “Valor de la característica poblacional del i-ésimo objeto” i = 1, 2, 3,...,n que queremos estudiar. En el ejemplo previo eran los salarios. La distribución de probabilidades de las variables X1, X2, X3,...,XN va a depender de la definición de cómo escogimos los n objetos.
Si el muestreo es con reemplazamiento (ó sustitución), eligiendo cada vez un objeto al azar, las variables son independientes e idénticamente distribuidas. Así, para cada Xi tenemos:
P [ xi = j ] =
1 donde j = 1, 2, 3,..., N y el número de posibles muestras de tamaño n es N
N CN ,n = n Si el muestreo es sin reemplazamiento (ó sustitución), las variables Xi ya no son 1 independientes, entones P [ x1 = j1 , x2 = j2 , x3 = j3 ,K , xn = jn ] = N ( N − 1)K ( N − n + 1) donde j1, j2,...,jn son n valores cualesquiera de 1, K , N . Y aquí, el número de posibles N + n − 1 muestras de tamaño n son CNR ,n = n
Definición: Muestra aleatoria Sean X1, X2, X3,...,Xn variables aleatorias independientes con las misma distribución de X ; llamaremos entonces a ( X1, X2, X3,...,Xn ) muestra aleatoria de X.
Parámetros y Estadísticos Definición: Parámetros y estadísticos Denominamos parámetros de una población a cualquier característica numérica que queramos obtener de la misma. Por ejemplo la media, varianza, desviación son parámetros de la población
Definición Estadístico Sea ( X1, X2, X3,...,Xn ) una muestra aleatoria de X y x1, x2, x3,...,xn los valores tomados por la muestra. Definimos estadístico como cualquier función real T que definamos sobre x1, x2, x3,...,xn . Por tanto, un estadístico es también, por sí mismo, una variable aleatoria y tendrá su distribución de probabilidad, función de distribución, su media, su varianza, etc. Los estadísticos más importantes son
DISTRIBUCION MUESTRAL 19
Media Muestral. X =
1 n ∑ xi n i =1
Momento orden 2: m2 =
1 n 2 ∑ xi n i =1
2
Varianza Muestral S n =
(
1 n ∑ xi − X n i =1 2
Cuasivarianza Muestral S n −1 = Proporción muestral p =
)
2
(
1 n ∑ xi − X n − 1 i =1
)
2
r nº veces que sale un suceso A = n n
Mínimo Muestral (Es el mínimo observado) K = min(x1, x2, x3,...,xn ) Máximo Muestral (Es el máximo observado) M = max(x1, x2, x3,...,xn ) Recorrido Muestral R = M – K
Y si ordenamos los resultados de la muestra de mayor a menor, entonces denominamos
xnj = j-ésima observación mayor en la muestra, j = 1,...,n (tenemos x1n = M y xnn = K ). Lo que trata la inferencia estadística es estimar los parámetros de la población mediante los estadísticos.
Propiedades de los Estadísticos Teorema Sea X una variable aleatoria con E(X) = µ y varianza V(X) = σ2 y sea X la media muestral de una muestra aleatoria con repetición de tamaño n. Entonces: i.
E(X ) = µ
ii.
V (X) =
iii.
Para n grande X
σ2 n X −µ σ2 N µ , ; o equivalentemente z = n n σ
N ( 0,1)
Demostración
DISTRIBUCION MUESTRAL 20
1 1 n 1 n i ). E ( X ) = E ∑ xi = ∑ E ( xi ) = nµ = µ n n i =1 n i =1 1 n 1 ii ) V ( X ) = V ∑ xi = 2 n i =1 n
1 σ2 2 V ( xi ) = 2 nσ = ∑ n n i =1 n
iii) NO lo tengo, pero está basado en el Teorema Central del Límite.
Teorema Sea X una variable aleatoria con E(X) = µ y varianza V(X) = σ2. Sea X la media muestral de una muestra aleatoria sin repetición de tamaño n. Entonces: i.
E(X ) = µ
ii.
V (X) =
N −n σ2 ⋅ N −1 n
DISTRIBUCION MUESTRAL 21
Distribución de la Media Error medio En el caso con repetición a la desviación típica de la muestra, dada por
V (X) =
σ n
también se le llama error medio ( o estándar) de la media En el caso sin repetición, el error medio de la muestra viene dado también por la desviación N −n N −n σ típica, es decir ⋅ y al cociente le llama factor de corrección del muestreo N −1 n N −1 sin repetición. En la práctica este factor, si N es muy grande tiende a 1 y se desprecia si n < 0.05 , es decir si la muestra no llega al 5% del tamaño de la población. N El error medio, en todo caso, es más pequeño cuanto más grande es la muestra. Su función es fundamental en la estadística pues mide el grado en el que se puede esperar que fluctúen o varíen las medias de una muestra como consecuencia del azar. Si σx es baja, hay buenas posibilidades de que la media de una muestra se aproxime a la media de la población si σx es alta, es más probable que obtengamos una muestra que difiera considerablemente de la media de la población. Otra conclusión, es que X se incrementa conforme aumenta la variabilidad de la población y que se reduce conforme el tamaño de la muestra es mayor. De hecho es directamente proporcional a σ e inversamente proporcional a n (en las poblaciones finitas se reduce aún más rápido ya que aparece el factor
N −n ) N −1
En resumen, se verifica la siguiente tabla Sin reemplazamiento Con reemplazamiento Población finita
µX = µ σX = 2
Población infinita
µX = µ
σ
2
n
µX = µ σX2 =
N −n σ2 ⋅ N −1 n
σX = 2
σ2 n
µX = µ σX2 =
σ2 n
Ejemplo Supongamos que una máquina envasadora de café llena paquetes de forma automática con una media de µ= 250 gr y una desviación típica de σ = 10 gr (σ2 = 100), es decir sigue una distribución N(250,10). Para hacer un control de calidad se toma una muestra de n = 100 paquetes y se pesan, obteniendo así un valor de la media muestral
DISTRIBUCION MUESTRAL 22
X . Por los teoremas previos, sabemos que esta media muestral X tiene una distribución N(µ, σ2/n) = N(250,1) ¿Cuál es la probabilidad de que la media muestral tome valores mayores de 260 gramos?
Solución
X − 250 260 − 250 P X ≥ 260 = 1 − P X ≤ 260 = 1 − P ≤ = 1 − P [ Z ≤ 10] ≈ 1 − 1 = 0 1 1 Es decir es imposible que una muestra tenga una media de 260 gr. De salir así indicaría que la el proceso de empaquetado presenta una importante anormalidad que habría que investigar.
Teorema Central del Límite aplicado a muestras. Lo que dijimos en general para cualquier población en el tema previo, se puede aplicar aquí a muestras grandes, de forma que siempre podemos obtener una aproximación cercana de la distribución muestral de la media con una distribución normal. Teniendo en cuenta que ya sabemos la media y desviación típica de la distribución muestral, podemos decir que:
σ
Sea X la media muestral (de media µx =µ y σ X = media µ y desviación típica σ y n grande entonces
) de una muestra aleatoria infinita de
n
Z
X −µ
=
→ N (0,1)
σ/ n
Aunque es lo mismo dicho de otra manera, el teorema central del límite se enuncia de forma general de la siguiente manera: Si X1, X2, X3,...,Xn son variables aleatorias independientes que tienen la misma función de distribución y la misma media µ y la misma desviación σ entonces, cuando n⇾∞ se tiene que
(
Yn = X1+ X2+ X3+...+Xn tiende a una N nµ , σ n
)
Un caso particular del Teorema Central del Límite es el Teorema de Moivre-Laplace que afirma que para n lo suficientemente grande la distribución binomial B(n,p) se aproxima a
(
)
una N np, npq . Enunciándolo apropiadamente para nuestro caso sería: Si X1, X2, X3,...,Xn son variables aleatorias dicotónicas independientes cada una de ellas con E(Xi) = p y V(Xi) = pq entonces, cuando n⇾∞ se tiene que nX
= X1+
(
X2+ X3+...+Xn tiende a una N np, npq
o equivalentemente X → N p,
)
pq n
DISTRIBUCION MUESTRAL 23
Este teorema es muy importante, puesto que justifica el uso de los métodos de la curva normal en una gran cantidad de problemas. se utiliza para poblaciones infinitas y para poblaciones finitas cuando n a pesar de ser grande representa una porción muy pequeña de la población. Es difícil señalar con precisión qué tan grande debe ser n de modo que podamos aplicar el Teorema Central del límite, pero a no ser que la distribución sea muy inusual, por lo general se considera que n > 30 es lo suficientemente alto.
Ejemplo ¿Qué podemos decir del tamaño de nuestro error, si vamos a usar la media de una muestra aleatoria de tamaño n = 64 para estimar la media de una población infinita con σ = 20? (Usa k = 2 en la desigualdad de Chebyshev)
Solución Sustituyendo n = 64 y σ = 20 en la fórmula del error estándar de la media, 20 = 2.5 y por el teorema de Chebyshev para k = 2 podemos obtenemos que σ x = 64 afirmar que como mínimo 1 - 1/22 = 0.75 que el error será menor que k·σx = 2·2.5= 5 Es decir que tenemos una garantía de que en el 75% de los casos la media de la población estará entre la media calculada ±5 . (Nota: la probabilidad real de este caso puede estar entre 0,98 y el 0,999) Si en lugar de la desigualdad de Chebyshev usamos el Teorema Central del limite La probabilidad se obtiene por medio del área marcada de la zona rosácea, −5 = −2 y específicamente por medio del área de la N(0,1) entre z = 20 / 64 5 z= =2 20 / 64
lo que consultando en las tablas da una probabilidad de 0.9544. Así sustituimos la afirmación de que la probabilidad es “como mínimo 0,75” por una aseveración más firme de que la probabilidad es aproximadamente de 0,95 ( de que la muestra aleatoria DISTRIBUCION MUESTRAL 24
de tamaño n=64 de la población de referencia difiera de la de la población menos de 5 unidades) También se puede usar el teorema Central del límite para poblaciones finitas, pero una descripción precisa de las situaciones en que se puede hacer esto, sería más bien complicada. El uso apropiado más común es en el caso en que n es grande y n/N es pequeña. Este es el caso de la mayoría de las encuestas políticas. Veamos a continuación un ejemplo de la importancia de la selección adecuada de la muestra.
Ejemplo Vamos a suponer una población de tamaño 60 elementos en el que se ha medido una determinada característica. De esta población vamos a realizar 25 muestras aleatorias y vamos a comprobar las diferencias existentes entre los valores estimados y los valores poblacionales. 111 406 279 295 244 335
539 257 393 402 116 707
216 290 450 183 127 266
128 213 92 310 348 91
462 325 241 257 418 703
283 306 302 257 232 380
413 184 319 302 400 618
237 168 193 315 166 79
193 310 281 353 451 588
177 266 313 128 315 199
Media Poblacional µ = 298.87 Desviación típica poblacional σ = 139.427 Buscar la continuación!!!!!
DISTRIBUCION MUESTRAL 25
Distribución de la proporción La estimación de la proporción es una práctica muy frecuente en multitud de investigaciones de cuestiones científicas, sociales, económicas y políticas. Podríamos poner como ejemplos, el conocer la tasa de paro, número de oyentes de una cadena de radio, el porcentaje de sero positivos del virus del SIDA, proporción de votantes de determinado partido. En todos estos casos lo que se hace es obtener muestras y extrapolar las proporciones resultantes con la muestra a toda la población. En general, para discutir las proporciones pensemos que solo nos interesa saber si un elemento pertenece a un grupo dado o no, esto indica que hemos dividido la población en dos subconjuntos disjuntos A = {pertenecer al grupo} Ac = {no pertenecer al grupo}. Llamemos p = P(A) luego q = 1 – p = P(AC) y si definimos la v.a. r = “nº de elementos que pertenecen a A entre n” , esta v.a. es una binomial B(n,p) pero que si n es suficientemente grande se tiende, por el Teorema Central del límite, a una N((np, npq) Nuestro
propósito
es
np npq pq N , 2 = N p, n n n p− p → N (0,1) p (1 − p ) n
estimar
la
proporción
p=
r n
que
tiende
a
una
y por el teorema de Moivre podemos concluir que
Ejemplo - Ejercicio Sabemos que la proporción de zurdos en poblaciones donde no se reprime este impulso en edades tempranas es del 20%. Si tomamos una muestra aleatoria de 100 personas ¿cuál es la probabilidad de obtener menos del 5% de zurdos?
Solución Ser o no zurdo, en este ámbito, sigue una distribución B(100,0.2) donde el parámetro p = 0.2 Si tomo una muestra de 100 personas la variable X + ... + X 100 pq → N np, X = 1 = N ( 20, 0.04 ) n 100 0.05 − 20 De donde P X ≤ 0.05 = P Z ≤ = P [ Z ≤ −476] ≈ 0 0.04
Ejemplo - Ejercicio De anteriores elecciones se sabe que la proporción de un partido político A es del 15%. Preguntados hoy 50 ciudadanos, 9 de ellos declaran tener intención de votar al partido A. ¿Hay motivos serios para pensar que el partido A va a mejorar sus resultados? DISTRIBUCION MUESTRAL 26
(PG 99 [67] )
Solución Los datos históricos nos dicen que tomado un individuo al azar hay una probabilidad p = 0.15 de votar al partido A y q = 0.85 de no hacerlo. Si tomo una muestra de 50, la cantidad de votantes resultantes al partido A sigue una B(50·0.15, 50·0.15·0.85) = B(7.5, 6.375) por lo que la muestra de 50 verifica que X + ... + X 50 → N ( 7.5, 0.3873) X= 1 50 entonces la probabilidad de que más de 8 personas muestren su apoyo al partido A es 8 − 7.5 P X ≥ 8 = 1 − P X ≤ 8 = 1 − P Z ≤ = 1 − P [ Z ≤ 1.29 ] = 1 − 0.9015 = 0.0985 0.3873 Lo cual es muy pequeño, por lo que cabe concluir que la esperanza de aumento de votos está justificada.
Ejemplo - Ejercicio Calcular la probabilidad de que en los próximos 200 nacimientos a. Menos del 40 % sean varones b. Entre el 43% y el 57% sean varones c. Más del 54% sean varones
Solución a. Partimos de la hipótesis de que P(Varón) = 0.5 y sabemos que n = 200, luego r p200 = → N ( µ = 0.5, σ = 0.035) 200 0.4 − 0.5 P p ≤ 0.4 = P Z ≤ = P[ Z ≤ −2.82] ≈ 0.0073 0.035 b. 0.57 − 0.5 0.43 − 0.5 P 0.43 ≤ p ≤ 0.57 = P ≤Z≤ = P [ −1.98 ≤ Z ≤ 1.98] = 0.035 0.035 = 0.9761 − 0.0238 = 0.9522 c. 0.54 − 0.5 P p ≥ 0.54 = 1 − P Z ≤ = 1 − P [ Z ≤ 1.98] = 1 − 0.8711 = 0.1289 0.035
Ejemplo - Ejercicio El 2% de las tabletas que produce una cierta máquina llevan algún tipo de defecto. Se empaquetan 400 tabletas para enviar a un hospital a. ¿Cuál es la probabilidad de que entre ellas haya al menos un 3% de defectuosas? b. ¿Y de que haya menos del 4% de defectuosas?
Solución La v.a. r = “nº tabletas defectuosas entre 400” ↝ B(400,0.02) que tiende a una N(8, σ = 2.8) luego r/n ↝ N(0.02, σ = 0.007)
DISTRIBUCION MUESTRAL 27
Pp = Pp =
r 0.03 − 0.02 ≥ 0.03 = 1 − P Z ≤ = 1 − P [ Z ≤ 1.428] = 1 − 0.9234 = 0.0766 n 0.007 0.04 − 0.02 r ≤ 0.04 = P Z ≤ = P [ Z ≤ 2.857 ] 0.9978 n 0.007
DISTRIBUCION MUESTRAL 28
Distribucion de diferencias de medias muestrales Ilustremos el estudio de esta distribución con un ejemplo.
Ejemplo Vamos a estudiar la v.a. X que indica el nivel de colesterol entre dos poblaciones, una de hombres con media µ1 y otra de mujeres con media µ2. Queremos estudiar el parámetro diferencia µ2 - µ1 > 0 Obtenemos una muestra de cada una de las dos poblaciones y calculamos la media de ellas que resulta X 1 para los hombres y X 2 para las mujeres El estadístico que vamos a usar es justamente X 1 − X 2 Nos preguntamos ¿será X 1 − X 2 un buen estimador de µ2 - µ1? Pues bien, desglosemos un poco todo esto en tres casos.
Caso 1 Supongamos que conocemos los parámetros las dos poblaciones independientes de hombres σ σ y mujeres, es decir sabemos que las v.a. X 1 N µ1 , 1 y X 2 N µ 2 , 2 luego n1 n2
X1 − X 2
(
)
X 1 − X 2 − ( µ1 − µ2 ) σ 12 σ 2 2 de donde N µ1 − µ2 , + n1 n2 σ 12 σ 2 2 + n1 n2
N ( 0,1)
Caso 2 Supongamos que no conocemos n pero en ambos casos sabemos que es muy grande, entonces ocurre lo mismo que en el caso anterior Caso 3 Supongamos que desconocemos en ambas poblaciones las desviaciones. En este caso estimamos
X 1 − µ1
σ1 n1
tn1 −1 y
X 2 − µ2
σ2
tn2 −1 por t-Student
n2
Y la fórmula resultante la obtenemos en la tabla de la t-Student
Ejemplo Se desea saber si un complejo vitamínico puede ayudar al engorde de pollos y para comprobarlo, un granjero que tiene una granja establece dos muestras, una muestra A de 100 pollos a la que no varía la alimentación habitual y otra muestra B de 120 pollos a la que suministra el nuevo complejo vitamínico. Al finalizar el experimento sacrifica DISTRIBUCION MUESTRAL 29
todos los pollos de ambas muestras obteniendo en la muestra A un peso µ1 = 3,4 Kg con σ1 = 0,5 y para la muestra B obtiene µ2 = 4 Kg con σ2 = 0,7 Se desea saber si el engorde ha sido realmente un hecho cierto o los datos obtenidos son fruto de la casualidad, para lo cual queremos conocer cual es la probabilidad de que la media de engorde sea de 0,6 kg. En términos formales lo que queremos es calcular P X 1 − X 2 ≥ 0.6 Podemos asumir la hipótesis de normalidad al ser los tamaños muestrales mayores de 30. Y ahora razonamos de la siguiente manera, si no hubiese sido efectivo el suministro del complejo vitamínico entonces la esperanza de ambas medias sería la misma, luego µ1 - µ2 = 0 y por tanto la distribución de la diferencia de medias muestrales sería: σ2 σ 2 0.52 0.7 2 X 1 − X 2 N µ1 − µ2 , 1 + 2 = N 0, + = N ( 0, 0.081) n1 n2 100 120 Para una distribución de este tipo se tiene que
0.6 − 0 P X 1 − X 2 ≥ 0.6 = P Z ≥ = 1 − Z 7.39 1 − 1 = 0 0.081 por lo que solo cabe concluir que el engorde ha sido realmente efectivo. Incluso si el aumento del peso medio de la muestra B hubiese sido de solo 200 gramos
0.2 − 0 P X 1 − X 2 ≥ 0.2 = P Z ≥ = 1 − Z 2.46 1 − 0.9931 = 0.0069 0.081 lo que significaría que solo hay un 0.31% de probabilidades de que este engorde hunicese sido fruto del azar.
DISTRIBUCION MUESTRAL 30
Distribución de diferencias de proporciones muestrales Introducimos otro ejemplo que ilustre lo que vamos a ir definiendo
Ejemplo Supongamos que tenemos dos comunidades españolas, Galicia y Andalucía y queremos conocer la distribución de la diferencia de casos de una determinada enfermedad entre ambas comunidades Sea A el suceso “estar enfermo” y sea Ac su complementario “no estar enfermo” De la primera población, que es Galicia, obtenemos una muestra que sabemos que su r tamaño n1 es grande ( > 50) y llamamos p1 = 1 a la estimación de la proporción y n1
p1
p (1 − p1 ) N p1 , 1 n 1
De la segunda población, que es Andalucía, obtenemos una muestra que sabemos que r su tamaño n2 es grande ( > 50)y llamamos p2 = 2 a la estimación de la proporción y n2
p2
p (1 − p2 ) N p2 , 2 n 2
Nuestra intención es conocer la distribución de p1 − p2 donde
p1 − p2
p (1 − p1 ) p2 (1 − p2 ) + N p1 − p2 , 1 n n 1 2
La cual tipificada resulta
( p − p )−( p − p ) 1
2
1
2
p1 (1 − p1 ) p2 (1 − p2 ) + n1 n2
N ( 0,1)
p1 = P(A/Poblacion1) y p2 = P(A/Poblacion2) que n1 es grande
DISTRIBUCION MUESTRAL 31
Ejercicio Las lámparas utilizadas por un cierto aparato están suministradas por dos casas comerciales A y B. Las de A tienen la duración media de µ = 2000 horas y una desviación σ = 400 horas mientras que las de B tienen µ = 1800 horas y σ = 500 horas. Se compraron 200 lámparas de A y 150 lámparas de B. ¿Cuál es la probabilidad de que la duración media de la muestra de A no supere en más de 100 horas la duración media de la muestra B?
Solución Suponemos que las duraciones de las lámparas siguen una distribución normal. Lo que nos pide el ejercicio es P X A < X B + 100 = P X A − X B < +100 Fabricante A µA = 2000; σA = 400; nA = 200 y obtenemos una muestra con media X A
XA
σ N µA, A nA
400 = N 2000, = N ( 2000, 28.2 ) 200
Fabricante B µB = 1800; σB = 500; nB = 150 y obtenemos una muestra con media X B σ 500 X B N µ B , B = N 1800, = N (1800, 40.8 ) 150 n B Entonces XA − XB
)
(
N 2000 − 1800, 28.22 + 40.82 = N ( 200, 49.66 ) de donde
100 − 200 P X A − X B < +100 = P Z < = P [ Z < −2.01] = 0.0222 49.66
Teorema Sea X una variable aleatoria continua con función de probabilidad f y función e distribución F. Sea ( X1, X2, X3,...,Xn ) una muestra aleatoria de X y sean K y M en mínimo y el máximo respectivamente. Luego: 1. la función de probabilidad de M es: g ( m ) = n F ( m ) 2. la función de probabilidad de K es: h ( k ) = n F ( k )
n −1
n −1
f ( m) .
f (k ) .
Demostración Sea G ( m ) = P ( M ≤ m ) la función de distribución de M; {M ≤ m} es equivalente al evento { Xi ≤ m, para todo i}. Como Xi son independientes entonces:
G ( m ) = P [ X 1 ≤ m K X n ≤ m ] = F ( m )
n
DISTRIBUCION MUESTRAL 32
g ( m ) = G ′ ( m ) = n F ( m )
n −1
f ( m)
Para K la demostración es totalmente análoga
DISTRIBUCION MUESTRAL 33