Inferencia estadistica.Muestreo by Miguel Perez

Statistics Inferencial Statistics: Muestreo

OpenMaths.com 1.1.5.5.1

Ver 01:03/02/2010

NOTA La clasificación decimal de todos los temas de este manual tienen implícito el comienzo 1.1.5.5.1 correspondiente a

SCIENCE

1.1

MATHEMATICS

1.1.5

STATISTICS

1.1.5.5

INFERENCIAL STATISTICS

1.1.5.5.1

MUESTREO

COPYLEFT Este material así como los applets, powerpoints, videos y archivos de sonido asociados, puede ser distribuido bajo los términos y condiciones definidos en Open Publication License versión 1.0 o posterior (La versión más reciente está disponible en http://www.opencontent.org/openpub/). El contenido está sujeto a constantes cambios sin previo aviso. Su fin es didáctico y solo pretende la universalización de la cultura. Está escrito en base a la colaboración de las miles de personas que componen nuestra comunidad OpenUepc. Se ha exigido a los autores que referencien todas las fuentes utilizadas y figuran al final del texto. Cualquier distribución del mismo debe mencionar a OpenUepc como fuente. Miguel Pérez Fontenla miguelperez@edu.xunta.es INDICE AUTORES

Iniciado por: Miguel Pérez Fontenla 12/12/2009

TABLA DE CONTENIDO INTRODUCCION .................................................................................................................... 3 History ................................................................................................................................... 3 CONCEPTOS BÁSICOS.......................................................................................................... 4 Poblacion y Muestra .............................................................................................................. 4 Parámetros ............................................................................................................................. 5 MÉTODOS DE MUESTREO................................................................................................... 7 Muestreo aleatorio simple ..................................................................................................... 7 Números aleatorios ................................................................................................................ 7 Muestreo sistemático ............................................................................................................. 8 Muestreo estratificado ........................................................................................................... 9 Definición: Distribución óptima ........................................................................................ 9 Estratificación cruzada: .................................................................................................... 10 Muestreo por cuotas ......................................................................................................... 10 Muestreo por conglomerados .............................................................................................. 11 Muestreo polietápico ........................................................................................................ 11 Muestreo polietápico por cuotas ...................................................................................... 12 Otros tipos de muestreos ..................................................................................................... 12 Incidental.......................................................................................................................... 12 Accidental ........................................................................................................................ 12 Por voluntarios ................................................................................................................. 13 Muestreo juicio ................................................................................................................ 13 Muestreo de bola de nieve ............................................................................................... 13 Muestreo subjetivo por decisión razonada ....................................................................... 13 DISTRIBUCION MUESTRAL .............................................................................................. 17 Conceptos básicos ............................................................................................................... 17 Muestras aleatorias........................................................................................................... 18 Parámetros y Estadísticos ................................................................................................ 19 Propiedades de los Estadísticos ....................................................................................... 20 Distribución de la Media ..................................................................................................... 22 Error medio ...................................................................................................................... 22 Teorema Central del Límite aplicado a muestras. ........................................................... 23 Distribución de la proporción .............................................................................................. 26 Distribucion de diferencias de medias muestrales ............................................................... 29 Distribución de diferencias de proporciones muestrales ..................................................... 31

INTRODUCCION 1

INTRODUCCION 2

INTRODUCCION La inferencia estadística es el proceso usado para estudiar alguna característica de una población, habitualmente numerosa, a través de una muestra o parte más pequeña de la misma que nos haga manejable y económico llevar a cabo tal estudio. Se divide en tres grandes campos: • • •

Muestreo Estimación Test de hipótesis

Vamos a continuación a explorar el primero de estos tres procesos con el suficiente detenimiento para que puede cubrir las expectativas de hasta los primeros ciclos de cualquier carrera universitaria.

History Random sampling by using lots is an old idea, mentioned several times in the Bible. In 1786 Pierre Simon Laplace estimated the population of France by using a sample, along with ratio estimator. He also computed probabilistic estimates of the error. These were not expressed as modern confidence intervals but as the sample size that would be needed to achieve a particular upper bound on the sampling error with probability 1000/1001. His estimates used Bayes' theorem with a uniform prior probability and it assumed his sample was random. The theory of small-sample statistics developed by William Sealy Gossett put the subject on a more rigorous basis in the 20th century. However, the importance of random sampling was not universally appreciated and in the USA the 1936 Literary Digest prediction of a Republican win in the presidential election went badly awry, due to severe bias [1]. More than two million people responded to the study with their names obtained through magazine subscription lists and telephone directories. It was not appreciated that these lists were heavily biased towards Republicans and the resulting sample, though very large, was deeply flawed. http://en.wikipedia.org/wiki/Sampling_(statistics)

INTRODUCCION 3

CONCEPTOS BÁSICOS Cuando se quiere realizar un estudio estadístico, es habitual que la población de estudio sea muy grande, lo que nos convierte el estudio de la misma en, o bien caro o muy costoso económicamente, o bien muy largo en su duración. Para atajar, existe la posibilidad de tomar una pequeña muestra de la población y realizar nuestro estudio sobre ella y extrapolar los resultados a la población total de manera que vamos a tratar que nuestros estudios sean lo más acertados posibles. Esta idea es en lo que, básicamente, consiste el muestreo o teoría de muestras. La idea es simple, pero llevarla a cabo no tanto. Elegir la muestra, parece sencillo, pero tiene sus complejidades. Por ejemplo, si queremos estudiar la intención de voto para unas elecciones, no deberíamos tomar la muestra exclusivamente en una macrodiscoteca, ni en una convención de un sindicato, ni en hogar del jubilado ni en una calle cara y céntrica de Madrid. La muestra debe ser representativa de la población que vamos a estudiar, y en una macrodiscoteca suele haber gente mayoritariamente muy joven y en una calle céntrica y comercial de Madrid, pongamos calle Serrano, pues el nivel económico de sus habitantes no es parecido a la media del país. Por ello, la primera condición para elegir una muestra, es que sea aleatoria, es decir, los elementos que la compongan deben ser elegidos al azar. La segunda, que debe ser representativa de la población a estudiar, de manera que el estudio de la muestra sea lo más similar posible al estudio de toda la población. Para hacer un estudio estadístico sobre una muestra, se deben definir inicialmente lo siguiente 1. Definir la población a estudiar 2. Determinar el tamaño de la muestra necesaria 3. Establecer una técnica de muestreo

Poblacion y Muestra Definición: Población Denominamos población al conjunto de elementos al que va dirigida una investigación estadística (en el caso de estadística descriptiva) o un experimento aleatorio (estadística matemática) Denominamos tamaño de un población al número de elementos que la componen, puede ser finita o infinita Denominamos población diana a la totalidad de la población a la que se refiere el estudio Denominamos población accesible o de estudio al subconjunto de la población diana en el cual los datos están disponibles o son fáciles de conocer. Definición: Muestra CONCEPTOS BÁSICOS 4

Denominamos muestra al grupo o subconjunto limitado de individuos de entre la población accesible, debidamente elegidos, al que realmente vamos a estudiar de forma que nos represente a toda la población para sometarla al estudio estadístico con el proposito de que los resultados que obtengamos poder extrapolarlos a la población completa. Denominamos tamaño de la muestra al número exacto de elementos que la componen. Este debe ser óptimo en cuanto a que sea lo menor posible (ahorro de costes y tiempos) sin pérdida de información. Un número insuficiente de elementos puede impedir encontrar diferencias o asociaciones buscadas en el estudio mientras que un número excesivo, aparte de caro, puede detectar como significativas diferencias o asociaciones de la población que en realidad son irrelevantes Para determinar el apropiado tamaño muestral se utilizan técnicas estadísticas que pronto veremos, incluidas en lo que se denomina Inferencia estadística . Estas técnicas tienen como premisas siempre dos condicionantes: •

• •

Variabilidad del fenómeno estudiado. Por ejemplo, no es lo mismo estudiar la razas de la población de London o New York, que son un crisol de ellas, que estudiarla en Beiging ó Tokio donde mayoritariamente la población es China o Japonesa. En cualquier caso, a mayor variabilidad, necesitaremos una muestra también mayor. Exigencia deseada de las estimaciones que la componen el denominado Nivel de confianza, el error deseado, la precisión en la estimación El nivel de confianza es la probabilidad de que el intervalo de confianza hallado en nuestro estudio para el parámetro que se estima, contenga efectivamente el verdadero valor de dicho parámetro

Definicion: Muestreo y encuesta Denominamos muestreo al proceso estadístico seguido para la extracción de una muestra. Denominamos encuesta al proceso de obtener información de la muestra.

Parámetros Definición: Parámetro Denominamos parámetros de la población a las características numéricas que deseamos conocer de la población mediante el muestreo. Los más típicos en matemáticas son la media, la desviación y la proporción, pero en medicina podríamos hablar de otros tales como la prevalencia, la sensibilidad o la especificidad. El muestreo presenta limitaciones, pues es frecuente concluir datos erróneos, nunca se sabe si la elección de la muestra es del todo correcta, y no siempre las personas que la llevan a cabo dominan la técnica del muestreo. Tampoco obtenemos una información certera de toda la población, lo que hacemos es suponer que la totalidad de los elementos se comportarán como la muestra. Sin embargo, la imposibilidad de abarcar la población completa, el coste económico que ello supone y la premura de tiempo con la que se suelen necesitar los estudios estadísticos hacen del muestreo una técnica imprescindible en estadística. CONCEPTOS BÁSICOS 5

Ejemplos Para una campaña contra el consumo de alcohol y drogas entre los adolescentes gallegos se desean conocer los hábitos de consumo en determinada ciudad. La población diana son todos los adolescentes de Galicia. Por celebrarse un botellón cada jueves en Santiago de Compostela, elegimos esos adolescentes como población accesible pero como no los vamos a estudiar a todos hacemos una encuesta sobre una muestra de 100 estudiantes entre dos institutos de secundaria, uno céntrico y otro rural. Ejemplo 2 Se desea calcular la cantidad de dinero que se gastan los españoles en vacaciones. Resulta obvio que no sería razonable elegir la muestra de entre personas alojadas exclusivamente en hoteles de 4 y 5 estrellas, pero el hecho de decidir donde buscar la muestra para que resulte homogénea y representativa con la población que queremos estudiar en este caso, que son veraneantes pues no resulta ni obvio ni intuitivo.

CONCEPTOS BÁSICOS 6

MÉTODOS DE MUESTREO Muestreo no probabilístico donde no se usa el azar, sino el criterio y experiencia del propio investigador. Presenta mucho sesgo y no es fiable pero aunque este método no tiene mucho de científico puede resultar útil en determinadas inspecciones policiales y fiscales, donde se puedan intuir las bolsas o colectivos de fraude o delincuencia. Muestreo aleatorio o probabilístico donde el diseño de la muestra sigue los estándares probabilísticos, conocemos las probabilidades previas de cada suceso posible y la muestra es lo más representativa de la población a estudiar Cuando un elemento de la población, tras ser seleccionado para la muestra es devuelto a la población de manera que pueda ser seleccionado de nuevo, firemos que se tarta de muestreo con repetición. Por ejemplo, si entre los 20 alumnos de una clase se quiere nombrar un delegado y un representante del consejo escolar, un mismo alumno puede representar ambos cargos. Cuando una vez seleccionado un elemento para la muestra, éste ya no puede volver a ser seleccionado, diremos que estamos en un muestro sin repetición. Por ejemplo, seleccionar tres cartas del mazo para jugar a la escoba, es una muestra del mazo sin repeticion

Muestreo aleatorio simple Diremos que una muestreo es aleatorio simple cuando todas las posibles muestras de un determinado tamaño extraídas de una población tienen la misma probabilidad de ser seleccionadas. Las observaciones se realizan con reemplazamiento de manera que la población es idéntica en todas las extracciones aunque ello comporte que algún individuoo pueda ser elegido más de una vez. Este tipo de muestreo es adecuado en el caso de poblaciones pequeñas y homogéneas y que los elementos que la forman sean perfectamente identificables. Es una exigencia imprescindible la aleatoriedad de la muestra. Para ello hay técnicas que iremos viendo a continuación.

Números aleatorios Existen tablas de números aleatorios, como la que adjuntamos al final deste tema. También los ordenadores incluyen la función RANDOM() en la práctica totalidad de los sistemas operativos y lenguajes de programación. En Excel castellano concretamente tenemos la función ALEATORIO() que genera un número aleatorio entre 0 y 1 aunque estos números son en realidad pseudo-aleatorios pues surgen de una fórmula determinística aunque tienen suficientes garantías de que la muestra elegida con ellos podamos considerarla como aleatoria. El sistema para elegir una muestra aleatoria consiste en establecer una correspondencia biyectiva, elemento a elemento, entre la colección de números aleatorios obtenidos de nuestra tabla y la población. Ejemplo MÉTODOS DE MUESTREO 7

Supongamos que en una inspección, de los 1200 pacientes de un hospital queremos elegir a 2 para entrevistarlos y proporcionarles una encuesta de calidad. Un primer método elemental y básico para elegir a dos pacientes sería, primero tener identificados los pacientes del 0001 al 1200 y, a continuación, con la ayuda de una urna y diez papeletas con los números del 0 al 9 e ir extrayendo 4 papeletas con repetición hasta ir completando los dos números necesarios. El problema de elección con las unidades de millar, en las que solo necesitamos 0 ó 1, pues el número más grande es el 1200, se soluciona repitiendo la extracción hasta que aparezca 0 ó 1, pero no usar solo esos dos papeles, pues entonces tendrían mucha más probabilidad del 1000 al 1200 que solo hay 200 pacientes, que del 0001 al 0999 que hay 999. Con la ayuda del ordenador se nos hace menos laborioso. En el número de casillas Excel que necesitemos escribimos ENTERO(1+ALETARIO()*1199) y tendremos nuestros números aleatorios Cuando nos encontramos ante poblaciones numerosas y heterogéneas el método aleatorio simple no nos vale, dado que es inalcanzable el llegar a numerar e identificar a todos los miembros de la población. Imagínate una encuesta sobre el consumo de alcohol entre adolescentes gallegos. El solo hehco de numerarlos e identificarlos ya es un problema de gran envergadura. En estos casos se utrilizan otros métodos, de entre los cuales destacamos • • •

Muestreo sistemático Muestreo estratificado Muestreo por conglomerados

Muestreo sistemático Supongamos que la población tiene un tamaño N y disponemos de una lista de los mismos. Supongamos que queremos obtener una muestra de tamaño n Dividimos lista de la población en n grupos o intervalos de tamaño m, de forma que n‧m = N. A m se le denomina coeficiente de elevación. Se toma un elemento al azar del primero de los grupos (entre 1 y m) que llamamos origen. Si el elemento seleccionado fue el i-ésimo, se toma el elemento (i + m) al azar del grupo 2, el (i + 2m) del grupo 3,...., así hasta el i + (n-1)m del grupo n. De esta manera, obtenemos n elementos, uno de cada uno de los n grupos. Si la lista la elaboramos de manera que los elementos próximos tengan características semejantes, este muestreo tiende a ser más preciso que el muestreo aleatorio simple. Sin embargo corremos un riesgo que consiste en que puedan existir periodicidades no evidentes, por ejemplo una máquina produce una pieza defectuosa cada m fabricadas y este m coincide con el tamaño de los grupos entonces la muestra elegida nos saldría siempre, o bien con todos sus elementos defectuosos, o bien con todos ellos correctos, y en ambos casos provocará una distorsión decisiva en nuestro estudio.

MÉTODOS DE MUESTREO 8

Muestreo estratificado En este método suponemos que tenemos información sobre la población que nos permita dividirla en subconjuntos (o estratos) lo más homogéneos posibles y en cada estrato se aplica un muestreo aleatorio simple. De ahí que también se denomine muestreo aleatorio simple estratificado. Los estratos se determinan basándose en experiencias previas o tomando experiencias piloto. El número de elementos que se toma de cada estrato puede hacerse de múltiples maneras: Si se toma la misma cantidad de cada estrato el muestreo se denomina de elección uniforme. Si el reparto es proporcional al número de elementos de cada estrato diremos que es de elección proporcional Ejemplo Si una población posee un 20% de mujeres y un 80% de hombres, nos interesa que la muestra mantenga la misma proporción. Si estuviésemos experimentando un medicamento y queremos comparar sus efectos entre una población con un 40% de fumadores y un 60% de no fumadores, la muestra debe respetar la esta proporción poblacional existente entre ambos. De la misma forma, si la población la dividimos en niveles culturales, es importante que la muestra también los represente en proporciones similares. Por ejemplo, en sondeos de opinión política, es importante que las muestras sean proporcionales a los niveles económicos, culturales, geográficos, sexo y edad de la población a estudiar. Supongamos una población de tamaño N que se divide en k estratos cuyos tamaños son: N1, N2, .....,Nk (con N1 +N2 +.....+Nk =N). Para obtener una distribución proporcional hemos de tener en cuenta que : n1

n N

= ....... =

n N

k k

n , de donde se obtiene que n = N • n para N N i

i=1,2,3,4,.... k donde n es tamaño de la muestra. Esta sería una distribución proporcional, pero hay otras formas de distribuir porciones de una muestra entre los distintos estratos, que serían: • • •

Distribución óptima. Estratificación cruzada. Muestreo por cuotas.

Definición: Distribución óptima En la Distribución optima, no sólo se maneja el tamaño del estrato, como en la distribución proporcional, sino que también se maneja la variabilidad (o cualquier otra característica pertinente) del estrato. La idea de la Distribución óptima, trata de jugar no sólo con el tamaño del estrato, sino que también pretende jugar con la variabilidad del mismo, de forma que parece lógico que los MÉTODOS DE MUESTREO 9

estratos de mayor variabilidad le correspondan muestras mayores. Si σ1, σ2, σ3, ...., σk son las desviaciones típicas de los k estratos podemos explicar tanto los tamaños de los estratos, así como su variabilidad.

N 1 •σ 1

N 2 •σ 2

N 3 •σ 3

= ........ =

N k •σ 1k

de donde se obtienen los tamaños muestrales de la distribución óptima o Distribución de Neyman (su inventor) que se obtienen por la fórmula:

n= i

n⋅N ⋅σ para i=1,2,...., k y n= n1+n2+.......+nk ⋅ + ⋅ + ....... + ⋅ N σ N σ N σ i

Estratificación cruzada: La estratificación no se limita a una variable única de clasificación o una característica y las poblaciones a menudo se estratifican atendiendo a diversos criterios de ordenación o clasificación. Así por ejemplo si queremos realizar un estudio entre los alumnos de distintos IES podríamos estratificar la muestra atendiendo al nivel de estudios, al sexo, a la especialidad,.... Así parte de la muestra se dedicaría a los alumnos de sexo femenino del 1º de Bachillerato técnico, otra parte a los alumnos de sexo masculino de 1º Bachillerato artístico, y así sucesivamente. Así y hasta cierto punto una estratificación de este tipo, llamada estratificación cruzada, incrementará la precisión de las estimaciones y otras generalizaciones que se usan comúnmente en el muestreo de opinión y las investigaciones de mercado. Muestreo por cuotas En el muestreo por cuotas, el investigador establece estratos de la población, determina el número de individuos a seleccionar en cada uno de ellos y elige intencionadamente individuos para completar las cuotas establecidas. Se asemeja al muestreo aleatorio por estratos en cuanto que supone un conocimiento previo de la población que permite diferenciar segmentos o estratos dentro de la misma, pero se distancia de aquél por el hecho de que aquí los individuos que constituyen la cuota aportada a la muestra por cada estrato no son determinados aleatoriamente, sino en función de otros criterios (accesibilidad, comodidad, economía, etc.). La única condición impuesta es que los individuos cumplan los requisitos fijados en las cuotas. El muestreo por cuotas no es un muestreo de tipo probabilístico, y por tanto no permite llevar a cabo estimaciones rigurosas en las que podamos calibrar el error cometido. Ejemplo Si se quiere hacer un sondeo sobre la mejora de los servicios de salud, por ejemplo se le pide que encueste a 10 mujeres de entre 35 y 45 años que sean asalariadas, 20 hombres de entre 30 y 45 años que vivan en pisos de 3 o 4 habitaciones, a 3 hombres de mas de 60 años que estén jubilados.... esto es lo que se determina un muestreo por cuotas y es relativamente económico, lo único es que las muestras resultantes no cumplen las características esenciales de las muestras aleatorias. Por tanto estos MÉTODOS DE MUESTREO 10

muestreos, por cuotas en esencia son muestras de opinión, pero no son válidos para realizar un estudio estadístico formal.

Muestreo por conglomerados En ocasiones los elementos de la población se agrupan en distintos subconjuntos disjuntos, relativamente pequeños, que denominamos conglomerados y se seleccionan al azar algunos de ellos para incluirlos en la muestra total. Si estos conglomerados coinciden con áreas geográficas, este muestreo se llama también muestreo por áreas. Aunque las estimaciones basadas en el muestreo por conglomerados, por lo general no son tan fiables como las obtenidas por muestreos aleatorios simples del mismo tamaño, son más baratas. Es mucho más económico visitar a familias que viven en el mismo vecindario, que ir visitando a familias que viven en un área muy extensa.

Ejemplo Supongamos que en un área geográfica, una ciudad, se desea conocer los patrones variables de los gastos familiares y, para ello, se decide tomar una muestra de 500 familias. La primera dificultad es encontrar un patrón estadístico actualizado, por lo que se desecha esa idea y se decide dividir el área en distritos que no se solapen (subconjuntos disjuntos), podrían ser manzanas de casas, o distritos postales, o incluso barrios. Entonces seleccionamos algún distrito al azar y todas las familias de ese distrito compondrían nuestra muestra. Muestreo polietápico Si tras dividir a la población en conglomerados se toma completo uno de los conglomerados definidos, el muestreo se denomina de una etapa. Si dentro de cada conglomerado se numera la lista de unidades elementales que lo contiene y se vuelve a obtener una nueva muestra de éstos, el muestreo se denomina bietápico o con submuestreo. Ejemplo Se desea estudiar la prevalencia (nº casos existentes dividido por el número casos total) de una enfermedad en la población de niños de edad escolar, se puede seleccionar en una primera etapa 10 institutos o centros escolares, entre todos los existentes, pero como todavía pueden ser muy numerosos el número de alumnos en cada uno de ellos, en una segunda etapa se puede seleccionar los alumnos a estudiar eligiendo solo 3 grupos escolares de alumnos dentro de cada isntituto. Si creemos que la muestra sigue siendo muy numerosa, en una tercera etapa podríamos tomar de cada grupo aquellos alumnos cuyo primer apellido está entre la A y la M. Ejemplo MÉTODOS DE MUESTREO 11

Supongamos que los 150 alumnos de 1º bach de un instituto de secundaria se dividen en 5 grupos de 30 alumnos cada uno, que denominamos grupos A, B, C, D y E. Cada uno de estos grupos es un conglomerado y podría ser una muestra de una etapa. Sin embargo si la muestra la queremos hacer de 12 alumnos, tendremos que hacer un nuevo muestreo sobre el grupo elegido, de ahí que el muestreo global se denominaría bietápico Muestreo polietápico por cuotas Cuando se tienen instrucciones finales acerca del tipo de elementos que debe seleccionar en la última etapa de un muestreo polietápico, el muestreo se denomina muestreo polietápico por cuotas Ejemplo

Supongamos que en una elecciones se desea obtener el voto de los 100 primeros votantes que acuden a votar a un colegio electoral, pero la empresa ya tiene datos que ellos consideran altamente fiables acerca del voto de los jubilados y de las mujeres trabajadoras. Entonces el entrevistador tiene instrucciones de obtener solo datos de hombre trabajadores en activo y jóvenes desempleados de ambos sexos. Esto sería un muestreo por cuotas

Otros tipos de muestreos Incidental En el muestreo incidental el investigador determina deliberadamente qué individuos formaran parte de la muestra, tratando de escoger a los casos considerados típicamente representativos de la población. Los criterios de elección suelen basarse generalmente en el conocimiento teórico sobre el tema objeto de estudio. Ejemplo Para estudiar el problema del absentismo escolar, un investigador puede seleccionar los alumnos de un centro situado en una zona de trabajadores agrícolas temporeros que han de desplazarse en determinadas épocas del año, los alumnos de un centro situado en una barriada marginal de una gran ciudad y los de un centro de zona residencial, dado que por su conocimiento teórico del problema sabe que éstos representan los diferentes tipos de comportamientos en relación a la asistencia a clase. Accidental En el muestreo accidental se seleccionan determinados individuos o grupos de individuos sin que exista ningún criterio aparente. Ejemplo

MÉTODOS DE MUESTREO 12

Para realizar un estudio determinado, el investigador elige los alumnos de un centro que se encuentra próximo a su lugar de trabajo. Este tipo de muestreo se considera el más alejado de la posibilidad de generalizar a la población los resultados obtenidos. Por voluntarios Es una técnica que conviene evitar porque las personas que se presentan al estudio suelen estar influidas por algún tipo de característica que puede afectar de forma importante en el resultado del estudio. Muestreo juicio Hay casos en los que no se pueden calcular las probabilidades de las muestras y lo que se hace es buscar individuos de los que se juzga de antemano que poseen un conocimiento profundo del tema bajo que se estudia y que, por consiguiente, la información que aportan es de suma importancia. Muestreo de bola de nieve Indicado para estudios de poblaciones clandestinas, minoritarias o muy dispersas pero en contacto entre sí. Consiste en identificar sujetos que se incluirán en la muestra a partir de los propios entrevistados. Partiendo de una pequeña cantidad de individuos que cumplen los requisitos necesarios estos sirven como localizadores de otros con características análogas. Muestreo subjetivo por decisión razonada En este caso las unidades de la muestra se eligen en función de algunas de sus características de manera racional y no casual. Una variante de esta técnica es el muestreo compensado o equilibrado, en el que se seleccionan las unidades de tal forma que la media de la muestra para determinadas variables se acerque a la media de la población. Fuente: http://es.wikipedia.org/wiki/Muestreo_en_estad%C3%ADstica#T.C3.A9cnicas_de_muestreo

MÉTODOS DE MUESTREO 13

Resumen de ventajas e inconvenientes de los tipos de muestreo

Aleatorio simple

CARACTERISTICAS

VENTAJAS

Muestra de tamaño n de una población de N unidades, cada elemento tiene una probabilidad de inclusión igual y conocida de n/N.

Sencillo y comprensión.

INCONVENIENTES de

fácil

Cálculo rápido de medias y varianzas. Se basa en la teoría estadística, y por tanto existen paquetes informáticos para analizar los datos

Sistemático

Conseguir un listado de los N elementos de la población Determinar tamaño muestral n.

Fácil de aplicar. No siempre es necesario tener un listado de toda la población.

Definir un intervalo k=N/n. Elegir un número aleatorio, r, entre 1 y k (r=arranque aleatorio). Seleccionar los elementos de la lista. Estratificado

Conglomerados

Cuando la población está ordenada siguiendo una tendencia conocida, asegura una cobertura de unidades de todos los tipos.

Requiere poseer un listado completo de toda la población. Cuando se trabaja con muestras pequeñas es posible que no represente a la población adecuadamente.

Si la constante de muestreo está asociada con el fenómeno de interés, las estimaciones obtenidas a partir de la muestra pueden contener sesgo de selección

En ocasiones resulta conveniente estratificar la muestra según ciertas variables de interés. Para ello debemos conocer la composición estratificada de la población objetivo a muestrear. Una vez calculado el tamaño muestral apropiado, éste se reparte de manera proporcional entre los distintos estratos definidos en la población usando una simple regla de tres.

Asegura que la muestra representa adecuadamente a la población en función de los estratos definidos.

Se realizan varias fases de muestreo sucesivas (polietápico)

Es muy eficiente cuando la población es muy grande y dispersa.

El error estándar es mayor que en el muestreo aleatorio simple o estratificado.

La necesidad de listados de las unidades de una etapa se limita a aquellas unidades de muestreo seleccionadas en la etapa anterior.

No es preciso tener un listado de toda la población, sólo de las unidades primarias de muestreo.

El cálculo del error estándar es complejo.

Se ha de conocer la distribución en la población de las variables utilizadas para la estratificación.

Se obtienen estimaciones más precisa

En la práctica se pueden combinar el uso de varios de los métodos de muestreo que hemos analizados para un mismo estudio.

MÉTODOS DE MUESTREO 14

TABLA DE NUMEROS ALEATORIOS 22 19 16 78 03

17 36 77 43 28

68 27 23 76 28

65 59 02 71 26

84 46 77 61 08

68 13 09 20 73

95 79 61 44 37

23 93 87 90 32

92 37 25 32 04

35 55 21 64 05

87 39 28 97 69

02 77 06 67 30

22 32 24 63 16

57 77 25 99 09

51 09 93 61 05

61 85 16 46 88

09 52 71 38 69

43 05 13 03 58

95 30 59 93 28

06 62 78 22 99

58 47 23 69 35

24 83 05 81 07

82 51 47 21 44

03 62 47 99 75

47 74 25 21 47

50 47 44 66 31

45 64 05 71 56

36 55 51 01 36

33 87 30 99 54

12 74 01 89 63

36 41 37 48 71

23 10 89 72 65

00 11 01 05 60

20 65 53 60 32

63 83 49 92 33

15 67 56 54 37

30 01 34 95 58

50 60 52 91 44

85 01 53 35 37

79 37 07 89 33

89 01 44 74 03

37 80 99 66 97

71 33 41 31 86

02 58 87 77 56

34 90 01 50 11

86 75 51 97 63

52 11 33 03 35

10 79 75 49 72

31 90 75 70 07

75 05 53 49 75

78 16 72 66 59

05 77 33 99 84

09 23 79 01 64

44 02 58 19 82

01 77 29 18 12

41 09 65 76 00

51 61 10 12 23

01 87 11 05 88

48 25 81 88 20

91 21 77 92 61

00 28 84 54 15

58 06 01 45 86

78 24 80 33 72

11 25 01 35 65

07 93 35 06 61

30 16 01 52 31

65 71 03 94 11

99 13 69 59 12

30 59 95 77 02

01 78 29 78 39

01 23 79 71 91

80 05 11 03 63

38 47 14 77 10

59 47 16 70 35

88 25 05 77 51

85 44 85 16 87

33 28 61 77 05

37 51 95 23 92

72 30 86 02 87

29 28 57 77 01

69 71 93 09 78

10 89 10 61 51

11 20 11 87 01

76 53 56 25 48

05 49 05 21 89

28 56 40 28 43

01 34 01 06 19

01 52 01 24 13

01 53 01 25 93

35 85 63 93 07

01 03 01 16 59

93 99 31 71 39

41 41 41 13 40

58 87 96 59 30

29 11 57 78 01

29 51 90 23 33

11 33 11 05 91

66 75 42 47 38

87 07 44 47 63

05 53 05 25 79

03 72 82 44 13

28 56 89 05 05

28 79 01 51 85

26 58 10 87 87

08 12 12 01 01

73 99 12 78 78

37 23 23 89 79

32 48 39 01 01

04 20 20 53 76

05 77 33 49 62

69 15 15 56 71

30 62 29 19 19

16 80 29 13 13

09 81 29 53 45

05 01 91 07 07

88 31 29 44 87

69 11 11 99 67

58 12 12 41 68

28 02 02 87 58

99 39 85 01 01

35 79 73 33 33

07 61 39 33 00

44 10 10 75 66

75 35 72 75 91

47 51 51 53 28

40 47 60 72 69

65 05 45 12 30

36 51 36 05 16

54 30 33 88 09

63 01 12 92 05

71 37 36 90 67

65 89 23 11 01

60 01 00 42 29

32 53 20 44 01

33 49 63 05 30

37 56 15 50 03

58 34 30 45 28

44 52 50 36 28

37 53 85 33 26

33 07 79 12 08

03 44 89 15 28

97 99 37 30 06

86 41 71 50 24

56 87 02 85 25

11 01 34 79 93

63 51 86 51 16

35 33 52 33 71

72 75 10 75 13

07 75 31 75 59

75 53 75 53 78

28 40 37 01 47

06 01 89 80 83

24 01 01 33 51

25 01 53 58 62

93 63 49 90 74

16 01 56 75 95

71 31 34 11 10

13 41 52 79 11

59 96 53 90 56

78 77 07 05 05

23 12 44 37 67

05 23 99 89 01

47 80 41 01 56

47 20 87 53 01

25 35 01 49 36

44 15 51 56 01

05 12 33 34 80

51 69 75 52 33

30 00 75 53 58

01 29 53 07 90

37 79 40 44 09

89 11 01 99 61

01 12 01 41 87

53 02 01 87 25

49 81 63 01 21

97 21 73 56 09

67 58 37 34 61

63 44 32 52 87

99 37 04 53 25

61 33 05 07 21

46 03 69 44 28

38 59 30 99 06

03 86 16 41 24

93 12 09 87 25

22 11 05 01 93

00 40 88 51 16

33 51 69 33 71

75 80 58 75 13

11 07 28 75 59

07 63 99 53 78

30 28 56 03 23

33 06 34 28 05

79 24 52 28 47

58 25 53 26 47

01 93 07 08 25

09 16 44 73 28

61 71 99 37 06

87 13 41 32 24

25 59 87 04 25

21 78 01 05 93

91 88 37 16 41

01 69 89 71 10

91 58 01 13 11

01 28 53 59 65

89 99 49 78 83

01 35 56 23 67

03 07 34 05 01

31 44 52 47 52

95 75 53 47 01

50 47 07 25 17

28 41 56 47 01

11 10 34 05 80

14 11 52 51 33

16 65 53 30 58

05 83 07 01 90

50 67 44 37 75

45 01 99 89 11

36 52 41 01 79

33 01 87 53 90

12 01 01 49 05

15 01 09 56 82

30 80 61 34 34

50 33 87 52 01

85 58 25 53 10

79 90 21 07 12

00 67 41 20 69

29 01 10 44 30

19 86 11 90 16

11 01 65 32 09

07 22 83 64 05

30 01 67 97 88

31 80 01 67 69

59 33 80 63 58

93 58 01 99 28

01 90 35 61 99

37 75 16 46 35

58 11 71 38 07

44 79 13 03 44

37 90 59 93 75

33 05 78 22 47

03 37 23 69 51

73 89 05 81 33

86 01 47 21 75

61 53 47 99 75

11 49 25 21 53

43 56 15 28 40

58 34 30 06 01

78 52 50 24 01

07 53 85 25 01

23 07 79 93 63

MÉTODOS DE MUESTREO 15

Ejemplo - Ejercicio En un I.E.S. hay 120 alumnos en 2º de Bachillerato que se han divido en cinco grupos A, B, C, D y E de 24 alumnos y que, además, provenientes de 4 zonas o pueblos. • Zona 1: 20 alumnos • Zona 2: 32 alumnos • Zona 3: 60 alumnos • Zona 4: 8 alumnos Hay que elegir una muestra de 10 alumnos para hacerles una serie de preguntas. Utiliza los métodos de muestreo aleatorio estudiados para escoger la muestra. Solución a) Muestreo aleatorio simple Tomamos a los 10 alumnos de la tabla aleatoria tomando grupos de números de 3 cifras a partir de donde deseemos (vamos a hacerlo desde el principio), desechando los que sean mayores de 12 hasta que completemos los 10. Saldrían 098, 053, 062, 120, 032, 100, 048, 056, 052, 104, 020, 025 b) Muestreo sistemático Dividimos los 120 alumnos en 10 grupos de 12, por orden alfabético, por ejemplo, y si tomo, por ejemplo, el 6º alumno del grupo 1 , los restantes serían 13, 25, 37, 49, 61, 73, 85, 97, 109. c) Muestreo por estratos Si consideramos cada área geográfica como un estrato, tendremos que escoger los 10 alumnos proporcionales al número de alumnos que provienen de cada área es decir, si elijo n1 alumnos de la zona 1, n2 de la zona 2, n3 de la zona 3 y n4 de la zona 4 se tiene que cumplir que

n =n 1

n =n 3

10 de donde resulta n = 2; n = 3; n = 6; n = 1 1 2 3 4 120

Ahora tendríamos que hacer muestreo aleatorio simple para elegir o o o o

2 alumnos entre los 20 de la zona 1, 3 alumnos entre los 32 de la zona 2, 6 alumnos entre los 60 de la zona 3 y 1 alumno entre los 8 de la zona 4.

d) Muestreo por conglomerados Un conglomerado puede ser un grupo, que lo elegimos al azar entre los 5 grupos existentes. Nos colocamos en un lugar cualquiera de la tabla aleatoria y el primer número del 1 al 5 que surja será el grupo elegido, imaginémonos que es el grupo D que tiene 24 alumnos, pues volvemos a realizar muestreo aleatorio simple para elegir a 10 alumnos de entre los 24 del grupo D

MÉTODOS DE MUESTREO 16

DISTRIBUCION MUESTRAL Conceptos básicos Veamos ahora el concepto de distribución muestral, que es de gran importancia en toda la teoría que vamos a desarrollar a continuación. Ejemplo introductorio Supongamos una población finita de tamaño N = 5, de cinco trabajadores de una empresa cuyos salarios en euros son { 500, 1000, 1500, 2000, 2500 } En inferencia estadística, en lugar de llamarle ξ a la, en este caso, variable aleatoria “salario”, le vamos a llamar X mayúscula, por lo que X:Ω ⇾ ℝ que a cada elemento de la población, que en este caso son los 5 trabajadores, lo lleva en su salario. Normalmente la media y la varianza nos e conocen, de hecho es lo que se pretende habitualmente estimar, pero como en este ejemplo son solo 5 trabajadores es obvio conocer su media y su varianza (o mejor su desviación para usar números más pequeños): 500 + 1000 + 1500 + 2000 + 2500 = 1500 , y su La media de esta población es: µ = 5 varianza:

( 500 − 1500 ) + (1000 − 1500 ) + (1500 − 1500 ) + ( 2000 − 1500 ) + ( 2500 − 1500 ) σ = 2

Pero si en lugar de esta empresa, hablásemos de toda la población española de asalariados, estos dos datos no los sabríamos. Aquí en este ejemplo nos viene muy bien saberlos para razonar lo buenas o malas que son las aproximaciones mediante muestreo. Supongamos que deseamos obtener una muestra sin reemplazamiento de tamaño n = 2. 5 Si la muestra es de tamaño n = 2, hay C5,2 =   = 10 posibilidades de muestras  2 distintas que, de hecho, son las siguientes, donde a cada una le calculamos su media, varianza y su desviación: nº muestra Muestra (xi, xj)

V(xi)

D.T.(xi)

1 2 3 4 5 6 7 8

750 1000 1250 1500 1250 1500 1750 1750

62500 250000 562500 1000000 62500 250000 562500 62500

250 500 750 1000 250 500 750 250

500 500 500 500 1000 1000 1000 1500

1000 1500 2000 2500 1500 2000 2500 2000

DISTRIBUCION MUESTRAL 17

= 500000

9 10

1500 2000

2500 2500

2000 2250

250000 62500

500 250

Si analizamos estos datos, resulta que tenemos una población de la que ya sabemos a priori que tiene media µ = 1500 y σ2 = 500,000, y tomando todas las posibles muestras de tamaño 2 vemos que la media de estas muestras varía desde 750 hasta 2250, lo cual indica el tremendo error que podemos llegar a cometer si no conociésemos la media de nuestra población de referencia y quisiésemos estimarla con las medias xi de muestras de tamaño 2. Tampoco las varianzas van muy allá, variando desde 62,500 hasta 1,000,000, cuando la realidad es 500,000. Si calculamos la distribución de probabilidad todas estas medias xi representamos, resulta: Medias Muestrales

0,25

0,20 Probabilidades

Probabilidad Media xi 750 1/10 1000 1/10 1250 2/10 1500 2/10 1750 2/10 2000 1/10 2250 1/10

y las

0,15

0,10

0,05

0,00 750

1000

1250

1500

1750

2000

2250

Salarios

Si calculamos la media de estas medias muestrales: 7 1 1 2 2 2 1 1 µ x = ∑ xi pi = 750 ⋅ + 1000 ⋅ + 1250 ⋅ + 1500 ⋅ + 1750 ⋅ + 2000 ⋅ + 2250 ⋅ = ... 10 10 10 10 10 10 10 i =1 15000 = 1500 ... = 10 Mientras que la media de las varianzas de las medias resulta: E[V ( xi )] = 312500 luego la media µx coincide con la media de la población µ mientras que la varianza ha disminuido ostensiblemente de 500,000 a 312,500 lo que también nos da una idea de los tremendos errores que podemos llegar a cometer haciendo muestreos inadecuados y no tomando los estimadores apropiados. Este ejemplo, nos debe servir para intuir el método que vamos a seguir matemáticamente de ahora en adelante. Volvemos al principio y vamos a definir y acordar formas de notación para toda la teoría de muestreo, estimación y contraste de hipótesis. Muestras aleatorias Consideremos una población de tamaño N, de objetos { x1, x2, x3,...,xN } tan grande que decidimos tomar muestras de tamaño n, donde n ≤ N . DISTRIBUCION MUESTRAL 18

Llamemos Xi al “Valor de la característica poblacional del i-ésimo objeto” i = 1, 2, 3,...,n que queremos estudiar. En el ejemplo previo eran los salarios. La distribución de probabilidades de las variables X1, X2, X3,...,XN va a depender de la definición de cómo escogimos los n objetos.

Si el muestreo es con reemplazamiento (ó sustitución), eligiendo cada vez un objeto al azar, las variables son independientes e idénticamente distribuidas. Así, para cada Xi tenemos:

P [ xi = j ] =

1 donde j = 1, 2, 3,..., N y el número de posibles muestras de tamaño n es N

N CN ,n =   n Si el muestreo es sin reemplazamiento (ó sustitución), las variables Xi ya no son 1 independientes, entones P [ x1 = j1 , x2 = j2 , x3 = j3 ,K , xn = jn ] = N ( N − 1)K ( N − n + 1) donde j1, j2,...,jn son n valores cualesquiera de 1, K , N . Y aquí, el número de posibles  N + n − 1 muestras de tamaño n son CNR ,n =   n  

Definición: Muestra aleatoria Sean X1, X2, X3,...,Xn variables aleatorias independientes con las misma distribución de X ; llamaremos entonces a ( X1, X2, X3,...,Xn ) muestra aleatoria de X.

Parámetros y Estadísticos Definición: Parámetros y estadísticos Denominamos parámetros de una población a cualquier característica numérica que queramos obtener de la misma. Por ejemplo la media, varianza, desviación son parámetros de la población

Definición Estadístico Sea ( X1, X2, X3,...,Xn ) una muestra aleatoria de X y x1, x2, x3,...,xn los valores tomados por la muestra. Definimos estadístico como cualquier función real T que definamos sobre x1, x2, x3,...,xn . Por tanto, un estadístico es también, por sí mismo, una variable aleatoria y tendrá su distribución de probabilidad, función de distribución, su media, su varianza, etc. Los estadísticos más importantes son

DISTRIBUCION MUESTRAL 19

Media Muestral. X =

1 n ∑ xi n i =1

Momento orden 2: m2 =

1 n 2 ∑ xi n i =1

Varianza Muestral S n =

(

1 n ∑ xi − X n i =1 2

Cuasivarianza Muestral S n −1 = Proporción muestral p =

)

(

1 n ∑ xi − X n − 1 i =1

)

r nº veces que sale un suceso A = n n

Mínimo Muestral (Es el mínimo observado) K = min(x1, x2, x3,...,xn ) Máximo Muestral (Es el máximo observado) M = max(x1, x2, x3,...,xn ) Recorrido Muestral R = M – K

Y si ordenamos los resultados de la muestra de mayor a menor, entonces denominamos

xnj = j-ésima observación mayor en la muestra, j = 1,...,n (tenemos x1n = M y xnn = K ). Lo que trata la inferencia estadística es estimar los parámetros de la población mediante los estadísticos.

Propiedades de los Estadísticos Teorema Sea X una variable aleatoria con E(X) = µ y varianza V(X) = σ2 y sea X la media muestral de una muestra aleatoria con repetición de tamaño n. Entonces: i.

E(X ) = µ

ii.

V (X) =

iii.

Para n grande X

σ2 n X −µ  σ2  N  µ ,  ; o equivalentemente z =   n n    σ 

N ( 0,1)

Demostración

DISTRIBUCION MUESTRAL 20

1 1 n  1 n i ). E ( X ) = E  ∑ xi  = ∑ E ( xi ) = nµ = µ n  n i =1  n i =1 1 n  1 ii ) V ( X ) = V  ∑ xi  = 2  n i =1  n

1 σ2 2 V ( xi ) = 2 nσ = ∑ n n i =1 n

iii) NO lo tengo, pero está basado en el Teorema Central del Límite.

Teorema Sea X una variable aleatoria con E(X) = µ y varianza V(X) = σ2. Sea X la media muestral de una muestra aleatoria sin repetición de tamaño n. Entonces: i.

E(X ) = µ

ii.

V (X) =

N −n σ2 ⋅ N −1 n

DISTRIBUCION MUESTRAL 21

Distribución de la Media Error medio En el caso con repetición a la desviación típica de la muestra, dada por

V (X) =

σ n

también se le llama error medio ( o estándar) de la media En el caso sin repetición, el error medio de la muestra viene dado también por la desviación N −n N −n σ típica, es decir ⋅ y al cociente le llama factor de corrección del muestreo N −1 n N −1 sin repetición. En la práctica este factor, si N es muy grande tiende a 1 y se desprecia si n < 0.05 , es decir si la muestra no llega al 5% del tamaño de la población. N El error medio, en todo caso, es más pequeño cuanto más grande es la muestra. Su función es fundamental en la estadística pues mide el grado en el que se puede esperar que fluctúen o varíen las medias de una muestra como consecuencia del azar. Si σx es baja, hay buenas posibilidades de que la media de una muestra se aproxime a la media de la población si σx es alta, es más probable que obtengamos una muestra que difiera considerablemente de la media de la población. Otra conclusión, es que X se incrementa conforme aumenta la variabilidad de la población y que se reduce conforme el tamaño de la muestra es mayor. De hecho es directamente proporcional a σ e inversamente proporcional a n (en las poblaciones finitas se reduce aún más rápido ya que aparece el factor

N −n ) N −1

En resumen, se verifica la siguiente tabla Sin reemplazamiento Con reemplazamiento Población finita

µX = µ σX = 2

Población infinita

µX = µ

µX = µ σX2 =

N −n σ2 ⋅ N −1 n

σX = 2

σ2 n

µX = µ σX2 =

σ2 n

Ejemplo Supongamos que una máquina envasadora de café llena paquetes de forma automática con una media de µ= 250 gr y una desviación típica de σ = 10 gr (σ2 = 100), es decir sigue una distribución N(250,10). Para hacer un control de calidad se toma una muestra de n = 100 paquetes y se pesan, obteniendo así un valor de la media muestral

DISTRIBUCION MUESTRAL 22

X . Por los teoremas previos, sabemos que esta media muestral X tiene una distribución N(µ, σ2/n) = N(250,1) ¿Cuál es la probabilidad de que la media muestral tome valores mayores de 260 gramos?

Solución

 X − 250 260 − 250  P  X ≥ 260 = 1 − P  X ≤ 260  = 1 − P  ≤  = 1 − P [ Z ≤ 10] ≈ 1 − 1 = 0 1  1  Es decir es imposible que una muestra tenga una media de 260 gr. De salir así indicaría que la el proceso de empaquetado presenta una importante anormalidad que habría que investigar.

Teorema Central del Límite aplicado a muestras. Lo que dijimos en general para cualquier población en el tema previo, se puede aplicar aquí a muestras grandes, de forma que siempre podemos obtener una aproximación cercana de la distribución muestral de la media con una distribución normal. Teniendo en cuenta que ya sabemos la media y desviación típica de la distribución muestral, podemos decir que:

Sea X la media muestral (de media µx =µ y σ X = media µ y desviación típica σ y n grande entonces

) de una muestra aleatoria infinita de

X −µ

→ N (0,1)

σ/ n

Aunque es lo mismo dicho de otra manera, el teorema central del límite se enuncia de forma general de la siguiente manera: Si X1, X2, X3,...,Xn son variables aleatorias independientes que tienen la misma función de distribución y la misma media µ y la misma desviación σ entonces, cuando n⇾∞ se tiene que

(

Yn = X1+ X2+ X3+...+Xn tiende a una N nµ , σ n

)

Un caso particular del Teorema Central del Límite es el Teorema de Moivre-Laplace que afirma que para n lo suficientemente grande la distribución binomial B(n,p) se aproxima a

(

)

una N np, npq . Enunciándolo apropiadamente para nuestro caso sería: Si X1, X2, X3,...,Xn son variables aleatorias dicotónicas independientes cada una de ellas con E(Xi) = p y V(Xi) = pq entonces, cuando n⇾∞ se tiene que nX

= X1+

(

X2+ X3+...+Xn tiende a una N np, npq

 o equivalentemente X → N  p,  

)

pq   n 

DISTRIBUCION MUESTRAL 23

Este teorema es muy importante, puesto que justifica el uso de los métodos de la curva normal en una gran cantidad de problemas. se utiliza para poblaciones infinitas y para poblaciones finitas cuando n a pesar de ser grande representa una porción muy pequeña de la población. Es difícil señalar con precisión qué tan grande debe ser n de modo que podamos aplicar el Teorema Central del límite, pero a no ser que la distribución sea muy inusual, por lo general se considera que n > 30 es lo suficientemente alto.

Ejemplo ¿Qué podemos decir del tamaño de nuestro error, si vamos a usar la media de una muestra aleatoria de tamaño n = 64 para estimar la media de una población infinita con σ = 20? (Usa k = 2 en la desigualdad de Chebyshev)

Solución Sustituyendo n = 64 y σ = 20 en la fórmula del error estándar de la media, 20 = 2.5 y por el teorema de Chebyshev para k = 2 podemos obtenemos que σ x = 64 afirmar que como mínimo 1 - 1/22 = 0.75 que el error será menor que k·σx = 2·2.5= 5 Es decir que tenemos una garantía de que en el 75% de los casos la media de la población estará entre la media calculada ±5 . (Nota: la probabilidad real de este caso puede estar entre 0,98 y el 0,999) Si en lugar de la desigualdad de Chebyshev usamos el Teorema Central del limite La probabilidad se obtiene por medio del área marcada de la zona rosácea, −5 = −2 y específicamente por medio del área de la N(0,1) entre z = 20 / 64 5 z= =2 20 / 64

lo que consultando en las tablas da una probabilidad de 0.9544. Así sustituimos la afirmación de que la probabilidad es “como mínimo 0,75” por una aseveración más firme de que la probabilidad es aproximadamente de 0,95 ( de que la muestra aleatoria DISTRIBUCION MUESTRAL 24

de tamaño n=64 de la población de referencia difiera de la de la población menos de 5 unidades) También se puede usar el teorema Central del límite para poblaciones finitas, pero una descripción precisa de las situaciones en que se puede hacer esto, sería más bien complicada. El uso apropiado más común es en el caso en que n es grande y n/N es pequeña. Este es el caso de la mayoría de las encuestas políticas. Veamos a continuación un ejemplo de la importancia de la selección adecuada de la muestra.

Ejemplo Vamos a suponer una población de tamaño 60 elementos en el que se ha medido una determinada característica. De esta población vamos a realizar 25 muestras aleatorias y vamos a comprobar las diferencias existentes entre los valores estimados y los valores poblacionales. 111 406 279 295 244 335

539 257 393 402 116 707

216 290 450 183 127 266

128 213 92 310 348 91

462 325 241 257 418 703

283 306 302 257 232 380

413 184 319 302 400 618

237 168 193 315 166 79

193 310 281 353 451 588

177 266 313 128 315 199

Media Poblacional µ = 298.87 Desviación típica poblacional σ = 139.427 Buscar la continuación!!!!!

DISTRIBUCION MUESTRAL 25

Distribución de la proporción La estimación de la proporción es una práctica muy frecuente en multitud de investigaciones de cuestiones científicas, sociales, económicas y políticas. Podríamos poner como ejemplos, el conocer la tasa de paro, número de oyentes de una cadena de radio, el porcentaje de sero positivos del virus del SIDA, proporción de votantes de determinado partido. En todos estos casos lo que se hace es obtener muestras y extrapolar las proporciones resultantes con la muestra a toda la población. En general, para discutir las proporciones pensemos que solo nos interesa saber si un elemento pertenece a un grupo dado o no, esto indica que hemos dividido la población en dos subconjuntos disjuntos A = {pertenecer al grupo} Ac = {no pertenecer al grupo}. Llamemos p = P(A) luego q = 1 – p = P(AC) y si definimos la v.a. r = “nº de elementos que pertenecen a A entre n” , esta v.a. es una binomial B(n,p) pero que si n es suficientemente grande se tiende, por el Teorema Central del límite, a una N((np, npq) Nuestro

propósito

 np npq   pq  N  , 2  = N  p,  n   n n   p− p → N (0,1) p (1 − p ) n

estimar

proporción

r n

que

tiende

una

y por el teorema de Moivre podemos concluir que

Ejemplo - Ejercicio Sabemos que la proporción de zurdos en poblaciones donde no se reprime este impulso en edades tempranas es del 20%. Si tomamos una muestra aleatoria de 100 personas ¿cuál es la probabilidad de obtener menos del 5% de zurdos?

Solución Ser o no zurdo, en este ámbito, sigue una distribución B(100,0.2) donde el parámetro p = 0.2 Si tomo una muestra de 100 personas la variable  X + ... + X 100 pq  → N  np, X = 1  = N ( 20, 0.04 ) n  100  0.05 − 20   De donde P  X ≤ 0.05 = P  Z ≤ = P [ Z ≤ −476] ≈ 0 0.04  

Ejemplo - Ejercicio De anteriores elecciones se sabe que la proporción de un partido político A es del 15%. Preguntados hoy 50 ciudadanos, 9 de ellos declaran tener intención de votar al partido A. ¿Hay motivos serios para pensar que el partido A va a mejorar sus resultados? DISTRIBUCION MUESTRAL 26

(PG 99 [67] )

Solución Los datos históricos nos dicen que tomado un individuo al azar hay una probabilidad p = 0.15 de votar al partido A y q = 0.85 de no hacerlo. Si tomo una muestra de 50, la cantidad de votantes resultantes al partido A sigue una B(50·0.15, 50·0.15·0.85) = B(7.5, 6.375) por lo que la muestra de 50 verifica que X + ... + X 50 → N ( 7.5, 0.3873) X= 1 50 entonces la probabilidad de que más de 8 personas muestren su apoyo al partido A es 8 − 7.5   P  X ≥ 8  = 1 − P  X ≤ 8  = 1 − P  Z ≤ = 1 − P [ Z ≤ 1.29 ] = 1 − 0.9015 = 0.0985 0.3873   Lo cual es muy pequeño, por lo que cabe concluir que la esperanza de aumento de votos está justificada.

Ejemplo - Ejercicio Calcular la probabilidad de que en los próximos 200 nacimientos a. Menos del 40 % sean varones b. Entre el 43% y el 57% sean varones c. Más del 54% sean varones

Solución a. Partimos de la hipótesis de que P(Varón) = 0.5 y sabemos que n = 200, luego r p200 = → N ( µ = 0.5, σ = 0.035) 200 0.4 − 0.5   P  p ≤ 0.4  = P  Z ≤ = P[ Z ≤ −2.82] ≈ 0.0073   0.035   b. 0.57 − 0.5   0.43 − 0.5 P  0.43 ≤ p ≤ 0.57  = P  ≤Z≤ = P [ −1.98 ≤ Z ≤ 1.98] =   0.035   0.035 = 0.9761 − 0.0238 = 0.9522 c. 0.54 − 0.5   P  p ≥ 0.54  = 1 − P  Z ≤ = 1 − P [ Z ≤ 1.98] = 1 − 0.8711 = 0.1289   0.035  

Ejemplo - Ejercicio El 2% de las tabletas que produce una cierta máquina llevan algún tipo de defecto. Se empaquetan 400 tabletas para enviar a un hospital a. ¿Cuál es la probabilidad de que entre ellas haya al menos un 3% de defectuosas? b. ¿Y de que haya menos del 4% de defectuosas?

Solución La v.a. r = “nº tabletas defectuosas entre 400” ↝ B(400,0.02) que tiende a una N(8, σ = 2.8) luego r/n ↝ N(0.02, σ = 0.007)

DISTRIBUCION MUESTRAL 27

 Pp =   Pp = 

r 0.03 − 0.02    ≥ 0.03 = 1 − P  Z ≤ = 1 − P [ Z ≤ 1.428] = 1 − 0.9234 = 0.0766 n 0.007    0.04 − 0.02  r   ≤ 0.04  = P  Z ≤ = P [ Z ≤ 2.857 ] 0.9978 n 0.007   

DISTRIBUCION MUESTRAL 28

Distribucion de diferencias de medias muestrales Ilustremos el estudio de esta distribución con un ejemplo.

Ejemplo Vamos a estudiar la v.a. X que indica el nivel de colesterol entre dos poblaciones, una de hombres con media µ1 y otra de mujeres con media µ2. Queremos estudiar el parámetro diferencia µ2 - µ1 > 0 Obtenemos una muestra de cada una de las dos poblaciones y calculamos la media de ellas que resulta X 1 para los hombres y X 2 para las mujeres El estadístico que vamos a usar es justamente X 1 − X 2 Nos preguntamos ¿será X 1 − X 2 un buen estimador de µ2 - µ1? Pues bien, desglosemos un poco todo esto en tres casos.

Caso 1 Supongamos que conocemos los parámetros las dos poblaciones independientes de hombres   σ  σ  y mujeres, es decir sabemos que las v.a. X 1 N  µ1 , 1  y X 2 N  µ 2 , 2  luego   n1  n2   

X1 − X 2

(

)

 X 1 − X 2 − ( µ1 − µ2 ) σ 12 σ 2 2    de donde N µ1 − µ2 , +  n1 n2  σ 12 σ 2 2   + n1 n2

N ( 0,1)

Caso 2 Supongamos que no conocemos n pero en ambos casos sabemos que es muy grande, entonces ocurre lo mismo que en el caso anterior Caso 3 Supongamos que desconocemos en ambas poblaciones las desviaciones. En este caso estimamos

X 1 − µ1

σ1 n1

tn1 −1 y

X 2 − µ2

σ2

tn2 −1 por t-Student

Y la fórmula resultante la obtenemos en la tabla de la t-Student

Ejemplo Se desea saber si un complejo vitamínico puede ayudar al engorde de pollos y para comprobarlo, un granjero que tiene una granja establece dos muestras, una muestra A de 100 pollos a la que no varía la alimentación habitual y otra muestra B de 120 pollos a la que suministra el nuevo complejo vitamínico. Al finalizar el experimento sacrifica DISTRIBUCION MUESTRAL 29

todos los pollos de ambas muestras obteniendo en la muestra A un peso µ1 = 3,4 Kg con σ1 = 0,5 y para la muestra B obtiene µ2 = 4 Kg con σ2 = 0,7 Se desea saber si el engorde ha sido realmente un hecho cierto o los datos obtenidos son fruto de la casualidad, para lo cual queremos conocer cual es la probabilidad de que la media de engorde sea de 0,6 kg. En términos formales lo que queremos es calcular P  X 1 − X 2 ≥ 0.6  Podemos asumir la hipótesis de normalidad al ser los tamaños muestrales mayores de 30. Y ahora razonamos de la siguiente manera, si no hubiese sido efectivo el suministro del complejo vitamínico entonces la esperanza de ambas medias sería la misma, luego µ1 - µ2 = 0 y por tanto la distribución de la diferencia de medias muestrales sería:   σ2 σ 2 0.52 0.7 2  X 1 − X 2 N  µ1 − µ2 , 1 + 2  = N  0, +  = N ( 0, 0.081)    n1 n2  100 120     Para una distribución de este tipo se tiene que

0.6 − 0   P  X 1 − X 2 ≥ 0.6 = P  Z ≥ = 1 − Z 7.39 1 − 1 = 0 0.081   por lo que solo cabe concluir que el engorde ha sido realmente efectivo. Incluso si el aumento del peso medio de la muestra B hubiese sido de solo 200 gramos

0.2 − 0   P  X 1 − X 2 ≥ 0.2 = P  Z ≥ = 1 − Z 2.46 1 − 0.9931 = 0.0069 0.081   lo que significaría que solo hay un 0.31% de probabilidades de que este engorde hunicese sido fruto del azar.

DISTRIBUCION MUESTRAL 30

Distribución de diferencias de proporciones muestrales Introducimos otro ejemplo que ilustre lo que vamos a ir definiendo

Ejemplo Supongamos que tenemos dos comunidades españolas, Galicia y Andalucía y queremos conocer la distribución de la diferencia de casos de una determinada enfermedad entre ambas comunidades Sea A el suceso “estar enfermo” y sea Ac su complementario “no estar enfermo” De la primera población, que es Galicia, obtenemos una muestra que sabemos que su r tamaño n1 es grande ( > 50) y llamamos p1 = 1 a la estimación de la proporción y n1

 p (1 − p1 )   N  p1 , 1   n 1  

De la segunda población, que es Andalucía, obtenemos una muestra que sabemos que r su tamaño n2 es grande ( > 50)y llamamos p2 = 2 a la estimación de la proporción y n2

 p (1 − p2 )   N  p2 , 2   n 2  

Nuestra intención es conocer la distribución de p1 − p2 donde

p1 − p2

 p (1 − p1 ) p2 (1 − p2 )   + N  p1 − p2 , 1   n n 1 2  

La cual tipificada resulta

( p − p )−( p − p ) 1

p1 (1 − p1 ) p2 (1 − p2 ) + n1 n2

N ( 0,1)

p1 = P(A/Poblacion1) y p2 = P(A/Poblacion2) que n1 es grande

DISTRIBUCION MUESTRAL 31

Ejercicio Las lámparas utilizadas por un cierto aparato están suministradas por dos casas comerciales A y B. Las de A tienen la duración media de µ = 2000 horas y una desviación σ = 400 horas mientras que las de B tienen µ = 1800 horas y σ = 500 horas. Se compraron 200 lámparas de A y 150 lámparas de B. ¿Cuál es la probabilidad de que la duración media de la muestra de A no supere en más de 100 horas la duración media de la muestra B?

Solución Suponemos que las duraciones de las lámparas siguen una distribución normal. Lo que nos pide el ejercicio es P  X A < X B + 100  = P  X A − X B < +100  Fabricante A µA = 2000; σA = 400; nA = 200 y obtenemos una muestra con media X A

 σ N  µA, A  nA 

 400    = N  2000,  = N ( 2000, 28.2 ) 200   

Fabricante B µB = 1800; σB = 500; nB = 150 y obtenemos una muestra con media X B  σ  500   X B N  µ B , B  = N  1800,  = N (1800, 40.8 )   150 n   B   Entonces XA − XB

)

(

N 2000 − 1800, 28.22 + 40.82 = N ( 200, 49.66 ) de donde

100 − 200   P  X A − X B < +100  = P  Z < = P [ Z < −2.01] = 0.0222 49.66  

Teorema Sea X una variable aleatoria continua con función de probabilidad f y función e distribución F. Sea ( X1, X2, X3,...,Xn ) una muestra aleatoria de X y sean K y M en mínimo y el máximo respectivamente. Luego: 1. la función de probabilidad de M es: g ( m ) = n  F ( m )  2. la función de probabilidad de K es: h ( k ) = n  F ( k ) 

n −1

f ( m) .

f (k ) .

Demostración Sea G ( m ) = P ( M ≤ m ) la función de distribución de M; {M ≤ m} es equivalente al evento { Xi ≤ m, para todo i}. Como Xi son independientes entonces:

G ( m ) = P [ X 1 ≤ m K X n ≤ m ] =  F ( m ) 

DISTRIBUCION MUESTRAL 32

g ( m ) = G ′ ( m ) = n  F ( m ) 

n −1

f ( m)

Para K la demostración es totalmente análoga

DISTRIBUCION MUESTRAL 33