Estimacion estadistica.

Page 1

Statistics Inferencial Statistics. Estimaci贸n

OpenUepc.com 1.1.5.5.2

Ver 01:05/02/2010



NOTA La clasificación decimal de todos los temas de este manual tienen implícito el comienzo 1.1.5.5.2 correspondiente a 1

SCIENCE

1.1

MATHEMATICS

1.1.5

STATISTICS

1.1.5.5

INFERENCIAL STATISTICS

1.1.5.5.2

ESTIMACION

COPYLEFT Este material así como los applets, powerpoints, videos y archivos de sonido asociados, puede ser distribuido bajo los términos y condiciones definidos en Open Publication License versión 1.0 o posterior (La versión más reciente está disponible en http://www.opencontent.org/openpub/). El contenido está sujeto a constantes cambios sin previo aviso. Su fin es didáctico y solo pretende la universalización de la cultura. Está escrito en base a la colaboración de las miles de personas que componen nuestra comunidad OpenUepc. Se ha exigido a los autores que referencien todas las fuentes utilizadas y figuran al final del texto. Cualquier distribución del mismo debe mencionar a OpenUepc como fuente. Miguel Pérez Fontenla miguelperez@edu.xunta.es INDICE AUTORES

Iniciado por: Miguel Pérez Fontenla 12/12/2009



TABLA DE CONTENIDO Introduction ............................................................................................................................... 2 Applications ........................................................................................................................... 3 Conceptos Básicos..................................................................................................................... 4 Estimación puntual ................................................................................................................ 4 Error y sesgo .......................................................................................................................... 5 Estimador insesgado .............................................................................................................. 5 Cuasivarianza......................................................................................................................... 6 Estimador eficiente ................................................................................................................ 8 Estimador consistente ............................................................................................................ 9 Estimación por intervalos .................................................................................................... 10 Intervalo de Confianza para la media µ conocida la varianza poblacional ...................... 11 Intervalo de confianza para la media µ conocida la varianza poblacional....................... 13 Intervalo de confianza para la media µ si no se conoce la varianza ................................ 16 Intervalo de confianza para la proporción ....................................................................... 18 Intervalo de confianza para la varianza de una población normal ................................... 20 Intervalo de confianza para la diferencia de medias ........................................................ 22 ESTIMACIÓN DEL TAMAÑO DE LA MUESTRA ............................................................ 23 Tamaño de la muestra para estimar la media ...................................................................... 23 Tamaño de la muestra para estimar la proporción ........................................................... 26 Estimar el tamaño de la población a partir de una muestra ............................................. 28 Colección de ejercicios de estimación de parámetros ............................................................. 29

Introduction 1


Introduction La inferencia estadística es el proceso usado para estudiar alguna característica de una población, habitualmente numerosa, a través de una muestra o parte más pequeña de la misma que nos haga manejable y económico llevar a cabo tal estudio. Se divide en tres grandes campos: • • •

Muestreo Estimación Test de hipótesis

Ya hemos tratado el tema del muestreo por lo que de aquí en adelante supondremos que cada vez que tomemos una muestra de una población lo habremos hecho con la necesaria escrupulosidad y solvencia para que la muestra sea adecuada a nuestro estudio. También hemos definido los estadísticos que nos van a servir para estimar los parámetros de la población y hemos estudiado sus distribuciones de distribuciones de probabilidad. Con todo ello iniciamos el proceso de inmersión en la Teoría de la Estimación Estadística empezando por dar un contenido formal a todas las definiciones y propiedades que vayamos construyendo.

Estimation theory is a branch of statistics and signal processing that deals with estimating the values of parameters based on measured/empirical data. The parameters describe an underlying physical setting in such a way that the value of the parameters affects the distribution of the measured data. An estimator attempts to approximate the unknown parameters using the measurements. For example, it is desired to estimate the proportion of a population of voters who will vote for a particular candidate. That proportion is the unobservable parameter; the estimate is based on a small random sample of voters. Or, for example, in radar the goal is to estimate the location of objects (airplanes, boats, etc.) by analyzing the received echo and a possible question to be posed is "where are the airplanes?" To answer where the airplanes are, it is necessary to estimate the distance the airplanes are at from the radar station, which can provide an absolute location if the absolute location of the radar station is known. In estimation theory, it is assumed that the desired information is embedded in a noisy signal. Noise adds uncertainty, without which the problem would be deterministic and estimation would not be needed. Introduction 2


Applications • • • • • • • • • • •

Interpretation of scientific experiments Signal processing Clinical trials Opinion polls Quality control Telecommunications Project management Software engineering Control theory Network intrusion detection system Orbit Determination

Fuente: http://en.wikipedia.org/wiki/Estimation_theory#Applications

Introduction 3


Conceptos Básicos En la práctica es muy frecuente que conozcamos la distribución que sigue una variable aleatoria y, sin embargo, no conozcamos ni su media ni su varianza. El proceso más común es que tomemos una muestra y calculemos la media y la varianza muestrales y extrapolemos estos datos a toda la población, pero esto no es del todo correcto como vamos a ir viendo ahora, al menos para la varianza no es correcto y sí lo sería para la media. Ejemplo Imaginémonos que deseamos conocer la renta per cápita (RPC) de los españoles y tomamos una muestra de 500 personas al azar de la que resulta una RPC media de 18000€ y una desviación de 4000€. Los 18000€ de media se van a poder extrapolar a toda la población española pero no así los 4000€. Además nos haremos más preguntas como ¿qué nivel de seguridad tenemos al decir que la RPC media de los españoles es 18000€ en base a nuestra encuesta? ¿Cuál es el intervalo de RPC en el que podemos asegurar que se encuentra comprendido el 90% de la población española? ¿Cuál es una estimación más realista de la varianza de esta distribución? Todas estas preguntas las vamos a ir resolviendo a continuación. El proceso por el cual obtenemos los valores aproximados de los parámetros estadísticos se llama estimación estadística, la cual puede ser de dos tipos • •

Estimación puntual, en la que solamente se obtiene el valor buscado Estimación por intervalos, en la que además de calcular el valor buscado damos un intervalo alrededor de ese valor, denominado intervalo de confianza, donde hay una probabilidad, denominada nivel de confianza, de que el valor esté contenido en él. Ejemplo Supongamos que se quiere estudiar el nivel medio de ingresos de los miembros de un determinado colectivo numeroso. Tras obtener la muestra, supongamos que resulta unos ingresos medios mensuales de 1550 €. Este dato es una estimación puntual de la media de ingresos. Si en este mismo caso, el dato que se ofrece tras el estudio es que los ingresos medios están en el intervalo (1450, 1650) con una probabilidad del 85% estamos haciendo una estimación por intervalos.

Estimación puntual Un estimador puntual de un parámetro poblacional θ es cualquier estadístico que nos permita calcular obtener un valor aproximado de ese parámetro. Más formalmente diremos Sea X una variable con un parámetro desconocido θ. Sea ( X1, X2, X3,...,Xn ) una muestra de X y x1, x2, x3,...,xn los valores tomados por la muestra. Definimos estimador puntual del parámetro θ a la función g( X1, X2, X3,...,Xn ) = θ$ que vamos a utilizar para estimarlo. Conceptos Básicos 4


Ejemplo Si queremos estimar la media µ de ingresos mensuales de un colectivo, tomamos una muestra y como estimación calculamos la media muestral X , por lo que decimos que X es un estimador de µ. De la misma manera la proporción de una muestra p es un estimador de la proporción poblacional p. Estos cálculos de estimadores no son exactos, siempre se producen errores que tenemos que tratar de minimizar. Estos errores se minimizarían tomando muestras lo más grandes posibles pero ello implica costes económicos, recursos humanos y disponer de tiempo, por lo que es muy importante no solo tomar la muestra lo más pequeña y fiable posible sino también elegir un adecuado estimador del parámetro que vamos a estimar. Vamos a dotar de rigor matemático a estos conceptos y vamos a estudiar que condiciones debe cumplir un buen estimador.

Error y sesgo Tenemos una población a estudiar, que sigue una distribución de probabilidad que depende de un parámetro θ (media, varianza, ..). Obtenemos una muestra de tamaño n mediante un estadístico T y con él obtenemos una estimación T1 aproximada de θ. Si tomamos otra muestra y obtenemos una segunda estimación T2 de θ, y así sucesivamente, diremos que este estimador es más bueno, cuanto menores sean las desviaciones de θ obtenidas entre los valores T1, T2, T3, ..., Ti,..Esto viene dado por E[(T – θ)2] que lo denominamos error del estimador Ahora bien, se verifica que E[(T – θ)2] = E[T2 -2T θ + θ2] = E[T2] -2E[T θ] + E[ θ2] =... (sumamos y restamos E[T] 2) ...= E[T2]- E[T] 2+ E[T] 2 -2E[T θ] + E[ θ2] = V(T) + ( E[T] – θ)2 A la expresión E[(T – θ)2] se la denomina error cuadrático medio y, como acabamos de ver se puede descomponer en la varianza del estimador V(T) y ( E[T] – θ)2 que se denomina sesgo del estimador Conclusión, un estimador será mejor cuanto menor sea su sesgo y su varianza

Estimador insesgado Sea θ$ un estimador del parámetro θ asociado con X. Entonces θ$ es un estimador insesgado para Φ si E θ$ = θ para toda θ.

()

Ejemplo La media muestral X y la mediana son Me estimadores insesgados de la media poblacional µ.

Conceptos Básicos 5


Cuasivarianza Ahora vamos a buscar un estimador de la varianza. A priori, parecería lógico pensar en hacer lo mismo que hemos hecho con la media, es decir, tomar una muestra y usar la varianza muestral Sn2 como estimador de la varianza poblacional σ. Pero no, esto no funciona así y resulta que la varianza muestral no es un estimador centrado de la varianza poblacional y vamos a comprobarlo. Vamos a ver que el mejor estimador de σ es lo que se denomina cuasivarianza Sn-12 y viene dado por

∑(x − X ) n

2

i

S n −1 = 2

i =1

n −1

Ejemplo Sea una población compuesta por cinco números {2, 3, 6, 8, 11 }. En este caso la media y la varianza de la población resultan: 2 + 3 + 6 + 8 + 11 µ= =6 5 2 2 2 2 2 2 − 6 ) + ( 3 − 6 ) + ( 6 − 6 ) + ( 8 − 6 ) + (11 − 6 ) ( 2 = 10.8 σ = 5 Escribimos todas las posibles muestras ordenadas de orden 2 con repetición que podemos obtener, que son V5,2 =52 Varianza muestral Cuasivarianza Muestral Muestras Media muestral 2 2 µX Sn Sn −1 n=2 (2,2)

2.00

0.00

0.00

(3,2)

2.50

0.25

0.50

(6,2)

4.00

4.00

8.00

(8,2)

5.00

9.00

18.00

(11,2)

6.50

20.25

40.50

(2,3)

2.50

0.25

0.50

(3,3)

3.00

0.00

0.00

(6,3)

4.50

2.50

5.00

(8,3)

5.50

6.25

12.50

(11,3)

7.00

16.00

32.00

(2,6)

4.00

4.00

8.00

(3,6)

4.50

2.25

4.50

(6,6)

6.00

0.00

0.00

(8,6)

7.00

1.00

2.00

(11,6)

8.50

6.25

12.50

(2,8)

5.00

9.00

18.00

(3,8)

5.50

6.25

12.50 Conceptos Básicos 6


(6,8)

7.00

1.00

2.00

(8,8)

8.00

0.00

0.00

(11,8)

9.50

2.25

4.50

(2,11)

6.50

20.25

40.50

(3,11)

7.00

16.00

32.00

(6,11)

8.50

6.25

12.50

(8,11)

9.50

2.25

4.50

(11,11)

11.00

0.00

0.00

25

150 25

∑x

i

µ X = E[ X ] = =

i =1

25

=

E [ S n ] = 5.41 2

E[ S n −1 ] = 10.82 2

150 = 6.0 25

La media de las medias muestrales coincide con la media de la población, es decir: µX = µ Mientras que la varianza de la distribución muestral de las medias, será la varianza de los elementos de la columna 2 (medias muestrales), que es:

( 2 − 6 ) + ( 2.5 − 6 ) σX = 2

2

+ ..... + (11 − 6 )

2

135 = 5.40 25 25 Por tanto, la relación entre la varianza de la distribución de las medias muestrales y la varianza de la población es: 2

σX2 =

=

σ2

, pues uno resulta 5.40 y el otro 10.80, donde n es el tamaño de la muestra n que en este caso es n = 2 La esperanza de las varianzas de las muestras, valores de la columna 3, es : 0.00 + 0.25 + ... + 2.25 + 0.00 2 E[ Sn ] = = 5.41 , que resulta un valor sesgado respecto a 25 la varianza poblacional que vale σ2 = 10.80 Por otro lado, la esperanza de las cuasivarianzas de las muestras (columna 4), es : 0.00 + 0.50 + ... + 4.40 + 0.00 2 E[ Sn−1 ] = = 10.82 25 Es decir, coincidente con la varianza poblacional σ2 . Esta es la razón por la que es preferible estimar la varianza de la población con la cuasivarianza de la muestra en lugar de con la varianza de la muestra.

Conceptos Básicos 7


2

A la cuasivarianza la denotaremos por Sn −1 , aunque algunos autores la denotan con s minúscula al cuadrado s2, y podemos relacionarla con la varianza de la muestra mediante la

∑( n

xi − X

)

∑(x − X ) n

2

2

i

n i =1 n 2 ⋅ = ⋅ Sn n −1 n −1 n n −1 Y muchísimos autores le llaman directamente varianza muestral a la propia cuasivarianza, incluso Excel utiliza la fórmula VAR para calcular la cuasivarianza. Nosotros, al menos inicialmente, intentaremos distinguirlas en todo momento y darle a cada una su nombre 2 exacto, con el riesgo de ir contracorriente, para ello escribiremos Sn −1 para referirnos a la

fórmula S n −12 =

i =1

=

2

cuasivarianza y S n para la varianza.

Ejemplo Con ayuda de Excel, calcula la cuasivarianza de la siguiente muestra de tamaño 6 { 12, 17, 21, 25, 30, 45 }

Solución 6

∑x

i

La media muestral resulta µ X = E[ X ] =

i =1

6

=

12 + 17 + 21 + 25 + 30 + 45 = 25 y la 6

varianza

∑( x − X ) n

2

i

2

Sn =

i =1

n

= ...

(12 − 25) + (17 − 25) + ( 21 − 25) + ( 25 − 25) + ( 30 − 25) + ( 45 − 25) ... = 2

2

2

2

2

6

∑(x − X ) n

2

= 112.33

2

i

6 n 2 ⋅ S n = ⋅112.33 = 134.8 n −1 n −1 5 Si lo hacemos mediante la hoja de cálculo Excel, para la media muestral usaremos la función PROMEDIO(12; 17; 21; 25; 30; 45) y para la cuasivarianza la función VAR(12; 17; 21; 25; 30; 45)

De donde la cuasivarianza es S n −12 =

i =1

=

Estimador eficiente Un estimador de un parámetro θ es eficiente si su varianza es mínima. Dados dos estimadores θ$ y θ ' del mismo parámetro poblacional θ, diremos que un estimador θ$ es más eficiente que otro θ ' , si θ$ tiene menor cuasivarianza que θ '

Ejemplo

Conceptos Básicos 8


( )

Sabemos que la Var X =

σ2

y, sin embargo, se demuestra que Var ( Me ) =

n por lo que X es un estimador más eficiente que Me

π σ2 2

n

Elegir un estimador más eficiente hace que haya menos variabilidad entre las distintas estimaciones que podemos obtener (cada muestra dará una estimación diferente). De esta forma, la estimación será más fiable. Hay una cota mínima dentro de las varianzas que se puede obtener para cualquier estimador con un sesgo determinado. Esta cota se llama cota de Cramér-Rao. Si la varianza de un estimador es igual a esta cota, sabremos que su varianza es mínima, y por tanto, estaremos seguros de que es eficiente. Sin embargo, no siempre esta cota es alcanzable, por lo que no siempre podremos saber si el estimador que hemos utilizado es el más eficiente de todos. Para ello, cuando dudamos entre dos estimadores diferentes, y ninguno de ellos tiene una varianza igual a la cota de Cramér-Rao se utiliza el coeficiente de eficiencia relativa. Fuente: http://es.wikipedia.org/wiki/Estimaci%C3%B3n_estad%C3%ADstica

Estimador consistente Diremos que un estimador T de un parámetro poblacional θ es consistente si al aumentar el tamaño n de la muestra es mayor la probabilidad de que la E[T] se aproxime a θ Se demuestra que si lim Var (T ) = 0 entonces T es un estimador insesgado de θ. Es decir, que n →∞

cuanto mayor es la muestra, más probable es que el estimador se acerque más al valor real del parámetro θ

Ejemplo

( )

Como Var X =

( )

lim Var X = lim n →∞

n →∞

σ2 n

σ2 n

y Var ( Me ) =

π σ2 2

n

ambos son estimadores consistentes pues

= 0 y lim Var ( Me ) = lim n →∞

n →∞

π σ2 2

n

=0

Teorema La cuasivarianza s2 es un estimador consistente de la varianza poblacional σ2

Demostración Pendiente

Conceptos Básicos 9


Estimación por intervalos Hemos terminado de ver la estimación puntual y ahora vamos a desarrollar los conceptos básicos de la estimación por intervalos. En este tipo de estimación lo que trataremos de buscar es un intervalo entre dos números θ1 y θ2, denominado intervalo de confianza, entre los cuales se encuentre el parámetro que queremos estimar con una cierta probabilidad (1-α). Un intervalo de confianza es una expresión del tipo [θ1, θ2] ó θ1 ≤ θ ≤ θ2, donde θ es el parámetro a estimar. Este intervalo contiene al parámetro estimado con una determinada certeza o nivel de confianza y se denota por (1 - α). A α se le llama riesgo asumido o también nivel de significación.

El nivel de confianza habitualmente suele expresarse con un porcentaje. Es habitual tomar como nivel de confianza un 95% o un 99%, que se corresponden con valores α de 0.05 y 0.01 respectivamente. Ojo con la confusión de llamar al nivel de confianza (1 - α) ó α. Algunos autores presentan confusión en sus escritos debido a esto. Vamos a ser aquí constantes y dejar bien claro que α es el riesgo y (1 - α) la confianza

Conceptos Básicos 10


Intervalo de Confianza para la media μ conocida la varianza poblacional Deseamos conocer un intervalo [θ1, θ2] donde exista una probabilidad (1-α) de que la media µ se encuentre dentro he dicho intervalo.

(

)

Supongamos X con distribución N µ , σ 2 , donde σ 2 se supone conocida y µ es el parámetro desconocido que queremos estimar. Sea ( X1, X2, X3,...,Xn ) una muestra aleatoria de X y X el promedio puntual. Sabemos que X

 σ2  X −µ  X −µ  = N  µ,  n  . Por lo tanto Z = n  σ n  σ  

N ( 0,1) .

Aunque Z depende de µ , su función de probabilidad no, entonces:   X −µ Zσ Zσ Zσ   Zσ   2 ⋅θ (Z ) − 1 = P  − Z ≤  n ≤ Z  = P− − X ≤ −µ ≤ − X  = P X − ≤µ≤X +     n n n n     σ   

Esto no significa que µ cae en el intervalo 2θ ( Z ) − 1 ; sino que 2θ ( Z ) − 1 es igual a la  σ σ  probabilidad que el intervalo aleatorio  X − Z α ⋅ ,X +Z α ⋅  contenga a µ. Como Z 1− 1− n n 2 2   queda a nuestro criterio podemos elegirlo de modo que 2θ ( Z ) − 1 = 1 − α . Así 2 −α α θ ( z) = = 1− ese valor de Z, denotado con Z α se obtiene de la tabla. Es decir 1− 2 2 2

tenemos θ ( Z

1−

α 2

) = 1−

α 2

Conceptos Básicos 11


 σ σ  El intervalo  X − Z α ⋅ ,X +Z α ⋅ le denomina intervalo de confianza para el  1− 1− n n 1−α  2 2 parámetro µ con nivel de confianza (1-α). Ejemplo Si (1-α)·100% = 95% (1-α) = 0.95 <=> Nivel de confianza α = 0.05 <=> Nivel de significación

Ejemplo Queremos hallar el intervalo de probabilidad para el peso medio de una muestra de 100 recién nacidos, con un nivel de confianza de (1-α) = 0.90, sabiendo que µ = 3100 gramos y σ = 150 gramos.

Solución

0.90 + 1 = 0.95 2 si consultamos en la tabla de la N(0, 1), comprobaremos que kα = 1.645, por lo tanto, el intervalo de probabilidad será el siguiente: 150 150   ; 3100 + 1.645 ⋅  3100 − 1.645 ⋅  = ( 3075.325, 3124.675 ) 100 100 90%  Se trata de evaluar la expresión P ( Z ≤ kα ) =

Conceptos Básicos 12


Intervalo de confianza para la media μ conocida la varianza poblacional Sin que sirva de precedente, vamos a repetir lo que acabamos de escribir pero desde el punto de vista de otro autor. Entiendo que el baile de conceptos aquí es tan enrevesado que conviene leer dos argumentaciones para lo mismo, las cuales obviamente son totalmente análogas. Te invito a conjuntarlas en una, pero para ello tienes que tenerlo muy, pero que muy, claro. Consideramos un población a la que se está estudiando una variable aleatoria X que sigue una distribución normal N(µ,σ) con σ conocida. Tomamos una muestra de tamaño n y queremos estimar el intervalo de confianza donde está comprendida la media µ con una probabilidad (1-α). Primero, calculamos la media muestral X y la tipificamos mediante:

θ −µ θ −µ  P θ1 < X < θ 2  = 1 − α ⇔ P  n ⋅ 1 <Z < n⋅ 2 = 1−α σ σ   Al valor de Z que le corresponde esta probabilidad 1-α con simetría respecto al 0, le Z α llamamos 1− 2 . Z

α 1− θ −µ  2  n⋅ 1 = − Z α θ1 = µ − σ 1− σ n  2    Z α θ2 − µ  1− n⋅ = +Z α 2  1−  θ = µ + σ σ 2  2

 σ < X <µ+Z α P µ − Z α 1− 1− n  2 2

n   σ  σ σ  < X − µ < +Z α  = P  − Z1− α  = ... 1− n n n   2 2

  σ σ  σ σ  < −µ < − X + Z α ⋅ = P X − Z α ⋅ <µ < X +Z α ⋅ ... = P  − X − Z α ⋅   1− 1− 1− 1− n n n n   2 2 2 2

Conceptos Básicos 13


 σ σ  Es decir, que el parámetro µ se encuentra en el intervalo  X − Z α ⋅ ,X +Z α ⋅  con 1− 1− n n  2 2 una probabilidad (1- α), lo cual, en lenguaje más acorde a teoría de la estimación estadística, se dice que:  σ σ  ,X +Z α ⋅  X − Z1− α ⋅  es el intervalo de confianza para la media poblacional con 1− n n  2 2 un nivel de confianza (1- α).

Al valor α se le denomina nivel de significación. Al producto Z

1−

α 2

σ n

se le llama error máximo admisible o precisión del intervalo.

Incluso si la población origen no sigue una distribución normal, por el Teorema Central del Límite, si la muestra es lo suficientemente grande, el resultado es también válido.

Ejemplo Volviendo a los salarios, supongamos que en una determinada área geográfica, los salarios de los ciudadanos están normalmente distribuidos con una media µ y una desviación conocida σ = 500. Supongamos que tomamos una muestra de 50 personas a la que les encuesta y resulta que el salario medio de esta muestra es X = 1200 .  500  Como sabemos, la media muestral X → N  µ ,  = N ( µ , 70.71) por lo que 50   podemos calcular los números c1 y c2 tales que  c − µ X − µ c2 − µ  ≤ ≤ P  c1 ≤ X ≤ c2  = 0.90 ⇔ P  1  = 0.90  70.71 70.71 70.71  En las tablas de la normal buscamos ahora entre todos los posibles valores que verifiquen esta probabilidad, aquellos en los que la masa de probabilidad esté simétricamente distribuida respecto al 0, buscamos en la tabla tipificada de la normal y vemos que resulta que estos dos valores son c1 = -1.65 y c2 = 1.65. De donde c1 − µ = −1.65 ⇒ c1 = µ − 1.65 ⋅ 70.71 ⇒ c1 = µ − 116.67 70.71 c2 − µ = +1.65 ⇒ c2 = µ + 1.65 ⋅ 70.71 ⇒ c2 = µ + 116.67 70.71 P  µ − 116.67 < X < µ + 116.67  = P  −116.67 < X − µ < 116.67  = 0.90 ⇔ ...

... ⇔ P  − X − 116.67 < − µ < − X + 116.67  = P  X − 116.67 < µ < X + 116.67  = 0.90 Por lo que concluimos que el salario medio se encuentra comprendido en el intervalo (1200 − 116.67,1200 + 116.67 ) = (1083.33,1316.67 ) con un 90% de probabilidad. Concluyendo, (1083.33,1316.67 ) es el intervalo poblacional con un nivel de confianza del 90%.

de confianza para la media

Conceptos Básicos 14


Ejemplo En una población la talla de los individuos sigue una N(µ,σ=7.5). Se quiere estimar µ, para ello se extrae una muestra de tamaño n = 25 y la media de la muestra sale X = 172 cm. Se pide dar una estimación puntual de µ y además un IC al 95% para µ. Fuente Bioestadística Medicina USC. Aptes Elba Pérez Vidal

Solución La media muestral es un estimador insesgado de µ, por lo tanto µ= 172 es una estimación insesgada. Para determinar el IC al 95% basta considerar el intervalo  σ σ  ,X +Z α ⋅  X − Z1− α ⋅  que resulta: 1− n n 95% 2 2  7.5 7.5   ,172 + 1.96 ⋅ 172 − 1.96 ⋅  = (169.06,175 ) 25 25 95% 

Propiedades 1. Para una desviación σ y un tamaño de muestra n dados, la longitud del tamaño del intervalo de confianza aumenta a medida que aumenta el nivel de confianza 2. Para una desviación σ y un nivel de confianza dados, al aumentar el tamaño de la muestra, disminuye la longitud del intervalo

Conceptos Básicos 15


Intervalo de confianza para la media μ si no se conoce la varianza En todo el desarrollo anterior, conocíamos la varianza muestral σ2. Desgraciadamente, lo habitual es que no se conozca. Sin embargo, podemos estimarlo ya que hemos visto que la cuasivarianza S

2 n −1

∑(x − X ) = n −1

σ2 .

2

es un estimador insesgado de

William Sealy Gosset (1876-1937), usando el pseudónimo de Student, siendo colaborador de Pearson y empleado de la fábrica X −µ de cervezas Guinness, propuso el estadístico tn −1 = al que S n −1 n llamó t-Student. Para calcular intervalos de confianza para la media poblacional en el caso de que la varianza fuese desconocida y demostró que este estadístico sigue una distribución t de Student con n-1 grados de libertad.  S n −1 S n −1  Es decir, el intervalo  X − t ,X +t  es un intervalo de confianza con un α ⋅ α ⋅ n −1,1− n −1,1− n n   2 2 nivel de significación α para la media µ de la población.

Ejemplo Se desea obtener el intervalo de confianza con un nivel de significación α = 0.05 para la media de los salarios de una determinada empresa. Supongamos que elegimos una muestra de seis trabajadores al azar, resultando unos salarios de 2000, 1600, 1000, 1000, 800, 800 euros. Se tiene entonces que la media muestral y la cuasivarianza son x 2000 + 1600 + 1000 + 1000 + 800 + 800 µ X = E[ X ] = ∑ i = = 1, 200 6 6

∑(x − X ) = i

2

( 2000 − 1200 ) =

2

+ ..... + ( 800 − 1200 )

2

= 240, 000 n −1 5 Buscamos en la tabla de la t-Student para (n – 1) = 5 grados de libertad y un nivel de significanción α = 0.05 y resulta que t 0.05 = t5,0.975 = 2.571 por lo que podemos

S n −1

2

6 −1,1−

2

concluir que el intervalo de confianza pedido es  240000 240000  ,1200 + 2.571 ⋅  1200 − 2.571 ⋅  = (1200 − 2.571 ⋅ 200,1200 + 2.571 ⋅ 200 ) = ... 6 6   ... = (685.8,1714.2) Al aumentar el tamaño de la muestra n (consideramos n > 30 es suficientemente grande), la tStudent se aproxima a una normal N(0,1) por lo que podríamos utilizar estas tablas en lugar de las de aquella.

Conceptos Básicos 16


Ejemplo Supongamos que queremos conocer el salario medio de la población de una ciudad española, con supuesta distribución normal de la que desconocemos su media y su desviación y con un niveld e significación del 0.05. Tomamos una muestra de tamaño 100 resultando la siguiente tabla estadística

Intervalo [0 - 300] [300 - 600] [600 - 900] [900 - 1200] [1200 - 1800] [1800 - 3000] [3000 - 6200]

xi

fi

xi·fi

150 450 750 1050 1500 2400 4600

2 11 38 33 10 5 1

300 4950 28500 34650 15000 12000 4600

n = 100

= 100000

X = 1000

(x − X ) i

2

fi

1445000 3327500 2375000 82500 2500000 9800000 12960000

= 32490000

σ = 324900 σ = 570 Sn−1 = 572,8715547 2

Con estos datos, y como n = 100 (n>30) podemos aproximar la t-Student t 0.05 = t99,0.975 por una normal N(0,1) que, con un nivel de significación α = 0.05, 100 −1,1−

2

equivale a buscar una Z1-0.025 a la que corresponde un valor de 1.96. El intervalo de confianza pedido es: S n −1 S   572.87 572.87   , X + Z 0.975 ⋅ n −1  = 1000 − 1.96 ⋅ ,1000 + 1.96 ⋅  X − Z 0.975 ⋅  = (887,1112) n n   100 100  

Ejemplo Una variable medida en sangre en individuos normales clínicamente sigue una N(µ,σ). Se ha extraído una muestra de tamaño n = 10 donde resultó X = 0.958 y S n −1 = 0.14596 . Construir un IC al 95% para µ. Fuente Bioestadística Medicina USC. Aptes Elba Pérez Vidal

Solución No conocemos la varianza poblacional , pero sí conocemos la cuasivarianza muestral que es un estimador insesgado de σ. El IC viene dado por  S n −1 S n −1  ,X +t  X − tn −1,1− α ⋅  de lo que resulta α ⋅ n −1,1− n n   2 2 0.14596 0.14596   , 0.958 − 2.26 ⋅  0.958 − 2.26 ⋅  = ( 0.8537,1.0623)95% 10 10 95% 

Conceptos Básicos 17


Intervalo de confianza para la proporción Para estimar el intervalo de confianza para una proporción poblacional Л tomamos una muestra de tamaño n y la proporción p que resulte dentro de esa muestra con respecto a n la tomamos como estimación de la proporción poblacional Л. Por otro lado ya vimos que la deistribución correspondiente a la proporción muestral cuando n es suficientemente grande (  p (1 − p )   lo que nos permite tipificar la variable y n > 30 ) se distribuye como una N  µ ,   n    p (1 − p ) p (1 − p )   obtener el intervalo de confianza  p − Z α ⋅ , p+Z α ⋅ 1− 1−   n n 2 2  

Ejemplo Se desea conocer el número de entre los 500 alumnos de un instituto de secundaria que poseen ordenador en casa para lo cual se les hace una encuesta y resultan positivas 225. Si trasladamos estos datos a toda la población estudiantil de secundaria ¿cuál es el intervalo de confianza para la proporción de alumnos que poseen ordenador con nivel de confianza del 95%?

Solución La tipificación de Z

1−

α

al 95% resulta Z0.975 a lo que corresponde un valor de la

2

normal de 1.96 con lo que el intervalo es  p (1 − p ) p (1 − p )   p−Z α ⋅  = ... , p+Z α ⋅ 1− 1−   n n 2 2  

 0.45 ⋅ 0.55 0.45 ⋅ 0.55  ... =  0.45 − 1.96 ⋅ , 0.45 − 1.96 ⋅  = ( 0.406, 0.494 ) 500 500   Ejemplo Una cadena de TV quiere saber cuál es la audiencia de su programa estrella “Gran Hermano 107” para lo que toma una muestra de 200 hogares de los que 30 son asiduos telespectadores del programa, con el fin de que si nunca supera el 20% de audiencia retirarlo de la parrilla de programación. Se pide: a) Construir un intervalo de confianza al 95% de nivel de nivel de confianza para la proporción muestral b) En base a los resultados obtenidos, decidir si se retira o no.

Solución La estimación de la proporción es del 15% exactamente ( 30/200 ) pero el intervalo de confianza con un 95% es

Conceptos Básicos 18


 p (1 − p ) p (1 − p )   p−Z α ⋅  = ... , p+Z α ⋅ 1− 1−   n n 2 2    0.15 ⋅ 0.85 0.15 ⋅ 0.85  ... =  0.15 − 1.96 ⋅ , 0.15 − 1.96 ⋅  = (10.05,19.94 ) 200 200   l 20% = 0.20 de audiencia se escapa de nuestro intervalo de confianza luego el programa, afortunadamente, debería ser retirado, no solo por este motivo, sino que por muchísimas razones adicionales.

Conceptos Básicos 19


Intervalo de confianza para la varianza de una población normal Teorema 2

Si Sn −1 es la cuasivarianza de una muestra aleatoria simple de tamaño n, entonces el intervalo de confianza , con significanción α para σ2 viene dado por   S n −1 S , ( n − 1) n −1  donde  ( n − 1) a b   2

2

F (a) = 1 −

α

2  y F(x) es una χ 2 de Pearson con n-1  n −1 α  F (b) = 2 

grados de libertad .

Demostración Pendiente

Ejemplo En el departamento de dermatología se quiere hacer un estudio sobre la variabilidad (varianza) que tiene el color de la piel. Se toma una muestra n = 101 y resulta una media de 7.5 y una cuasivarianza de 4. Suponiendo que esta v.a. X que mide el color (en una determinada codificación numérica) es una N(µ,σ) , ¿podrías dar un IC al 95% para esta variabilidad? Fuente Bioestadística Medicina USC. Aptes Elba Pérez Vidal

Solución Se tiene que 0.05  = 0.975 2 F (a ) = 1 −  χ100 ( a ) = 0.975 ⇒ a = 129.6 2  2 0.05 χ ( b ) = 0.025 ⇒ b = 74.2 F (b) = = 0.025  100  2 2 2    S S 4 4  De lo que  ( n − 1) n −1 , ( n − 1) n −1  =  100 ⋅ ,100 ⋅  = ( 3.08, 5.39 )0.95 a b   129.6 74.2   Por tanto, el dato de varianza de la muestra 4, está dentro del intervalo.

Ejemplo

Queremos obtener el IC 1l 95% para la varianza poblacional correspondiente a los salarios de una empresa, a partir de la muestra 1800€, 1900€, 1700€, 2200€

Solución

Conceptos Básicos 20


La media muestral es 1900, la cuasivarianza es 46666 y n = 4 por lo que 0.05  = 0.975 2  χ 3 ( a ) = 0.975 ⇒ a = 9.35 2  2 0.05 χ ( b ) = 0.025 ⇒ b = 0.216 F (b) = = 0.025  3  2

F ( a) = 1 −

2 2  S n −1 S n −1 − − n 1 , n 1 ( ) ( )  a b 

  46666 46666  , ( 4 − 1) ⋅  =  ( 4 − 1) ⋅  = (14974, 648148 )0.95 9.35 0.216   

Conceptos Básicos 21


Intervalo de confianza para la diferencia de medias Basándonos

(X

1

)

en

que

− X 2 − ( µ1 − µ2 )

σ 12 n1

+

σ 22

la

distribución

de

la

diferencia

de

medias

es

tal

que

N ( 0,1)

n2

establecemos como intervalo de confianza con nivel de confianza (1 – α) al intervalo

 σ 12 σ 2 2 σ 12 σ 2 2   X1 − X 2 − Z α  + , X1 − X 2 + Z α + 1− 1−  n1 n2 n1 n2  2 2  α

(

)

(

)

Ejemplo Entre la población de los estudiantes de secundaria de un cierto instituto, se desea conocer si el nivel de ingresos de las familias a las que pertenecen pude ser un factor que incida en el rendimiento escolar, dado que hay dos grupos A y B de rendimiento muy desequilibrado. Para ello se toman los alumnos de esos dos grupos resultando los siguientes datos, la muestra del grupo A con n1=40 alumnos de una media familiar de de ingresos de µ1=800€ y desviación de σ1=600€ y la muestra del grupo B con n2=30 alumnos con una media familiar de de ingresos de µ2=1200€ y desviación de σ2=700€. Construyamos un intervalo de confianza para la diferencia de medias al 95%  600 2 7002 600 2 700 2  + + , 400 + Z 0.975  400 − Z 0.975  = ( 80, 712 )95   40 30 40 30  95 Si no se conocen las varianzas poblacionales entonces X1 − X 2 − ( µ1 − µ 2 ) → tn1 + n2 − 2 y el intervalo de confianza sería 1 1 Sp ⋅ + n1 n2

(

)

se

tiene

 1 1 1 1  n S 2 + n2 S 22 + , X 1 − X 2 + tn1 + n2 −2 S p +  donde S p 2 = 1 1  X 1 − X 2 − tn1 + n2 −2 S p n1 n2 n1 n2 α n1 + n2 − 2 

(

)

(

)

Conceptos Básicos 22

que


ESTIMACIÓN DEL TAMAÑO DE LA MUESTRA Cualquier estudio estadístico que deseemos realizar lleva implícito una fase previa de determinación del idóneo tamaño muestral necesario para la ejecución del mismo, de forma que nos permita calcular lo que se pretende con la mayor precisión, seguridad, velocidad y economía posibles. De no hacerlo, con toda probabilidad los errores cometidos en las estimaciones serán mayores además del hecho de que si tomamos una muestra más grande de lo realmente imprescindible vamos a acabar malgastando recursos y con toda probabilidad, disminuyendo la calidad del estudio Aunque es el propio investigador el que finalmente decide el tamaño de la muestra con los criterios que le conciernan, hay diversos métodos para calcular el tamaño óptimo necesario, el cual depende de varios factores como son • • •

La Variabilidad del parámetro a estimar, conocida a través de datos previos, estudios piloto o usando el 50% como peor estimación La Precisión: A mayor precisión menor amplitud del intervalo de confianza. El Nivel de confianza (1-α): que normalmente lo hacemos variar entre el 95% y el 99%

Si aumentamos el tamaño muestral n, mejoramos la calidad de la estimación bien aumentando la precisión (disminuye amplitud del intervalo) o bien aumentando la seguridad (disminuye el error admitido) , pero hay que tener muy en cuenta que a mayor tamaño de muestra mayores costes y tiempo de obtenerla.

Tamaño de la muestra para estimar la media Recordemos que, fijado un nivel de confianza (1-α), el intervalo de confianza para la media  σ σ  muestral viene dado por  X − Z α ⋅ ,X +Z α ⋅  , de donde la semilongitud del 1− 1− n n  2 2 intervalo es ε = Z

1−

A este valor Z

1−

α

2

α 2

σ n

σ se le denomina error máximo admisible de la estimación. n

De este error máximo es donde deducimos el tamaño de la muestra siempre que conozcamos la varianza poblacional, cosa no habitual, por lo que tenemos previamente que estimarla realizando una muestra piloto previa y calculándole a ella la cuasivarianza S n −1

2

∑(x − X ) =

2

i

n −1

Entonces resumimos las conclusiones:

ESTIMACIÓN DEL TAMAÑO DE LA MUESTRA 23


Si el muestreo es con repetición o bien la población es suficientemente grande, n viene dado por

ε =Z

1−

α 2

σ n

2

⇔n=Z

2

1−

α 2

σ2  σ ⋅ 2 =  Z α ⋅  (I) ε  1− 2 ε 

Si el muestreo es sin repetición la fórmula varia y n viene dado por

ε =Z

1−

α 2

N −n σ ⋅ ⇔ n ( N − 1) ε 2 = ( N − n ) ⋅ Z 2 α ⋅ σ 2 ⇔ n = 1− N −1 n 2

Aunque siempre que el cociente

N ⋅ Z 2 α ⋅σ 2 1−

2

( N − 1) ε 2

+ Z 2 α ⋅ σ 2 (II) 1−

2

n < 0.05 se usa la primera fórmula (I) N

Un autor ahora desconocido que publicó un trabajo en Internet afirma que el proceso no acaba aquí sino que en una 2ª fase hay que comprobar que el n elegido verifica que N > n ( n − 1) Si esta condición se cumple el proceso termina aquí, y ese es el tamaño adecuado que debemos muestrear. Si no se cumple, pasamos a una tercera fase consistente en usar n’ de acuerdo a la fórmula n n' = n 1+ N Queda esto pendiente de verificación

Ejemplo Se desea realizar una investigación para estimar el peso medio de los hijos recién nacidos de madres fumadoras. Se admite un error máximo de 50 gramos, con un nivel de confianza del 95%. Si por estudios anteriores se sabe que la desviación típica del peso medio de tales recién nacidos es de σ=400 gramos, ¿qué tamaño mínimo de muestra se necesita en la investigación?

Solución Si el error máximo es de 50 entonces 2

50 = Z 0.975 ⋅

400  400 ⋅1.96  ⇒n=  = 245.84 50 n  

246

Ejemplo Se quiere estimar el gasto mensual medio me las familias de una población y estamos dispuestos a asumir un error medio de 100€ con el nivel de confianza 0.95. Por la 2 ⋅ fórmula (I) se tiene que n = Z 0.975

σ2 σ2 2 = 1.96 ⋅ pero no conocemos σ2, por lo 2 ε 10000

que tomamos una muestra piloto previa de 10 familias con los siguientes datos 500, 700, 600, 400, 500, 800, 900, 1200, 900, 1000 de la que resulta una media X = 750 y ESTIMACIÓN DEL TAMAÑO DE LA MUESTRA 24


una cuasivarianza S n2−1 = 65000 , de donde sustituyendo en la fórmula (I) nos queda σ2 65000 2 n = Z 0.975 ⋅ 2 = 1.962 ⋅ = 24.97 25 ε 10000 Por tanto la muestra debe ser de tamaño 25.

Ejemplo Si quiere aplicar un test de inteligencia a una población y se sabe por estudios previos que la desviación poblacional σ = 10. ¿Cuál debe ser el tamaño de la muestra n para poder afirmar con un nivel de confianza del 0.95 que la media muestral difiere de la media poblacional en menos de 1?

Solución n = Z2 α ⋅ 1−

2

σ2 102 = Z = 1.962 ⋅100 = 3.84 ⋅100 = 384 0.975 2 2 ε 1

Ejemplo La Consejería de Trabajo planea un estudio con el interés de conocer el promedio de horas semanales trabajadas por las mujeres del servicio doméstico. La muestra será extraída de una población de 10000 mujeres que figuran en los registros de la Seguridad Social y de las cuales se conoce a través de un estudio piloto que su varianza es de 9.648. Trabajando con un nivel de confianza de 0.95 y estando dispuestos a admitir un error máximo de 0,1, ¿cuál debe ser el tamaño muestral que empleemos?.

Solución 2

 9.648 ⋅1.96  9.648 0.1 = Z 0.975 ⋅ ⇒ n =   3706 0.1 n   Como N = 10000 > 3706·3705, tenemos que emplear el siguiente método 3706 n' = = 2704 , que sería el tamaño de muestra a usar 3706 1+ 10000

ESTIMACIÓN DEL TAMAÑO DE LA MUESTRA 25


Tamaño de la muestra para estimar la proporción Se trata de estimar la proporción poblacional pi mediante una proporción muestral. Nos remitimos nuevamente a la fórmula (I) , con reemplazamiento, donde ya hemos estudiado p (1 − p ) como varía en este caso la desviación, con lo que nos queda n = Z 2 α ⋅ donde, como 2 1−

2

ε

p varía entre 0 y 1 pero, si no lo conocemos, nos pondremos en el caso más desfavorable que es cuando p = 0.50 (desfavorable en el aspecto que hace que n sea el más grande posible por Z 2 α ⋅ p (1 − p ) 1− 2 (I) ser p(1-p) máximo), luego n = 2

ε

Si el muestreo es sin reemplazamiento tendríamos la fórmula N ⋅ Z 2 α ⋅ p (1 − p ) n=

1−

( N − 1) ⋅ ε

2

2

+ Z 2 α ⋅ p (1 − p ) 1−

(II)

2

Ejemplo ¿A cuántas personas tendríamos que estudiar para conocer la prevalencia de diabetes? Nos ponemos las siguientes condiciones: • Nivel de confianza = 95%; • Error máximo tolerable (o podemos llamarla también precisión) = 3%: • Proporción esperada = asumamos que puede ser próxima al 5% (si no tuviésemos ninguna idea de dicha proporción utilizaríamos el valor p = 0.5 que maximiza el tamaño muestral)

Solución Utilizamos la fórmula p (1 − p ) n = Z2α ⋅ 2 1−

ε

2

donde: 2 = 1.962 • Z 2 α = Z 0.975 1−

• • •

2

p es la proporción esperada (en este caso 5% = 0.05) q = 1 – p = 1 – 0.05 = 0.95 ε es el error máximo tolerable (en este caso deseamos un 3%)

ESTIMACIÓN DEL TAMAÑO DE LA MUESTRA 26


Por lo que resulta que n = 1.962 ⋅

0.05 ⋅ 0.95 = 203 0.032

Ejemplo 2 ¿A cuántas personas tendría que estudiar de una población de 15,000 habitantes para conocer la prevalencia de diabetes? ¿Cómo varía el tamaño de la muestra si exigimos una precisión del 99%?

Solución A diferencia del ejemplo anterior ahora la población total N= 15000 es finita y deseásemos saber cuántos del total tendremos que estudiar. Empleamos entonces la fórmula (II): N ⋅ Z 2 α ⋅ p (1 − p ) 1− 15000 ⋅1.962 ⋅ 0.05 ⋅ 0.95 2 n= = = 200 ( N − 1) ⋅ ε 2 + Z 2 α ⋅ p (1 − p ) 14999 ⋅ 0.032 + 1.962 ⋅ 0.05 ⋅ 0.95 1−

2

2 = 2.5762 y los cálculos ahora Si la precisión es del 99% entonces Z 2 α = Z 0.995 1−

resultan n=

2

N ⋅ Z 2 α ⋅ p (1 − p ) 1−

2

( N − 1) ⋅ ε 2 + Z12−α

15000 ⋅ 2.5762 ⋅ 0.05 ⋅ 0.95 = = 342 ⋅ p (1 − p ) 14999 ⋅ 0.032 + 2.5762 ⋅ 0.05 ⋅ 0.95

2

ESTIMACIÓN DEL TAMAÑO DE LA MUESTRA 27


Estimar el tamaño de la población a partir de una muestra Y terminamos este capítulo de estimación con un método muy simple y muy útil, de uso frecuente, para determinar el tamaño de una población, por ejemplo de un banco de merluza, o de cualquier especie en extinción. Pongamos como ejemplo que deseamos saber cuántas habas N contiene un saco. Para ello, en una primera operación, extraemos una muestra de, pongamos 100 habas y las marcamos con algún tipo de color, por ejemplo rojo, y las devolvemos al saco y mezclamos bien. En una segunda operación extraemos una nueva muestra aleatoria de, pongamos nuevamente otras 100 habas, pero las cantidades pueden variar, y contamos el número n (supongamos que salen 5) de habas rojas extraídas en esta segunda muestra. Entonces con solo aplicar una regla de tres hacemos:

5 100 10000 = ⇒N= = 2000 100 N 5

ESTIMACIÓN DEL TAMAÑO DE LA MUESTRA 28


Colección de ejercicios de estimación de parámetros Ejercicio Supongamos que X es una v.a. que representa el tiempo en msg de reacción a un estímulo de una neurona. Los resultados en 10 intentos fueron 3, 2.9, 2.8, 2.7, 2.6, 2.4, 2.5, 2.4, 2.6 y 2.7. Se sabe por experiencias previas que el tiempo de reacción es una v.a. con distribución normal. Estimar mediante un intervalo de confianza al 99% la media teórica de reacción y la desviación típica Fuente Bioestadística Medicina USC. Aptes Elba Pérez Vidal

Solución La media de la muestra X =

la cuasivarianza S

2 n −1

1 n ∑ xi es un estimador insesgado de la media teórica, y n i =1

∑(x − X ) =

2

es un estimador también insesgado de la varianza n −1 teórica, por tanto, usando Excel calculamos X = PROMEDIO ( xi ) = 2.66 y la cuasivarianza S n −12 = VAR ( xi ) = 0.0404  σ σ  El intervalo de confianza para la media viene dado por  X − Z α ⋅ ,X +Z α ⋅  1− 1− n n  2 2 Si el nivel de confianza exigido es del 99%, entonces el nivel de significación es α = 0.01 por lo que tenemos que calcular Z α = Z 0.995 que mediante Excel se hace , sin 1−

2

necesidad de tipificar ni mirar en ninguna tabla con DISTR.NORM.INV(0,995;2.66;0.0404) = 2.7641 El intervalo de confianza resulta 0.2011 0.2011   , 2.66 + 2.7641 ⋅  2.66 − 2.7641 ⋅  = ( 2.484, 2.836 ) 10 10  

Ejercicio Se extrae una muestra de 300 varones y 27 de ellos padecieron o padecen un cierto tipo de gripe. Tomamos la muestra de 400 mujeres resultando que 32 de ellas padecieron o padecen ese mismo tipo de gripe. Se pregunta ¿Depende del sexo la prevalencia de la gripe? Fuente Bioestadística Medicina USC. Aptes Elba Pérez Vidal

Solución Recordar que en epidemiología prevalencia es la proporción de individuos de una población que padecen una enfermedad en un periodo o tiempo determinado. Tenemos dos poblaciones disjuntas, hombres y mujeres, con proporciones pH = 27/300 = 0.09 y pM = 32/400 = 0.08 Vamos a calcular el intervalo de confianza de la diferencia de proporciones pH – pM el cual sabemos que el estimador de la media viene dado por ( pH – pM ) = 0.01 y la Colección de ejercicios de estimación de parámetros 29


varianza

por

p1 (1 − p1 ) n1

+

p2 (1 − p2 ) n2

=

0.09 ⋅ 0.91 0.08 ⋅ 0.92 + = 0.021 y 300 400

la

(p − p ) − ( p − p ) 1

2

1

2

→ N (0,1) y p1 (1 − p1 ) p2 (1 − p2 ) + n1 n2 como sabemos que en una N(0,1) en el intervalo (µ-2α, µ+2α ) = (-0.011,0.031) se encuentra concentrada el 97% de la población. Por tanto, los datos de las muestras son totalmente razonables y no podemos concluir con estos datos que la prevalencia dependa del sexo. El intervalo de confianza para la diferencia de proporciones es  p (1 − p1 ) p2 (1 − p2 ) p (1 − p1 ) p2 (1 − p2 )   ( p1 − p2 ) − Z α ⋅ 1  + + , ( p1 − p2 ) + Z α ⋅ 1 1− 1−   n n n n 1 2 1 2 2 2   , de lo que El error máximo admisible viene dado por

distribución es, para n grandes como este caso,

Ejercicio Para comparar la eficacia de dos tratamientos para la hipercloridia se observaron las curaciones que se produjeron en 100 pacientes del primer tratamiento y 120 pacientes del segundo. Con el primer trtamiento curaron 68 pacientes y 76 con el segundo. Utilizando el método de calcular el intervalod e confianza al 95% se podría concluir que un test es mejor que el otro? En caso afirmativo ¿cuál de ellos? Fuente Bioestadística Medicina USC. Aptes Elba Pérez Vidal

Solución Partiendo de que el intervalo de confianza al 95% es  p (1 − p1 ) p2 (1 − p2 ) p (1 − p1 ) p2 (1 − p2 )   ( p1 − p2 ) − Z 0.975 ⋅ 1  + + , ( p1 − p2 ) + Z 0.975 ⋅ 1   n n n n 1 2 1 2   68 76 − = 0.68 − 0.633 = 0.047 y En nuestro caso ( p1 − p2 ) = 100 120 p1 (1 − p1 ) p2 (1 − p2 ) 0.68 ⋅ 0.32 0.633 ⋅ 0.367 + = + = 0.064 por lo tanto el IC al n1 n2 100 120 95% resulta ser ( 0.047 − 1.96 ⋅ 0.064, 0.047 + 1.96 ⋅ 0.064 ) = ( −0.079, 0.172 )95% No se puede concluir que un tratamiento sea mejor que el otro.

Ejercicio Para 96 familias españolas, elegidas al azar, se ha determinado que la televisión permanece encendida en la casa una media de 217 minutos diarios; la desviación típica de la muestra fue de 40 minutos. Para una fiabilidad del 95%, ¿qué error se asume cuando se da por bueno ese dato para el total de las familias españolas? ¿Qué tamaño muestral sería necesario para reducir ese error a la mitad?

Colección de ejercicios de estimación de parámetros 30


Solución 40 40 ⇒ ε = 1.96 ⋅ 8 96 96 Si queremos que el error sea 4 en lugar de 8, el tamaño de la muestra debe ser:

ε = Z 0.975 ⋅

40 40   ⇒ n =  1.96 ⋅  4 = Z 0.975 ⋅ 4  n 

2

384.16

Ejercicio Se quiere comprobar la eficacia de la disolución del ácido acetil salicílico. Para ello, a 12 personas (Grupo A de agua) se les administra la muestra de aspirina disuelta en agua. A otro grupo de 12 personas (Grupo E de efervescente) se les administró en mezcla efervescente. A los 45 minutos de la ingestión se les mide a todos ellos la concentración ácida en sangre (0.524), que suponemos sigue una N(µ,σ), resultando las siguientes mediciones Tamaño Media

Varianza

Cuasivarianza

Grupo A n1 =12

X 1 = 35.67

σ 12 = 8.23

S n2−1,1 = 8.59

Grupo E

X 2 = 41.67

σ 22 = 6.55

S n2−1,2 = 6.84

n2 =12

Queremos una precisión en la estimación del 99%. La pregunta a resolver es ¿Es lo mismo tomarla en pastilla disuelta en agua que efervescente? Fuente Bioestadística Medicina USC. Aptes Elba Pérez Vidal

Solución Al tratarse de comparar dos muestras la mejor forma de hacerlo es considerando la distribución de la diferencia de medias X 1 − X 2 , la cual sabemos que, como conocemos las varianzas de la población, sabemos que sigue una distribución

(

)

 X 1 − X 2 − ( µ1 − µ2 ) σ 12 σ 2 2   lo que equivale a decir que N ( 0,1) , N  µ1 − µ 2 , + 2 2  n1 n2  σ σ 1   + 2 n1 n2 por lo tanto, el intervalo de confianza es  σ2 σ 2 σ2 σ 2  X 1 − X 2 − Z 0.995 ⋅ 1 + 2 , X 1 − X 2 + Z 0.995 ⋅ 1 + 2  = ...  n1 n2 n1 n2   99%

(

)

(

)

 8.59 2 6.84 2 8.592 6.84 2  ... =  −6 − 2.576 ⋅ , −6 + 2.576 ⋅ + +  = ( −14.16, 2.16 )  12 12 12 12   Y al estar la media 0 contenida en este intervalo no podemos asegurar la efectividad de la pastilla efervescente. Si lo hubiésemos calculado al 95% resultaría el intervalo

Colección de ejercicios de estimación de parámetros 31


 8.592 6.842 8.592 6.842  + + , −6 + 1.96 ⋅  −6 − 1.96 ⋅  = ( −12, 21, 0.21)  12 12 12 12   Ejercicio Se somete a 2 grupos de hipertensos a 2 tratamientos diferentes A (nuevo) y B (clásico) para reducir la tensión arterial. Se admite inicialmente que A es mejor que B si lo rebaja en 10 unidades o más. Las pruebas arrojan los siguientes resultados Tamaño Media CuasiVarianza D.T. Grupo A nA = 25

X A = 130.3

S n2 A = 237.16

S n −1 A = 15.4

Grupo B nB =37

X B = 158.1

S n2 B = 163.84

S n −1B = 12.8

Construye el IC al 95% de precisión y dinos cuál es tu opinión. Fuente Bioestadística Medicina USC. Aptes Elba Pérez Vidal

Solución Nuestra hipótesis nula es H0 : Tratamiento efectivo ( µB − µ A > 10 )

37 ⋅163.84 + 25 ⋅ 237.16 = 14.14 , y en las tablas de la 25 + 37 − 2 t-Student buscamos para un niveld e confianza del 95% la t25+37−2 = t60 , que resulta 1.67 Calculamos previamente S p =

2 2  n S + nA S A  X B − X A − t25+ 37 − 2 ⋅ B B  n A + nB − 2 

(

)

1 1 n S + nA S A + , X B − X A + t25+37 − 2 ⋅ B B n A nB n A + nB − 2

(

)

2

2

1 1   = ... + n A nB  95%

 1 1 1 1  + , (158.1 − 130.3 ) + 1.67 ⋅14.14 ⋅ + ... =  (158.1 − 130.3 ) − 1.67 ⋅14.14 ⋅  = ( 23.48,33.91) 25 37 25 37  

Aceptamos la hipótesis nula H0 dado que el intervalo de confianza obtenido para la diferencia de medias es superior a 10.

Colección de ejercicios de estimación de parámetros 32


RESUMEN DE ESTIMADORES Estadístico

Media

Desviación típica

θ$

E θ$   

(Error típico) D .T .(θ$ )

X

µ

σ

X → N ( µ ,σ )   σ conocida 

n

σ

X ,σ

n Sn n −1

p (1 − p )

p

X−µ → N (0,1) σ/ n

X−µ X−µ = → t n −1 S n −1 / n S n / n − 1

X → N ( µ ,σ )   σ desconocida 

p$ − p

n grande

µ1- µ2

σ 12 n1

σ 12 n1

+

+

σ 22 n2

σ 22 n2

( n1 −1) Sn2−11 +( n2 −1) Sn2−12 n1 + n2 − 2 =

p1 − p 2

Sn2−1

S n2

p1 - p2

σ2

n1Sn2 + n2 Sn2 1 2 n1 + n2 − 2

p1 (1 − p1 ) p2 (1 − p2 ) + n1 n2

2 ⋅σ 2 n −1

( n − 1) σ 2 n

2 ( n − 1) 2 ⋅σ n2

 X1 → N µ1 ,σ1   σ1 conocida   X 2 → N µ2 ,σ 2   σ 2 conocida 

(X

X1 ,σ1 conocida    n1 grande  X 2 ,σ 2 conocida   n 2 grande 

(X

(

→ N (0,1)

p (1 − p ) n

n

X1 − X 2

X−µ → N (0,1) σ/ n

conocida

n grande

S n −1 = n p

Distribución muestral de θ$

)

(

1

)

)

− X 2 − ( µ1 − µ 2 )

σ 12 n1 1

+

σ 22

→ N (0,1)

n2

)

− X 2 − ( µ1 − µ 2 )

σ 12 n1

+

σ 22

→ N (0,1)

n2

)  X1 − X 2 − ( µ1 − µ 2 ) → tn1 + n2 − 2  2 2 X 2 N ( µ 2 ,σ 2 )  1 1 n1 S n 1 + n2 S n 2 + σ 2 desconocida  n1 n2 n1 + n2 − 2 (

X1 N µ1 ,σ1 σ1 desconocida

n1 n2

  grande 

grande

(

)

(p − p ) − ( p − p ) 1

2

1

2

p1 (1 − p1 ) p2 (1 − p2 ) + n1 n2

X → N (µ,σ )

( n − 1) Sn2−1 → χ 2

X → N (µ ,σ )

nS n

σ2

σ

2

→ N (0,1)

n −1

2

→ χ n2−1

Colección de ejercicios de estimación de parámetros 33


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.