Estrategia didáctica 3.3.4.1. Niveles de confianza A partir de esta estrategia estudiaremos las características de una muestra. Nuestro propósito será hacer inferencias de una población a partir de una muestra tomada de ella. Esto es lo que hacen las encuestadoras profesionales cuando se les pide un estudio: toman una muestra de la población y según los resultados que se obtengan de ella se infiere lo que ocurre en la población de interés. Por ejemplo, el 15 de agosto del 2007, el periódico Reforma realizó una encuesta a 405 personas que viven en Cuautitlán Izcalli mayores de 18 años en distintos puntos del municipio. Las entrevistas fueron en su casa. Una de las preguntas que les hicieron fue “¿En el último año, considera que la calidad de vida en el municipio ha a) mejorado; b) empeorado; c) sigue igual; d) no sabe?” El 33 % respondió que ha mejorado, el 33% que ha empeorado y el 31% que sigue igual. Como la muestra fue representativa y no sesgada, entonces los datos que la muestra arroja nos permiten inferir que estor porcentajes representan adecuadamente la opinión de los habitantes (la población) del municipio. ¿Porqué puede predecirse esto cuando sólo se entrevistó a una parte de la población? ¿Cómo se seleccionaron a los habitantes encuestados? ¿porqué la muestra fue de 405 personas? El problema de la inferencia que se hizo en esta encuesta, es que el periódico Reforma calculó la proporción muestral (el estadístico p) de los habitantes que dicen que la situación en Cuautitlán Izcalli empeoró y luego infirió que los habitantes de ese municipio proporcionalmente opinaban lo mismo (estimó la proporción poblacional o parámetro π). Estudiaremos cómo puede hacerse esto y lo haremos para dos estadísticos: la media y la proporción. Comenzaremos por estudiar la media muestral. Recordemos que cuando tomamos una muestra y calculamos la media, ella varía alrededor de la media poblacional (esto se vio cuando se tomaron 30 muestras de tamaño 5). La media muestral sigue siendo una variable aunque se tomen muestras de cualquier tamaño porque de cualquier manera x varía. Por ejemplo, seleccionemos muestras de tamaño 30 y para cada una calculemos la media muestral. Al tomar 10 muestras de tamaño 30, se obtuvieron las siguientes medias: 231.2, 236.80, 226.04, 235.4, 223.45, 239.5, 233.7, 239.1, 232.5 y 235.7. Observa que todas ellas se aproximan a la media de salarios μ = 234.84. Algunas medias muestrales están “cerca” y otras están “lejos”. Localicemos las 10 medias muestrales en la distribución de la media para n = 10, y veamos lo que ocurre:
1
Se ha graficado la distribución muestral de la media para n = 30. También se dibujaron los valores de las 10 medias calculadas, las cuales pueden verse como pequeños puntos rojos. La media poblacional se ha dibujado con un círculo más grande para que se identifique y se diferencie fácilmente de las medias muestrales. Observemos que hay 8 medias muestrales que se aproximan a la media poblacional μ, mientras que hay 2 valores que se alejan más de μ, las cuales son 223.45 y 226.05, pero se ha marcado en la figura la primer media porque se aleja más que todas las 10. Llamaremos a estos valores estimaciones de μ, porque se aproximan a este parámetro. Podemos medir qué tan buena fue la estimación de μ. La manera más práctica es midiendo la distancia que se aleja cada estimación de la media μ. Por ejemplo, la estimación 231.2 se aleja 3.64 unidades de 234.84 que es μ. Podemos calcular cada distancia entre la estimación y la media, pero en particular nos interesa la distancia más grande que se dio con la estimación de 223.45. La distancia entre esta y μ fue
|223.45—234.85| = 11.4
2
(1)
Se usa el valor absoluto porque este mide distancias en el eje horizontal. Llamaremos a esta distancia error de estimación. Para estimación se puede calcular un error de estimación, pero 223.45 tiene el error máximo de estimación, por lo que le pondremos atención especial. Notemos que las 10 estimaciones son valores de x . Llamaremos entonces a x un estimador de μ porque cuando se calcula (en cuyo caso a este valor calculado lo hemos llamado estimación), se aproxima a μ. Podemos generalizar la ecuación (1) de la siguiente forma: e= x−µ
(2)
Donde e es el error de estimación. Por ejemplo, si usamos la estimación de la media de 235.7, entonces el error de estimación será: e = |235.7—234.85| = 0.85 Observemos que realmente, el error de estimación nos da la longitud del intervalo que se tiene entre la estimación y la media μ. Podemos afirmar que el valor de 223.45 es una mala estimación de μ, porque su error de estimación fue grande. Pero, ¿Porqué ocurrió esto? Una razón se debe a que es posible que los obreros seleccionados hayan sido los que tuvieron el peor salario y eso hizo que disminuyera la media de los 30 salarios que resultó ser 223.45. Pero ¿cuál es la probabilidad de que haya resultado este error de estimación?, es decir, ¿cuál es la probabilidad de que haya ocurrido la distancia de 11.4 entre el valor de 223.45 y 234.84? Claramente tenemos que calcular la probabilidad de que haya ocurrido esto. Como x es normal, entonces: P(223.45 ≤ x ≤ 234.84) = Φ(0) - Φ(-2.79) = P(z < 0) - P(z < -2.79) = 0.5 – 0.0026 = 0.4974 z=
223.45 − 234.84 = −2.79 4.08
z=
234.84 − 234.84 =0 4.08
Lo que significa que 0.4974 es la probabilidad de que haya ocurrido ese error de estimación, o dicho de otro modo, que se haya dado el error de estimación. Véase la gráfica siguiente para que se comprenda la probabilidad calculada:
3
Donde el círculo señala μ = 234.84. Así pues, hemos calculado la probabilidad de que ocurra el error máximo de estimación a la izquierda de la media μ. Pero es evidente que este error también pudo suceder a la derecha de μ. Este caso pudo darse en el caso de que cuando se tomara una muestra de 30 salarios, hayamos obtenido el valor de 246.24 (¿porqué?) y por lo tanto el error sería de 11.4 de nuevo. Calculemos ahora la probabilidad de que se haya dado el error máximo de estimación a la derecha de μ:
P(234.84 ≤ x ≤ 246.24) = Φ(2.79) - Φ(0) = P(z < 2.79) - P(z < 0) = 0.9974 – 0.5 = 0.4974
z=
246.24 − 234.84 = 2.79 4.08
z=
234.84 − 234.84 =0 4.08
Lo cual dice que la probabilidad de que el error máximo de estimación se de a la derecha de μ es también de 0.4974.
4
Ahora podemos preguntarnos ¿cuál es la probabilidad de que haya ocurrido el error máximo de estimación total? Tendremos que sumar las dos probabilidades anteriormente calculadas:
P(223.45 ≤ x ≤ 246.24) = P( -2.79 ≤ z ≤ 2.79) = 0.4974 + 0.4974 = 0.9948
Esta es la probabilidad de que se de el error de estimación. Observa la siguiente gráfica donde se ilustra la probabilidad de que ocurra el error de estimación:
En los libros de Estadística a la probabilidad de que se cometa el error de estimación se le llama nivel de confianza. Por lo tanto diremos que el error de estimación tiene un nivel de confianza de 0.9948 0 en términos porcentuales del 99.48%. Interpretamos el nivel de confianza de la siguiente manera. Cada vez que se seleccione una muestra de tamaño 30 de la población de salarios de los obreros textiles, y se calcule la media muestral (o estimación) x , la distancia máxima que se obtendrá entre esta y la media μ será de 11.4 unidades con una probabilidad de 0.9948. Una manera equivalente de decirlo es que 9948 de cada 10000 veces que se seleccione una muestra de tamaño 30 de la población de salarios de los obreros textiles, y se calcule la media muestral (o estimación) x , la distancia máxima que se obtendrá entre esta y la media μ 5
será de 11.4 unidades. Puede verse que este resultado nos dice con qué frecuencia ocurrirá una estimación cuya distancia a μ sea como máximo 11.4. Y también con qué frecuencia esta distancia será superada, es decir, en un 0.52%. Revisemos de nuevo las tablas de probabilidad acumulada normal. Observa que hay una tercer columna a la que hasta ahora no habíamos puesto atención. Esta columna está encabezada por D(z). Esta columna mide la probabilidad de que z tome valores simétricos centrados en la media. Si consultas el área que se cubre para el valor de z = 2.79, se tiene: P( -2.79 ≤ z ≤ 2.79) = 0.9947 Que es el nivel de confianza que calculamos. Este resultado puede darnos varias sugerencias. Pero nos ayudará a realizar mejores predicciones, que es lo que deseamos. Pero primero invirtamos el problema. Por ejemplo, queremos que la probabilidad de que ocurra el error máximo de estimación sea de 99.47% (0 0.9947) ¿cuánto debe valer z para que se garantice esto? Evidentemente 2.79. Ahora, si queremos que la probabilidad de que ocurra el error máximo de estimación sea de 99% (0 0.99), ¿cuánto debe valer z (busca el valor más cercano)? En tablas hallarás el siguiente valor: 2.58. Hagamos una tabla de valores del nivel de confianza y calculemos el valor de z que nos garantiza que este nivel se de: Nivel de
Valor de
confianza
z
99%
2.58
98%
2.33
97%
1.96
Los valores dados en la tabla son los más comunes y usados en estadística. Claro que se pueden proponer otros valores para el nivel de confianza, pero con las tablas podemos calcular el valor correspondiente de z. Esta tabla nos ayudará a encontrar resultados que nos harán entender la encuesta del periódico Reforma. Una desventaja que tiene la fórmula (2) para calcular el error de estimación, es que se necesita conocer la media μ, lo cual, para dar un ejemplo práctico, los que diseñaron la encuesta del Reforma no la conocían (Aunque ellos usaran otro parámetro π, la proporción de los habitantes de Cuautitlán, pero el problema es el mismo). Porque si la conocían ¿para qué hacer una encuesta?, porque entonces ya 6
conocerían las preferencias de la población y ya sería inútil toda encuesta. Pronto corregiremos esta fórmula, pero por lo pronto, hay una relación interesante entre algunas fórmulas que ya se han obtenido. Veamos las siguientes dos fórmulas:
e= x−µ
y
z=
x − µx
σx
μ Como el TCL nos dice que x = μ, y si calculamos el error sin valor absoluto, podemos afirmar que en la segunda ecuación el error aparece en el numerador de la ecuación de estandarización. Hagamos la sustitución: z=
e e = σx σ n
(3)
y si despejamos e de (3) se tendrá:
e=
zσ n
(4)
la ecuación (4) nos permite calcular el error de estimación cuando se conozca el tamaño de la muestra n; la desviación estándar de la población σ y el valor de z que se propone según el valor que se proponga para el nivel de confianza, es decir según la probabilidad que estamos dispuestos a aceptar con que se cometa el error de estimación. Este valor de z se puede seleccionar de la tabla arriba propuesta. Veamos un ejemplo 7
para que quede claro el uso de la fórmula (4)
Ejercicio: ¿Cuánto debe valer el error de estimación si se va a tomar una muestra de n = 25 de la población de los salarios de los obreros textiles, si se está dispuesto a aceptar un nivel de confianza del 95%?
Sustituyendo
e=
(1.96)( 22.4) = 8.78 25
Esto significa que cuando se toma una muestra de 25 salarios y se calcula la estimación de x , entonces 95 de cada 100 veces esta media muestral se alejará como máximo una distancia de 8,78 unidades con respecto de μ.
En cierta forma, podemos darnos cuenta que se están haciendo predicciones acerca de lo que ocurrirá cuando se realice un muestreo. Recordemos que esto es justamente lo que se hace en las encuestas: realizar predicciones.
Hay todavía una segunda fórmula igualmente importante y que se deduce de (4). Despejemos ahora n de (4)
zσ n= e
2
(5)
Esta fórmula es también bastante interesante. Nos dice de qué tamaño debe seleccionarse una muestra para que el error de estimación ocurra con una probabilidad dada por el nivel de confianza. Para que se aclare daremos un ejemplo: 8
EJERCICIO: ¿De qué tamaño debe tomarse una muestra de los obreros textiles de manera que el error de estimación sea de 5 dólares con un nivel de confianza de 98%?
Resolviendo
2
2.33 ⋅ 22.4 n= = 108.9 ≈ 109 5
Esto significa que 98 de cada 100 veces que se tome una muestra de 109 salarios, y se calcule x , la estimación se alejará como máximo del parámetro en 5 unidades. Se ha redondeado el resultado al entero superior más cercano, porque el tamaño de muestra sólo puede tomar valores enteros.
EJERCICIOS
1. Localiza las 30 medias muestrales para n = 5, que calculaste en el boletín
anterior, en la distribución muestral. Calcula el error de estimación. 2. Interpreta el valor de 0.52% dado en el texto. 3. Despeja n de 4, para que obtengas la fórmula (5) 4. En la fórmula (5) calcula el tamaño de la muestra para los errores siguientes:
20, 15, 19, 6, 3. ¿Cómo varía el tamaño de la muestra al disminuir el error de estimación ¿y cómo variaría si el error de estimación aumenta? 5. Para la fórmula (5) calcula el tamaño de muestra, para e = 5, pero variando
ahora el nivel de confianza de 99, 98 y 95%. Cómo varía el tamaño de muestra cuando cambia el nivel de confianza? 6. ¿De qué tamaño se debe tomar una muestra, si deseamos determinar a un nivel de confianza del 95%, los tiempos de traslado de los alumnos del CCH 9
de su casa a la escuela, con un error máximo de estimación de 5 minutos? Se sabe que los tiempos son normales con una desviación estándar de 40 minutos. 7. Calcula el error máximo de estimación de los tiempos de traslado de los alumnos del CCH de su casa a la escuela, si se toma una muestra de 200 alumnos, sabiendo que la desviación estándar de los tiempos es de 40 minutos a un nivel de confianza del 98%. Explica el significado del error. 8. Una de las características deseables de los estimadores es la eficiencia. En
clase se vio que la media es más eficiente que la mediana, sin embargo sólo se dieron razones teóricas para ello. Para que verifiques empíricamente lo anterior, usa la población A. Toma 30 muestras de tamaño 3 y calcula la media y la mediana muestrales para cada una de ellas. Realiza un histograma para las medias y otro para las medianas. Calcula la desviación estándar de ambas medidas y compara los polígonos de frecuencias. ¿Qué concluyes? 9. Calcula el error máximo de estimación con una probabilidad del 90, 95, 96,
98 y 99%, cuando se toma una muestra de tamaño 40 de la población B. ¿Qué observas en la magnitud del error? 10. ¿De qué tamaño debes tomar una muestra de la población B, de manera que
el error de estimación máximo sea de 5 dólares con una probabilidad de 95, 98 y 99.5%? 11. De los tabulados del INEGI, se tienen las edades de los derechohabientes a
los servicios de salud. Si se toma una muestra aleatoria de 1500 derechohabientes del IMSS de la población y se calcula la edad media de la muestra, ¿cuál es el error máximo de estimación con una probabilidad del 90%? 12. Calcula lo mismo para los derechohabientes del ISSSTE, tal y como lo
hiciste en el ejercicio anterior. Sólo que ahora usa una probabilidad del 96%. 13. Se ha tomado una muestra de 500 alumnos del CCH y se les ha preguntado
su calificación de Cálculo. Calcula el error máximo de estimación, con una probabilidad de 98%, de la media de calificaciones de los alumnos del CCH en Cálculo, si se sabe que = 0.73. Interpreta el resultado. 14. ¿De qué tamaño se debe tomar una muestra de alumnos del CCH, si se desea estimar la media de calificaciones de Cálculo de todos los alumnos de la escuela, si se está dispuesto a asumir un error máximo de estimación de 0.3 puntos con una probabilidad del 92%? Considera = 0.73. 15. Repite f) pero con una probabilidad del 90%. 10
16. Repite g) pero con un error de 0.5 puntos. 17. De los tabulados del INEGI, encontrarás el ingreso por trabajo de la
población según su salario mínimo. ¿De qué tamaño deberás tomar una muestra de la población para estimar el salario mínimo medio de la población con un nivel de confianza del 95% y un error máximo de estimación de 0.5 salarios mínimos?
Guardar con el nombre nombre-apellido.E3.3..4.1Niveles de confianza-
grupo.doc LECTURA En su Autobiografía, el gran escritor inglés G. B. Shaw anotó: “En la escuela no aprendí nada del programa . . . no tomaba en serio ninguna materia aparte del latín y griego, historia inglesa y un poco de geometría nominal de la que no guardo recuerdo alguno. No se nos dijo una sola palabra en cuanto al significado o utilidad de las matemáticas. Se nos pedía simplemente que explicáramos cómo puede construirse un triángulo equilátero por medio de la intersección de dos círculos; se nos solicitaba que hiciéramos sumas con a, b, y x en lugar de hacerlo con peniques y chelines, cosa que me dejaba tan ignorante que terminaba por suponer que a y b debían de ser huevos y queso y x nada, con el resultado de que dejé de lado el álgebra por considerarla una tontería. Y no cambié de opinión hasta que, ya casi a los treinta años de edad, Graham Wallas y Carl Pearson me convencieron de que en vez de enseñarme matemáticas me habían tomado el pelo.” COMENTARIO Es la probabilidad de que resulte un parámetro, es decir, con los datos que conocemos de la población que va a investigarse, se crea una hipótesis, la cual arroja el resultado del nivel de confianza y debe ser mayor de 95%
11