2 minute read
Diseño y análisis en investigación
Hemos dicho que, conociendo la media y la desviación típica de una variable de distribución normal, podemos conocer la probabilidad de cualquier rango de valores; por ejemplo, en la distribución de longitudes de recién nacidos (media 50 cm, desviación típica 2 cm), podemos saber la probabilidad de que un recién nacido nazca con menos de 46 cm. Como 46 corresponde a la media menos dos veces (casi 1,96 veces) la desviación típica (50 – 4), podemos calcular la probabilidad de medir menos de 46 cm, que es, aproximadamente, 0,025 (un 2,5 %, ya que fuera del intervalo ± 1,96 la desviación típica quedaba el 5% y aquí solo contamos un lado).
El cálculo exacto a partir de funciones de probabilidad requiere operaciones complejas, innecesarias, ya que tanto las hojas de cálculo como los paquetes estadísticos tienen memorizados los valores de referencia que corresponden a cada valor de una distribución de referencia que denominamos normal estandarizada o tipificada (Z), creada a partir de una transformación que consiste en restar a cada valor la media (centrar) y dividirlo por la desviación típica (estandarizar o tipificar). La distribución de referencia tiene una media 0 y una desviación típica 1 (figura 6.3).
Capítulo
Con la centralización y estandarización podemos estimar la probabilidad de cualquier valor que siga una distribución normal, si sabemos la media y la desviación típica. También se puede saber a qué valor concreto le corresponde una probabilidad, buscando el valor de la normal estandarizada (Z) al que le corresponde dicha probabilidad y haciendo la transformación inversa (multiplicar por la desviación típica y sumar la media). Algunos de estos valores ya se han mencionado al describir la distribución normal, ya que son los factores que multiplicaban la desviación típica p (1; 1,65; 1,96).
P = f (Z) ==> X = (Z · s) + µ
Estimación por intervalos. El error estándar
Empezamos este capítulo diciendo que la inferencia estadística trata de sacar conclusiones sobre una “población” a partir del análisis de los datos extraídos de un subconjunto de la misma (“muestra”).
La primera estrategia de la inferencia estadística era la estimación por intervalos de confianza. Para ello contamos con las medidas descriptivas de la característica objeto de estudio en nuestra muestra. Habitualmente contaremos con una frecuencia relativa (proporción) para una variable nominal dicotómica o con una media (media muestral) para una variable continua. Nuestro objetivo es estimar las características correspondientes en la población: π (proporción) y µ (media). La mejor estimación que tenemos de ambos parámetros son nuestras medidas descriptivas. Pero como han sido estimadas en muestras, por prudencia, solo podemos decir que los parámetros a estimar, la π (proporción) o la µ (media) poblacionales, tendrán valores cercanos a los que hemos obtenido en nuestra muestra.
Pero, ¿cómo calculamos el intervalo de error alrededor de nuestras medidas muestrales? La aproximación más intuitiva es intentar saber si las proporciones o medias muestrales siguen algún tipo conocido de distribución de probabilidad.
Hagamos un ejercicio teórico a partir de los datos de una amplia muestra de casos reales de partos (12.000), de la que vamos a seleccionar muestras de creciente tamaño muestral. Nuestro objetivo es estimar la proporción de partos distócicos que hay en esa “población”. No olvidemos que incluso con muestras de gran tamaño muestral, las muestras solo son aproximaciones a la población. Asimismo, en la práctica este ejercicio teórico no es posible, ya que en nuestros estudios solo vamos a contar con una única muestra (que podría ser la que aquí vamos a usar como población).
Hemos seleccionado 120 muestras aleatorias de tamaño n = 10 (cada muestra 10 partos). En cada una de las 120 muestras estimamos la frecuencia relativa de parto distócico, con lo que obtendremos 120 proporciones, que utilizaremos como si fueran