INTRODUCCIÓN AL MUESTREO

Page 1

UNIVERSIDAD DE SAN CARLOS DE GUATEMALA FACULTAD DE CIENCIAS MÉDICAS ÁREA CURRICULAR DE INVESTIGACIÓN UNIDAD DIDÁCTICA DE BIOESTADÍSTICA PRIMER AÑO DOCUMENTO DE APOYO PARA LA UNIDAD DIDÁCTICA DE BIOESTADÍSTICA AÑO 2021 Elaborado por: Licda. Haylyn Karina Valdez, MSc. Revisado por: Inga. Vivian Paola Pérez, M.A.

TEMA CENTRAL: Introducción al muestreo A continuación encontrarán algunos conceptos importantes para la comprensión del tema: 1. Muestra probabilística: Es una muestra extraída de una población, de tal forma que cada elemento tuvo una probabilidad conocida de estar incluido en esa muestra. 2. Muestra aleatoria simple: Se considera muestra aleatoria simple si una muestra de tamaño n, extraída de una población de tamaño N, tiene la misma probabilidad de ser seleccionada y sus elementos son elegidos al azar. 3. Marco muestral: Consiste en descripciones disponibles con anterioridad del material en forma de mapas, listas, directorios, etc., a partir de los cuales las unidades de la muestra se pueden construir y se puede seleccionar un conjunto de elementos o sujetos (1). Es la población de donde se tomarán los datos de la muestra según el tipo de muestreo a realizar. 4. Muestreo: Es la técnica que se emplea para la selección de una muestra a partir de una población. De cualquier población finita de tamaño N, es posible extraer un número de muestras diferentes de tamaño n. Esto si N es lo suficientemente grande como para permitir el muestreo. Las poblaciones pequeñas, por razones obvias, no son muestreadas, en lugar de ello, se examina la población completa (2). Existen dos tipos de muestreo: no probabilístico y probabilístico. 4.1 Muestreo no probabilístico: En las técnicas de muestreo de tipo no probabilísticas, la selección de los sujetos a estudio dependerá de ciertas características, criterios, etc., que el investigador considere en ese momento; por lo que pueden ser poco válidos y confiables o reproducibles; debido a que este tipo de muestras no se ajustan a un fundamento probabilístico, es decir, no dan certeza que cada sujeto a estudio represente a la población (5). Antes de hablar del muestreo probabilístico, vemos la situación de muestrear con reemplazo y sin reemplazo: 

Muestreo con reemplazo: Cuando se utiliza una muestra con reemplazo cada elemento de la población está disponible para cada extracción. Ejemplo: De los expedientes clínicos de pacientes que asisten a la clínica de salud integral del Centro Universitario Metropolitano (CUM), se elige un expediente al azar para conocer sus características sociodemográficas, se toman sus datos y luego es devuelto al archivo, para cuando se elija otro expediente éste pueda ser tomado en cuenta nuevamente. Es decir, un mismo elemento puede aparecer varias veces en la muestra. 1


UNIVERSIDAD DE SAN CARLOS DE GUATEMALA FACULTAD DE CIENCIAS MÉDICAS ÁREA CURRICULAR DE INVESTIGACIÓN UNIDAD DIDÁCTICA DE BIOESTADÍSTICA PRIMER AÑO Para esta situación del muestreo con reemplazo considere lo siguiente: a. El número se eleva a la potencia de “n”. b. Es mayor el número resultante. c. Puede aparecer varias veces un elemento. d. Se debe colocar nuevamente el elemento para ser tomado en cuenta. La fórmula para calcular la cantidad de muestras posibles de extraer en el Muestreo con reemplazo es: 𝑵𝒏 Ejemplo: Al tener una población N=28 y se toman muestras n=4. ¿Cuántas muestras es posible extraer si se realiza un muestreo con reemplazo? 𝟐𝟖𝟒 = 𝟔𝟏𝟒, 𝟔𝟓𝟔 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒔 𝒒𝒖𝒆 𝒔𝒆 𝒑𝒖𝒆𝒅𝒆𝒏 𝒆𝒙𝒕𝒓𝒂𝒆𝒓 

Muestreo sin reemplazo: En este muestreo siguiendo con el ejemplo, el expediente extraído no es devuelto al archivo después de tomar los datos, sino que se separa hasta extraer toda la muestra. Con este procedimiento un elemento debe aparecer sólo una vez. En la práctica, generalmente el muestreo se hace sin reemplazo.

Para esta situación del muestreo sin reemplazo considere lo siguiente: a. Se utiliza la opción de la calculadora “n C r”. b. Es menor el número resultante. c. Sólo una vez puede aparecer un elemento. d. No se coloca el elemento nuevamente para ser tomado en cuenta. La fórmula para la calcular la cantidad de muestras posibles de extraer en Muestreo sin reemplazo es: 𝑵 𝑪 𝒏 Ejemplo cuando se desglosa la fórmula: Al tener una población N=5 y se toman muestras n=2. ¿Cuántas muestras es posible extraer si se realiza un muestreo sin reemplazo? 𝟓

𝑪

𝑵!

𝟐 = 𝒏!(𝑵−𝒏)! =

𝟓! (𝟐∗𝟏)∗ (𝟑∗𝟐∗𝟏)

=

𝟓∗𝟒∗𝟑∗𝟐∗𝟏 𝟐!𝟑!

= 𝟏𝟎 𝒑𝒐𝒔𝒊𝒃𝒍𝒆𝒔 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒔

Ejemplo cuando se utiliza la calculadora: Al tener una población N=5 y se toman muestras n=2. ¿Cuántas muestras es posible extraer si se realiza un muestreo sin reemplazo? 𝟓 𝑪 𝟐 = 𝟏𝟎 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒔 𝒒𝒖𝒆 𝒔𝒆 𝒑𝒖𝒆𝒅𝒆𝒏 𝒆𝒙𝒕𝒓𝒂𝒆𝒓 4.2 Muestreo probabilístico: Las técnicas de muestreo probabilísticas, permiten conocer la probabilidad que cada individuo a estudio tiene de ser incluido en la muestra a través de una selección al azar, por lo que existen procedimientos estadísticamente seguros que permiten inferir, a partir de la muestra extraída, sobre la población de interés. A continuación se abordarán dos de los tipos de muestreo probabilístico:

2


UNIVERSIDAD DE SAN CARLOS DE GUATEMALA FACULTAD DE CIENCIAS MÉDICAS ÁREA CURRICULAR DE INVESTIGACIÓN UNIDAD DIDÁCTICA DE BIOESTADÍSTICA PRIMER AÑO 4.2.1 Muestreo aleatorio simple: Es el sistema de extracción al azar de los elementos de una muestra aleatoria simple. Se caracteriza porque otorga la misma probabilidad de ser elegidos a todos los elementos de la población y garantiza que todos los individuos tienen la misma oportunidad de ser incluidos en la muestra (3). Los elementos se pueden extraer con reemplazo y sin reemplazo. El procedimiento que se plantea es el uso del programa Excel, para lo cual se propone el siguiente video para visualizar el paso a paso: https://youtu.be/Movj5ujvSWM Ejemplo para el MUESTREO ALEATORIO SIMPLE CON REEMPLAZO Se desea extraer una muestra de 5 pacientes, por medio de muestreo con reemplazo de una población de 15 personas con los siguientes valores de glucosa en ayunas: Pacientes (Sujetos que conforman la población)

1 2 3 4 5

Valores de glucosa en ayuna (mg/dl)

91 94 115 85 89

Pacientes (Sujetos que conforman la población)

6 7 8 9 10

Valores de glucosa en ayuna (mg/dl)

107 94 105 94 103

Pacientes (Sujetos que conforman la población)

11 12 13 14 15

Valores de glucosa en ayuna (mg/dl)

104 105 88 107 90

Se requiere lo siguiente: 1) Calcular la cantidad de muestras que pueden ser extraídas con reemplazo. 2) Colocar en un cuadro el número de elemento y los valores de glucosa correspondientes de la muestra extraída. 3) El cálculo de los estadísticos (media y desviación estándar). Solución: 1) 𝟏𝟓𝟓 = 𝟕𝟓𝟗, 𝟑𝟕𝟓 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒔 𝒒𝒖𝒆 𝒔𝒆 𝒑𝒖𝒆𝒅𝒆𝒏 𝒆𝒙𝒕𝒓𝒂𝒆𝒓 2) Los elementos que componen una de las muestras son los siguientes (los cuales variarán por la aleatorización): Número del paciente en la muestra

Número aleatorio

Valores de glucosa en ayuna

1 2 3 4 5

12 12 13 08 08

105 105 88 105 105

Observa que los elementos pueden aparecer más de una vez.

3


UNIVERSIDAD DE SAN CARLOS DE GUATEMALA FACULTAD DE CIENCIAS MÉDICAS ÁREA CURRICULAR DE INVESTIGACIÓN UNIDAD DIDÁCTICA DE BIOESTADÍSTICA PRIMER AÑO 3) Los estadísticos calculados son: ̅ = 𝟏𝟎𝟏. 𝟔 𝒙 𝒔 = 𝟕. 𝟔𝟎 Ejemplo para el MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO Se desea extraer una muestra de 5 pacientes, por medio de muestreo con reemplazo de una población de 15 personas con los siguientes valores de glucosa en ayunas: Pacientes (Sujetos que conforman la población)

1 2 3 4 5

Valores de glucosa en ayuna (mg/dl)

91 94 115 85 89

Pacientes (Sujetos que conforman la población)

6 7 8 9 10

Pacientes (Sujetos que conforman la población)

Valores de glucosa en ayuna (mg/dl)

107 94 105 94 103

11 12 13 14 15

Valores de glucosa en ayuna (mg/dl)

104 105 88 107 90

Se requiere lo siguiente: 1) Calcular la cantidad de muestras que pueden ser extraídas sin reemplazo. 2) Colocar en un cuadro el número de elemento y los valores de glucosa correspondientes de la muestra extraída. 3) El cálculo de los estadísticos (media y desviación estándar). Solución: 1) 𝟏𝟓 𝑪 𝟓 = 𝟑, 𝟎𝟎𝟑 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒔 𝒒𝒖𝒆 𝒔𝒆 𝒑𝒖𝒆𝒅𝒆𝒏 𝒆𝒙𝒕𝒓𝒂𝒆𝒓 2) Los elementos que componen una de las muestras son los siguientes (los cuales variarán por la aleatorización): Número del paciente en la muestra

Número aleatorio

Valores de glucosa en ayuna

1 2 3 4 5

12 13 08 04 10

105 88 105 85 103

Observa que ninguno de los elementos puede aparecer más de una vez. Si al generar los números aleatorios sugiere uno que ya está en el listado, se debe seleccionar el siguiente hasta no tener repetidos en el listado de números aleatorios.

3) El cálculo de los estadísticos (media y desviación estándar). ̅ = 𝟗𝟕. 𝟐 𝒙 𝒔 = 𝟗. 𝟖𝟔

4


UNIVERSIDAD DE SAN CARLOS DE GUATEMALA FACULTAD DE CIENCIAS MÉDICAS ÁREA CURRICULAR DE INVESTIGACIÓN UNIDAD DIDÁCTICA DE BIOESTADÍSTICA PRIMER AÑO 4.2.2

Muestreo sistemático: Cuando el criterio de distribución de los sujetos a estudio en una serie es tal, que los más similares tienden a estar más cercanos y ordenados. Este tipo de muestreo suele ser más preciso que el aleatorio simple, debido a que recorre la población de forma más uniforme (3). Se toman muestras más directas y ordenadas a partir de una regla determinística, también llamada sistemática. El diseño muestral sistemático más sencillo es llamado muestreo sistemático uniforme de paso k, para el ejemplo se seguirán los siguientes pasos:

1) 2) 3) 4)

Tener el listado ordenado de la población. Determinar el tamaño de la muestra. Definir el tamaño del salto sistemático k dado por k = N/n. Elegir un número aleatorio entre 1 y k ( =arranque aleatorio o primer sujeto de estudio que conformará la muestra). Este número permite obtener la primera unidad muestral. 5) A partir de la posición , dando un salto k unidades, obtendremos la segunda unidad de la muestra u +k y de esta forma, saltando de k en k unidades, el resto de la muestra estará formada por las unidades u +2k, u +3k,…, u +(n+1) k. Ejemplo: Consideramos una población de 5,000 pacientes con las dos dosis de la vacuna AstraZeneca pertenecientes a determinada zona y de la que se pretende extraer una muestra sistemática de 10 agricultores. El procedimiento a seguir es el siguiente (4): 1) Definir el tamaño del salto sistemático k= 5000/10= 500 2) Selecciona un número aleatorio r entre 1 y 500, (por ejemplo 96) 3) Seleccionar los restantes elementos de la muestra, 96, 96+500=596, 596+500=1096, 1596, 2096, 2596, 3096, 3596, 4096, 4596. El procedimiento que se plantea es el uso del programa Excel, para lo cual se propone el siguiente video para visualizar el paso a paso: https://youtu.be/4a2KR_nccZs

TEMA ADICIONAL: Distribuciones Muestrales A continuación se presente el siguiente tema, el cual es clave para la comprensión de la inferencia estadística: Distribución muestral: Es la distribución de todos los valores posibles que puede asumir una estadística, calculados a partir de muestras del mismo tamaño, extraídas aleatoriamente de la misma población. Se procede de la siguiente manera: 1) De una población finita, se extraen de manera aleatoria todas las muestras posibles, y 2) Se calcula la estadística de interés para cada muestra. 3) Se tiene interés de conocer la media, desviación estándar y forma funcional (apariencia gráfica).

5


UNIVERSIDAD DE SAN CARLOS DE GUATEMALA FACULTAD DE CIENCIAS MÉDICAS ÁREA CURRICULAR DE INVESTIGACIÓN UNIDAD DIDÁCTICA DE BIOESTADÍSTICA PRIMER AÑO Ejemplo: Población= 3 Muestra= 2 Muestreo con reemplazo 𝟑𝟐 = 𝟗 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒔 𝒒𝒖𝒆 𝒔𝒆 𝒑𝒖𝒆𝒅𝒆𝒏 𝒆𝒙𝒕𝒓𝒂𝒆𝒓 N

Edad

1 2 3

17 18 20

55

Muestras que pueden extraerse 1 2 3 4 5 6 7 8 9

Elementos de las muestras 17, 17 17, 18 17, 20 18, 17 18, 18 18, 20 20, 17 20, 18 20, 20

Medias de las muestras ̅ 𝒙 17 17.5 18.5 17.5 18 19 18.5 19 20 165

̅ − 𝝁𝒙̅ 𝒙

-1.33333333 -0.83333333 0.166666667 -0.83333333 -0.33333333 0.666666667 0.166666667 0.666666667 1.666666667

(𝒙 ̅ − 𝝁𝒙̅ )𝟐

1.77777778 0.69444444 0.02777778 0.69444444 0.11111111 0.44444444 0.02777778 0.44444444 2.77777778 7.000000

Cálculo de la media muestral: Es la media de todas las posibles muestras que se calculan de una población. Es interesante ver que la media de la población es igual a las medias de todas las muestras. Σ𝑥 55 𝜇 = 𝑛 𝜇 = 3 = 18.33 años Σ𝑥̅

𝜇𝑥̅ = 𝑁𝑛

𝜇𝑥̅ =

165 32

= 18.33 años

Cálculo de la desviación estándar muestral (llamado también error estándar de la media o sólo ERROR ESTÁNDAR): Es la desviación estándar de todas las posibles muestras que se calculan de una población. Es interesante notar que la varianza de la distribución muestral es igual a la varianza de la población dividida entre el tamaño de la muestra. 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 = 𝜎𝑥̅2 =

𝛴(𝑥̅ −𝜇𝑥̅ )2 𝑁𝑛

=

7 9

= 0.78

𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙 𝑑𝑖𝑣𝑖𝑑𝑎 𝑒𝑛𝑡𝑟𝑒 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 =

𝜎2

= 𝜎

1.56

= 0.78 1.25 𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 (𝑒𝑟𝑟𝑜𝑟 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟) = √𝜎𝑥̅2 = 𝜎𝑥̅ = = = 𝟎. 𝟖𝟖 𝒂ñ𝒐𝒔 √𝑛 √2 𝑛

2

La utilidad de lo anterior es comprender que cuando se desean generalizar los datos de una muestra extraída de una población con distribución normal: 1) La distribución de la media será normal. 2) La media muestral será igual a la media de la población. 3) La distribución muestral será igual a la desviación de la población dividida entre el tamaño de la muestra.

6


UNIVERSIDAD DE SAN CARLOS DE GUATEMALA FACULTAD DE CIENCIAS MÉDICAS ÁREA CURRICULAR DE INVESTIGACIÓN UNIDAD DIDÁCTICA DE BIOESTADÍSTICA PRIMER AÑO Ahora bien, cuando el muestreo se realiza en una población que no sigue una distribución normal, se utiliza el Teorema de Límite Central. Teorema de límite central: El Teorema del Límite Central permite tomar muestras a partir de poblaciones con distribución no normal y garantizar que se obtengan aproximadamente los mismos resultados que si la población tuviera una distribución normal, siempre que se tome una muestra grande. La normalidad de una población es importante para la inferencia estadística. Empíricamente se considera una muestra grande a una muestra de tamaño 30 en adelante. Factor finito de corrección para población finita: Si el tamaño de la muestra es muy grande, el teorema del límite central es aplicable y el muestreo de la media tendrá una distribución aproximadamente normal. 𝑁−𝑛

 El factor √

𝑁−1

se llama corrección por población finita y se puede aplicar cuando el tamaño de

la muestra es grande en comparación con el tamaño de la población. Es decir sí se aplica cuando 𝒏 >0.05. 𝑵

 Esta multiplicación, además, permite disminuir el error estándar. Ejemplo:  Error estándar con factor finito de corrección 2 Si 3 > 0.66 𝑠𝑖 𝑠𝑒 𝑚𝑢𝑙𝑡𝑖𝑝𝑙𝑖𝑐𝑎 𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟 𝑓𝑖𝑛𝑖𝑡𝑜 𝑑𝑒 𝑐𝑜𝑟𝑟𝑒𝑐𝑖ó𝑛 𝜎𝑥̅ =

𝜎 √𝑛

𝑁−𝑛

∗ √𝑁−1 =

1.25 √2

3−2

∗ √3−1 = 0. 88 ∗ 0.71 = 𝟎. 𝟔𝟐 𝒂ñ𝒐𝒔

Las características de la distribución muestral se resumen en las siguientes condiciones: 1) Cuando el muestreo se realiza a partir de una población distribuida normalmente con una varianza de población conocida: a. 𝜇𝑥̅ = 𝜇 𝜎 b. 𝜎𝑥̅ = √𝑛

c. 𝐿𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑑𝑒 𝑥̅ 𝑒𝑠 𝑛𝑜𝑟𝑚𝑎𝑙 2) El muestreo se efectúa a partir de una población que sigue una distribución no normal, con una variancia de población conocida: a. 𝜇𝑥̅ = 𝜇 𝜎 𝑛 b. 𝜎𝑥̅ = 𝑛 , 𝑑𝑜𝑛𝑑𝑒 𝑁 > 0.05 √

𝜎𝑥̅ =

𝜎 √𝑛

𝑁−𝑛

* √𝑁−1

c. 𝐿𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑑𝑒 𝑥̅ 𝑒𝑠 𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑎𝑚𝑒𝑛𝑡𝑒 𝑛𝑜𝑟𝑚𝑎𝑙 (2). 7


UNIVERSIDAD DE SAN CARLOS DE GUATEMALA FACULTAD DE CIENCIAS MÉDICAS ÁREA CURRICULAR DE INVESTIGACIÓN UNIDAD DIDÁCTICA DE BIOESTADÍSTICA PRIMER AÑO

Bibliografía 1. L. K. inec.cr. [Online].; 2021 [cited 2021 junio 20. Available from: https://www.inec.cr/sites/default/files/_book/M.html. 2. Wayne W. D. Bioestdística. Base para el análisis de las ciencias de la salud. Tercera ed. Editores GN, editor. México: Limusa; 2008. 3. Otzen T, Manterola C. Técnicas de muestreo sobre una población de estudio. Int. J. Morphol. 2017;(35(1):227-232, 2017). 4. Matemáticas.unex.es. Matemáticas.unex.es. [Online]. [cited 2021 junio 20. Available from: http://matematicas.unex.es/~inmatorres/teaching/muestreo/assets/cap_5.pdf. 5. Walpole M. Probabilidad y estadística para ingeniería y ciencias. Novena ed. López G, editor. México: Pearson Educación; 2012.

8


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.