Técnicas de Muestreo y Métodos de Análisis
Sabrina Siniscalchi Taller: Procesos electorales en el Uruguay 02/10 /09
¿De qué vamos a hablar? 1- Técnicas de Muestreo 2- Variables, indicadores y otras cosas ya conocidas 3- ¿Qué se puede hacer con los datos? (técnicas de análisis)
TĂŠcnicas de Muestreo
El análisis de una muestra permite inferir conclusiones susceptibles de generalización a la población de estudio con cierto grado de certeza (Holguin y Hayashi, 1993).
El total de observaciones en las cuales se esta interesado, sea su número finito o infinito, constituye lo que se llama una población (Walpole y Myers, 1996, p. 203). La muestra es una pequeña parte de la población estudiada. Ésta debe caracterizarse por ser representativa de la población. De acuerdo con Briones (1995) “una muestra es representativa cuando reproduce las distribuciones y los valores de las diferentes características de la población con márgenes de error calculables” (p. 83).
Tipos de muestreo Una muestra puede ser de dos tipos: a)no probabilistica b) probabilistica. En la muestra no probabilistica la selección de las unidades de análisis dependen de las características, criterios personales, etc. del investigador por lo que no son muy confiables en una investigación con fines científicos Este tipo de muestra adolece de fundamentación probabilistica, es decir, no se tiene la seguridad de que cada unidad muestral integre a la población total en el proceso de selección de la muestra.
El muestreo no probabilistico comprende los procedimientos de muestreo intencional y accidental: Muestreo Intencional: Procedimiento que permite seleccionar los casos característicos de la población limitando la muestra a estos casos. Se utiliza en situaciones en las que la población es muy variable y consecuentemente la muestra es muy pequeña.
Muestreo Accidental: Consiste en tomar casos hasta que se completa el número de unidades de análisis que indica el tamaño de muestra deseado.
El muestreo probabilistico permite conocer la probabilidad que cada unidad de análisis tiene de ser integrada a la muestra mediante la selección al azar. Este tipo de muestreo comprende los procedimientos de muestreo simple o al azar, estratificado, sistemático y por conglomerados o racimos. Muestreo Simple: De acuerdo con Webster (1998) “una muestra aleatoria simple es la que resulta de aplicar un método por el cual todas las muestras posibles de un determinado tamaño tengan la misma probabilidad de ser elegidas,” (p. 324). Esta definición refleja que la probabilidad de selección de la unidad de análisis A es independiente de la probabilidad que tienen el resto de unidades de análisis que integran una población. Esto significa que tiene implícita la condición de equiprobabilidad (Glass y Stanley, 1994).
Muestreo Estratificado: Este procedimiento de muestreo determina los estratos que conforman una población de estudio para seleccionar y extraer de ellos la muestra. Estrato es todo subgrupo de unidades de análisis que difieren en las características que se van a analizar en una investigación. La base de la estratificación adopta diversos criterios como edad, sexo, ocupación, etc.
Una modalidad de este tipo de muestreo es el procedimiento de muestreo estratificado proporcional, que permite seleccionar a las unidades de análisis que integrarán la muestra en proporción exacta al tamaño que tiene el estrato en la población, es decir, “el estrato se encuentra representado en la muestra en proporción exacta a su frecuencia en la población total,” (D´Ary, Jacobs y Razavieh, 1982, p. 138).
Muestreo Sistemático: Una muestra sistemática se obtiene determinando cada hésima unidad o késimos casos. Un késimo caso representa el intervalo de selección de unidades de análisis que serán integradas a la muestra.
Ejemplo: Si se va a encuestar a una muestra de tamaño 100 de una población de 1000, el intervalo de selección es de tamaño 10. Este intervalo de selección indica que se habrá de formar cada décimo caso de la población para integrarlo a la muestra. El primer caso se selecciona arbitrariamente o al azar. Suponiendo que el primer caso seleccionado sea el número 13, el segundo será el 23 y así sucesivamente hasta completar el tamaño de muestra deseado.
Muestreo por Racimos: En este tipo de muestreo, las unidades de análisis que se encuentran encapsuladas o encerradas en determinados lugares físicos o geográficos que se denominan racimos. En este tipo de muestreo es imprescindible diferenciar entre unidad de análisis (quiénes va a ser medidos) y unidad muestral (racimo a través del cual se logra el acceso a la unidad de análisis). Por ejemplo: Se va a realizar una encuesta sobre las condiciones salariales en las empresas industriales, la unidad muestral son las industrias y las unidades de análisis estan representadas por los obreros que trabajan en ellas.
Tamaño de las muestras Para calcular el tamaño de una muestra hay que tomar en cuenta tres factores: El porcentaje de confianza con el cual se quiere generalizar los datos desde la muestra hacia la población total. El porcentaje de error que se pretende aceptar al momento de hacer la generalización. El nivel de variabilidad que se calcula para comprobar la hipótesis. La confianza o el porcentaje de confianza es el porcentaje de seguridad que existe para generalizar los resultados obtenidos. Para evitar un costo muy alto para el estudio o debido a que en ocasiones llega a ser prácticamente imposible el estudio de todos los casos, entonces se busca un porcentaje de confianza menor. Comúnmente en las investigaciones sociales se busca un 95%.
El porcentaje de error equivale a elegir una probabilidad de aceptar una hipótesis que sea falsa como si fuera verdadera, o la inversa: rechazar a hipótesis verdadera por considerarla falsa. Al igual que en el caso de la confianza, si se quiere eliminar el riesgo del error y considerarlo como 0%, entonces la muestra es del mismo tamaño que la población, por lo que conviene correr un cierto riesgo de equivocarse. Comúnmente se aceptan entre el 4% y el 6% como error, tomando en cuenta de que no son complementarios la confianza y el error.
La variabilidad es la probabilidad (o porcentaje) con el que se aceptó y se rechazó la hipótesis que se quiere investigar en alguna investigación anterior o en un ensayo previo a la investigación actual. El porcentaje con que se aceptó tal hipótesis se denomina variabilidad positiva y se denota por p, y el porcentaje con el que se rechazó se la hipótesis es la variabilidad negativa, denotada por q. Hay que considerar que p y q son complementarios, es decir, que su suma es igual a la unidad: p+q=1. Además, cuando se habla de la máxima variabilidad, en el caso de no existir antecedentes sobre la investigación (no hay otras o no se pudo aplicar una prueba previa), entonces los valores de variabilidad es p=q=0.5.
Una vez que se han determinado estos tres factores, entonces se puede calcular el tamaño de la muestra En el caso de que no se conozca con precisión el tamaño de la población: Donde: n es el tamaño de la muestra; Z es el nivel de confianza; p es la variabilidad positiva; q es la variabilidad negativa; E es la precisión o error.
La variabilidad y el error se pueden expresar por medio de porcentajes, hay que convertir todos esos valores a proporciones en el caso necesario. El nivel de confianza no es ni un porcentaje, ni la proporción que le correspondería, a pesar de que se expresa en términos de porcentajes. El nivel de confianza se obtiene a partir de la distribución normal estándar, pues la proporción correspondiente al porcentaje de confianza es la integral de la curva normal que se toma como la confianza, y la intención es buscar el valor Z de la variable aleatoria que corresponda a tal área.
En el caso de que SI se conozca el tamaño de la población:
Donde: n es el tamaño de la muestra; Z es el nivel de confianza; p es la variabilidad positiva; q es la variabilidad negativa; N es el tamaño de la población; E es la precisión o el error.
La muestra en 2004: Se comenzó con 1021 casos, de los que se lograron recontactar, manteniendo los criterios muestales, 806. Los mismos constituyen una muestra representativa de la población de 18 y más años de edad residente en hogares particulares de localidades de todo el país con 2000 y más habitantes. La muestra fue aleatoria probabilística con un margen de error de ±3.5 para un nivel de confianza de 95%. Las encuestas fueron realizadas en forma telefónica, Montevideo fue dividida en 25 zonas geográficas, coincidiendo con las divisiones de ANTEL.
Superponiendo los datos del Censo de Población con la zonificación de ANTEL, manteniendo fijas las características de cada zona y sorteando las demás cifras al azar, es posible diseñar una muestra probabilística de números de teléfono que respete la estructura de la población por barrio. En el Interior se realizaron encuestas en 50 localidades, utilizando una metodología similar de sorteo
Variables e Indicadores
(un peque単o repaso)
Una variable es un atributo o características que hacen similares a los individuos, grupos sociales entre sí, objeto o fenómeno que puede adoptar diversos valores. Un indicador indica cómo se medirá la variable. Tipos de variables: En cuanto al papel que tienen en la investigación: • Dependientes • Independientes En cuanto a la posición relativa de VD y VI: •Intervinientes, de control •Antecedentes En cuanto a su manera de ser medidas: •Univariables (nominales, ordinales, de intervalo, de razón) •Multivariables (Unidimensionales/ Multidimensionales)
ÂżQuĂŠ se puede hacer con los datos?
Las técnicas de análisis de datos se clasifican en 2 tipos: a)Técnicas de análisis cualitativo b)Técnicas de análisis cuantitativo a) Técnicas de análisis cualitativo Objetivo: Resumir, analizar e interpretar la información obtenida mediante métodos cualitativos. (entrevistas, análisis documental, etc.) Principales técnicas: a)Categorización (Los datos se revisan y se reducen a unidades llamadas categorías) b)Análisis de contenido (permite la descripción de la información a través de variables pre definidas en el estudio. Permite cuantificar datos cualitativos. Nudist)
b) Técnica de análisis cuantitativo: Objetivo: Describir, graficar, comparar, relacionar y resumir datos obtenidos (Encuestas, series históricas, otros) Usos Describir variables
Descripción Caracterizar una muestra variable por variable
Técnicas Distribución de frecuencias Porcentajes Promedios, desviación estándar Gráficos (de barra, de sectores, histogramas)
Comparar grupos
Se compara la diferencia entre grupos de la muestra según las variables seleccionadas
T de student Análisis de varianzas Kruskall-Wallis Gráficos de barras múltiples
Analizar la relación entre variables
Determinar la relación entre 2 o más variables
R de Pearson R de Spearman Chi-Cuadrado Análisis de regresión (lineal, logística, multinominal) Análisis de correspondencia Grafico de dispersión
Analizar la validez
Analizar la validez de constructo de los instrumentos de medición
Análisis factorial Análisis de Clusters o conglomerados Escalamiento multidimensional
Algunos ejemplos
Descriptive Statistics N voto octubre 2004
806
Valid N (listwise)
806
Minimum 1,00
Maximum 5,00
Mean Std. Deviation 1,8922 1,16336
Momento en que decidió el voto según medio por el que se informa de política (%) Medio por el que se informa de política
Momento de decisión del voto
Familia
Grupo de pares
Medios
Otros/Ninguno
Total
Decidió antes del 2004
7,5%
8,8%
77,1%
6,6%
100,0%
En el 2004, antes internas
14,8%
6,6%
75,4%
3,3%
100,0%
Después internas
4,8%
9,5%
85,7%
Al comienzo o durante la campaña
6,8%
6,8%
84,1%
2,3%
100,0%
Unos días antes de las eleciones
6,3%
10,4%
79,2%
4,2%
100,0%
El día de las elecciones
18,5%
3,7%
63,0%
14,8%
100,0%
69,2%
30,8%
100,0%
77,6%
6,1%
100,0%
NsNc Total
8,0%
8,4%
100,0%
¿Cuánto influyeron en el voto de octubre de 2004 el voto anterior, la tradición familiar, el medio por el que se informa de política el votante y su interés por la política?
Model 1
Model Summaryb R Square ,031
R ,176a
Adjusted R Square ,025
Std. Error of the Estimate ,96481
ANOVAb Model
Sum of Squares
df
Mean Square
F
Sig.
20,173 627,686 647,859
4 674 678
5,043 ,931
5,418
,000a
Regression Residual Total
1
Coefficientsa Unstandardized Coefficients
Model
1
Standardized Coefficients Beta
t
Sig.
,018 ,167
7,967 ,463 4,395
,000 ,644 ,000
,057
,048
1,272
,204
,004
-,041
-1,066
,287
(Constant) Voto anterior Voto familia
B 1,471 ,026 ,008
Std. Error ,185 ,056 ,002
Medio info política
,072
Interés por la política
-,004