Análisis de datos cuantitativos desde la estadística descriptiva [6.1] ¿Cómo estudiar este tema? [6.2] Introducción al análisis de datos [6.3] Estadística descriptiva
TEMA
[6.4] Organización y representación gráfica de los datos
Esquema
TEMA 6 – Esquema
Análisis de datos cuantitativos desde la estadística descriptiva
Introducción
2 © Universidad Internacional de La Rioja (UNIR)
Estadística descriptiva
Frecuencias y porcentajes
Estadística inferencial
Índices de tendencia central
Clasificación de las variables
Índices de dispersión Índices de forma
Estadística descriptiva bivariada Correlación phi Correlación de Spearman Correlación biserialpuntual Correlación de Pearson
Organización de los datos Distribución de frecuencias Representación gráfica Matriz de datos
Medición, Investigación e Innovación Educativa
Estadística descriptiva univariada
Medición, Investigación e Innovación Educativa
Ideas clave 6.1. ¿Cómo estudiar este tema? Para estudiar este tema deberás consultar el documento extraído de la obra: Navarro, E. (coord.), Jiménez-García, E., Rappoport, S. y Thoilliez, B. (2016). Introducción a la investigación e innovación en educación. Manuscrito en preparación. Accede al artículo a través del aula virtual. También debes leer el caso práctico resuelto recogido en la sección «Casos prácticos» del tema. En este tema estudiaremos cómo llevar a cabo el análisis de los datos de una investigación, empleando para ello la estadística descriptiva, y cómo realizar representaciones gráficas de esos datos. A continuación encontrarás, para cada uno de los apartados que componen el tema, aquellas ideas esenciales cuya comprensión es fundamental para lograr un conocimiento claro de los conceptos implicados.
6.2. Introducción al análisis de datos Una vez que llevamos a cabo la medición de las variables que pretendemos estudiar en nuestra investigación cuantitativa, generamos un conjunto de datos brutos que deberemos analizar para comprobar si se han cumplido nuestras hipótesis o no. El análisis estadístico puede ser abordado desde dos vertientes: la estadística descriptiva o la estadística inferencial.
TEMA 6 – Ideas clave
3
© Universidad Internacional de La Rioja (UNIR)
Medición, Investigación e Innovación Educativa
Univariada
Descriptiva Bivariada
Estadística
Inferencial
Pruebas paramétricas Pruebas no paramétricas
Figura 1. Tipos de estadística. Basado en Navarro et al., 2016.
La estadística descriptiva se centra en el análisis exploratorio de cada variable que forma parte del estudio. A modo de ejemplo, si en nuestro estudio intervienen las variables edad y velocidad lectora, este análisis exploratorio nos permite conocer la edad medida de la muestra, las puntuaciones máxima y mínima en velocidad lectora, qué posición relativa ocupa un sujeto determinado en la muestra, etc. La estadística descriptiva univariada hace referencia al análisis de cada variable por separado, mientras que la estadística descriptiva bivariada permite evaluar la relación existente entre pares de variables. La estadística inferencial permite poner a prueba determinadas hipótesis a partir de los datos muestrales para comprobar si pueden ser generalizados a la población. No olvides que cuando se realiza una investigación, normalmente se pretende generalizar sus resultados a toda la población. Por ejemplo, cuando nuestra investigación arroja el resultado de que hay diferencias de rendimiento académico entre dos grupos de alumnos que han recibido dos tratamientos diferentes, nos interesa comprobar si esas diferencias pueden ser generalizadas a toda la población a la que pertenecen esos dos grupos de alumnos, para poder concluir que uno de esos programas es mejor que el otro porque resulta en un mayor rendimiento. Si no hiciéramos esa inferencia desde la muestra de población, nos estaríamos limitando simplemente a describir los dos grupos que han participado en nuestra investigación. En la estadística inferencial, en función de que las variables cumplan una serie de supuestos, podemos emplear pruebas paramétricas o no paramétricas. Ya que el tipo de análisis que hagamos de nuestros datos depende fundamentalmente de las características o el tipo de variable, repasaremos de nuevo brevemente los tipos de variables de investigación.
TEMA 6 – Ideas clave
4
© Universidad Internacional de La Rioja (UNIR)
Medición, Investigación e Innovación Educativa
Atendiendo a su papel metodológico, tenemos la variable independiente, la variable dependiente y las variables intervinientes. En otros temas ya hablamos de las dos primeras. Las variables intervinientes son aquellas que, como la variable independiente, afectan a la variable dependiente, pero no es su efecto el que nos interesa. Siguiendo con el ejemplo anterior, la variable dependiente sería el rendimiento académico, la variable independiente sería para por un tratamiento u otro, y las variables intervinientes serían, por ejemplo, la inteligencia, el apoyo familiar, la motivación, etc. Es decir, son variables que influyen en el rendimiento académico pero no es esta influencia la que nos interesa.
Variables nominales
Dicotómicas
Cualitativas Variables ordinales
Politómicas
Variables de intervalo
Discretas
Cuantitativas Variables de razón
Continuas
Figura 2. Clasificación de las variables según la escala de medida.
6.3. Estadística descriptiva Como decíamos, una vez que obtenemos los datos de nuestra investigación, debemos organizarlos y analizarlos para poder interpretarlos. La estadística descriptiva univariada nos proporciona una serie de índices que nos permiten ver cómo se distribuyen esos datos. No detallaremos las fórmulas para calcular cada uno de los datos estadísticos que vamos a ver porque actualmente este cálculo se hace empleando programas informáticos como Excel o SPSS. » Frecuencias y porcentajes: se utilizan en variables cualitativas para contar el número o la proporción de casos. Por ejemplo: en la variable «sexo», podemos contar el número de hombres (frecuencia) o el porcentaje de mujeres que hay.
TEMA 6 – Ideas clave
5
© Universidad Internacional de La Rioja (UNIR)
Medición, Investigación e Innovación Educativa
» Índices de tendencia central: se utilizan en variables cuantitativas y cualitativas (en estas últimas solo la moda) para ver cuáles son los valores centrales de un conjunto de datos. Aquí destacaremos la media aritmética, la mediana y la moda. o Moda: es la modalidad o valor más frecuente de la variable. Veamos un ejemplo de moda en variables nominales:
Estado civil
Frecuencia
Soltero
15
Casado
56
Divorciado
21
Viudo
9 Tabla 1. Ejemplo.
La moda de la variable «estado civil» es, este caso, casado (¡Cuidado con creer que la moda es igual a 56!), ya que es el valor o nivel que más se repite (a los valores de una variable cualitativa se les llama frecuentemente niveles; de esta forma, la variable «estado civil» tendría, en este caso, cuatro niveles: soltero, casado, divorciado y viudo). o Mediana: es la puntuación que deja por encima y por debajo de sí el 50% de las observaciones. Para calcularla debemos ordenar las puntuaciones de mayor a menor, de forma que si el número de puntuaciones es impar, la mediana será la puntuación central, mientras que si es par, la mediana será la media de las dos puntuaciones centrales. Veamos un ejemplo: 8
8
9
9
10
11
12
13
16
17
19
20
21
En este conjunto de datos, la mediana es igual a 12 (el valor que ocupa la posición 7). 6
6
7
8
10
11
12
16
17
19
20
21
En el segundo conjunto de datos, como es par, la mediana es igual a la media entre 11 y 12 (11,5), que son las puntuaciones centrales.
TEMA 6 – Ideas clave
6
© Universidad Internacional de La Rioja (UNIR)
Medición, Investigación e Innovación Educativa
o Media aritmética: se calcula sumando todos los valores y dividiendo entre el número total de valores que tiene la variable. » Índices de dispersión o variabilidad: indican en qué medida los datos se agrupan en torno a los valores centrales. En nuestra vida cotidiana resulta familiar un índice como la media, por lo que casi todo el mundo entiende de qué hablamos cuando decimos que la estatura media de nuestra clase es de 168 cm. Sin embargo, no ocurre lo mismo cuando hablamos de la variabilidad de una variable. Imagina que medimos a cinco alumnos y obtenemos los siguientes datos: 150, 169, 171, 155. Es fácil ver que en este caso la estatura tiene mayor variabilidad que en la siguiente medición: 169, 169, 168, 170. Veamos otro ejemplo para poder entender bien el concepto de variabilidad, ya que si no difícilmente podrás entender el significado de índices como la varianza o la desviación típica. Tenemos dos variables con las siguientes puntuaciones: Variable 1
Variable 2
3
12
4
1
5
3
4
1
5
0
4
4
4
9
4
3
4
1
4
6
3
8
4
0
Media = 4
Media = 4
Como puedes ver, la media de estas dos variables es 4. Sin embargo, los valores de la variable 1 se alejan menos de la medida que los valores de la variable 2. Es decir, en la variable 1 hay menos dispersión o variabilidad que en la variable 2.
TEMA 6 – Ideas clave
7
© Universidad Internacional de La Rioja (UNIR)
Medición, Investigación e Innovación Educativa
A continuación veremos algunos índices de uso frecuente para expresar la variabilidad o dispersión de una variable: o Varianza: es la media de las diferencias de cada puntuación respecto a su media, elevadas al cuadrado. o Desviación típica: es la raíz cuadrada de la varianza. o Rango o amplitud: es la diferencia entre la puntuación máxima y la mínima. o Coeficiente de variación: imaginemos que la varianza de la variable «estatura» en una muestra dada es 16, y que en esa misma muestra la varianza de la variable «tiempo de reacción» es también 16. ¿Ambas variables tienen la misma variabilidad? No podemos asegurarlo puesto que ambas medidas no son comparables. Para comparar estas variabilidades utilizamos el coeficiente de variación (CV), que es la desviación típica dividida entre la media. Por ejemplo: si tenemos que el CV de la estatura es 0.289 y el del tiempo de reacción es 0.126, entonces sí podemos decir que la primera variable presenta mayor variabilidad que la segunda. » Índices de forma: nos dan una idea de la forma que tiene la distribución de los datos. Normalmente, cuando se habla de la forma de una distribución se hace referencia a la asimetría y la curtosis de la misma. o Asimetría: si una distribución es simétrica la media, la moda y la mediana coinciden.
Para conocer la simetría de una variable no es necesario representarla gráficamente. Para ello hay varios índices de asimetría que nos dan información, precisamente, del grado de asimetría. Por ejemplo: el índice de asimetría de Pearson nos da un valor entre -1 y 1, de forma que si el valor del índice es igual a cero entonces la distribución es simétrica; si toma valores negativos es asimétrica negativa y si toma valores positivos es asimétrica positiva.
TEMA 6 – Ideas clave
8
© Universidad Internacional de La Rioja (UNIR)
Medición, Investigación e Innovación Educativa
o Curtosis o apuntamiento: nos da una idea de la medida en que los datos se concentran en el centro de la distribución.
Por otro lado, la estadística descriptiva bivariada permite el análisis conjunto de dos variables. Para conocer la relación existente entre dos variables debemos calcular un coeficiente de correlación. Éste será uno u otro dependiendo del tipo de variable. Para variables nominales, uno de los índices más empleados es phi (φ), que permite cuantificar la asociación existente entre dos variables cualitativas con cualquier número de categorías. Por otro lado, para calcular la correlación entre variables ordinales se suele utilizar el coeficiente de Spearman. En investigación educativa es frecuente tener que evaluar la relación entre una variable cuantitativa y una dicotómica, como por ejemplo la relación entre el rendimiento académico (cuantitativa) y haber recibido un tratamiento concreto o no (dicotómica). En este caso debemos utilizar el coeficiente de correlación biserial-puntual. Por último, quizá el coeficiente más empleado es el de Pearson, para calcular la relación entre dos variables cuantitativas. El valor de la mayoría de los coeficientes de correlación oscila entre -1 y 1, de forma que -1 significa que la relación entre las dos variables es negativa o inversa (a medida que aumenta una decrece la otra), 1 significa que la relación es positiva o directa (a medida que aumenta una lo hace la otra), y cero significa que no hay relación.
TEMA 6 – Ideas clave
9
© Universidad Internacional de La Rioja (UNIR)
Medición, Investigación e Innovación Educativa
El valor del coeficiente de correlación nos da una idea del grado de relación que hay entre dos variables en la muestra en la que se han medido esas variables. Para saber si esa relación es extrapolable al resto de la población debemos recurrir a la estadística inferencial. Es importante señalar en este punto que el coeficiente de correlación entre las variables A y B solo nos da idea de la relación que hay entre ellas, es decir, no podemos extraer conclusiones del tipo A influye en B, o A causa B.
6.4. Organización y representación gráfica de los datos Con la mera observación de los datos brutos que obtenemos de cualquier estudio empírico es complicado hacerse una idea del fenómeno estudiado. Para facilitar la interpretación de estos datos y poder llevar a cabo el análisis de los mismos, sea a través de la estadística descriptiva o de la inferencial, debemos organizarlos. Quizá la forma más simple de organización de datos sea la distribución de frecuencias de una variable nominal. La distribución de frecuencias nos permite ver de forma clara cómo se distribuye una variable en una muestra. Por ejemplo: imagina que hacemos un pequeño estudio para comprobar la procedencia de los alumnos de nuestro colegio. Los datos recogidos pueden organizarse fácilmente en la siguiente distribución de frecuencias. Procedencia
Frecuencia absoluta
Frecuencia relativa
Porcentaje
Inglaterra
10
0.05
5.10
Alemania
12
0.06
6.12
Colombia
16
0.08
8.16
Ecuador
21
0.11
10.71
España
126
0.64
64.29
11
0.06
5.61
196
1
100
Marruecos Total
Tabla 2. Ejemplo de distribución de frecuencias.
TEMA 6 – Ideas clave
10
© Universidad Internacional de La Rioja (UNIR)
Medición, Investigación e Innovación Educativa
Esta sería la distribución de frecuencias para la variable nominal «procedencia», donde se recogen la frecuencia absoluta, la frecuencia relativa y el porcentaje de cada una de las modalidades o niveles de la variable. La frecuencia absoluta es el número total de casos de cada modalidad de la variable y la frecuencia relativa es la frecuencia absoluta dividida entre el total de casos. A partir de estos datos, podemos hacer una representación gráfica que facilitaría la visión global de los mismos y su posterior interpretación. Las representaciones gráficas que podemos hacer con variables nominales serían el diagrama de barras (figura 3) y el pictograma (figura 4). En este caso, lo más informativo sería tomar los porcentajes de cada modalidad.
Figura 3. Ejemplo de diagrama de barras.
Figura 4. Ejemplo de pictograma.
TEMA 6 – Ideas clave
11
© Universidad Internacional de La Rioja (UNIR)
Medición, Investigación e Innovación Educativa
En investigación educativa nos encontramos frecuentemente con casos parecidos de representación de datos, tanto de variables cualitativas como cuantitativas. Imagina cómo representarías gráficamente el porcentaje de casos de alumnos con distintos trastornos (nominal) o la puntuación global de tu clase en cada una de las inteligencias múltiples. Independientemente del tipo de representación gráfica que vayamos a hacer, y para poder realizar el análisis de los datos, es fundamental confeccionar una matriz de datos que incluya las puntuaciones de todos los participantes en la investigación en cada una de las variables implicadas. A continuación tienes un ejemplo de una matriz de datos en la que se recogen las puntuaciones de los 17 participantes en una investigación en las variables «sexo», «edad», «motricidad», «escritura», «comprensión lectora» y «velocidad lectora». Sujeto
Sexo
Edad
Motricidad
Escritura
C. lectora
V. lectora
1
H
9
5
5
8
10
2
M
8
4.85
4
5
9
3
H
8
4.57
3
4
9
4
M
8
4.85
4
6
9
5
H
9
4.85
4
5
9
6
H
8
4.85
4
6
9
7
M
9
4.85
4
6
10
8
M
8
4.85
5
6
10
9
M
9
5
5
6
10
10
H
8
4.14
4
4
4
11
M
9
4.71
4
5
10
12
H
9
3.85
3
4
4
13
H
9
4.85
4
6
7
14
H
8
4.42
4
4
9
15
M
8
4.71
4
6
8
16
M
9
4.57
4
5
9
17
M
8
3.71
2
3
3
Tabla 2. Ejemplo de matriz de datos.
TEMA 6 – Ideas clave
12
© Universidad Internacional de La Rioja (UNIR)
Medición, Investigación e Innovación Educativa
Casos prácticos Lecciones magistrales Resolución de caso práctico En esta clase magistral procederemos a resolver el caso práctico propuesto en el tema.
Accede a la lección magistral a través del aula virtual
Caso práctico resuelto Caso. Con el objetivo de evaluar la relación existente entre la motricidad, la escritura, la comprensión lectora y la velocidad lectora se han pasado sendas pruebas para medir estas variables en una muestra de 17 alumnos de nuestro colegio. Además, para cada sujeto se ha recogido la edad y el sexo. Puedes encontrar los resultados obtenidos en la tabla 2 incluida en el apartado «Ideas clave». A partir del caso práctico descrito, trataremos de dar respuesta a las siguientes cuestiones: » Plantea el problema de investigación. » Realiza un análisis exploratorio de cada una de las variables del estudio, calculando para ello un índice de tendencia central y otro de dispersión. » Realiza una representación gráfica de los resultados lo más ilustrativa posible. » Calcula el coeficiente de correlación entre cada par de variables para dar respuesta al objetivo de la investigación.
TEMA 6 – Casos prácticos
13
© Universidad Internacional de La Rioja (UNIR)
Medición, Investigación e Innovación Educativa
» ¿Qué conclusiones puedes extraer de estos resultados? Puedes encontrar cómo resolver este caso práctico en la clase magistral de este tema. Accede a la lección magistral a través del aula virtual.
TEMA 6 – Casos prácticos
14
© Universidad Internacional de La Rioja (UNIR)
Medición, Investigación e Innovación Educativa
+ Información A fondo Análisis cuantitativo de los datos Bisquerra, R. y Vilà, R. (2004). Análisis cuantitativo de los datos. En Bisquerra, R. (coord.). Metodología de la investigación educativa (pp.259-270). Madrid: Editorial La Muralla. En este capítulo se examina el análisis cuantitativo de los datos IBM SPSS Statistics 19 Página de Carmen E. Ramos Domínguez sobre el análisis estadístico con SPSS Accede al artículo a través del aula virtual o desde la siguiente dirección web: http://nereida.deioc.ull.es/~pcgull/ihiu01/cdrom/spss/contenido/spss.html
Bibliografía Bologna, E. (2011). Estadística para psicología y educación. Buenos Aires: Editorial Brujas. Bouza, C. N. y Sistachs, V. (2011). Estadística. Teoría básica y ejercicios. La Habana: Editorial Félix Varela. Cubo, S., Martín, B. y Ramos, J.L. (2011). Métodos de investigación y análisis de datos en ciencias sociales y de la salud. Madrid: Ediciones Pirámide. De la Puente, C. (2010). Estadística descriptiva e inferencial y una introducción al método científico. Madrid: Editorial Complutense. Ferguson, G. A. (1986). Análisis estadístico en educación y psicología. Madrid: Anaya.
TEMA 6 – + Información
15
© Universidad Internacional de La Rioja (UNIR)
Medición, Investigación e Innovación Educativa
Gil, J. A. (2000). Estadística e informática (SPSS) en la investigación descriptiva e inferencial. Madrid: UNED. Martínez-Garrido, C. y Murillo, F.C. (2012). Análisis de datos cuantitativos con SPSS en investigación socioeducativa. Madrid: Universidad Autónoma de Madrid. Moore, D. S. (2005). Estadística aplicada básica. Barcelona: Antoni Bosch editor. Morales, P. (2008). Estadística aplicada a las ciencias sociales. Madrid: Universidad Pontificia Comillas.
TEMA 6 – + Información
16
© Universidad Internacional de La Rioja (UNIR)
Medición, Investigación e Innovación Educativa
Test 1. Para el análisis de cada variable por separado debemos recurrir a: A. La estadística descriptiva univariada. B. La estadística descriptiva bivariada. C. La estadística descriptiva inferencial. 2. Si queremos ver cómo influye un programa de intervención en la mejora de la inteligencia emocional en alumnos de Educación Infantil: A. La variable independiente sería la inteligencia emocional. B. la variable independiente sería la aplicación del programa de intervención. C. La variable dependiente sería la aplicación del programa de intervención. 3. Indica qué tipo de variable es la aplicación de un programa de intervención: A. Variable nominal. B. Variable ordinal. C. Variable de intervalo. 4. Para ver si las puntuaciones de un test de inteligencia de un grupo de alumnos de 1º de Educación Primaria son muy dispares o están en torno a la media, ¿qué tipo de estadísticos utilizarías? A. Índices de asimetría. B. Índices de tendencia central. C. Índices de dispersión. 5. ¿Qué estadístico utilizarías para saber cuál es el valor que más se repite de una variable? A. La mediana. B. La desviación típica. C. La moda. 6. En este conjunto de datos: 121, 100, 100, 100, 117, 107, 111, ¿cuál es valor de la mediana? A. 100. B. 107. C. 108.
TEMA 6 – Test
17
© Universidad Internacional de La Rioja (UNIR)
Medición, Investigación e Innovación Educativa
7. ¿Qué estadísticos de entre los siguientes emplearías para conocer la forma de una distribución de datos? A. Curtosis. B. Tendencia central. C. Dispersión. 8. Tras calcular el coeficiente de asimetría de Pearson para la variable «inteligencia lógico-matemática» en una muestra de alumnos, obtenemos un valor igual a cero. ¿Qué interpretación harías de este coeficiente? A. Que hay tantos alumnos por debajo como por encima de la inteligencia media del grupo. B. Que hay más alumnos por debajo que por encima de la inteligencia media del grupo. C. Que hay menos alumnos por debajo que por encima de la inteligencia media del grupo. 9. Si el coeficiente de correlación de Pearson entre la edad y la inteligencia lógicomatemática es de 0.789, ¿qué conclusión extraerías? A. Que la edad influye en la inteligencia lógico-matemática. B. Que a medida que aumenta la edad aumenta la inteligencia lógico-matemática. C. Que a medida que aumenta la edad disminuye la inteligencia lógico-matemática. 10. ¿Qué coeficiente de correlación utilizarías para comprobar la relación existente entre el hecho de tener lateralidad homogénea o no homogénea y la velocidad lectora? A. Coeficiente de correlación biserial-puntual. B. Coeficiente de correlación phi. C. Coeficiente de correlación de Sperman.
TEMA 6 – Test
18
© Universidad Internacional de La Rioja (UNIR)