-1-
ESTADISTICA DESCRIPTIVA CON SPSS 13 José Luis Vicente Villardón Departamento de estadística Universidad de Slamanca
-2-
1
Introducción_______________________________________________________ 4 1.1
Concepto de Estadística y Estadísticas ____________________________________ 4
1.2
Etapas del análisis estadístico ___________________________________________4
1.3
Población y muestra ___________________________________________________ 5
1.4
Caracteres de una población ____________________________________________ 5
1.5
Tipos de escalas _______________________________________________________6
2
Entrada y edición de datos en SPSS ____________________________________ 7
3
Importar y exportar datos ___________________________________________ 14
4
Variables estadísticas unidimensionales________________________________ 16
5
4.1
Distribución de frecuencias. Clases. _____________________________________ 16
4.2
Propiedades de las frecuencias__________________________________________ 16
Representaciones gráficas ___________________________________________ 18 5.1
6
Tipos de representaciones gráficas ______________________________________ 19
Medidas de tendencia central ________________________________________ 23 6.1
Media aritmética _____________________________________________________ 23
6.2
Media aritmética ponderada ___________________________________________ 24
6.3
Mediana ____________________________________________________________ 24
6.4
Moda ______________________________________________________________ 25
7
Medidas de posición no centrales _____________________________________ 26
8
Medidas de dispersión ______________________________________________ 26
9
10
11
8.1
Medidas de dispersión absoluta _________________________________________ 27
8.2
Medidas de dispersión relativas_________________________________________ 29
Momentos________________________________________________________ 30 9.1
Momentos centrales (respecto a la media aritmética) _______________________ 30
9.2
Momentos con respecto al origen _______________________________________ 30
Medidas de forma ________________________________________________ 31 10.1
Medidas de asimetría ________________________________________________ 31
10.2
Medidas de curtosis o apuntamiento ____________________________________ 33
Algunos gráficos adicionales _______________________________________ 35 11.1
El box-plot (diagrama de cajas) ________________________________________35
11.2
Diagrama de tallo y hojas (stem and leaf)________________________________ 37
12 Un ejemplo con datos reales: Vinos de las denominaciones de Ribera de Duero y Toro _______________________________________________________________ 38 13
Estadística descriptiva con SPSS ____________________________________ 39 13.1
Distribuciones de frecuencias__________________________________________ 39
13.2
El comando Descriptivos _____________________________________________ 46
-313.3
14
Exploración de los datos ______________________________________________ 48
Representaciones gráficas con SPSS _________________________________ 57 14.1
Diagramas de Barras ________________________________________________ 57
14.2
Diagramas de Líneas_________________________________________________ 63
14.3
Diagramas de Caja __________________________________________________ 66
14.4
Diagramas con barras de error ________________________________________68
-4-
1 Introducción Uno de los programas de Análisis Estadísticos más extendidos en la práctica es el SPSS debido a que está disponible en diferentes entornos, para diferentes sistemas operativos. El programa comprende desde técnicas descriptiva básicas hasta técnicas avanzadas, de forma que cubre la mayor parte de las necesidades de los investigadores aplicados en campos tan diversos como las Ciencias Sociales, la Biología, la Medicina etc... Trataremos de resumir las características básicas de su funcionamiento mediante el número mínimo posible de conceptos nuevos, teniendo en cuenta la perspectiva del usuario que necesita solamente el manejo de opciones sencillas para el trabajo diario. Las cuestiones más avanzadas relativas al manejo de los datos serán estudiadas solamente cuando sean necesarias en un contexto concreto. Las ventanas que aparecen en el desarrollo de la prácticas corresponden a la versiones 11 a la 13, aunque con ligeras modificaciones sirven para cualquiera de las versiones pensadas para otros sistemas operativos. Aunque el aspecto general de las ventanas no sea exactamente el mismo, los contenidos son iguales para la misma versión del programa. Comenzaremos con el desarrollo de algunos de los conceptos básicos
1.1 Concepto de Estadística y Estadísticas La primera acepción del término "Estadística", que tiene origen histórico, hace referencia a una determinada información numérica; esta acepción se encuentra cada día más arraigada en nuestra sociedad debido al abultado conjunto de números y cifras en el que se encuentra inmersa: P. I. B., índices de precios, tasas de inflación, evolución del paro, cotizaciones bursátiles, accidentes de circulación, porcentajes de votantes, porcentajes de personas que padecen una determinada enfermedad, etc. Una segunda acepción entiende la estadística como una ciencia que facilita los métodos precisos para la obtención de información numérica, y que también proporciona métodos de análisis de esa información recogida y métodos de investigación aplicables al resto de las Ciencias. La primera se corresponde básicamente con la estadística descriptiva y la segunda con la estadística inferencial.
1.2 Etapas del análisis estadístico Las diversas fases por las que atraviesa el análisis estadístico son: a) Recogida de datos, que no por ser elemental, está exenta de dificultades e indicaciones que hay que observar, ya que una recogida mal efectuada puede
-5ocasionar un sesgo de la información y del posterior análisis, por lo que el objeto de la investigación debe plantearse de una manera minuciosa, así como la organización del trabajo de campo necesario para la recogida de datos. b) Ordenación y presentación de los datos, y que suele presentarse mediante unas tablas de simple o de doble entrada. c) Resumen de la información, para tratar de describir las características más relevantes que pueden tener los datos, y que se realiza mediante la determinación de parámetros estadísticos que intentan resumir toda la información que aporte el conjunto de datos. d) Análisis estadístico, a través de métodos facilitados por la Estadística Matemática, para tratar de verificar hipótesis sobre regularidades que pueden detectarse en las etapas previas.
1.3 Población y muestra Recibe el nombre de Población, Colectivo o Universo, todo conjunto de individuos o elementos que tienen unas características comunes. Dado que no siempre es posible estudiar todos los elementos de la población, ya sea por razones económicas, de rapidez de obtención de la información, o porque los elementos se destruyen en el proceso de la investigación, con frecuencia es necesario examinar sólo una parte de la población, que se denomina muestra; para que una muestra sea válida como objeto de estudio, ha de ser representativa de la población, es decir ha de tener las mismas características, en los caracteres estudiados, que la población.
1.4 Caracteres de una población Llamaremos variable al carácter objeto de estudio, que puede tomar distintos valores. Las variables pueden ser cuantitativa o cualitativas, según que tomen, o no, valores cuantificables.
-6-
Las variables de tipo cuantitativo, que estudian caracteres cuantificables, pueden clasificarse de diversas formas: variables discretas o continuas, según que sólo puedan tomar valores aislados o, por el contrario, todos los valores de un intervalo.
1.5 Tipos de escalas En determinado tipo de estudios, quizá tenga mayor relevancia diferenciar las variables según el tipo de escala utilizada, distinguiendo:
Escala nominal: el carácter estudiado se clasifica en categorías no
numéricas, sin que puedan establecerse ninguna relación de orden entre ellas, por ejemplo: las profesiones laborales, el estado civil, la ideología política, el sexo, etc.
Escala ordinal: el carácter estudiado es de tipo no numérico, pero se
pueden establecer algún tipo de orden entre las distintas categorías. Este es el caso del nivel de estudios (primarios, medios, superiores), los tipos de clases sociales (baja, media, alta),etc.
Escala de intervalo: puede establecerse alguna unidad de medida y
cuantificar numéricamente la distancia existente entre dos observaciones. Es la escala cuantitativa, encontrándose en este caso gran número de variables entre ellas, como por ejemplo: salarios, presupuestos, gastos, etc.
Escala de proporción: son aquellas variables en las que además de una
unidad de medida, se fija un punto origen, que marca el cero. En este tipo pueden considerarse la edad, el peso, el número de unidades en stock en un inventario, etc.
-7-
2 Entrada y edición de datos en SPSS El primer paso que seguiremos es el de la introducción de los datos en un archivo para su posterior manipulación y análisis. Cuando abrimos el programa aparece la siguiente pantalla, que nos permite decidir cual es la acción siguiente. Desde aquí podemos decidir introducir datos nuevos, abrir datos creados en una sesión anterior incluso con formatos distintos al de SPSS o incluso consultar el tutorial. Si que remos que en sucesivas sesiones el programa se abra directamente sin pasar por esta ventana marcaremos la opción “No volver a mostrar este cuadro de diálogo” qiue aparece en la parte inferior. Por el momento vamos a marcar la opción de “Introducir datos” ya que queremos aprender como introducir los datos resultantes de nuestro estudio en una “base de datos” dentro de SPSS, para poder realizar después los análisis estadísticos correspondientes.
Figura 1.- Ventana inicial del programa. La estructura habitual de los datos es en forma de tabla o matriz en la que cada una de las filas se corresponde con un individuo (objeto, caso, etc...) y cada una de las columnas se corresponde con una de las variables utilizadas en el estudio.
-8Comencemos con una tabla sencilla en la que tenemos 9 individuos caracterizados por 3 variables: el nombre del individuo, la edad y el sexo. Nombre Pedro Juan María Carmen Laura José Luis Jesús Lucía
Edad 25 14 17 19 21 30 28 22 32
Sexo Hombre Hombre Mujer Mujer Mujer Hombre Hombre Hombre Mujer
Al iniciar el programa obtenemos sobre el escritorio una ventana con el nombre “Sin título- Editor de datos SPSS”. Si ya disponemos de una ventana de datos previa, es posible obtener una nueva en la opción Nuevo (opción datos) del menú Archivo. El aspecto de la ventana es similar al de una hoja de cálculo convencional en la que cada casilla contiene un dato.
Figura 2.-Ventana de datos. Comenzaremos con la definición de las variables, sus tipos y formatos, ya que esto determina cuales son los análisis que llevaremos a cabo posteriormente. Esta operación puede llevarse a cabo mediante un doble click sobre la palabra var que aparece en el
-9encabezado de cada columna. Si se ha dado previamente un nombre a la variable, un doble click sobre el mismo permite la modificación de las características de la misma. Tras el doble click aparecerá la ventana siguiente desde la que es posible introducir el nombre y definir el tipo y formato correspondiente. El aspecto de la ventana es también el de una hoja de cálculo, pero ahora cada una de las filas corresponde a una variable y cada una de las columnas a una de las características de dicha variable. También puede saltar entre estas dos ventanas tocando en las pestañas que aparecen en la parte inferior. La pestaña “Vista de datos” le llevará a la hoja de cálculo que contiene los datos (individuos x variables) mientras que la pestaña “Vista de variables” le llevará a la hoja que contiene la definición de las características de cada variable.
Figura 3.- Ventana de definición de las características de cada variable. El espacio destinado al nombre es un texto editable que puede ser modificado, el nombre puede tener 8 caracteres y no debe contener caracteres especiales como -, :, @, etc. Se se desea un nombre más largo que describa mejor el contenido de la variable, este puede ser añadido en la casilla etiqueta. Seleccionaremos el tipo de variable pulsando sobre el botón que aparece al seleccionar la casilla Tipo. La definición del tipo se lleva a cabo en una ventana como la siguiente.
Figura 4.- Ventana de definición del tipo y formato de cada variable. El tipo es importante en la selección posterior del análisis. Las variables son básicamente cualitativas y cuantitativas, aunque son posibles subdivisiones adicionales, especialmente debido a la forma en que se introducen sobre el soporte informático. Las
-10variables categóricas (o cualitativas) son aquellas que, en principio, no pueden ser expresadas en forma numérica, por ejemplo el sexo, que tiene dos categorías: “Hombre” y “Mujer”. En SPSS suelen ser introducidas como números (Numérica) enteros desde el 1 hasta el número de categorías de la variables, asignando cada número entero a uno de sus posibles valores; esta práctica ahorra espacio en disco si el archivo de datos es muy grande ya que se evita la utilización de nombres largos para las categorías. También es posible introducirlas como cadenas de caracteres (Cadena) tratando de usar el mínimo número de caracteres posible para ahorrar espacio en disco, aunque esto puede producir algunos problemas en el análisis posterior. Las variables cuantitativas serán normalmente de tipo Numérico. Sobre el programas, los tipos Numérica, Coma, Punto y Notación Científica difieren solamente en la notación. El Numérico utiliza como separador para los decimales la notación del sistema (normalmente una coma en Castellano) y no tiene separadores para los miles; el tipo Coma utiliza la coma como separador de los decimales y el punto como separador de los miles, el tipo Punto utiliza el punto como separador de los decimales y la coma como separador de los miles, el tipo Notación Científica utiliza la notación científica habitual. El tipo Fecha permite diversos formatos al ser seleccionado, el más usual suele ser ddmm-yy (dos números para el día, dos para el mes y dos para el año). Los tipos Dólar y Moneda personalizada se utilizan para especificar unidades monetarias. El tipo Cadena permite introducir cadenas de caracteres con información para la identificación del individuo, o variables de tipo cualitativo. Al lado del tipo de variable es posible seleccionar la anchura de la misma y el número de decimales que se utilizarán por defecto para los tipos numéricos, el formato de la fecha, de la moneda o la anchura para las cadenas de caracteres. Una vez seleccionado el tipo podemos seleccionar la anchura de la variable (en número de caracteres y el número de decimales que queremos que contenga la variable en el caso de que sea uno de los tipos numéricos. Cuando se trabaja con variables de tipo cualitativo o categórico, a cada una de las categorías se le suele asignar una etiqueta que clarifica los resultados en el análisis. Por ejemplo supongamos que queremos introducir la variable Sexo con dos valores 1 para Varones y 2 para Mujeres. Es posible realizar esta asignación mediante el botón que aparece en la casilla Etiqueta de la ventana de la figura 3. La ventana siguiente corresponde a esta operación.
Figura 5 : Asignación de etiquetas a los valores de la variable.
-11Escribiremos cada uno de los posibles valores (probablemente enteros) de la variable y la etiqueta de valor asignada y las iremos añadiendo a la lista. Es importante añadir etiquetas par todos los valores de la variable si queremos una presentación óptima de los análisis. Es posible también cambiar etiquetas asignadas o eliminarlas de la lista utilizando los botones correspondientes. La asignación de etiquetas a los distintos valores de la variable mejora la presentación de los resultados, aunque no es importante para el desarrollo de los análisis. Cuando hayamos terminado la asignación pulsaremos el botón Aceptar. El botón Cancelar permite cancelar la operación y el botón Ayuda permite obtener ayuda sobre las operaciones que se están tratando de realizar. El programa supone, por defecto, que todos los datos de los que disponemos son válidos para el análisis, es decir, que no existen datos perdidos o faltantes. Si esto no es así hemos de decirle al ordenador que valor de la variable ha de entender como dato perdido. La definición de los valores perdidos se realiza en el botón de la casilla Perdidos de la figura 3. Se obtiene la siguiente ventana para la definición de los datos perdidos.
Figura 6.- Identificación de los valores faltantes El programa mantiene por defecto la opción “No hay valores perdidos”. Las opciones alternativas son "Valores perdidos discretos” con tres casillas para distintos valores. El programa entenderá que los valores que se han especificado son datos perdidos, suelen utilizarse números extraños como por ejemplo, -9999 o el 0 si no es uno de los posibles valores de la variable. Los datos con los códigos asignados serán eliminados de los análisis posteriores. La segunda opción "Rango más un valor perdido discreto opcional" considera como faltantes todos aquellos valores comprendidos entre los extremos del intervalo que el usuario especifique en las dos casillas destinadas al efecto y un valor discreto. Utilizando el botón Aceptar volveremos a la ventana de formato de la figura 3. Si deseamos modificar el formato de la variable, utilizaremos casilla Columas de la figura 3, es posible modificar la anchura de la columna. Para modificar la justificación de los datos utilizamos la casilla Alineación. Cuando hayamos completado el mismo proceso para todas las variables tendremos entonces definida la tabla de datos dispuesta para introducir la información. Recuerde
-12que para desplazarse por las celdas de la tabla puede utilizar la tecla Return para avanzar al caso siguiente para la misma variable (hacia abajo) y la tecla Tab para avanzar a la siguiente variable del caso actual (hacia la derecha). La figura siguiente muestra un conjunto de datos para las variables definidas en la figura 3. El nombre de cada individuo que será una variable “cadena” y la edad y el sexo que serán variables numéricas. Observe que aunque el sexo es una variable cualitativa, se ha introducido como variable numérica en la que el 1 significa “Hombre’ y el 2 significa “Mujer”.
Figura 7.- Una tabla de datos sencilla. La figura 8 muestra la misma tabla de datos que la figura 7 pero las variables cualitativas se muestran ahora con sus etiquetas de valor. El cambio entre la forma numérica y la forma con etiquetas se realiza mediante el botón de la barra de herramientas señalado en la figura con una flecha.
-13-
Figura 8.- la misma tabla de datos con las etiquetas para las variables cualitativas. Una vez introducidos los datos, los guardaremos para próximas sesiones utilizando la opción Guardar como del menú Archivo. Asignamos el nombre, el tipo de archivo que queremos guardar y el lugar donde quedará la base de datos, antes de hacer clic en el botón Guardar.
Figura 9.- Opciones para guardar el archivo en disco.
-14-
Pulsando en el botón Variables, es posible seleccionar que variables se guardarán.
Figura 10.- Selección de las variables que se guardarán.
3 Importar y exportar datos El programa SPSS permite también la utilización de datos procedentes de otros programas mediante lectura directa o indirecta de los mismos. Posee además la opción de lectura de archivos ASCII con o sin formato en la forma que se hacia en las antiguas versiones del programa. Para el intercambio de datos entre programas, la forma más versátil suele ser a través de archivos delimitados por tabuladores, si bien el SPSS puede leer directamente archivos creados por otros programas. La figura siguiente muestra las posibilidades que ofrece la opción Abrir … Datos del menú Archivo.
-15-
Figura 11.- Opciones del menú Abrir… Datos. Los tipos que comienzan con SPSS no son archivos de datos, salvo el SPSS Data, el programa puede leer directamente ficheros de texto, ficheros de dBASE y de las hojas de cálculo Excel y Lotus, siempre que la estructura de la hoja sea similar a la estructura de la tabla de datos tal y como se ha definido en el capítulo anterior. Si el archivo seleccionado es de texto obtendremos una nueva ventana para especificar cual es el contenido del archivo, comandos, resultados o datos separados por tabuladores. Es posible obtener archivos de texto con datos separados por tabuladores de infinidad de programas por lo que, en principio, es posible importar datos indirectamente desde cualquier otra aplicación. La primera fila del archivo suele contener los nombres de las variables separados también por tabuladores.
-16-
4 Variables estadísticas unidimensionales 4.1 Distribución de frecuencias. Clases. Vamos a tratar ahora de estructurar y ordenar los conjuntos numéricos de los datos obtenidos en la observación de una muestra o población para así poder proceder con más facilidad a su estudio. Empezaremos estudiando las frecuencias en sus diversas clases:
Frecuencia absoluta: es el número de veces que se repite cada valor de la
variable en el conjunto de todas las observaciones de la misma. En general la frecuencia absoluta del dato xi se representa por fi
Frecuencia relativa: es el cociente entre la frecuencia absoluta y el número
total de datos u observaciones. El número total de datos lo representamos por n, y la frecuencia relativa del dato xi se representa por hi Se verifica por lo tanto: hi = fi/n
Frecuencia absoluta acumulada: es la suma de las frecuencias absolutas de
los valores inferiores o iguales al considerado. Evidentemente los valores de la variable deben de estar ordenados en forma creciente. En general, la frecuencia absoluta acumulada del dato xi se representa por Fi Evidentemente, la última frecuencia absoluta acumulada coincide con el tamaño de la muestra. i
Se verifica pues:
Fi = ! f j j =1
Frecuencia relativa acumulada: es el cociente entre la frecuencia absoluta
acumulada y el número total de datos u observaciones. Análogamente a la anterior, los valores de la variable deben de estar ordenados en forma creciente, es decir, la escala debe de ser numérica o, al menos, ordinal. La última frecuencia relativa acumulada es 1. Generalmente la frecuencia relativa acumulada del dato xi de la variable se representa por Fi, y verifica: i
F Hi = i = n
!f j =1
j
n
4.2 Propiedades de las frecuencias 1ª La suma de las frecuencias absolutas coincide con tamaño de la muestra: ! fi = n i
-17-
2ª Todas las frecuencias absolutas son positivas y menores o iguales que n . 0 ≤ fi ≤ n 3ª La suma de las frecuencias relativas es 1: ! hi = 1 i
4ª Todas las frecuencias relativas son positivas y menores o iguales que 1: 0 ≤ hi ≤ n 5ª La frecuencia absoluta acumulada correspondiente a un valor de la variable se obtiene sumando la frecuencia absoluta acumulada del valor anterior, con la frecuencia absoluta del dato. DISTRIBUCIÓN DE FRECUENCIAS Llamaremos distribución de frecuencias al conjunto de los valores que toma una variable, junto con sus frecuencias correspondientes. Así pues, para determinar una distribución de frecuencias debemos conocer todos los valores xi de la variable y cualquiera de las columnas de frecuencias (pues el paso de una a otra es inmediato). Distinguiremos dos tipos fundamentales de distribución de frecuencias: las no agrupadas en intervalos y las agrupadas en intervalos. La distribución de frecuencias no está agrupada en intervalos cuando cada valor de la variable tiene asociado su frecuencia. Pero ocurre frecuentemente, sobre todo en variables de tipo continuo, que el número de valores distintos que toma la variable es demasiado grande; en este caso, para mayor comodidad en el tratamiento de la información, parece aconsejable agrupar esos valores en intervalos, teniendo en cuenta que lo que ganamos en manejabilidad lo perdemos en información de la distribución. En la agrupación en intervalos hay que tener en cuenta tres aspectos: a) Que el máximo de información se obtiene en la recogida de datos y que ésta se pierde al agrupar en intervalos. b) Las distribuciones agrupadas en intervalos no se presentan realmente así, sino que es el investigador el que las agrupa para manejar mejor los datos. c) Al agrupar hay que tener en cuenta las frecuencias. Un intervalo queda determinado por sus extremos y, en general, el intervalo iésimo se representa por [Li-1,Li), donde Li es el extremo superior del intervalo y Li-1 el extremo inferior del mismo. Llamaremos amplitud del intervalo, ai, a la diferencia entre sus extremos superior e inferior: ai = Li - Li-1
-18Esta amplitud puede ser constante para todos los intervalos, o variable, aunque es más cómodo que sea constante. Cuando un investigador decide agrupar los datos en intervalos se encuentra con dos cuestiones iniciales: 1ª.- ¿Cómo se debe tomar la amplitud, constante o variable? 2ª.- ¿Cuántos intervalos conviene tomar ? La respuesta a estas pregunta depende de la naturaleza del problema, y aunque hay muchas reglas escritas en los textos de estadística, en la práctica suelen resultar estériles. Posteriormente se hace un recuento de los datos que corresponden a cada intervalo, para determinar la frecuencia de cada uno de ellos. Aparece un problema cuando un dato coincide con alguno de los extremos de los intervalos; como regla general, se toman los intervalos cerrados por la izquierda y abiertos por la derecha [Li1,Li),
es decir, se incluirán dentro del intervalo los datos que coincidan con el extremo
inferior del mismo, y se excluirán de éste los que coincidan con su extremo superior, incluidos, por lo tanto, en el intervalo posterior. Para evitar este problema de incluir o no incluir los datos en los intervalos, los extremos se suelen tomar con un decimal más que los de los datos, siendo, normalmente este decimal un 5. Por último cabe destacar que tomaremos como representante de cada intervalo su punto medio, que denominaremos marca de clase, y designaremos por ci. Así la marca de clase del intervalo [Li-1,Li) será: ci =
Li !1 + Li 2
5 Representaciones gráficas La información proporcionada por las tablas de distribución de frecuencias es bastante completa, pero tiene la dificultad de que su lectura requiere un cierto tiempo y capacidad de comparación para relativizar la información de unas clases respecto de las otras. Además, en la experiencia del lector, al comenzar a leer un determinado artículo (científico o no), su vista se dirige primero al título, luego a los gráficos y, finalmente, a las tablas. Así pues, las representaciones gráficas constituyen uno de los principales y más sencillos métodos de exponer la información, por su capacidad de impactar al lector con muy poco esfuerzo por su parte, dando una información rápida y global de los datos, siendo útiles incluso al investigador, pues le permiten tener una idea general de los resultados y, a veces, sugerir nuevas hipótesis.
-19-
5.1 Tipos de representaciones gráficas Los diversos tipos de gráficos utilizados son: 1º DIAGRAMAS DE BARRAS PARA DISTRIBUCIONES DE FRECUENCIAS NO AGRUPADAS: En un sistema de ejes de coordenadas cartesianas, se representan en el eje de abscisas los valores de la variable, y en el de ordenadas las frecuencias. Posteriormente, sobre cada valor de la variable se levanta una barra vertical de altura proporcional a la frecuencia, ya sea absoluta o relativa. Sobre el eje de abscisas la escala de medida puede ser cualquiera y no coincidir con la escala del eje de ordenadas. Incluso el cero del eje de abscisas no tiene porque coincidir con el cero de la medida utilizada. 4
.
FRECUENCIAS
3
2
1
0
a
e
i
o
u
VOCALES
Los gráficos de diagrama de barras y de escalera suelen utilizarse en variables de tipo cualitativo, o en las de tipo cuantitativo discretas. 2º POLÍGONOS DE FRECUENCIAS PARA DISTRIBUCIONES DE FRECUENCIAS NO AGRUPADAS EN INTERVALOS: Sobre unos ejes cartesianos, análogos a los anteriores, se levanta en cada valor de la variable una ordenada de altura igual a la frecuencia absoluta (o relativa) de dicho valor, uniendo a continuación con una poligonal dichas ordenadas. La primera ordenada
-20se une con el cero del eje de abscisas, teniendo en cuenta que si hay algún valor de la variable con frecuencia cero también ha de ser considerado y unir dicho dato con los anteriores. Veamos el polígono de frecuencias del ejemplo anterior (ver figura 1.3):
Figura 1.3: Polígono de frecuencias.
Estos polígonos de frecuencias se utilizan cuando la variable es de tipo cualitativo o cuando es de tipo cuantitativo discreta.
3º HISTOGRAMA PARA DISTRIBUCIONES DE FRECUENCIAS AGRUPADAS EN INTERVALOS Se construyen levantando, sobre cada intervalo de la variable, un rectángulo de área proporcional a la frecuencia absoluta de dicho intervalo. Si los intervalos son de amplitud constante, las alturas de los rectángulos serán iguales a las frecuencias absolutas respectivas, pues al ser las bases iguales las áreas son proporcionales a las alturas; pero si las amplitudes de los intervalos son diferentes, las alturas de los rectángulos deben calcularse dividiendo la frecuencia absoluta por la longitud del intervalo; ésta se puede representar por ai y vale pues:
ai =
fi ci
y de esta forma, el área del rectángulo coincide con la frecuencia:
Si = ai ci =
fi ci = fi ci
-21-
La altura ai correspondería a la frecuencia correspondiente a cada unidad de medida de la variable en cada intervalo, y se le conoce a veces, con el nombre de densidad de frecuencia del intervalo.
Histograma. (Saldo de imposiciones en Cajas de Ahorros).
4º POLÍGONO DE FRECUENCIAS PARA DISTRIBUCIONES DE FRECUENCIAS AGRUPADAS Para construir este gráfico se levanta en el extremo superior de cada intervalo una ordenada igual a su frecuencia, uniendo a continuación dichas ordenadas. La primera ordenada se une al extremo inferior del primer intervalo, prolongando el polígono desde ese punto a la izquierda sobre el eje x, y prolongando también por la derecha a partir del extremo superior del último intervalo, con una recta paralela al eje de abscisas. En el caso de representar las frecuencias no acumuladas se procede, uniendo los puntos medios de los lados superiores de los rectángulos del histograma y prolongando por los extremos hasta cortar al eje X en los puntos medios de las bases del primer y del último rectángulo (ver figura 1.7).
-225
Alturas
4
3 2
1 x 10
20
30
40
50
60
70
80
90
i
100
Polígono de frecuencias. (Saldo de imposiciones en Cajas de Ahorros).
El área del polígono cerrado resultante es igual al área de los rectángulos formados mediante el histograma. A veces se representan en el mismo gráfico el histograma y el polígono de frecuencias. 5º DIAGRAMA DE SECTORES Este caso, en una circunferencia se representan sectores circulares cuyo ángulo central coincida con la frecuencia absoluta (no se puede utilizar para acumuladas) o relativa del elemento, representando, mediante colores o incluyendo dentro de dicho sector el nombre de la clase o elemento a representar. Vale tanto para frecuencias agrupadas, como no agrupadas. Previamente hay que calcular los grados que corresponde a cada elemento multiplicando la frecuencia correspondiente a cada dato por el cociente entre 360º y el total de datos: gi = fi
360° n
-23-
Figura 1.8: Diagrama de sectores. (Saldo de imposiciones en Cajas de Ahorros).
6 Medidas de tendencia central Las tablas de distribuciones de frecuencia ofrecen toda la información disponible, pero a veces, debido a su extensión nos encontramos con dificultades a la hora de su interpretación, por lo que interesa resumirla con el fin de facilitar, tanto su análisis como la comparación entre distintas muestras o poblaciones. En este proceso de síntesis se buscan valores que determinen el comportamiento global del fenómeno estudiado Las medidas de síntesis de la distribución se consideran operativas cuando: a) Intervienen todos y cada uno de los elementos en su formación. b) Es siempre calculable. c) Es única para cada distribución de frecuencias. Estos valores se denominan medidas de posición, en general son promedios de los valores y pueden ser de tendencia central o no. Sólo tienen sentido si la variable es cuantitativa. Entre las más importantes están la media aritmética, la mediana, la moda y los cuantiles; además de éstos, también estudiaremos la media geométrica, la media armónica, la media cuadrática y la media aritmética ponderada.
6.1 Media aritmética Se define como la suma de todos los valores de la distribución, dividida por el nº total de datos. Si designamos por xi al valor de la variable X, que se repite fi veces, la media aritmética será:
-24k
x x x x = 1 f1 + 2 f2 + ! + k fk = n n n
!x f
i i
i =1
n
n
=! i =1
k xi fi = ! xi hi n i =1
VENTAJAS E INCONVENIENTES Como ventajas de utilizar la media aritmética como un promedio para sintetizar los valores de la variable podemos citar las siguientes: - Considera todos los valores de la distribución. - Es siempre calculable (en variable cuantitativa). - Es única. Como inconvenientes de la utilización de la media aritmética cabe citar que, a veces, puede dar lugar a conclusiones erróneas, cuando la variable presenta valores muy extremos, que influyen mucho en la media, haciéndola poco representativa.
6.2 Media aritmética ponderada Se calcula esta media aritmética cuando cada valor de la variable tiene asociado una ponderación o un peso, distinto de la frecuencia, y que le haga tener más o menos importancia en la distribución. En este caso si el dato xi tiene un peso wi, su media ponderada sería: k
xp =
!x w i =1 k
i
i
!w
i
i =1
Si cada dato presenta una frecuencia fi, la media ponderada sería: k
xp =
!x f w i =1 k
i i
i
!fw i =1
i
i
6.3 Mediana Es el valor de la distribución que, una vez ordenados los valores de la variable de menor a mayor, deja igual número de frecuencias a su izquierda que a su derecha, es decir, el valor que ocupa el lugar central. Puede entenderse también como aquel valor cuya frecuencia absoluta acumulada es n/2.
-25DATOS SIN AGRUPAR
Nº impar de términos
Si la distribución está sin agrupar, y hay un nº impar de términos, la mediana será el que ocupa la posición central. Por ejemplo, si los valores de la variable son {1,2,3,4,5} la mediana sería Me = 3
Nº par de términos
Pero si hay un nº par de términos habría dos términos centrales y se toma como mediana la media aritmética de ellos. Por ejemplo, si los valores de la variable son {1 , 2 , 5 , 7 , 9 , 10 , 13 , 14} La mediana seria: M e =
7+9 =8 2
VENTAJAS E INCONVENIENTES Como ventajas de la mediana podemos citar que no está influida por los valores extremos como en el caso de la media, y además tiene sentido en casos de distribuciones en escala ordinal (datos que pueden ser ordenados), siendo la medida más representativa de estos por describir la tendencia central de los mismos. Como inconvenientes puede ser la determinación de ésta en los casos de variables agrupadas en intervalos.
6.4 Moda Es el valor de la variable que más veces se repite en una distribución de frecuencias, es decir, el que tiene mayor frecuencia absoluta. Para calcular la moda, en el caso que la distribución no esté agrupada o esté agrupada en intervalos, se procede de forma diferente: VENTAJAS E INCONVENIENTES Como ventajas de la moda cabe citar que cuando la distribución es de escala nominal (no susceptible de ordenación) es la medida más representativa, pues no es posible hacer operaciones con sus observaciones, y por tanto no se pueden calcular las
-26otras medidas. Además igual que la mediana, no viene influida por los valores extremos de la variable. Como inconveniente cabe citar el modo de calcularla en los casos de variables agrupadas en intervalos y el hecho de que utiliza un único dato de la distribución.
7 Medidas de posición no centrales Estos valores no reflejan ninguna tendencia central, sino una posición de la distribución, dividiéndola a ésta en partes iguales. Cabe citar entre los de uso más frecuente: cuartiles, deciles y percentiles. 1) Los cuartiles son tres valores que dividen a la distribución en cuatro partes iguales, estando en cada una de ellas el 25% de sus observaciones. Se indican con Qi. 2) Los deciles son nueve valores que dividen a la distribución en diez partes iguales, estando en cada una de ellas el 10% de las observaciones. Se indican por Di. 3) Los percentiles son noventa y nueve valores que dividen a la distribución en cien partes iguales, dejando un 1% de las observaciones entre cada dos de ellos consecutivos. Se nombran por Pi. Hay que tener en cuenta algunas relaciones entre ellos, como son: Me = Q2 = D5 = P50 Q1 = P25 ; Q3 = P75 D1 = P10 ; D2 = P20 ; D3 = P30 ; D4 = P40 ; D6 = P60 Para el cálculo de todos los cuantiles el proceso es análogo al cálculo de la mediana, sustituyendo n/2 por r.n/k, siendo r el orden del cuantil y k las partes en que dicho cuantil divide a la distribución. Así en los cuartiles k = 4 y r = 1, 2, 3 ; en los deciles k = 10 y
r = 1, 2,....., 9, y en los percentiles k = 100 y r = 1, 2, 3,....., 99.
VENTAJAS E INCONVENIENTES Las ventajas e inconvenientes son las mismas que los de la mediana.
8 Medidas de dispersión En el apartado anterior hemos definido una serie de medidas de tendencia central, cuyo objetivo era tratar de sintetizar toda la información disponible, pero cabe
-27preguntarse posteriormente si esa medida es o no representativa de la distribución de frecuencias. Si consideramos dos variables X e Y con distribuciones:
xi
0
500
1000
yi
499
501
fi
1
1
1
fi
1
1
Las medias son : 0 + 500 + 1000 x= = 500 3
y=
499 + 501 = 500 2
Las dos medias son iguales y sin embargo las dos distribuciones son muy diferentes pues los valores de X están mucho más dispersa que los de Y. Así pues, para intentar medir la representatividad de una determinada medida debemos de cuantificar la separación de los valores de la distribución respecto de dicha medida. Así pues, resulta necesario que, para completar la información de un promedio (por ejemplo media aritmética), éste vaya acompañado de uno o varios coeficientes que nos midan el grado de dispersión de la distribución de la variable con respecto a él. Distinguiremos dos tipos de medidas de dispersión: absolutas y relativas.
8.1 Medidas de dispersión absoluta Cabe citar entre éstas el recorrido, el recorrido intercuartílico, la desviación media, la varianza y la desviación típica. Todas son referidas en general a un promedio. RECORRIDO O RANGO: Hemos dicho ya que éste es la diferencia entre el mayor y el menor valor de la distribución: Re = Max (xi) - Min (xi) Si este recorrido es pequeño respecto al número de datos puede entenderse que existe poca dispersión. Tiene el inconveniente de que se ve totalmente influenciado por los valores extremos (con los que se calcula). RECORRIDO INTERCUARTÍLICO: Es la diferencia existente entre el tercer y el primer cuartil
-28RI = Q3 - Q1 En esta medida se suprimen el 25% superior e inferior de la distribución, y por lo tanto no se ve influenciado por los valores extremos, y nos indica la longitud del intervalo en el que están el 50% central de los valores En algunos casos se utiliza el recorrido semiintercuartílico que se define como la mitad del recorrido intercuartílico. RSI = (Q3 -Q1)/2 DESVIACIÓN MEDIA: Esta medida de dispersión hace referencia a un promedio, cosa que no hacen las anteriores; puede entenderse como la media de las desviaciones de los datos de la variable respecto al promedio utilizado; no obstante, para evitar que las desviaciones positivas queden compensadas por las negativas y que esta desviación media resulte igual a 0, (que nos haría pensar que no hay dispersión) se utiliza el valor absoluto de la desviación de los datos respecto del promedio. Así se definirá la desviación media respecto de la media como: k f Dx = " xi ! x i n i =1 También se puede utilizar la desviación media respecto de la mediana como: k f DMe = " xi ! Me i n i =1 Las dos nos indicarían la dispersión de los datos respecto del promedio utilizado, en el caso de que ésta fuera grande el promedio sería poco representativo. VARIANZA: Se define como la media de los cuadrados de las desviaciones de los valores de la variable respecto de la media aritmética, es decir: k k 2 f 2 s 2 = " ( xi ! x ) i = " ( xi ! x ) hi n i =1 i =1 Se utiliza el cuadrado para lograr que todas las desviaciones sean positivas; nos indica la mayor o menor dispersión de los valores de la variable respecto de la media aritmética, y por lo tanto, su representatividad. Tiene el inconveniente de no venir expresada en las mismas unidades que la variable, sino en el cuadrado de las mismas, por ello se utiliza más la siguiente.
-29DESVIACIÓN TÍPICA O ESTÁNDAR: Se define como la raíz cuadrada positiva de la varianza, es decir: s=
k
" ( xi ! x ) i =1
2
k
fi = n
"( x i =1
i
! x ) hi 2
Al ser la raíz cuadrada de la varianza viene expresada en las mismas unidades que la variable, lo que la hace más apta como medida de dispersión que la varianza, siendo en la actualidad la más utilizada. A menudo, en lugar de dividir entre el tamaño de los datos, n, se divide entre n-1, obteniéndose la llamada cuasivarianza: k
sˆ 2 = " ( xi ! x )
2
i =1
fi n !1
y cuasidesviación típica: sˆ =
k
"( x i =1
i
! x)
2
fi n !1
Siendo la relación entre la varianza y la cuasivarianza la siguiente: n 2 sˆ 2 = s n !1
8.2 Medidas de dispersión relativas En el caso de intentar comparar la dispersión de dos distribuciones mediante alguna de las medidas de dispersión halladas antes, no podríamos efectuar tal comparación porque las distribuciones, en general, no vendrán dadas en las mismas unidades y tampoco porque los promedios en general también serán diferentes. Por ello, para poder comparar las dispersiones, es preciso definir medidas de dispersión adimensionales. Entre éstas se encuentra el coeficiente de variación de Pearson.
COEFICIENTE DE VARIACIÓN DE PEARSON: Es el cociente entre la desviación típica y el valor absoluto de la media aritmética.
-30-
CV =
s x
Este coeficiente es adimensional luego permite comparar las dispersiones de dos distribuciones diferentes. A menudo se le suele utilizar en forma de porcentaje, empleando CV =
s 100 x
Obviamente, a mayor CV menor es la representatividad de x , pues la desviación típica será mayor comparada con la media.
9 Momentos Existen dos tipos de momentos:
9.1 Momentos centrales (respecto a la media aritmética) Se define el momento central de orden r respecto de la media aritmética
como
la media aritmética de las potencias de orden r de las desviaciones de los datos respecto de la media: k
mr = " ( xi ! x ) i =1
r
fi n
En particular, se verifica que: - El momento central de orden 0 vale 1: k k f n 0 fi m0 = " ( xi ! x ) = " i = =1 n i =1 n n i =1 - El momento central de orden 1 vale 0: k k k f f n 1 f m1 = " ( xi ! x ) i = " xi i ! x " i = x ! x = 0 n i =1 n n i =1 i =1 n - El momento de orden 2 es la varianza.
9.2 Momentos con respecto al origen Se define el momento de orden r con respecto al origen como la media aritmética de las potencias de orden r de los datos de la variable:
-31r
ar = ! xir i =1
fi n
Como casos particulares cabe destacar: - El momento de orden 0 vale 1: k
a0 = ! xi0 i =1
k fi f " x! i =1 n i =1 n
- El momento de orden 1 es la media aritmética Existe una relación entre los dos momentos, que nos da una forma reducida de calcular la varianza: k
s 2 = m2 = " ( xi ! x )
2
i =1
k fi f = " xi2 i ! x 2 = a2 ! a12 n i =1 n
10 Medidas de forma Para tratar de conocer una distribución no basta con conocer sus medidas de dispersión y de posición, sino que es necesario, en general, conocer algunos aspectos más de la misma. Dado que la diversidad de comportamientos de las xi de la distribución se hacía más patente al realizar la representación gráfica, vamos a tratar de determinar a continuación más medidas, según la "forma" de la representación; clasificaremos estas medidas en dos grupos: medidas de asimetría y medidas de curtosis o apuntamiento.
10.1 Medidas de asimetría Tienen por objeto establecer el grado de simetría (o asimetría) de una distribución sin necesidad de realizar la representación gráfica. Entenderemos la simetría respecto al eje determinado por la media aritmética, de tal forma que diremos que una distribución es simétrica cuando los valores de la variable equidistantes de este valor central tengan la misma frecuencia, en caso contrario diremos que es asimétrica, siendo esta asimetría negativa o a izquierda si es más larga la rama de la izquierda, es decir, las frecuencias descienden más lentamente por la izquierda que por la derecha; analogamente llamaremos asimetría positiva o a derechas aquella en que la rama de la derecha es más larga, es decir las frecuencias descienden más lentamente por la derecha que por la izquierda.
-32-
COEFICIENTE DE ASIMETRÍA DE FISHER Debemos buscar ahora una medida adimensional que recoja las desviaciones positivas y negativas de los valores respecto de la media. La figura siguiente nos muestra las distintas distribuciones:
g >0
g =0
1
1
_ x
Mo
Distribución asimétrica a la derecha
Distribución simétrica
g <0 1
Mo
Distribución asimétrica a la izquierda
Dado que k
"( x i =1
i
! x)
fi =0 n
hay que buscar una medida que venga influida por el signo; ésta será: k 3 f m3 = " ( xi ! x ) i n i =1 ya que si la curva es simétrica m3 = 0 si la curva tiene asimetría positiva o a derechas, m3 > 0 si la curva tiene asimetría negativa o a izquierdas, m3 < 0 Para que no tenga dimensión debemos dividirla por una medida con las mismas unidades (cúbicas), obteniéndose el coeficiente de asimetría de Fisher.
-33k
g1 =
m3 = s3
"( x i =1
i
! x)
3
fi n
# 2 fi & % " ( xi ! x ) n ( $ i =1 ' k
3 2
Siendo su interpretación: Si g1 > 0 la distribución es asimétrica positiva o a derecha. Si g1 = 0 la distribución es simétrica. Si g1 < 0 la distribución es asimétrica negativa o a izquierda.
COEFICIENTE DE ASIMETRÍA DE PEARSON Otra medida de asimetría es el coeficiente de asimetría de Pearson definido por: Ap =
x ! Mo s
Teniendo en cuenta que si la curva es simétrica, x = Me = Mo, si la distribución es asimétrica positiva o a derechas x > Mo y si la distribución es asimétrica negativa o a izquierdas x < Mo, su interpretación será: Ap = 0 la distribución es simétrica. Ap > 0 la distribución es asimétrica positiva (derechas) Ap < 0 la distribuciones asimétrica negativa (izquierdas) Tiene el inconveniente de que no puede utilizarse en distribuciones bimodales, por ello Pearson demostró empíricamente que x ! Mo " 3( x ! Me) por lo que algunos autores utilizan como coeficiente de asimetría de Pearson 3( x ! Me ) Ap = s Existen otros tipos de coeficientes de asimetría, pero son menos utilizados.
10.2 Medidas de curtosis o apuntamiento Estas medidas, aplicadas a distribuciones unimodales simétricas o con ligera asimetría, tratan de estudiar la distribución de frecuencias en la zona central, dando lugar a distribuciones muy apuntadas, o poco apuntadas.
-34Para estudiar el apuntamiento, debemos hacer referencia a una distribución tipo que consideraremos la distribución "Normal"; ésta corresponde a fenómenos muy corrientes en la naturaleza cuya representación gráfica es la campana de Gauss. Si una distribución tiene mayor apuntamiento que la normal diremos que es "leptocúrtica", si tiene menor apuntamiento que la normal la llamaremos "platicúrtica", y a las que tengan igual apuntamiento que la normal las llamaremos "mesocúrticas". Veamos esto en las figuras siguientes:
En la distribución normal m4 = 3.s4, por lo tanto utilizaremos como coeficiente de apuntamiento o curtosis. k
g2 =
"( x
i
! x)
4
fi n
m4 = i =1 2 s4 # k 2 fi & % " ( xi ! x ) n ( $ i =1 '
siendo la interpretación la siguiente: Si g2 > 3 la curva es más apuntada que la normal (leptocúrtica). Si g2 = 3 la curva tiene el mismo apuntamiento que la normal (mesocúrtica). Si g2 < 3 la curva es menos apuntada que la normal (platicúrtica). A veces se utiliza como coeficiente de curtosis: g2 =
m4 !3 s4
y la comparación será con 0, obteniéndose:
-35g2 = 0 (mesocúrtica). g2 > 0 (leptocúrtica). g2 < 0 (platicúrtica)
11 Algunos gráficos adicionales 11.1 El box-plot (diagrama de cajas) Un box plot (o diagrama de cajas) es un método gráfico inventado por J. Tukey. Para construirlo calculamos primero el primer y el tercer cuartel (Q1 y Q3) y la mediana M. Dibujamos una caja que termine en Q1 y Q3 y situamos la mediana dentro de la caja. En el centro de los extremos de la caja añadimos líneas (whiskers) que van hasta los puntos más extremos que no son outliers (valores atípicos), esto es, los valores que están dentro de 3/2 veces el recorrido intercuartílico de los extremos de la caja. Los puntos que quedan más allá de 3/2 veces el recorrido intercuartílico se dibujan en el gráfico. Si hay varios puntos con el mismo valor, pueden dibujarse uno al lado del otro.
La forma de construcción de los Box-Plots no es única. Por ejemplo, en la forma original de Tukey, en lugar de utilizar los cuartiles, utiliza lo que denomina hinges (bisagras) H1 y H2, que en determinadas circunstancias coinciden con los cuartiles. Las lineas (whiskers) no tenían barras cruzadas y se extendían hasta los puntos extremos. En el extremo superior se colocaba un circulo hueco y en el extremo inferior se colocaba una barra horizontal. Otras versiones extienden las líneas hasta valores máximos y mínimos arbitrarios e identifican los valores atípicos con etiquetas.
-36-
Los gráficos pueden complementarse con muescas que definen intervalos de confianza para la mediana, o pueden añadirse rombos centrados en la media y cuyos extremos sean el intervalo de confianza para la misma. La utilidad de los box plots se basa en que permiten, mediante una simple inspección visual, tener una idea aproximada de la tendencia central (a través de la mediana), de la dispersión (a través del recorrido intercuartílico),de la simetría de la distribución (a través de la simetría del gráfico) y de los posibles valores atípicos. Permiten, además, la comparación de varios grupos situando varios box-plots en el mismo gráfico.
-37-
11.2 Diagrama de tallo y hojas (stem and leaf) El diagrama de tallo y hojas es un diagrama similar al histograma en el sentido de que muestra la distribución de frecuencias de una variable continua. La diferencia fundamental es que se construye utilizando los propios números de los valores de la variable y, a diferencia del histograma, permite recuperar la información original. Utilizaremos un ejemplo sencillo para ilustrar la construcción de un diagrama de tallo y hojas. Consideremos los siguientes valores temperatura, en grados Fahrenheit
77 80 82 68 65 59 61 57 50 62 61 70 69 64 67 70 62 65 65 73 76 87 80 82 83 79 79 71 80 77 La temperatura mínima es 50 y la máxima es 87. Si hacemos intervalos de amplitud 10, comenzando en el valor 50 tendríamos 4 intervalos con frecuencias 3, 11, 9 y 7 respectivamente. Para estos datos seleccionaremos como tallo la cifra de las decenas y como hojas la cifra de las unidades. Cada tallo será una fila del gráfico y se corresponde con un intervalo de amplitud 10, en cada fila pondremos tantos números como observaciones en el intervalo, cada número escrito son las unidades de la observación correspondiente. Temperaturas Decenas 5 6 7 8
Unidades 079 11224555789 001367799 0002237
En el gráfico anterior la amplitud es 10, podríamos construirlo com amplitudes diferentes, por ejemplo 5. Temperaturas Decenas 5 5 6 6 7 7 8 8
Unidades 0 79 11224 555789 0013 67799 000223 7
Obsérvese que el perfil del gráfico tiene la misma información que el histograma pero, a diferencia de éste, es posible reconstruir los valores originales de la variable.
-38-
12 Un ejemplo con datos reales: Vinos de las denominaciones de Ribera de Duero y Toro Los vinos elaborados en áreas específicas y reconocidos con denominación de origen (DO) son de importancia significativa en las diferentes regiones productoras de vinos. La DO reconoce y garantiza calidad de los vinos fabricados. Consecuentemente, son necesarios una serie de parámetros específicos que permitan a los analistas clasificar distintos vinos en sus correspondientes denominaciones de origen. Entre las características que pueden usarse están la composición en ciertos metales, ácidos orgánicos, ciertos componentes polifenólicos, etc... Los valores de estas características dependen de diversos factores, tales como las variedades de uva empleadas en el proceso de elaboración, o la edad del vino. Para la clasificación de los vinos en su correspondiente denominación de origen y la exploración de las diferencias entre las mismas, es posible utilizar técnicas. Se ha realizado un estudio sobre las dos denominaciones de origen de vinos castellanos (Ribera de Duero y Toro) en dos años diferentes (1986, 1987), con el fin de distinguir las características diferenciales entre las dos denominaciones, mediante medidas objetivas obtenidas en laboratorio, de forma que pueda evitarse el fraude en las etiquetas de la denominación sustituyendo ambos vinos debido a su proximidad espacial. Se han considerado 4 grupos diferentes procedentes de la combinación de denominaciones y años (RD1986, RD1987, T1986, T1987). Se ha considerado el año como posible factor de confusión en la clasificación de los vinos de las dos denominaciones. Se han considerado 18 variables químicas sobre cada uno de Grad:Grado alcohólico, AcVo: Acidez Volatil AcTo:Acidez Total AcFi: Acid. Fija pH Foli: Fenoles tot (Folin) Some: Fenoles (Sommers) SRV: Sustancias reactivas a la vanilina Proc: Procianidoles ACRG: Antocianos1 ACSE: Antocianos2
-39ACHP:Antocianos 3 IC : Indice de color 1 IC2 : Indice de color 2 Tono: de color IIm : Indice de ionización. EQ1: Edad química V/LA. En el disco adicional encontrará el archivo VINOS.SAV que
contiene los datos
relativos a 45 vinos de ambas denominaciones de origen. Cada uno de los vinos está caracterizado por 21 variables: la denominación de origen a la que pertenece, el año, la combinación de denominación y año, y las 18 variables químicas especificadas anteriormente. El objetivo fundamental es la exploración, mediante técnicas estadísticas, de las diferencias existentes entre ambas denominaciones de origen y si éstas se modifican con los años.
13 Estadística descriptiva con SPSS Los métodos descriptivos básicos pueden encontrarse en el ítem Estadísticos Descriptivos del menú Analizar, con varias alternativas.
13.1 Distribuciones de frecuencias La primera de las opciones (Frecuencias) permite crear tablas de frecuencias de los posibles valores de la variable, junto con medidas descriptivas de la tendencia central, de la dispersión, asimetría y apuntamiento y algunos gráficos. La ventana que se obtiene al seleccionar la opción Frecuencias es la siguiente.
-40-
Figura 12.- Ventana de selección de variables en el comando Frecuencias. Para seleccionar una variable haga click sobre el nombre en la lista de la izquierda y utiliza el botón de selección, cuando complete la selección, el comando tendrá efecto sobre todas las variables de la lista de la derecha. Si desea obtener la tabla de frecuencias ha de seleccionar el cuadro correspondiente bajo la lista de variables. Junto con la tabla de frecuencias es posible seleccionar distintos estadísticos y gráficos en la parte inferior de la tabla. Seleccionando el botón Estadísticos obtendrá la siguiente ventana que le permite escoger el tipo de selección que desea realizar.
-41-
Figura 13.- Estadística descriptiva del menú frecuencias. Las medidas de tendencia central que pueden ser seleccionadas son la media, mediana y moda. La suma de los valores de la variables se selecciona también en este apartado aunque no pueda ser considerada exactamente como una mediada de tendencia central. En cuanto a las medidas de dispersión es posible seleccionar la desviación típica, la varianza y el recorrido. SPSS utiliza (n-1) en el denominador de las fórmulas de cálculo de las medidas de dispersión por lo que la Varianza y la Desviación típica son, en realidad, la cuasi-varianza y la cuasi-desviación típica. En este apartado pueden seleccionarse también el mínimo, el máximo y el error estándar de la media. El mínimo y el máximo no son medidas de dispersión, el error estándar de la media mide la variabilidad de la media en el muestreo en contraste con la desviación típica que mide la dispersión de los datos. Es posible obtener también mediadas de la asimetría y el apuntamiento (curtosis) que permiten la comparación de la distribución de nuestros datos con la normal. Recuérdese que a hipótesis de normalidad es importante para la aplicación de muchas de las técnicas de inferencia que se utilizan en la práctica. En el apartado de percentiles pueden seleccionarse cuartiles, puntos de corte que dividen la muestra en un número de partes iguales determinadas por el usuario o bien percentiles que ha de decidir el usuario. Por ejemplo si se desea calcular el décimo percentil, escribiremos 10 al lado de la palabra Percentiles y usaremos el botón Añadir, al lado tendremos la lista de percentiles que calculará el programa. Los botones Cambiar y Eliminar permiten editar la lista de percentiles. Obsérvese que el programa no selecciona ninguna de las opciones por defecto. A la hora de seleccionar los estadísticos que se desea calcular es necesario tener en cuenta el tipo
-42de variable con el que se está trabajando, por ejemplo, no tendría sentido seleccionar este apartado si se trata de describir una variable cualitativa aunque se haya representado mediante números en el archivo de datos. Si seleccionamos el botón Gráficos en la figura 10 obtendremos la venta siguiente, que nos permite seleccionar el tipo de gráfico que utilizaremos en la descripción de los datos.
Figura 14.- Gráficos en el comando frecuencias. Si los datos son cualitativos o discretos seleccionaremos un diagrama de barras mientras que si los datos son continuos seleccionaremos un histograma. Sobre el histograma es posible también superponer una curva normal con los parámetros obtenidos de la media y de la varianza muestral, para tratar de establecer, de forma visual, la posible normalidad de los datos.
Figura 15.- Formato del resultado del comando frecuencias.
-43-
Es posible ordenar las tablas de acuerdo con los valores de la variable o de las frecuencias en orden ascendente o descendente. También es posible suprimir aquellas tablas que tengan más de un número de categorías especificado por el usuario. Cuado se seleccionan varias variables, los resultados pueden ponerse separadamente para cada variable seleccionando la opción “Organizar los resultados según las variables” o en una única tabla con una columna para cada una de las variables seleccionando la opción “Comparar variables”. Para una variable cualitativa, por ejemplo el Sexo en la tabla anterior, la ventana de resultados es la siguiente es la siguiente
Figura 16.- Ventana de resultados. Observe que la tabla de resultados presenta dos zonas diferenciadas, en la parte izquierda presenta menús de navegación que permiten acceder de forma rápida a los resultados del análisis; la parte derecha presenta los resultados propiamente dichos.
-44La tabla presenta la frecuencia absoluta de cada valor de la variable, el porcentaje, y el porcentaje acumulado que solo tendrá sentido cuando los valores de la variable estén ordenados. El diagrama de barras correspondiente aparece en la figura. La modificación de los gráficos se estudiará en un capítulo separado. Si la variable analizada es cuantitativa, podemos calcular también diversos estadísticos tal y como aparece en la tabla siguiente para la variable grado alcohólico en el ejemplo de las dos denominaciones de origen. Estadísticos Grado Alcohólico
N
Válidos
45
Perdidos
0
Media Error típ. de la media
12,4600 ,11684
Mediana
12,4000
Desv. típ.
,78376
Varianza
,614
Tabla..- Resultados de la opción Estadísticos del comando Frecuencias. No se ha mostrado la tabla de frecuencias en este caso ya que el programa la ha calculado para todos y cada uno de los valores de la variable sin agrupar en intervalos, las tablas de frecuencias aparecen correctamente cuando se trata de variables discretas o cualitativas, pero no cuando se trata de variables continuas. El histograma correspondiente, con la comparación con la curva normal, aparece en la figura siguiente. Hay que hacer notar que no es posible elegir la amplitud de los intervalos y es el propio programa el que decide.
-45-
Figura 17.- Histograma resultante del comando Frecuencias.
La comparación con la curva normal es importante cuando utilicemos los métodos de la Inferencia Estadística ya que estos están diseñados para distribuciones normales. Obsérvese que la distribución normal es una generalización del polígono de frecuencias, que comentamos anteriormente, cuando la amplitud de los intervalos tiende a cero y el tamaño de muestra tiende a infinito. Pretende modelar la frecuencia relativa de aparición de cada valor o lo que es lo mismo, la probabilidad de cada uno de los posibles valores de la variable. Se trata de una distribución simétrica, centrada en el valor de la media, donde alcanza la probabilidad máxima. La probabilidad más alta se asigna a valores cercanos a la media, mientras que los valores alejados son cada vez menos probables a medida que aumenta la distancia. Si observamos la etiqueta de una botella de vino veremos que aparece el grado alcohólico del mismo, es decir, el porcentaje del contenido que es alcohol. Obviamente no se trata del contenido exacto sino de un valor medio para todas las botellas del mismo tipo de vino; la prueba es que tras medir los grados de muchas botellas no coinciden. Lo que realmente cabe esperar es que los contenidos en alcohol sigan una distribución normal, es decir, que se concentren con mayor probabilidad alrededor del valor medio y que, valores alejados del valor medio sean poco probables. En este contexto, la desviación típica tiene una interpretación útil para el investigador: Si llamamos µ a la media y σ a la desviación típica de la población de la que se han obtenido los datos, en el intervalo [µ-σ ; µ+σ] están aproximadamente el 68% de las observaciones, en el intervalo [µ-2σ ; µ+2σ] están aproximadamente el 95% de las
-46observaciones y en el intervalo [µ-3σ ; µ+3σ] están aproximadamente el 99,7% de las observaciones. Esto quiere decir que es muy improbable encontrar valores de la variable más allá de tres veces la desviación típica, tomando como origen la media. En la práctica no tenemos los valores exactos de µ y σ así que tenemos que aproximarlos mediante los valores muestrales x y S. El mismo razonamiento puede aplicarse a la media utilizando el error estándar de la media ( ! n ), para distintas muestras, aproximadamente el 95% de los posibles valores de la media muestral para una muestra de tamaño n, está en el intervalo #$ µ ! 2 " n , µ + 2 " n %& . Cuando se estima mediante los valores muestrales
"# x ! 2 S n , x + 2 S n $% = "# x ! 2ESM , x + 2ESM $% se denomina intervalo de confianza al 95% y nos proporciona, no solo una estimación de la tendencia central sino también una medida de la precisión con la que se realiza la estimación. Cuanto más corto sea el intervalo, más precisa es la estimación realizada. El intervalo de confianza será objeto de otro capítulo dentro del apartado de inferencia estadística.
13.2 El comando Descriptivos La segunda opción del ítem Estadísticos Descriptivos del menú Analizar, es Descriptivos y permite el cálculo de algunos estadísticos sencillos. Básicamente es muy similar la opción Estadísticos del comando anterior. La ventana de definición aparece en la figura siguiente.
Figura 18.- Ventana de definición del comando Descriptivos. La ventana permite la selección de las variables que se van a utilizar en el análisis, de la misma forma que ya se hizo en el comando anterior. Los recuadros de la parte inferior tienen el mismo significado que en la ventana de formato del comando anterior. Se añade la posibilidad de guardar en el archivo de datos una nueva columna que contenga los valores estandarizados (valores a los que se ha restado la media y se ha dividido por la desviación típica) de las variables analizadas.
-47El botón Opciones permite seleccionar los estadísticos a calcular y el formato de los resultados.
Figura 19.- Opciones del comando Descriptivos. Los resultados típicos aparecen en la tabla siguiente. Estadísticos descriptivos Rango
Mínimo
Máximo
Estadístico
Estadístico
Estadístico
3,20
10,80
14,00
Media Estadístico 12,4600
Desv. típ.
Error típico
Varianza
Estadístico Estadístico
,11684
Tabla : Resultados del comando Descriptivos.
,78376
,614
-48-
13.3 Exploración de los datos La tercera opción del ítem Estadistios descriptivos del menú Analizar es el comando Explorar, que permite explorar las diferencias entre varios grupos para una o varias variables cuantitativas. Este apartado permite, mediante métodos descriptivos avanzados y algunos contrastes, por ejemplo, de normalidad, explorar las posibles diferencias entre dos grupos, la posible existencia de outliers o la normalidad aproximada de los datos. La ventana de definición de las opciones del comando aparece en la figura 20.
Figura 20.- Ventana de definición de las opciones del comando Explore.
En la ventana etiquetada como Dependientes seleccionaremos las variables cuantitativas que queremos analizar, mientras que en la ventana Factores seleccionaremos las variables cualitativas que definen los grupos en los que queremos separar los análisis. En el ejemplo que aparece en la pantalla se trata de analizar el grado alcohólico de vinos en dos denominaciones de origen, Ribera de Duero y Toro. Es posible etiquetar los casos (individuos) usando los valores contenidos en alguna de las columnas de archivo, si no ponemos etiquetas se utilizará el número de orden. Esta opción es útil, por ejemplo, para etiquetar los valores atípicos en un box plot La exploración de los datos se lleva a cabo mediante la utilización de estadísticos y de gráficos, o de ambos, tal y como puede seleccionarse en la esquina inferior izquierda de la ventana. Los botones Estadísticos, Gráficos y Opciones permiten la selección de los análisis particulatres que se quieren utilizar. La opción Estadísticos abre la siguiente ventana.
-49-
Figura 21.- Opción Estadísticos del comando EXPLORAR. Seleccionando el apartado Descriptivos se obtienen estadísticos descriptivos en los distintos grupos tales como media, mediana, moda, desviación típica, varianza, mínimo, máximo, etc .. En el apartado Estimadores robustos centrales (M-Estimators) se obtienen estimadores robustos de la tendencia central, estimadores robustos de las medidas de tendencia central son aquellos que no están afectados por los valores más extremos de la distribución, como por ejemplo la mediana. De una forma más general los estimadores robustos se obtienen asignando ponderaciones mas pequeñas a las observaciones más extremas en el cálculo de la medida de tendencia central. Las distintas opciones dependen de la ponderación que se da a cada observación en el cálculo de la medida. En general se asocian ponderaciones más pequeñas a los valores extremos de la distribución. En el apartado valore atípicos (outliers) se obtienen los 10 valores más extremos, 5 en la parte superior y 5 en la inferior. El propósito es encontrar valores anormalmente grandes o pequeños que pueden afectar el funcionamiento de análisis posteriores. La opción percentiles muestra diversos percentiles, que se utilizan generalmente en la construcción de los Box-Plot. Una vez seleccionadas las opciones deseadas haremos click sobre el botón Continuar. La opción Gráficos muestra la siguiente ventana.
-50-
Figura 22.- Opción Gráficos del comando EXPLORAR. Varios son los tipos de gráficos que pueden se seleccionados: - Box-Plots (diagramas de caja): Mediante este tipo de gráficos es posible estudiar la distribución de la variable a través de los percentiles. Es posible detectar desviaciones de la simetría, posibles outliers y es posible comparar la distribución de varios grupos. En general, el programa coloca los Box-Plots correspondientes a los distintos grupos sobre el mismo gráfico para permitir las comparaciones, es posible tambéen colocar varias variables sobre el mismo gráfico si las escalas son comparables usando la opción Dependientes juntas. La opción Ninguno realiza gráficos separados para cada grupo y cada variable. - Histogramas : Seleccionados en la opción correspondiente, permiten comparar la distribución en varios grupos y detectar posibles desviaciones de la normalidad. Es posible situar la curva normal sobre el gráfico como se hizo en opciones anteriores. - Steam-and-lef: Tiene la misma información que el histograma pero con la particularidad de que los datos originales con los que se construyó son ahora recuperables. Permite comparar la distribución de frecuencias de ambos grupos. - Gráficos con pruebas de normalidad: En uno de los ejes se representa la distribución empírica de los datos y en el otro los valores esperados en el caso de que la distribución fuera normal. Si los datos proceden de una distribución normal los puntos deberían estar aproximadamente sobre la diagonal principal. El gráfico se complementa con el test de Kolmogorov-Smirnov para normalidad o el test de Shapiro-Wilks para muestras pequeñas. En ambos contrastes la hipótesis nula es que los datos se ajustan a una distribución normal, por tanto aceptamos que la distribución es normal cuando el pvalor correspondiente es mayor de 0,05 y que la distribución no es normal en caso contrario. La opción proporciona, además, gráficos de normalidad sin tendencia; la
-51distribución de los datos es aproximadamente normal si los gráficos no muestran una tendencia definida clara. - Diagramas de Tendencia central-Dispersión: Se representa una medida de tendencia central frente a una medida de dispersión en cada uno de los grupos para ver si existe relación entre ellas y puede violarse la hipótesis de igualdad de varianzas necesaria para la comparación de los grupos. El gráfico se complementa con el test de Levene para igualdad de varianzas. Es posible seleccionar también diversas transformaciones que pueden homogeneizar las varianzas. La selección de este tipo de gráficos se realiza en el recuadro de la ventana etiquetada como Dispersión por nivel con prueba de Levene. Por último, es posible seleccionar otras opciones relativas a los valores perdidos y que tienen que ver con la forma en que se eliminan del análisis para distintas variables. La selección se hace en la ventana siguiente como resultado del uso del botón Opciones en la ventana del comando Explorar.
Figura 23.- Opciones del comando EXPLORE. La primera de las opciones "Excluir casos según lista" excluye del análisis todos aquellos casos que tengan un dato perdido en cualquiera de las variables de la lista de dependientes. La opción "Excluir casos según pareja" excluye solamente los casos que tengan datos perdidos en la variable que se analiza en cada momento. La opción "Mostrar valores" informa de los casos que tienen valores perdidos. Cuando se ha completado el comando, los resultados aparecen en las tablas y gráficos siguientes. Los resultados corresponden al análisis del grado alcohólico para vinos jóvenes de dos denominaciones de origen Ribera de Duero y Toro. Presentamos primero los resultados de la opción Estadísticos en las dos denominaciones para pasar después a los Box-Plots y gráficos de normalidad. En este caso no tienen demasiado sentido los gráficos de igualdad de varianzas ya que se dispone solamente de dos puntos por los que siempre pasa una recta. En la primera tabla se muestra el resumen del procesamiento de los casos, es decir, el recuento de los casos procesados para cada uno de los grupos y los porcentajes de casos válidos y perdidos para cada uno de ellos. Para la comparación de las denominaciones disponemos de 34 vinos de Ribera de Duero y 11 de Toro.
-52Resumen del procesamiento de los casos Casos DENOMINACION
Válidos N
grado
Perdidos
Porcentaje N Porcentaje
Total N
Porcentaje
RIBERA
34
100,0%
0
,0% 34
100,0%
TORO
11
100,0%
0
,0% 11
100,0%
A continuación se muestra la tabla de estadísticos descriptivos para la comparación de ambas denominaciones. Descriptivos DENOMINACION
Estadístico Error típ. Media Intervalo de confianza para la media al 95%
RIBERA
12,1706 Límite inferior
11,9711
Límite superior
12,3701
Media recortada al 5%
12,1915
Mediana
12,2500
Varianza
,327
Desv. típ.
,57183
Mínimo
10,80
Máximo
13,00
Rango
2,20
Amplitud intercuartil
grado
,78
Asimetría
-,605
,403
Curtosis
-,438
,788
13,3545
,20421
Media Intervalo de confianza para la media al 95%
TORO
,09807
Límite inferior
12,8995
Límite superior
13,8096
Media recortada al 5%
13,3884
Mediana
13,4000
Varianza
,459
Desv. típ.
,67729
Mínimo
12,10
Máximo
14,00
Rango Amplitud intercuartil
1,90 ,90
Asimetría
-,855
,661
Curtosis
-,383
1,279
-53La figura siguiente contiene el Box-Plot para la comparación de las dos denominaciones.
Figura 1324.- Box-Plots para la comparación de las dos denominaciones. Inmediatamente se observa que la graduación alcohólica de los vinos de Toro es más alta que la de los vinos de Ribera. La impresión se corrobora a partir de la observación de las medidas de tendencia central, por ejemplo la media aritmética que resulta ser de 12,17 para Ribera y 13,35 para Toro. Además la diferencia de medias puede considerarse estadísticamente significativa ya que los correspondientes intervalos de confianza no se cruzan. Una diferencia similar puede apreciarse en medidas como la mediana, la moda o las medidas de tendencia central robustas, que se muestran en la tabla siguiente. Estimadores-M DENOMINACION grado
Estimador-M de Huber(a)
Biponderado de Tukey(b)
Estimador-M de Hampel(c)
Onda de Andrews(d)
RIBERA
12,2515
12,2673
12,2391
12,2685
TORO
13,4615
13,4415
13,4212
13,4409
a La constante de ponderación es 1,339. b La constante de ponderación es 4,685. c Las constantes de ponderación son 1,700, 3,400 y 8,500. d La constante de ponderación es 1,340*pi.
-54Obsérvese que los estimadores robustos de la media y la misma media toman valores similares, esto quiere decir que los valores extremos no afectan especialmente a la distribución que es aproximadamente simétrica. De los percentiles y de los valores extremos para los dos grupos es posible observar que la separación entre los dos grupos es bastante clara, por ejemplo, el grado más alto de un vino de la denominación de Ribera es 13 grados, mientras que solamente 3 de los 11 de Toro están por debajo de ese valor. Percentiles Percentiles
DENOMINACION 5 Promedio ponderado(definición 1)
grado
Bisagras de Tukey
grado
10
25
50
75
90
95
RIBERA
11,1000 11,2500 11,8500 12,2500 12,6250 12,8000 13,0000
TORO
12,1000 12,1400 13,0000 13,4000 13,9000 14,0000
RIBERA
11,9000 12,2500 12,6000
TORO
13,1000 13,4000 13,9000
.
Con respecto a la posible normalidad de los datos, se observa en el Box-Plot como para la denominación de origen de Ribera los datos son aproximadamente simétricos, lo cual se pone también de manifiesto en el hecho de que la media, la mediana y los demás estimadores robustos toman valores muy similares. Se detecta un valor extremo en la parte baja que corresponde a la observación 17, y un grado de 10,8 inusualmente bajo en comparación con el resto. Ambos tests de normalidad resultan no significativos, por lo tanto suponemos normalidad. Pruebas de normalidad DENOMINACION
Kolmogorov-Smirnov(a) Estadístico
grado
gl
Sig.
Shapiro-Wilk Estadístico
gl
Sig.
RIBERA
,126
34
,185
,947 34 ,102
TORO
,244
11
,066
,855 11 ,049
a Corrección de la significación de Lilliefors
En cuanto a la denominación de Toro, la distribución es bastante más asimétrica, aunque no lo suficiente para rechazar la normalidad, como se pone de manifiesto en la significación de los tests de normalidad correspondientes. Los gráficos de normalidad aparecen en la figura 25.
-55Normal Q-Q Plot of GRADO For DENOMINA: RIBERA 2
1
0
-1
-2 10,5
11,0
11,5
12,0
12,5
13,0
13,5
Normal Q-Q Plot of GRADO Observed Value
For DENOMINA: TORO 1,5
1,0
,5
0,0
-,5
-1,0
-1,5 12,0
12,5
Observed Value
13,0
13,5
14,0
14,5
Figura 25.- Gráficos de normalidad.
Con respecto a la homogeneidad de varianzas se acepta la hipótesis de igualdad (p = 0.540) basándose en la media por lo que las poblaciones pueden considerarse homoscedásticas. La misma conclusión se obtiene con el resto de las variantes de la prueba. Prueba de homogeneidad de la varianza Estadístico de Levene gl1
grado
gl2
Sig.
Basándose en la media
,382
1
43 ,540
Basándose en la mediana.
,359
1
43 ,552
Basándose en la mediana y con gl corregido
,359
1 42,396 ,552
Basándose en la media recortada
,375
1
43 ,544
La normalidad e igualdad de varianzas es importante para decidir el test que se utilizará para comparar las medias de los dos grupos.
-56-
La distribución de frecuencias de ambas denominaciones puede comparase también a partir de histogramas y de diagramas de tallo y hojas. Las figuras siguientes muestran los histogramas y los diagramas de tallo y hojas para ambas denominaciones.
Figura 26.- Histogramas para ambas denominaciones
Gráficos de tallo y hojas grado Stem-and-Leaf Plot for denomina= RIBERA Frequency
Stem &
1,00 Extremes 4,00 11 . 7,00 11 . 9,00 12 . 11,00 12 . 2,00 13 . Stem width: Each leaf:
Leaf (=<10,8) 2234 5679999 012223444 55666777888 00
1,00 1 case(s)
grado Stem-and-Leaf Plot for denomina= TORO Frequency 2,00 ,00 4,00 3,00 2,00 Stem width: Each leaf:
Stem & 12 12 13 13 14
. . . . .
Leaf 13 0224 999 00
1,00 1 case(s)
Figura 27.- Diagramas de tallo y hojas para ambas denominaciones Las representaciones ponen de manifiesto de nuevo lo que ya veíamos en párrafos anteriores.
-57-
14 Representaciones gráficas con SPSS En el menú “Gráficos” de SPSS se presentan varias opciones para la construcción de gráficos. Presentaremos aquí las mas sencillas para los gráficos más comúnmente usados.
14.1 Diagramas de Barras Veremos primero un diagrama de barras. Seleccionando barras en el menú de gráficos obtenemos la siguiente ventana que permite la definición de distintos tipos de diagramas. Normalmente un diagrama de barras es un diagrama cartesiano que representa las frecuencias de los valores de una variable cualitativa. En SPSS el concepto de diagrama de barras es un poco más amplio y permite representar barras cuya longitud es igual, por ejemplo, a la media de una variable en varios grupos y muchas otras posibilidades.
Se puede elegir entre diagramas simples, apilados o agrupados, los iconos correspondientes son suficientemente explicativos. Las barras pueden ser resúmenes de un grupo de casos, Resúmenes para distintas variables o valores individuales de los casos. En el primer caso podemos comparar, por ejemplo, las frecuencias de aparición de vinos de ribera de Duero y Toro en un diagrama en el que cada barra representa una de las denominaciones. En el segundo caso podemos representar varias variables simultáneamente en el mismo gráfico, siempre que estas tengan magnitudes comparables, por ejemplo para datos en los que las variables son medidas de la misma magnitud en distintos momentos del tiempo.
-58La posibilidades de combinación son innumerables, por lo que aquí describiremos solamente algunas de ellas. Seleccionamos, por ejemplo, un diagrama simple donde representaremos resúmenes de grupos de casos y pulsamos el botón de definir. Obtendremos la siguiente pantalla de definición.
La variable categórica que define los grupos se colocará en la casilla etiquetada como “Eje de categorías:”, en este caso seleccionamos, por ejemplo, la denominación. En la parte superior seleccionaremos la forma de construir la barras. Si seleccionamos el número de casos tendremos el diagrama tradicional en el que se cuenta el número de veces que aparece cada una de las denominaciones de origen. Podemos seleccionar también el porcentaje en lugar del número y lo mismo para frecuencias acumuladas, aunque esto solo tendrá sentido cuando los valores de la variable puedan ordenarse. En el recuadro de panel podemos realizar diagramas separados de acuerdo con los valores de otras variables. Por ejemplo, si ponemos los años en filas, obtendremos el diagrama de barras de las denominaciones separado por años en filas. Podemos construir tablas completas de diagramas usando tantas variables como queramos.
-59Si aceptamos el diagrama tal y como aparece en la pantalla obtendremos el diagrama siguiente.
Si añadimos el año en las filas del panel, el gráfico obtenido sería el siguiente.
Si añadimos el año en las columnas del panel, el gráfico sería.
-60-
Si seleccionamos un diagrama agrupado en lugar de simple obtendremos la siguiente ventana. Si seleccionamos un diagrama de barras agrupado, para cada una de las denominaciones obtendremos varias barras de acuerdo con los valores de otra variable, por ejemplo, una barra para cada uno de los a帽os. La pantalla de definici贸n se muestra en la figura siguiente.
-61-
Obsérvese que aparece una nueva casilla de selección etiquetada como “Definir grupos por” que permite separar por años los resultados de cada denominación. El diagrama obtenido sería el siguiente.
La interpretación del diagrama es inmediata.
-62-
Si seleccionamos diagramas apilados la definición se muestra en la ventana siguiente, que es completamente análoga a la del caso anterior. Hemos seleccionado aquí el número de casos ya que al apilar los porcentajes el diagrama resultante resultaría extraño con porcentajes mayores de100.
El diagrama resultante sería el siguiente:
-63-
No consideraremos la posibilidad de utilizar barras diferentes de las que representan recuentos o porcentajes ya que, en la práctica, no se utilizan regularmente. Dejaremos este tipo de gráficos para los diagramas de líneas del apartado siguiente.
14.2 Diagramas de Líneas Los diagramas de líneas tienen básicamente la misma información que los diagramas de barras cuado se hacen sobre los recuentos ya que simplemente consisten en unir los extremos superiores de las barras con líneas. En este tipo de diagramas es más habitual situar como extremo para el dibujo de la línea los valores de las medias (u otro estadístico) de una determinada variable. Como ejercicio puede dibujar los gráficos correspondientes a los del apartado anterior. En este apartado utilizaremos gráficos en los que representaremos la media del grado alcohólico en diferentes grupos. Cuando seleccionamos el diagrama de líneas obtenemos la siguiente ventana.
Las posibilidades son similares a las del diagrama de barras y las describiremos viendo los ejemplos. Las ventanas de definición son análogas a las del diagrama de barras. Por ejemplo, la ventana de definición de un diagrama simple es la siguiente.
-64-
Hemos seleccionado un diagrama de líneas tomando como variable de grupos la denominación y con líneas que representan a los valores medios de la variable grado alcohólico. Separamos los gráficos en paneles por años obteniendo el siguiente resultado.
-65Pueden utilizarse estadísticos distintos de la media seleccionando el botón “Estadísticos”. Las posibilidades se muestran en la ventana siguiente.
Si seleccionamos un gráfico de líneas múltiple añadiendo el año, obtenemos el siguiente resultado.
Las líneas que unen las medias del grado alcohólico en ambas denominaciones se han separado por años. Este gráfico será útil posteriormente cuando estudiemos la posible interacción entre varios factores de variación. Si seleccionamos un gráfico de líneas verticales obtendríamos el siguiente resultado.
-66-
14.3 Diagramas de Caja Los diagramas de cajas para la comparación de varios grupos que se obtuvieron en el menú de exploración pueden obtenerse de forma separada en el menú de gráficos utilizando la opción “Diagramas de caja”. Los menús son similares a los de los dos gráficos anteriores en cuanto a las opciones a seleccionar.
Si seleccionamos diagramas de cajas simples obtenemos la siguiente ventana.
-67-
Tenemos que seleccionar la variable continua que queremos estudiar, en este caso el grado alcohólico, y una variable cualitativa que defina los grupos a comparar, en este caso la denominación. Opcionalmente podemos seleccionar una variable para etiquetar los casos, por ejemplo los valores atípicos en el box-plot, y todas las variables cualitativas para separar los gráficos que consideremos oportunos en el panel. El resultado sería el siguiente, que ya ha sido comentado en el menú de exploración.
-68En la definición de un diagrama de cajas múltiple simplemente tenemos que añadir una variable adicional de separación de los grupos, por ejemplo el año, para obtener un diagrama como el de la figura siguiente.
14.4 Diagramas con barras de error Los diagramas con barras de error contienen básicamente la misma información que los diagramas de líneas con medias utilizados anteriormente. Para cada grupo se dibuja un punto que representa la media de una variable continua. Alrededor del punto se sitúan barras de error cuya longitud puede estar definida por distintos estadísticos como, por ejemplo, la desviación típica, el error estándar de la media o un intervalo de confianza para media. La principal ventaja de este tipo de gráficos es que permiten añadir a la estimación de las medias una medida de la precisión de la estimación y, si la barra de error es el intervalo de confianza, permiten una comparación estadística formal aproximada de los grupos mediante la representación gráfica. La ventana de definición es la siguiente. La estructura es idéntica a la estructura de definición de diagramas de cajas, con la única diferencia de que tenemos que elegir que representan las barras de error.
-69-
La figura siguiente muestra las medias y barras de error para la variable grado alcohólico en ambas denominaciones de origen.
Observamos que las barras de error son más cortas para la denominación de Ribera lo que indica que la precisión de la estimación es mayor en este grupo. Además las barras no se cruzan por lo que la diferencia entre las medias del grado alcohólico en ambos grupos es estadísticamente significativa. Si seleccionamos un diagrama agrupado separando los años obtenemos lo siguiente.
-70-
Obsérvese que la longitud de los intervalos para algunos de los grupos es muy grande por lo que es difícil detectar diferencias. Esto se debe a que en algunos grupos los tamaños muestrales son muy pequeños.