MANUAL INTRODUCTORIO DE ANALISIS DE DATOS CON SPSS. Juan Manuel García Torrecillas
MANUAL INTRODUCTORIO DE ANALISIS DE DATOS CON SPSS
Juan Manuel García Torrecillas Ldo en Medicina y Cirugía Especialista en Medicina Familiar y Comunitaria Servicio de Cuidados Críticos y Urgencias del C. H. Torrecárdenas.
2
Para Maru, porque sin su ayuda no habría sido posible acabar este manual...y para el pequeño Juanma, que tantas alegrías y ánimos infunde a todo cuanto intento...cuando menos, hacer.
3
4
INDICE CAPITULO 1. Primera sesión con SPSS CAPITULO 2. Editar y otros procesos con datos. CAPITULO 3. Análisis descriptivo. CAPITULO 4. Tablas de contingencia. CAPITULO 5. Comparación de medias. CAPITULO 6. ANOVA CAPITULO 7. Test no paramétricos. CAPITULO 8. Regresión y Correlación. CAPITULO 9. Regresión logística.
5
6
CAPITULO 1. PRIMERA SESION CON SPSS Antes de entrar en detalles concretos referentes a la base de datos que se os va a proporcionar para entrar en la descripción y análisis de datos usando el paquete estadístico SPSS, creemos necesario dar un repaso inicial al programa que nos permita familiarizarnos con sus ventanas, menús, opciones y elementos más generales.
Para entrar en el programa lo primero es....abrirlo, y hasta esto puede realizarse de dos formas distintas; bien partimos del fichero de spss (con la extensión .sav que es la que atribuye el programa al fichero que contiene los datos) y picando dos veces sobre él con el botón izquierdo del ratón abrirá el programa estadístico, o bien desde el editor de datos (fig 1.1) abriendo archivoÆ abrirÆ datos y seleccionamos la ubicación del fichero que queramos abrir.
Fig 1.1
7
Más sencillo aún si picamos en el icono "abrir" del menú superior (Fig. 1). 2) que viene representada con el dibujo de una carpeta abierta con una flecha.
Fig. 1.2
Una vez abierto el editor de datos (fig. 1.1) pasemos a describir las opciones que tenemos en la región que corresponde a la barra de herramientas de la versión 11 de SPSS (fig1.3)
Fig. 1.3
De izquierda a derecha encontramos los iconos "abrir archivo", "guardar", "imprimir", "recuperar cuadros de diálogo", "deshacer", "rehacer", "ir a gráfico", "ir a caso", "variables", "buscar", "insertar caso", "insertar variable", segmentar archivo", etc... y muchas otras más como las que tenéis en la figura que son el resultado de personalizar la barra de herramientas para que podáis acceder a las funciones más útiles de un modo más rápido. Si volvéis a la figura 1.1 y observáis el editor de datos, en la parte inferior izquierda existe una doble pestaña que nos permite seleccionar si lo que queremos ver es el propio editor de datos o bien la "vista de variables". Picando en esta pestaña de vista de variables aparece una segunda pantalla, la siguiente (fig. 1.4)
8
Fig. 1.4
La barra de herramientas de esta pantalla de "vista de variables" es común a la ventana anterior lo que nos permite operar como si estuviéramos en el propio editor de datos y de un modo ágil poder intercambiar las vistas entre editor de datos y vista de variables. En esta posición vemos una fila de descriptores que pasamos a explicar (fig. 1.5)
Fig. 1.5
Nombre: nombre de la variable Tipo: Tipo de variable, se puede elegir entre 8 tipos diferentes (numérico, coma, punto, notación científica, fecha, moneda personalizada y cadena). En spss es altamente recomendable que trabajéis siempre que sea posible con variables numéricas, convirtiendo incluso a numéricas cualquier variable susceptible de hacerlo.
9
Anchura y Decimales: Para especificar la anchura y el número de decimales que contiene en las variables de tipo numérico, coma, punto, notación científica, dólar y moneda personalizada. Para las variables tipo fecha se puede elegir entre otras muchas opciones.
Fig. 1.6
Etiqueta: aquí especificamos de un modo mas claro que significa el nombre atribuido a la variable, máximo 8 caracteres. Cuando la variable es de tipo numérico podemos asignar las llamadas etiquetas de valor, esto es, dar un valor numérico a cada uno de los valores que puede adoptar la variable en cuestión. Fig. 1.7
Columna valores: se pueden dar nombres a los valores numéricos de las variables nominales u ordinales. En el archivo de ejemplo se puede dar valores a la variable categórica sexo (por ejemplo 0 para varones y 1 para mujeres)
10
Fig. 1.8
Perdidos: A veces no es posible registrar para cada variable todas las respuestas posibles o simplemente dicha respuesta no existe (ej. : no respuesta), se trataría de un dato que no tendría utilidad a efectos del análisis estadístico. Bien por defecto, esto es, dejando el dato en blanco, o bien asignándole un valor numérico al dato que nos indique que se trata de un valor perdido, se consigue identificar esta característica de la variable. Veamos el cuadro que nos da spss para identificar los valores perdidos (la otra opción, menos reglada, es dejar vacía la casilla): Fig. 1.9
Columnas: Para definir el ancho de cada columna, bien mediante la introducción de un valor numérico o, casi más sencillo, arrastrando con el ratón en el editor de datos los márgenes de la columna para hacer ésta más grande. Alineación: Hace referencia al contenido de la columna, que puede ser centrada, alienada a derecha o izquierda. Medida hace referencia a sí se trata de una medida tipo escala (intervalo o razón), nominal u ordinal.
11
Definición y ejecución de un procedimiento Para poder definir cualquier procedimiento de análisis estadístico lo primero es que tengamos los datos en el editor estadístico, a continuación selecciono el procedimiento estadístico que quiero emplear (para ello me voy a la opción elegida en el menú principal). Utilizando nuestra base de datos "hipertensión.sav" empezaremos por ver la distribución de frecuencias de la variable sexo:
AnalizarÆ Estadísticos descriptivosÆ Frecuencias
Lo primero que obtenemos es la caja de diálogo para frecuencias tras picar en analizarÆestadísticos descriptivosÆfrecuencias. En la caja de la izquierda se encuentran las variables insertas de nuestro fichero. Ahora hemos de seleccionar aquella variable que queremos analizar, en este caso la variable sexo, e introducirla en la caja de la derecha usando el botón
y posteriormente seleccionar las
opciones que deseemos referentes a estadísticos, gráficos y formato, que se señalan en la parte inferior
picando si
lo deseamos en la opción "mostrar tabla de frecuencias".
12
Picando en la opción "estadísticos " nos aparecen cualquiera de los que cuantifican los cuatro aspectos básicos de una distribución (posición, tendencia central, variabilidad o dispersión, forma de la distribución):
Picando en gráficos nos aparecen los tres tipos posibles, de entrada mejor no seleccionar esta opción hasta que desarrollemos el análisis global detallado:
La última de las opciones el botón "formato" que proporciona todas las posibilidades que podéis observar en el gráfico:
13
Bien, pues seleccionemos la variable sexo y veamos que ocurre:
Como vemos hemos obtenido un resultado en una nueva ventana, la ventana o editor de resultados. Nos detalla en una primera tabla cuantos de los datos son validos y si existen valores perdidos. A continuación en una segunda tabla obtenemos la frecuencia y porcentaje de cada sexo (porcentaje y valido son los mismos porque no existen valores perdidos, de haberlos, hay que fijarse en la columna de porcentajes válidos). Finalmente colocamos un gráfico de distribución de sexos. Observáis que en la parte izquierda de la ventana que hemos obtenido aparece un menú que permite navegar de forma ágil por los resultados y operaciones que
14
vayamos realizando, siendo muy Ăştil a medida que la informaciĂłn de resultados obtenida es cada vez, mĂĄs voluminosa.
15
CAPITULO 2. EDITAR Y OTROS PROCESOS CON DATOS. USANDO EL FICHERO HIPERTENSION.SAV 2.1 Usando un fichero de ejemplo. El presente curso se realiza utilizando como soporte un fichero creado en spss denominado hipertension.sav. Dicho fichero, se os entrega al realizar estas prácticas y va a ser la plantilla de trabajo para que podamos explicarlos procedimientos estadísticos de un modo homogéneo.
Si vemos la ventana del editor de datos de dicho fichero, obtenemos algo así:
Fig. 2.1
Observamos la típica rejilla, análoga a la de cualquier hoja de cálculo, donde cada columna corresponde a una variable y cada fila corresponde a un caso. Las variables
16
que se analizan pueden verse de múltiples maneras. Desde el propio editor vemos ya las variables clave, nombre, fecha, sexo, etc.... y picando en la ventana de variables vemos claramente cuales son las que inicialmente están incluidas en el fichero (fig. 2.2). Fig. 2.2
Según la vista de variables ya podemos empezar a ver en la primera columna el nombre de cada variable, seguido en cada columna de cada uno de los atributos de ellas. Detallemos cada variable para seguir con nuestro fichero de ejemplo.
Clave: suele introducirse porque nos permite la interconversion entre diferentes bases de datos, y habitualmente se trata de un dato numérico. Nombre: hace referencia al nombre de los pacientes del fichero, en este caso, ya que están codificados mediante un número de caso y un identificador es una
17
variable de la que podríamos prescindir. Dado que está escrito con texto sería una variable tipo "cadena". f_nacim: Variable que se refiere a la fecha de nacimiento de los individuos incluidos. Se expresa en formato "fecha" y, como dijimos, existen muchas notaciones distintas para el formato fecha, habiendo utilizado aquí el más usual en España que es dia-mes-año. f_inclus: hace referencia a la fecha de inclusión en el estudio. También es una variable tipo fecha con el mismo sistema de notación. sexo: es una variable categórica a la que se han dado valores numéricos para que el análisis sea adecuado. Se asignó el valor 0 a los varones y 1 a las mujeres. Si picamos en la casilla resultante de la intersección entre la variable sexo y valores se despliega la siguiente caja que aclara y permite modificar las asignaciones:
fig. 2.3
altura: es la altura de los individuos, variable numérica expresada en este caso en centímetros. Vemos cómo está acotada para el número de decimales esto es, sin decimales. Lo mismo ocurre con la variable peso. Notemos que para que exista claridad a la hora de conocer de que variables estamos hablando hay una casilla "etiquetas" donde podemos escribir la "chuleta", el qué significa realmente el nombre de la variable. pad_ini: hace referencia a la presión diastólica inicial, al comienzo del estudio. Numérica. pad_fin: es la presión diastólica final, tras tomar el fármaco. Numérica.
18
pas_ini: presión sistólica inicial. Numérica pas_fin: presión sistólica final, tras tomar el fármaco. Numérica fármaco: recoge el tipo de fármaco tomado. Se codificaron mediante números los tres tipos de fármacos del estudio del siguiente modo (fig. 2.4)
Fig. 2.4
Como vemos, se asignó el valor 0 a aquellos pacientes a los que se administró placebo, 1 a aquellos que tomaron IECAs y 2 a los que tomaron una asociación de calcioantagonistas y diuréticos.
2.2 Transformando Datos 2.2.1 CALCULAR (COMPUTE) Con bastante frecuencia a partir de las variables suministradas por el fichero inicial es necesario crear variables nuevas o recodificar las previas en otras distintas para permitir un adecuado análisis de las mismas. Con SPSS podremos hacer varias cosas distintas.
Puedo crear una variable nueva que sea el resultado de un cálculo matemático utilizando las variables insertas en el fichero. Por ejemplo, a partir de los datos de peso y talla que tenemos en nuestra base podemos calcular una nueva variable como es el índice de masa corporal (IMC); para ello nos vamos a TransformarÆCalcular
19
y nos aparece la siguiente caja: Fig. 2.5
Si queremos calcular el IMC debemos saber que éste es el resultado de aplicar la fórmula IMC = peso(Kg)/talla(m)2; usando la ventana anterior indicamos en la opción "variable de destino" el nombre de la nueva variable, en nuestro caso "imc" y en la caja de expresión numérica expresamos la fórmula que el programa debe calcular (fig. 2.6)
Fig. 2.6
20
Finalmente damos a "aceptar" y obtendremos una nueva columna en el editor de datos con el nombre de variable "imc" y los datos calculados para cada caso (fig. 2.7). Fig. 2.7
En resumen, las variables hay que elegirlas en la columna de la ventana variables de la caja (fig. 2.6) y se introducen con el ratón en la caja de la derecha siguiendo la expresión numérica/matemática adecuada haciendo uso de los operadores que tenemos debajo. Es importante notar que cualquier operación puede ser restringida a casos concretos si indicamos al programa que utilice para calcular sólo los casos que cumplan una determinada condición. Para ello, tenemos que picar en la ventana dentro de la fig. 2.6 lo cual nos da acceso a la posibilidad de restringir los casos a los deseados. Caso de no querer restringir los casos, dejamos marcada la opción por defecto (incluir todos los casos). Repitamos el procedimiento de cálculo del IMC deteníendonos en la sintaxis; realizamos el procedimiento TransformarÆ Calcular y obtenemos el cuadro de la fig. 2.6, ahora en lugar de aceptar directamente seleccionamos "pegar" y nos aparece la siguiente expresión en el editor de sintaxis: COMPUTE imc = peso / (altura / 100) ** 2 . EXECUTE .
Seleccionando ambas líneas y pulsando el botón
aparecerá la variable IMC en el
editor de datos al igual que en el procedimiento anterior, pero con la ventaja de disponer de la sintaxis para futuras operaciones. 21
⇒ Calculemos ahora la edad que tienen los pacientes cuando fueron incluidos en el estudio. Disponemos de dos variables con formato fecha, a saber, f_nacim (fecha de naciemiento) y f_inclus (fecha de inclusión); parece lógico pensar que la resta de ambas nos proporcionará la edad de los pacientes. TransformarÆCalcular y la siguente expresión numérica:
Señalando "pegar" veremos la sintaxis de este procedimiento:
COMPUTE edad = CTIME.DAYS(f_inclus - f_nacim) / 365.25 . EXECUTE .
Picamos en
y aparece la nueva variable edad, pero lo que nosotros necesitamos
es verla de modo que la información que nos proporcione sean los años cumplidos, para ello utilizamos el operador TRUNC antecediendo a la expresión numérica anterior, esto es: COMPUTE edad = TRUNC (CTIME.DAYS(f_inclus - f_nacim) / 365.25) . EXECUTE .
Y obtengo la variable años cumplidos, de que he de definir sus propiedades, etiqueta, etc.
22
Veamos otro ejemplo de la utilidad de la opción "CALCULAR" . Creemos la variable hipertensíón partiendo del concepto de que serán tipificados como hipertensos aquellos pacientes con una tensión sistólica mayor de 140 y/o una diastólica mayor de 90. De nuevo TransformarÆCalcularÆ ......Æ expresión numérica que permita excluir a aquellos pacientes que no cumplen la condición de hipertensos, esto es: NOT (pad_ini < 90 AND pas_ini < 140).
Si pico en "aceptar" ya dispongo de una nueva variable con resultados 0 (no hta) y 1(hta), pero hagámoslo usando sintaxis y marquemos "pegar" primero, obtengo el siguiente comando:
COMPUTE hta = NOT (pad_ini < 90 AND pas_ini < 140) . VARIABLE LABELS hta 'hipertension' . EXECUTE .
Usaré LIST pad_ini pas_ini hta. para conseguir un listado donde verificar que la recodificación está correcta.
Pico en
y me aparece ya la variable hta con estos valores, 0 y 1, no hta y hta
respectivamente. Iré, como siempre, a la vista de variables para colocar la etiqueta y dar valores a la variable.
23
2.2.2 RECODIFICAR (RECODE) A veces es necesario cambiar los valores que hemos asignado a cada una de las posibilidades que toma una variable, por meras necesidades para el cálculo; otras es necesario por ejemplo obtener estratos o categorías dentro de una variable que es de tipo cuantitativo continuo, y se consigue mediante el procedimiento de recodificación de las variables. Los valores de la nueva variable (la recodificada) han de tener el mismo formato que los de la variable de la que proceden.
⇒ Existen varias formas de recodificar, a saber: 1. En la misma variable 2. En distinta variable 3. Recodificación automática
En la R. en la misma variable, se sustituye la antigua por la nueva obtenida; si recodifico en distinta variable, conservo la antigua y añado la nueva (esto es lo más aconsejable porque de haber algún error, no pierdo los datos iniciales). En la R. automática el programa asigna, él solo, un valor a cada uno de las posibilidades que puede adoptar cada variable. Para acceder al menú de recodificación:
TransformarÆ RecodificarÆ En distintas variables
A. Recodificación de una variable contínua: Supongamos que partiendo de nuestra base de ejemplo, queremos recodificar la variable pas_ini (presión arterial sistólica inicial), que viene expresada de modo continuo, en cinco categorías, las siguientes: pas < 100
pas entre 100 y 110
pas entre 120 y 130
pas > 130
pas entre 110 y 120
24
El procedimiento seria el que sigue: primero TransformarÆRecodificarÆEn distintas variables, e incluyo en la caja de la izquierda la variable a recodificar (pas_ini). A la derecha la "variable de resultado" que es la nueva que voy a obtener por categorías y que llamare pasini_r y debajo escribo la etiqueta, por si se me olvida que he querido hace "presión sistolica inicial por categorías".
Una vez que la variable está renombrada, pasamos a picar en "valores antiguos y nuevos" apareciendo entonces una nueva ventana que nos permite seleccionar las características de cada categoría a la izquierda (valores antiguos) y le asignamos a cada categoría un valor numérico (apúntelo en hoja aparte, luego hará falta) que introducimos en la casilla "valor". Tras introducir cada valor picamos en "añadir" y se van incorporando las nuevas categorías a la caja que existe abajo en la columna de la derecha.
25
Notad que los intervalos que hemos creado comparten los valores extremos, por ejemplo el valor 110 aparentemente pudiera estar comprendido entre 100-110 o bien entre 110-120; cuando estamos recodificando una variable continua el programa asigna por defecto este valor extremo al primer intervalo que la contiene, por tanto el valor 110 pertenece y es analizado realmente en el estrato 100-110.
Vemos como ahora a cada "estrato" o categorĂa de la variable le corresponde un valor (en este caso de 0 a 4) y hemos de anotarlos porque luego, en la vista de variables de spss podemos decirle con texto, para mayor claridad a que rango de valores de tensiĂłn arterial corresponde cada uno de estos valores. Recodificada la variable obtendrĂamos algo asĂ en el editor de datos:
Nos vamos a la vista de variables y con nuestra "chuleta" en la mano acudimos a la variable pasini_r y en concreto picamos en la celda correspondiente a "valores" de modo que aparece esta venta:
26
Introducimos los valores (de 0 a 4 ) en la casilla "valor" y su significado en la zona de "etiqueta de valor", asĂ:
Tras haber hecho esto, vemos como se transforma la columna de la variable pasini_r del siguiente modo:
27
Recurriendo de nuevo a la sintaxis, además del modo "menus" que es el que hemos usado antes, podría mos haber hecho lo siguiente: 1. Parto de la ventana de recodificación:
2. Pico en "pegar" y obtengo el editor de sintaxis con los comandos: RECODE pas_ini (Lowest thru 100=0) (100 thru 110=1) (110 thru 120=2) (120 thru 130=3) (130 thru Highest=4) INTO pasini_r . EXECUTE .
Y ahora, picando en
obtengo la nueva variable, pasini_r, al igual que si lo
hubiera hecho desde los menus, pero con las ventajas de conservar la sintaxis. Para comprobar que se ha codificado bien la variable listamos (desde la ventana de sintaxis) usando el comando LIST pas_fin pasfin_r.
B. Recodificación de una variable cuantitativa discreta Disponemos de la variable ncigarr que hace referencia al número de cigarrillos/día que consume cada paciente de la base de datos y, se trata, óbviamente, de una variable discreta que no toma valores entre números enteros. Queremos recodificar la variable cigarrillos (ncigarr) en la variable nivel de tabaquismo (nueva variable, "nivtab") de modo que se establezcan los intervalos siguientes: 0=0; 1-5= 1; 6-10=2; 10-15=3; 16-20=4 ; >21=5.
28
TransformarÆRecodificarÆ En distintas variablesÆ
Nos vamos a valores antiguos y nuevos y especificamos....
Como vemos, al tratarse de una variable discreta, los intervalos no tienen solapamiento en los extremos, y los valores de dichos extremos quedan contenidos sólo en uno de dichos estratos. Picamos en "continuar"Æ "pegar" y obtenemos la sintaxis: RECODE ncigarr (0=0) (1 thru 5=1) (6 thru 10=2) (11 thru 15=3) (16 thru 20=4) (21 thru Highest=5) INTO nivtab . VARIABLE LABELS nivtab 'tabaquismo'. EXECUTE .
29
Ejecutamos
y obtendremos la nueva variable nivtab que toma valores entre 0 y
5. Nos vamos a la vista de variables y asignamos valores, por ejemplo: 0Æ No fumador. 1Æ Fumador leve. 2Æ Fumador moderado. 3Æ Fumador severo. 4Æ Fumador muy severo, quedando así caracterizada la variable. Como siempre, puedo usar el comando LIST para verificar que la recodificacíon ha sido correcta. Si quiero tener una variable que me indique símplemente si son o no fumadores, puedo recoficiar la variable nivtab de modo que aquellos que tomaban el valor 0 sean tipificados como no fumadores y los que tomen el valor >0 como fumadores....
C. Recodficicación automática: El procedimiento de recodificación automática también puede ser bastante útil. Supongamos una variable que puede adoptar 12 valores distintos, entonces en lugar de, manualmente, asignar un valor a cada unos de ellos, el programa puede hacer este trabajo por nosotros. Si tenemos una variable como puede ser "provincia de nacimiento" no he de asignar un valor numérico a cada provincia, sino que mediante el procedimiento TransformarÆ Recodificación automática entro en la ventana
y no tengo más que introducir la variable que quiero recodificar en el cajón de la derecha y posteriormente pulsar aceptar. El programa asignará un valor numérico a cada provincia y nos dará una salida de resultados informándonos de cual ha 30
asignado a cada una de ellas. Este procedimiento es útil con las variables de tipo cadena (texto libre) como vemos.
2.2.3 ORDENAR CASOS Para ordenar los casos basándonos en el contenido de alguna variable elegimos la opción DatosÆOrdenar casos, apareciendo el cuadro de diálogo siguiente:
A continuación pulsamos sobre aceptar y los casos quedarán ordenados siguiendo el criterio que hayamos indicado, en nuestro caso, la clave asignada a cada uno de los casos, concretamente en orden ascendente.
2.2.4 SELECCIONAR CASOS Cuando iniciamos el análisis, éste puede realizarse sobre el total de datos de la base o bien sobre un subgrupo de la misma mediante el proceso de "seleccionar casos" que indicará al programa realizar los cálculos sólo sobre los datos seleccionados, siendo el resto, bien eliminados, bien filtrados según le indiquemos. Por tanto, el procedimiento permite "seleccionar" los casos según una determinada condición lógica según su orden en el archivo o de forma aleatoria. Volviendo al fichero de ejemplo, supongamos que queremos realizar el análisis estadístico exclusivamente sobre las mujeres de la base de datos. En este caso iríamos a "DatosÆSeleccionar casosÆ si se satisface la condiciónÆ... y nos aparece la siguiente pantalla:
31
En la caja de la izquierda vuelven a encontrarse las variables de que consta nuestra base y, el criterio de selecci贸n para el filtraje de datos, lo introducimos de acuerdo a nuestra necesidad mediante las opciones que se despliegan en la porci贸n derecha de la caja. En nuestro caso la variable sexo la hab铆amos codificado de tal modo que asignamos el valor 0 a los varones y 1 a las mujeres. Picamos en "si se satisface la condici贸n" y explicitamos que se seleccionen aquellos casos en los que la variable sexo toma el valor 1 (seleccionamos pues, solo mujeres).
32
Picamos en "continuar" y observamos que en el editor de datos aparecen "tachados" con una línea oblicua los datos que corresponden a varones, esto es, aquellos que no serán analizados. Por defecto no se eliminan los datos no seleccionados sino que son filtrados, salvo indicación expresa de eliminarlos; ahora, cualquier cálculo que realicemos se hará sobre los datos seleccionados, esto es, sólo mujeres. Este es el modo de hacerlo a través de los menús del programa.
Cada vez que realicemos una selección de datos, spss crea una variable nueva (filter_$) que toma dos únicos valores (0 y 1) que corresponden a no seleccionados y seleccionados respectivamente. Podemos cambiar el nombre a esta variable y más tarde utilizarla incorporándola al campo "usar variable de filtro". Hagámoslo usando la sintaxis: ContinuarÆ PegarÆ USE ALL. COMPUTE filter_$=(sexo = 1). VARIABLE LABEL filter_$ 'sexo = 1 (FILTER)'. VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE .
Y observo el mismo resultado, los hombres filtrados (líneas oblícluas sobre los casos) y el análisis ulterior se restringirá a las mujeres. En la ventana de sintaxis podemos quitar directamente el Filtro, con la expresión: FILTER OFF.
O bien usamos el menú del editor de datos DatosÆ Seleccionar
casosÆtodos los casosÆaceptar.
33
CAPITULO 3. ANÁLISIS DESCRIPTIVO El análisis de cualquier fichero suele iniciarse por un estudio descriptivo de las variables contenidas en el mismo. Recordemos que dichas variables pueden ser cuantitativas
ó cualitativas o categóricas (los valores que toman están
restringidos a ciertas opciones) y, dentro de estas últimas dicotómicas si sólo es posible que tomen dos valores (ej. si/no, varón/mujer, etc.). Si pueden tomar más de dos opciones se habla de variables policotómicas y si además es posible ordenarlas según algún criterio se las denominará ordinales. Llamamos variables nominales a aquellas que no tienen ningún orden implícito. Forma de codificar las variables categóricas con spss: 1. Variables tipo cadena: Texto. Nada recomendable..... 2. Numéricas: Asigno un valor a cada una de las opciones que toma la v.a. Ej. :
Variable "cultura". Etiqueta: grado cultural. Opciones: 1: analfabeto. 2: est básicos. 3: est. medios, etc...
Ej. :
Variable hipertensión Opciones: 0: no hipertenso; 1: hipertenso.
3.1. MEDIDAS DE FRECUENCIA. Para estudiar las medidas de frecuencia (variables categóricas) seleccionamos "AnalizarÆEstadísticos descriptivosÆFrecuencias", apareciendo la ventana:
34
Tras introducir en el cajón de la derecha las variables que queremos analizar, picamos en aceptar y se obtiene información tabulada consistente en: Nombre de la variable analizada con su etiqueta, Frecuencia absoluta, Porcentaje, Porcentaje válido (teniendo en cuenta los casos perdidos, esto es, eliminando los casos en que se desconoce el valor que toma la variable),
y Porcentaje acumulado. Para la
variable sexo de nuestro trabajo obtendríamos esta tabla:
A partir de estos datos de frecuencias puedo obtener una representación gráfica, en este caso podría ser un histograma por ejemplo o un gráfico sectorial, seleccionando "GráficosÆBarrasÆ....Æ....Æ" O bien puedo recurrir a picar dos veces en la tabla de spss y con el botón derecho del ratón se movilizan recursos gráficos a elegir.
Dentro de la opción de frecuencias vemos que aparecen tres opciones claras para poder picar, a saber: estadísticos, gráficos, formato (ver figura más arriba). Si picamos en estadísticos podemos seleccionar aquellos que queremos que spss nos calcule, teniendo en cuenta que son aplicables cuando trabajamos con datos cuantitativos. Deberíamos desactivar la opción "mostrar tablas de frecuencias" en este caso para no obtener una lista interminable sin mucha utilidad.
35
ESTADISTICOS 1. PERCENTILES: Podemos elegir entre cuartiles, que dividen a la población en cuatro grupos, cada uno de ellos con un 25% de los casos, de modo que los percentiles 25, 50 y 75 corresponden respectivamente a los cuartiles primero, segundo y tercero.
2. MEDIDAS DE TENDENCIA CENTRAL. Nos permite el cálculo de la media, mediana, moda y suma. Veamos un ejemplo: para nuestra base de datos podemos calcular respecto de la variable altura, las medidas de tendencia central; para ello AnalizarÆEstadisticos DescriptivosÆFrecuencias ó Descriptivos.
36
y pulsando en aceptar obtendríamos la siguiente salida en el visor de resultados:
Observamos el valor de las cuatro medidas de tendencia central que hemos comentado previamente.
Si usamos la opción "descriptivos" en lugar de
"frecuencias" podemos obtener también el error estándar para las medidas calculadas, lo cual es de extrema importancia a la hora de presentar los datos, si bien esto ya es una medida de dispersión. 3. MEDIDAS DE DISPERSION. Permite obtener la desviación típica, varianza, mínimo y máximo, amplitud o rango y el error típico o estándar de la media. Seguimos los mismos pasos "picando" las casillas que hacen referencia a estas medidas. 4. DISTRIBUCION. Está constituida por dos estadísticos (Asimetría y Curtosis). La asimetría indica el sesgo de la distribución de modo que un valor positivo indica que los valores más extremos están por encima de la media y viceversa.
La
curtosis es el índice que indica el grado en que una distribución acumula casos en sus colas comparado con los casos que se acumulan en las colas de una distribución normal. Un valor positivo indica que en las colas se acumulan más casos que en la normal luego la curva es de distribución puntiaguda e índice próximos a cero indican una semejanza con la normal.
37
5. LOS VALORES SON PUNTOS MEDIOS DE GRUPO. Si la variable está agrupada por intervalos, con esta opción puedo calcular los índices de posición, mediana, percentiles etc. interpolando valores (considerando que los casos se distribuyen de forma homogénea dentro del intervalo).
GRAFICOS Cuando estamos calculando frecuencias, podemos obtener algunos gráficos tanto para las cuantitativas como cualitativas, picando en el botón "gráficos" del cuadro de diálogo "frecuencias".
Para la variable sexo podríamos pedir un gráfico de tipo sectorial, quedaría del siguiente modo:
38
3.2. DESCRIPTIVOS Vimos que con el procedimiento de "frecuencias" pudimos analizar tanto variables cualitativas como cuantitativas, aunque con ciertas limitaciones para estas últimas. El procedimiento "descriptivos" nos permite múltiples opciones para procesar variables de tipo cuantitativo.
Para llegar: AnalizarÆEstadísticos DescriptivosÆDescriptivos
Mediante el botón "opciones" llegamos al mismo sitio que antes en frecuencias, esto es, a las opciones de los estadísticos, sin cambios pues en este aspecto.
39
CAPITULO 4. TABLAS DE CONTINGENCIA. Es bastante habitual en medicina tener que realizar análisis de variables cualitativas con pocas categorías y dicotómicas. Variables como el sexo, tratamientos, etc. son variables que se comportan de este modo y a las que se recurre con frecuencia.
Para el análisis de dos variables categóricas nos interesa estudiar como se distribuyen los casos según las combinaciones de categorías de cada variable. Por ejemplo, si disponemos de la variable angor y la variable tabaquismo, podemos estudiar cual es la distribución del tabaquismo en el grupo que presenta angor y en aquel que no lo presenta; para todo esto lo ideal es expresarlo mediante una tabla de contingencia donde nos da lo mismo qué variable ocupe las filas y cual las columnas si se trata de variables independientes; para el caso de las v.a dependientes una de otra se suele colocar la v. independiente (ej. factor de riesgo) en las filas y la dependiente en columnas. En spss construimos una tabla de contigencia mediante el procedimiento AnalizarÆ Estadísticos descriptivosÆ Tablas de contingencia, con lo que llegamos a la siguiente ventana:
40
Vemos que las variables vuelven a quedar a la izquierda de la caja y que disponemos de dos ubicaciones, dos cajas en las que introducir la/s variables por filas o columnas según deseemos. Si queremos cruzar las variables de filas y columnas de acuerdo a alguna variable de agrupamiento introduciríamos esta última en la caja de "capas".
Siguiendo con nuestro fichero de ejemplo, podemos desear ver cual es la distribución del grado de obesidad según el sexo. Obviamente habremos de transformar un dato cuantitativo contínuo como es el IMC en una variable categórica (obeso/no obeso) para proceder a este análisis.
Actualmente se considera que según el IMC los pacientes pueden ser clasificados como obesos si tienen un IMC mayor de 29, por tanto puedo a partir de la variable IMC (cuantitativa) recodificar a una variable nueva, llamada obesidad, en función de este punto de corte para el IMC. Para ello seguir el procedimiento dictado en el apartado de "recodificación", teniendo en cuenta que IMC 0-29: no obesoÆ valor 0 y IMC>29 = obesoÆ valor 1. Ahora quiero saber
la distribución de la obesidad por sexos: AnalizarÆ
Estadísticos descriptivosÆ Tablas de contingencia
Tabla de contingencia obesidad * SEXO Recuento
obesidad Total
no si
SEXO mujer hombre 35 33 19 13 54 46
Total 68 32 100
Vemos que se obtiene una tabla 2x2 donde queda claro cuantos varones son o no obesos y cuantas mujeres son o no obesas, según un sentido de lectura de la tabla. Disponemos de cifras totales por columnas, por filas y el total global.
41
Además puedo pedir al programa que muestre el gráfico asociado picando en la casilla "mostrar gráficos de barras agrupadas", con el siguiente resultado:
Las tablas de contigencia nos permiten obtener, aún antes de entrar en los estadísticos específicos, muchos mas datos, veamos las opciones que se abren al picar
en
"casillas":
Podemos obtener las frecuencias de presentación las variables (observadas y esperadas sí se desea); el porcentaje de ocurrencia de los casos mostrado por filas, columnas y el total. Los residuales hacen referencia a la diferencia existente entre los valores observados y los esperados y pueden mostrarse bien de modo estándar (tipificados) o corregidos.
42
Picando en porcentajes por fila, columna y totales la tabla anterior queda ahora así: Tabla de contingencia SEXO * obesidad obesidad no SEXO
mujer
hombre
Total
Recuento % de SEXO % de obesidad % del total Recuento % de SEXO % de obesidad % del total Recuento % de SEXO % de obesidad % del total
35 64,8% 51,5% 35,0% 33 71,7% 48,5% 33,0% 68 68,0% 100,0% 68,0%
si 19 35,2% 59,4% 19,0% 13 28,3% 40,6% 13,0% 32 32,0% 100,0% 32,0%
Total 54 100,0% 54,0% 54,0% 46 100,0% 46,0% 46,0% 100 100,0% 100,0% 100,0%
4.1. ESTADISTICOS Una vez tenemos la tabla construida podemos empezar a entrever información pero no nos permite conocer si existe asociación entre las variables, para ello necesitaremos una prueba de significación, a la que se accede mediante el botón estadísticos, que da paso a esta pantalla:
43
Debemos hablar de asociación pero no de dependencia tras aplicar los estadísticos que veremos a continuación. Que exista asociación significa que dos hechos suceden juntos pero no necesariamente que un hecho dependa del otro de un modo directo. Generalmente cuando existe asociación, debajo suele existir algún elemento que relaciona ambos fenómenos aunque no puedo hablar de causalidad con este tipo de estudios. Más concretamente diremos que existe dependencia cuando ya somos capaces de decir que las variaciones de una de las variables quedan explicadas o provocadas por un segundo factor.
4.1.1 CHI CUADRADO DE PEARSON. Es el estadístico más usual en este tipo de tablas y se utiliza para determinar si hay o no asociación entre dos variables de carácter categórico. El test se basa en la comparación de las frecuencias observadas con las esperadas para un determinado fenómeno; la relación matemática entre los cuadrados de las diferencias de las frecuencias observadas y esperadas proporciona un valor para un determinado nivel de confianza y para los grados de libertad correspondientes. Si el valor calculado supera el que proporciona de modo teórico el Ji cuadrado se rechaza Ho (hipótesis nula) y concluimos que existe una relación o asociación entre las variables. El test no informa de cuan intensa es la fuerza de la asociación y se puede ver afectado por varios factores externos y factores de confusión.
Para aplicar este test es conveniente que: 1. Los datos procedan de muestras aleatorias de una distribución multinomial. 2. Los valores esperados no sean muy pequeños. Se recomienda que como mínimo existan 5 casos en cada celda (en caso de que haya menos de 5 pero más de 3 habría que aplicar la corrección por continuidad de Yates). Nota: Algunos autores recomiendan usar la corrección c. Yates siempre porque parece ser más sensible, de modo que si obtenemos significación tras aplicarla, es
44
porque de no haberla usado también la habríamos obtenido. Cuando se comparan proporciones entre dos grupos independientes no hace falta calcularla, porque de ser el número de casos menor de 5 en una celda, spss calcula automáticamente la prueba exacta de Fisher. Tanto la corrección de Yates como la prueba de Fisher nos las da el programa de modo automático cuando trabajamos con una tabla de contingencia con dos variables dicotómicas. Veamos como se presenta la tabla de contingencia entre las variables sexo
y
obesidad, variables ambas dicotómicas: Tabla de contingencia SEXO * obesidad obesidad no SEXO
mujer
hombre
Total
Recuento % de SEXO % de obesidad Residuos corregidos Recuento % de SEXO % de obesidad Residuos corregidos Recuento % de SEXO % de obesidad
35 64,8% 51,5% -,7 33 71,7% 48,5% ,7 68 68,0% 100,0%
si 19 35,2% 59,4% ,7 13 28,3% 40,6% -,7 32 32,0% 100,0%
Total 54 100,0% 54,0% 46 100,0% 46,0% 100 100,0% 100,0%
Obtenemos la tabla y hemos seleccionado las casillas de proporcionar % por filas y por columnas, con lo que aumenta el global de información obtenida. Bajo esta tabla, si hemos seleccionado "Chi cuadrado" aparece ya la siguiente con los resultados del estadístico y Chi y además el test de Fisher y Yates que nos vienen datos por defecto al ser variables dicotómicas como se mencionó antes. Observando la tabla vemos que el 40.6% de los obesos son varones y el 59.4% de los obesos son mujeres. La cuestión es ¿ambos porcentajes son realmente distintos o la diferencia que observo se debe solo al azar? Para responder a esto deberíamos aplicar el estadístico Ji cuadrado.
45
Pruebas de chi-cuadrado
Chi-cuadrado de Pearson Corrección por a continuidad Razón de verosimilitud Estadístico exacto de Fisher Asociación lineal por lineal N de casos válidos
1
Sig. asintótica (bilateral) ,459
,275
1
,600
,550
1
,458
Valor ,547b
,542
gl
1
Sig. exacta (bilateral)
Sig. exacta (unilateral)
,522
,301
,462
100
a. Calculado sólo para una tabla de 2x2. b. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 14,72.
Vemos que el Chi cuadrado proporciona una significación bilateral (dos colas) de 0.459 y como 0.459 > 0.05, entonces concluyo Ho, esto es, no existe asociación entre las variables sexo y obesidad. Además se calculó la corrección por continuidad y el exacto de Fisher, que de modo concordante, tampoco proporcionan significación estadística. La razón de verosimilitud es un estadístico que también se distribuye según una chi cuadrado y que se aplica para el estudio de variables categóricas cuando hay modelos log-lineales.
4.1.2 MEDIDAS DE ASOCIACION El problema que plantea el test es que la significación puede variar en función del número de grados de libertad y del tamaño de la muestra (a mayor tamaño muestral, más probabilidad de obtener significación). Otros estadísticos, conocidos como Medidas de Asociación, se diseñaron con la idea de obtener índices que fueran de 0 a 1 y que nos permitieran cuantificar la asociación y comparar así muestras diferentes. En resumen, se trata de medidas que pretenden disminuir la influencia que sobre el test de Chi tiene el tamaño de la muestra.
46
1. MEDIDAS DE ASOCIACION BASADAS EN EL CHI CUADRADO. A. Coeficiente Phi B. Coeficiente de Contingencia C. V. de Cramer 2. MEDIDAS BASADAS EN LA REDUCCION PROPORCIONAL DEL ERROR A. Lambda de Goodman y Kruskal B. Tau de Goodman y Kruskal C. Coeficiente de concordancia o Kappa de Cohen.
COEFICIENTE PHI En las tablas con dos v.a dicotómicas, toma valores entre 0 y 1. Si una variable tiene más de dos categorías puede tomar valores mayores de 1.
COEFICIENTE DE CONTINGENCIA Toma valores entre 0 y 1, pero es difícil que llegue a 1. Un valor de 0 indica independencia y cercano a 1 indica asociación. V. DE KRAMER Nunca excede de 1. En las tablas 2x2 toma el mismo valor que Phi. K es el menor del número de filas y columnas. LAMBDA DE GOODMAN Y KRUSKAL Tiene en cuenta la frecuencia de la categoría modal ( la más frecuente). Da valores entre 0 y 1. Según considere la fila como v.a independiente o dependiente, puedo calcular a partir de ella dos coeficientes (la lambda y la tau). Si no se cual es la independiente o dependiente, usar la versión simétrica del test. Lambda toma valores entre 0 y 1, el valor 0 indica que la va independiente no aporta nada en la reducción del error de predicción y 1 indica que el error de predicción se ha conseguido reducir por completo. TAU DE GOODMAN Y KRUSKAL Tiene en cuenta las proporciones de los marginales para determinar las probabilidades dentro de cada celda. Va de 0 a 1 y se acompaña de un error
47
asintótico luego puedo calcularle un intervalo de confianza. El significado de los valores 0 y 1 es el mismo que en lambda. COEFICIENTE DE CONCORDANCIA O KAPPA DE COHEN Se suele utilizar en los trabajos que pretenden evaluar el acuerdo entre dos observadores, por eso también se le llama "índice de acuerdo kappa". En resumen, dado un mismo fenómeno que es evaluado por dos observadores/jueces distintos, este estadístico me permite conocer la concordancia entre las aseveraciones de cada juez comparadas con las previsibles según el azar. Toma valores entre 0 (mínima concordancia) y 1 (máxima). El programa da un error estándar (EE) que permite construir un intervalo de confianza (IC).
Valores que toma: < 0.20: 0.21-0.40: 0.41-0.60: 0.61-0.80: 0.81-1:
muy debil débil moderada buena muy buena
48
4.2 ESTIMACION DE RIESGOS En ocasiones las variables se comportan como factor de riesgo una y como variable de resultado de fenómeno la otra de tal modo que la presencia de la primera va determine la aparición del resultado con una mayor frecuencia, es precisamente en este caso cuando decimos que se está comportando como un factor de riesgo. Veamos las medidas de que disponemos para estudiar riesgos: 1. RIESGO RELATIVO. Se utiliza en los estudios de cohortes. RR= IAe/IAo IAe: incidiencia en el grupo con el factor, expuesto IAo: incidencia en el grupo sin el factor, no expuesto El procedimiento de calculo seria: AnalizarÆEstadísticos descriptivosÆTablas de contingenciaÆ EstadísticosÆRiesgo. Es importante saber que el programa calcula el RR interpretando que la primera columna es la enfermedad y proporciona el RR de padecer la "V.A" ubicada en la primera columna de la tabla 2x2. Este detalle es importante a la hora de construir la tabla y, por supuesto, en el momento de interpretar el riesgo.
Valores: >1 indica que se trata de un F. de riesgo. <1 que se comporta como factor protector.
2. ODDS RATIO Se utiliza en los estudios de casos y controles. OR = Odds en grupo casos / Odds en grupo controles Para su cálculo, spss interpreta que los casos están en la primera fila y los controles en la segunda, así como que el factor de riesgo está en la primera columna y su ausencia en la segunda. La interpretación de sus valores es análoga al Riesgo Relativo. Si calculado el intervalo de confianza, el 1 estuviera incluido en él, nos indica que no existe significación. 49
50
CAPITULO 5. COMPARACION DE MEDIAS El estudio de las variables cuantitativas nos es fundamental en ciencias de la salud. La mayor parte de ellas se comportan como cuantitativas continuas y, cumpliendo ciertas condiciones, las variables biológicas puede decirse que en líneas generales siguen una distribución normal. Antes de realizar comparaciones entre varias muestras respecto de sus variables cuantitativas es conveniente realizar una análisis exploratorio, descriptivo, de dichas variables para posteriormente pasar al proceso de comparación. Bien mediante
el
procedimiento
estudiado
DescriptivosÆFrecuencias/Descriptivos
ya, o
esto
bien
es,
AnalizarÆEstadisticos
mediante
el
procedimiento
AnalizarÆEstadísticos descriptivosÆExplorar, podemos obtener unos datos iniciales muy valiosos respecto de las variables.
En nuestra base de datos vamos a iniciar la acción AnalizarÆEstadísticos DescriptivosÆExplorar para la variables altura y peso:
Vemos como además de introducir en el cajón de las
variables dependientes a
analizar, tenemos la posibilidad de controlar por algún factor de riesgo en la caja inferior. En el apartado gráficos podemos elegir entre histograma o tallo y hojas.
51
Si picamos en "estadísticos" se nos calculan los estadísticos univariantes fundamentales. Si picamos en el botón de estadísticos se nos ofrece además esta pantalla que nos permite especificar otros elementos.
Vemos el resultado obtenido para la descripción de ambas variables: Descriptivos Peso en Kg.
Altura (cm)
Media Intervalo de confianza para la media al 95% Media recortada al 5% Mediana Varianza Desv. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Curtosis Media Intervalo de confianza para la media al 95% Media recortada al 5% Mediana Varianza Desv. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Curtosis
Límite inferior Límite superior
Límite inferior Límite superior
Estadístico 73,33 70,03
Error típ. 1,67
76,63 72,71 73,00 277,334 16,65 39 116 77 23,00 ,469 ,064 167,78 165,72
,241 ,478 1,04
169,84 167,64 167,00 107,830 10,38 146 194 48 16,00 ,229 -,597
,241 ,478
52
Vemos como para ambas variables se nos describen una serie de estadísticos, tanto de tendencia central como de dispersión, además se nos proporciona el EE para algunos de ellos. Fundamental: nos da el intervalo de confianza para las medias¡¡¡
53
5.1 MEDIAS Mediante el procedimiento AnalizarÆComparar MediasÆMedias... puedo obtener estadísticos descriptivos para una variable independiente teniendo en cuenta los grupos definidos por otra/s variables dependientes. Así por ejemplo si quiero ver las medias para el peso en los grupos definidos por el sexo: AnalizarÆComparar MediasÆMedias y:
He introducido como variable dependiente el peso pues es la variable que "depende", que puede sufrir variaciones en función de otra que actúa como independiente, en este caso el "sexo". Se muestra el resultado que da spss para esta comparación: Informe Peso en Kg. Sexo Varón Mujer Total
Media 75,17 71,17 73,33
N 54 46 100
Desv. típ. 17,11 16,01 16,65
Como vemos nos da el peso medio para cada sexo, con su desviación típica, pero no entra aún en establecer si ambas medias son realmente diferentes o no de un modo estadístico.
54
Recordar: Dependientes: Las va que quiero analizar Independientes: Los factores que se comportan como v.independiente.
55
5.2 PRUEBA T PARA UNA MUESTRA Mediante esta prueba puedo contrastar hipótesis sobre la media poblacional, obtenida de la literatura, por ejemplo y ver si la media de mi muestra es o no distinta a ella. Supongamos que quiero saber en mi muestra si la altura media es o no distinta de 162 cm que es la media poblacional según la literatura. Entonces AnalizarÆComparar mediasÆ Prueba T para una muestra:
La salida de resultados es: Estadísticos para una muestra N Altura (cm)
100
Media 167,78
Desviación típ. 10,38
Error típ. de la media 1,04
Prueba para una muestra Valor de prueba = 162
Altura (cm)
t 5,566
gl 99
Sig. (bilateral) ,000
Diferencia de medias 5,78
95% Intervalo de confianza para la diferencia Inferior Superior 3,72 7,84
Por tanto vemos que en nuestra muestra la media para la v.a altura es de 167.78 cm con un EE de 1.04. Sabemos que la media poblacional es de 162 cms y es el valor a compara que introduce en la caja "valor de prueba". En la segunda tabla vemos que la significación es < 0.05, por tanto hay diferencias significativas. La diferencia
56
entre ambas medias es de 5.78 cm y para esta diferencia se establece un intervalo de confianza al 95% que va desde 3.72 cm a 7.84 cm.
57
5.3 PRUEBA T PARA DOS MUESTRAS INDEPENDIENTES Con esta prueba contrastamos la hipótesis de que las medias de dos poblaciones independientes son iguales. Generalmente la hipótesis nula que se contrasta es la que suele afirmar que las dos muestran tienen igual media porque proceden de la misma población. Cuando al realizar el contraste obtenemos significación (p<0.05) entonces rechazamos esta hipótesis nula (Ho) y aceptamos la alternativa (H1); esto es, que las medias son distintas tanto en cuanto que la probabilidad de que la diferencia hallada sea debida al azar es inferior al 5% (error alfa).
Para
comparar
procedimiento
medias
entre
dos
AnálisisÆComparar
muestras mediasÆ
independientes Prueba
T
seguimos
para
el
muestras
independientes, apareciendo el cuadro de diálogo siguiente:
En este caso, tal como vemos, si nos interesa saber si la presión sistólica inicial de nuestra población es igual en varones que en mujeres, procede una T de Student para datos independientes. En la caja "contrastar variables" se introduce la v.a de la cual quiero comparar su media, por tanto, la variable cuantitativa. En la "variable de agrupación" tengo que introducir una única variable cualitativa o cuantitativa. Después pulsamos el botón "definir grupos" e introducimos los valores que puede tomar la variable de agrupación (en nuestro caso asignamos el 0 a mujeres y 1 a varones). Luego aceptar...y obtenemos una comparación de medias de presión sistólica en varones y mujeres, tal que así:
58
Estadísticos de grupo
Presión sistólica inicial
Sexo Varón Mujer
N 54 46
Media 150,80 154,54
Desviación típ. 14,38 15,88
Error típ. de la media 1,96 2,34
59
Prueba de muestras independientes Prueba de Levene ara la igualdad de varianzas
F Presión sistólica Se han asumid 1,195 varianzas igua No se han asu varianzas igua
Sig.
t
,277 -1,238
Prueba T para la igualdad de medias 95% Intervalo de confianza para la Diferencia Error típ. de diferencia gl ig. (bilaterade mediasa diferenciaInferior Superior 98
,219
-3,75
3,03
-9,76
2,26
-1,228 91,814
,223
-3,75
3,05
-9,81
2,31
En la primera tabla obtenido encontramos el valor de la media, desviación típica y error standard para la v.a presión arterial sistólica en los dos grupos (varones y mujeres). A continuación encontramos una segunda tabla que consta de dos grandes apartados: 1. Test de Levene: Se trata de conocer en primer lugar si las varianzas en ambos grupos son iguales o distintas, para lo cual se aplica este test. Como vemos la significación en Levene es 0.277, o sea, mayor de 0.05, por tanto no significativo, luego las varianzas son iguales.
Conocido que las varianzas entre grupos son iguales ya se que en la prueba T (parte derecha de la tabla) tengo que leer sólo la columna "se han asumido varianzas iguales" y, leyendo esta columna veo que la significación p= 0.219 (>0.05) y por tanto no existen diferencias significativas de la pas inicial en ambos grupos. Nos proporciona la tabla, además un intervalo de confianza para la diferencia de las medias halladas, en este caso el intervalo es [-9.76,2.26] y, como vemos, incluye al cero al no ser significativo el contraste (no incluirá al cero cuando el contraste sea significativo).
60
5.4 PRUEBA T PARA DOS MUESTRAS APAREADAS Se aplica cuando los valores que toma la variable son medidos en la misma muestra pero en dos momentos distintos. En la base de ejemplo tenemos el dato "tensión arterial sistólica inicial" y "tas_final", esto es, tras tomar un tratamiento. Se trata de una misma muestra, pero existen valores antes y después de la toma del medicamento. La comparación de medias bajo la premisa de medir la misma variable antes/después se realiza mediante la T de Student para datos apareados.
El procedimiento es AnalizarÆComparar mediasÆT para muestras relacionadas, obteniendo el cuadro de dialogo siguiente:
Hemos introducido las variables pas_ini y pas_fin en la caja de la derecha, posteriormente aceptar y se obtiene el resultado siguiente:
Estadísticos de muestras relacionadas
Par 1
Presión sistólica inicial Presión sistólica final
Media 152,52 149,86
N 100 100
Desviación típ. 15,13 16,63
Error típ. de la media 1,51 1,66
61
Prueba de muestras relacionadas Diferencias relacionadas 95% Intervalo de confianza para la diferencia DesviaciónError típ. de Media la media Inferior Superior típ. Par 1 Presión sistólica in - Presión sistólica
2,66
9,02
,90
,87
4,45
t 2,948
gl
Sig. (bilateral 99
,004
En la primera tabla vemos la media de ambas variables con su DT y EE. En la tabla inferior se presenta la significación para la diferencia (en este caso 0.04, sí significativo); la media para el valor de la diferencia [diferencia media] (2.66) acompañada de su EE (0.90) y el intervalo de confianza para la media de las diferencias halladas. Por tanto en este ejemplo podemos decir que existen diferencias significativas en la presión arterial
antes y después de tomar el
fármaco, que la media de las diferencias es de 2.66 mmHg con un EE 0.90, IC al 95% [0.87-4.45]. Notemos que el IC no incluye al valor 0 y de ello se desprende ya que existe significación.
62
CAPITULO 6. ANALISIS DE LA VARIANZA. Para la comparación de medias cuando tenemos más de dos muestras a analizar hemos de realizar un análisis de la varianza (ANOVA). Este procedimiento permite comparar las medias de varias muestras para saber si pertenecen o no a la misma población. En este capítulo nos referiremos exclusivamente al análisis univariante. Son requisitos indispensables para aplicar el ANOVA que la distribución de las muestras a analizar sea normal y que todas tengan la misma varianza.
A la variable categórica u ordinal que define los grupos la llamaremos variable independiente o "factor" y a la variable cuantitativa la llamaremos variable de respuesta o variable dependiente.
V.A. cualitativa/categórica/ordinalÆ V. Independiente = Factor V.A. cuantitativa-Æ Variable Dependiente = Variable de respuesta Según este procedimiento, la hipótesis nula asumiría que las medias de todas las muestras son iguales y la alternativa, que son distintas, y por ende, asumiríamos que proceden de poblaciones diferentes.
La variabilidad que se presenta en el ANOVA puede corresponder a dos conceptos distintos; de un lado tenemos la denominada "variabilidad intragrupo" que hace referencia a si existe o no variabilidad dentro de cada grupo con respecto de la media del mismo; de otro lado, la "variabilidad entre grupos" es la variabilidad entre las medias de los distintos grupos a analizar.
63
Para realizar un ANOVA de un factor con SPSS sigamos el procedimiento AnalizarÆ Comparar MediasÆAnova de un factor..., obteniendo la ventana siguiente:
Vemos las dos cajas fundamentales, la superior, donde introduciremos la variable dependiente (la cuantitativa, de respuesta) y más abajo la caja de "factor" donde introduciremos la variable independiente y cualitativa. Tomando como ejemplo nuestra base de datos hta.sav, podríamos realizar un ANOVA para conocer si existen diferencias en la presión arterial sistólica inicial en función del nivel de tabaquismo (en 5 categorías este último).
Analicemos las diferentes opciones que nos brinda el cuadro de diálogo para ANOVA en la figura previa: a. Contrastes: Picando en esta opción podemos especificar el tipo de contraste que queremos se realice entre las medias. 64
b. Post hoc...: Este botón nos permite marcar todos los tests que queremos se realicen para verificar si hay igualdad entre las diferentes medias si bien todos ellos realizan una comparación múltiple por pares, aunque utilizando métodos distintos para la corrección del error inherente a la comparación. Al señalar este botón accedemos a la siguiente pantalla:
Tras seleccionar el/los tests que queremos realizar, podemos indicar de nuevo en la pantalla primera la caja de "opciones", lo que da paso a la siguiente pantalla, donde puedo indicar que calcule los descriptivos, realice un contraste de homogeneidad de varianzas, etc...
65
CAPITULO 7. TEST NO PARAMETRICOS. En ciencias biológicas la mayor parte de las variables sigue una distribución normal, lo cual facilita en extremo el uso de la mayor parte de las técnicas estadísticas; no obstante es labor nuestra asegurarnos y confirmar que, efectivamente, las variables que vamos a utilizar en nuestros análisis siguen dicha distribución normal y, en caso contrario, tendremos que recurrir a los denominados contrastes no paramétricos. En este capítulo nos ocuparemos primero de los contrastes que nos permiten conocer si una variable se distribuye o no de un modo normal y, a continuación, veremos cuales son los principales test no paramétricos que podría utilizar en función de las comparaciones que deseemos realizar. En la tabla siguiente representamos los principales test no paramétricos, o cuando menos, los de uso más frecuente.
1 muestra 2 muestras independientes k muestras independientes 2 muestras relacionadas k muestras relacionadas
V.A. Categórica Chi cuadrado Chi cuadrado Chi cuadrado McNemar (dicotómica) Q de Cochran
V.A.Ordinal/Cuantitativa Kolmogorv Mediana Mann-Whitney Mediana Kruskall-Wallis Signos Wilcoxon Friedman W de Kendall
66
7.1. Test de Kolmogorov-Smirnov Este test pretende permitirnos conocer si una variable se distribuye de un modo normal, lo cual nos permitirá posteriormente elegir adecuadamente los contrastes a utilizar aunque, en sentido estricto, también nos daría información de si la distribución de datos se ajusta a otras como una Poisson, uniforme, etc. En primer lugar seleccionamos AnalizarÆPruebas no paramétricasÆ K-S de 1 muestra lo que nos da paso al cuadro de diálogo que exponemos en la figura
Como vemos se trata de contrastar la distribución de datos de nuestra variable, con las diferentes opciones que nos brinda SPSS, que abajo y a la izquierda en el cuadro de diálogo, son la Nomral, Poisson, Uniforme o Exponencial. Pasamos a la caja de "contrastar variable" aquella que queremos que sea examinada, en nuestro caso podríamos introducir y, de no indicar nada, por defecto el contraste lo realiza sobre la Normal. El contraste que realizamos es H0≡la variable a examen y la variable normal no difieren en su distribución vs H1≡la variable a examen y la variable normal sí difieren en su distribución; por tanto, si en la significación asintótica (bilateral) que obtendremos en los resulados obtenemos una p<0.05 concluiremos H1 y diremos que no se distribuye siguiendo la normal. Si por el contrario obtenemos para la/s 67
variable/s significaciones > 0.05 entonces sí que podemos trabajar con ellas con la tranquilidad de que siguen una distribución normal. Si queremos saber en nuestro ejemplo si siguen una distribución normal las variables altura, edad, númro de cigarrillos e índice de masa corporal, las incluimos en el cuadro de diálogo de "contrastar variables" como vimos más arriba, dejando marcada la opción "normal" que viene por defecto y obtenemos el siguiente resultado:
Prueba de Kolmogorov-Smirnov para una muestra
N Parámetros normales a,b
Diferencias más extremas
Media Desviación típica Absoluta Positiva Negativa
Z de Kolmogorov-Smirnov Sig. asintót. (bilateral)
ALTURA 100 167,78
indice masa corporal 100 25,9685
años cumplidos 100 43,05
NCIGARR 100 4,71
10,384
4,92372
9,680
6,227
,071 ,071 -,041 ,711 ,693
,077 ,067 -,077 ,773 ,588
,089 ,089 -,081 ,891 ,406
,255 ,255 -,225 2,553 ,000
a. La distribución de contraste es la Normal. b. Se han calculado a partir de los datos.
Observamos que la significación bilateral para las tres variables es mayor de 0.05, del nivel crítico, por tanto se distribuyen de un modo normal todas excepto la variable "número de cigarrillos".
7.2 TEST DE MANN-WHITNEY Para comparar dos muestras independientes cuando estas no siguen una distribución normal y estas son de tipo cuantitativo u ordinal, usaremos el test no paramétrico de Mann-Whitney Supongamos que deseamos conocer si hay diferencias en el número de cigarrillos fumados en función del sexo. Se trata de comparar dos muestras independientes pero donde la variable a contrastar "numero de cigarrillos" sabemos que no sigue una distribución normal. Para ello AnalizarÆPruebas no paramétricasÆ2 muestras
68
independientes, y obtenemos el cuadro de diálogo siguiente, introduciendo las variable número de cigarrillos en la caja "contraste de variables" y la variable de agrupación que en nuestro caso es el sexo, no olvidando definir los grupos, en este caso sexo, según los valores 0 y 1 que asignamos inicialmente:
Notemos que además de la U de Mann-Whitney podemos seleccionar otros contrastes no paramétricos como la Z de Kolmogorov Smirnov o el test de Rachas de Wald Wolfowitz, etc. El resultado obtenido al ejecutar el cuadro de diálogo anterior es el siguiente:
Estadísticos de contrastea
Rangos
ALTURA
SEXO mujer hombre Total
N 54 46 100
Rango promedio 54,04 46,35
Suma de rangos 2918,00 2132,00
U de Mann-Whitney W de Wilcoxon Z Sig. asintót. (bilateral)
ALTURA 1051,000 2132,000 -1,322 ,186
a. Variable de agrupación: SEXO
Como el nivel crítico, la significación asintótica bilateral obtenida (0.186) es mayor de 0.05 concluimos H0, esto es, no hay diferencias en el número de cigarrillos en ambos grupos. Como observamos el procedimiento está basado (observemos la tabla de la izquierda) en calcular las medias de los rangos para cada muestra y
69
posteriormente el programa contabiliza el número de veces que preceden los rangos de una muestra a los de la otra.
7.3 TEST DE WILCOXON Si deseamos comparar dos muestras relacionadas o pares de variables cuantitativas u ordinales, realizaremos el test de Wilcoxon. Especificamos la secuencia de orden AnalizarÆPruebas no paramétricasÆ2 muestras relacionadas y accedemos al siguiente cuadro de diálogo:
Vemos que también nos permite realizar el test de Signos y el McNemar. El Test
de signos básicamente contabiliza el número de diferencias que se dan entre ambas variables, tanto positivas como negativas, y a partir de su diferencia proporciona la comparación entre ambas. El Mc Nemar lo estudiaremos en el próximo apartado. Retomando nuestro ejemplo, si deseamos contrastar la presión arterial sistolica inicial y final (suponiendo que fueran variables de distribución no normal), las introduciríamos en la caja de "contrastar pares" y obtendríamos el siguiente resultado:
70
Rangos N PAS_FIN - PAS_INI Rangos negativos Rangos positivos Empates Total
55a 37b 8c 100
Rango promedio 51,93 38,43
Suma de rangos 2856,00 1422,00
a. PAS_FIN < PAS_INI b. PAS_FIN > PAS_INI c. PAS_INI = PAS_FIN
Estadísticos de contrasteb
Z Sig. asintót. (bilateral)
PAS_FIN PAS_INI -2,796a ,005
a. Basado en los rangos positivos. b. Prueba de los rangos con signo de Wilcoxon
En la ventana de resultados podemos ver el número de empates y rangos, así como la
significación; en este caso concreto concluimos H1, esto es, hay diferencias
entre las variables analizadas por pares en este caso.
7.4. TEST DE McNEMAR Cuando las variables a contrastar son dicotómicas podemos usar el test de McNemar (sólo en este caso), permitiéndonos pues la comparación de frecuencias y porcentajes obtenidos de dichas variables. Suponiendo en nuestro ejemplo que la variable obesidad no siguiera una distribución normal, la comparación para determinar si la proporción de obesos antes y después de un tratamiento difiere, podría hacerse mediante este test.
7.5. TEST DE KRUSKAL-WALLIS Se utiliza para la comparación de varias muestras con objeto de determinar si proceden o no de la misma población, cuando se consideran como independientes.
71