Udocente MFyC Sector Zaragoza 1
“DISEÑO DE UNA BASE DE DATOS. ANÁLISIS E INTERPRETACIÓN DE LOS RESULTADOS”
1
2
EDITORES: BARTOLOME MORENO, CRUZ VALDEARCOS ENGUテ好ANOS, SANTIAGO
EDITA: UNIDAD DOCENTE DE MEDICINA FAMILIAR Y COMUNITARIA SECTOR ZARAGOZA I. IMPRIME: Unidad Docente de MFyC SECTOR Zaragoza I. Zaragoza. Junio 2010. DEPOSITO LEGAL: Z-2525-10
3
CONSIDERACIONES PREVIAS Durante el proceso de investigación en el área de ciencias de la salud, debemos siempre aplicar con rigurosidad el método epidemiológico como expresión final del original método científico, siguiendo una a una cada una de sus fases, que no son objeto de este manual, pero del cual tomaremos diferentes aspectos para el desarrollo completo de nuestros estudios. El objetivo principal que vamos a tener va a ser el de analizar una serie de datos que hayamos recabado en cualquiera de aquellos estudios de investigación en los que participemos, para lo cual nos ayudaremos de una herramienta estadística importante y potente, como es el programa SPSS®. Para poder llegar a utilizar el recurso estadístico nos encontramos ante una premisa o requisito en extremo importante, haber realizado una recogida y codificación de los datos fiable y sin errores, por lo que abordaremos algunos de los pasos más importantes necesarios. Hay que tener en cuenta que cualquier programa estadístico analiza datos y da resultados, sin tener en cuenta la calidad de los mismos, por lo que dependerá de nosotros realizar el correcto control de calidad y filtración, para no dar por buenos resultados erróneos desde su inicio. Sirva como comparativa el que para que un edificio sea correctamente ejecutado, se precisa de un diseño y estudio previo exento de errores que llevarían a la defectuosidad y el riesgo humano. Si tenemos en cuenta que nuestros estudios de investigación pueden ser publicados en revistas de impacto y servir de base a otros estudios, hay que aplicar con rigor todos los medios a nuestro alcance para la rigurosidad y metodología. En este manual hemos optado por dar unas nociones teóricas básicas necesarias, para después, por medio de ejercicios prácticos, aprender la utilización, manejo e interpretación de resultados con el programa SPSS de una forma básica, sin pretender abarcar todas sus posibilidades completas. La forma de aplicación de cada técnica estadística según sus tipos de variables a analizar y/o comparar, será determinante para trasladar
4
dicho aprendizaje a cualquier otro estudio con variables de características similares. Hay que tener en cuenta que en algunas ocasiones tendremos que analizar y ofrecer resultados de bases de datos ya existentes, en otras ocasiones seremos nosotros los que realicemos la recogida de datos directamente desde la historia clínica o por medio del paciente, para lo cual diseñaremos una serie de cuestionarios o plantillas de recogida de datos que luego trasladaremos a nuestra base de datos, sea o no el mismo programa estadístico. Además, se nos puede presentar la posibilidad de utilizar cuestionarios ya existentes y que después de recogidos todos los datos de sus variables predefinidas, tengamos que introducir en nuestro programa estadístico o de base de datos para su posterior análisis. Un programa estadístico como SPSS nos ofrece todas las posibilidades contempladas en el uso de cuestionarios, bases de datos y análisis de los mismos, así como la presentación de resultados, informes y gráficos. Es por ello que nos basaremos en él preferentemente para su aprendizaje básico.
RESUMEN TIPOS DE ESTUDIOS Antes de iniciar cualquier investigación, hay que decidir según los objetivos el estudio más adecuado. Con un estudio EXPERIMENTAL, el investigador tiene el control sobre el factor de estudio. Son los que mejor permiten estudiar la relación causa-efecto. El más empleado es el ENSAYO CLÍNICO ALEATORIO. Con un estudio NO EXPERIMENTAL U OBSERVACIONAL, el investigador no controla el factor de estudio, sino que pasa a ser un mero observador. Pueden ser meramente descriptivos como el TRANSVERSAL, o bien analíticos, como los de COHORTES y CASOS-CONTROL. Con el de cohortes podemos calcular incidencia y prevalencia. Con el de casos-control estudiaremos enfermedades poco frecuentes o con largo periodo de latencia. No permiten calcular incidencia o prevalencia pero sí riesgos. Con los transversales podremos calcular la prevalencia en la población pero no la relación causa-efecto debido a la falta de secuencia temporal.
5
En nuestro caso elegiremos muestras de estudios diferentes, para poder realizar acciones descriptivas y en otros buscar una relaci贸n causaefecto.
6
PRIMERA PARTE: DISEテ前 DE BASES DE DATOS
7
1
DEFINICION DE VARIABLES
Una variable es cada uno de los caracteres o aspectos que se registran en una muestra de individuos. Medir es asignar valores a las variables del estudio. La forma de medir las variables va a determinar el análisis matemático, estadístico, de las mismas. A la hora de poner el nombre a las variables, tendremos en cuenta que luego para introducirlas en SPSS, el nombre tiene que tener como mucho 8 caracteres en total, incluidos los espacios, y que no permite signos del tipo de ª, º, etc. Existen varias escalas de medida: 1.- Cualitativas: Miden una característica en término de cualidad, nunca de forma numérica. Cada uno de los valores que puede tomar la variable se llama categorías. Pueden ser: - Escala nominal: Determina la igualdad o desigualdad de los individuos. En SPSS al definir la medida buscaremos: nominal.
Ejemplos: Sexo: masculino/femenino. Fumador: Sí/No. Clasificación Internacional de Enfermedades - Escala ordinal: Determina el orden de los individuos de “mayor”, “menor” o “igual que”. En SPSS al definir la medida buscaremos: ordinal.
8
Ejemplos:
Consumo de Tabaco: no fumador, fumador moderado, fumador importante. Cantidad de dolor: poco, moderado, intenso. Si las variables cualitativas tienen solo dos categorías variable cualitativa dicotómica, y si tiene más de dos, variable politómica. 2.- Cuantitativas: Miden una característica de forma numérica. En SPSS al definir la medida buscaremos: escala.
- Discretas o discontinuas: Entre dos valores consecutivos no existe otro valor.
Ejemplo: Número de hijos. Número ordenadores - Continuas: Entre dos valores consecutivos se pueden encontrar infinitos valores. Ejemplo: Peso, glucemia, etc.
¡OJO! aunque a priori datos como el código postal podrían clasificarse como cuantitativos y por lo tanto lo definiríamos como escala en SPSS, sin embargo estaría mal clasificada, puesto que SPSS la considera como nominal ya que no es estrictamente cuantitativa por no hacer cálculos con ella, no tiene sentido sumarla, restarla etc., no tiene sentido en resumen tratarla como un número. Lo mismo pasaría con el número de historia clínica.
9
IMPORTANTE ¿Cuántas variables tenemos que definir en un estudio? Recogeremos exclusivamente aquellas variables necesarias para el análisis y no otras ampliando el número de forma indiscriminada, ya que sólo se consigue enlentecer y encarecer el estudio.
10
2
RECOGIDA DE DATOS
La forma más correcta y útil es a través de la creación de un formulario específico adaptado a las variables que vamos a recoger. Como ejemplo vemos el reflejado en la Figura 1. Fecha nacimiento: Sexo:
Hombre
NºSS: Mujer
Nivel de estudios: sin alfabetizar sabe leer y escribir EGB/Estudios primarios BUP/FP1-FP2/Estudios secundarios FP3/Diplomaturas de grado medio Universitarios
Estado civil: Soltero Casado/vive en pareja Viudo Separado/divorciado
PESO:
TALLA:
Fumador: SI NO Nº cig/día: Intentos previos: SI NO ¿cuántos? ¿sólo/ ayuda médico? ¿utilizó tto para dejarlo? SI NO CHICLES- PARCHES- OTROS FIGURA1.
Exfumador: SI NO Nº cig/día: Intentos previos: SI NO ¿cuántos? ¿sólo/ ayuda médico? ¿utilizó tto para dejarlo? SI NO CHICLES- PARCHES- OTROS
Vemos que la edad se recogerá como fecha de nacimiento para evitar errores de cálculo. Por lo tanto tendremos que crear una nueva variable, la variable FECHANAC que se refiere a la fecha de nacimiento de la persona incluida en el estudio. A partir de ésta variable, "a posteriori", calcularemos la variable EDAD (explicaremos mas adelante como hacerlo). Cuidado con el sexo, se recomienda poner el término completo puesto que aunque sea terminología poco usada pero la H podría ser hombre o hembra, la M mujer o masculino, y tenemos que tener mucho cuidado con las interpretaciones libres, alguien incluso podría añadir la V de varón, ponerlo en símbolo, por eso se recomienda hacerlo con pregunta cerrada y sin dejar espacio para la imaginación para evitar errores posteriores. Tanto en el nivel de estudios como en el estado civil se han creado preguntas de respuesta cerrada para favorecer el análisis al limitar el nº de respuestas.
11
Como se ha comentado anteriormente, también se pueden utilizar cuestionarios ya existentes y validados, como por ejemplo el test de Glasgow y lo que haremos será crear una variable para cada una de las preguntas del cuestionario:
Apertura ocular' (E) • • • •
Espontánea:'4 ' Estímulo verbal (al pedírselo):'3 ' Al Recibir un Estímulo doloroso:'2 ' No responde:'1 ' 'Respuesta verbal' (V) • Orientado:'5. ' • Confuso:'4 ' • Palabras inapropiadas:'3 ' • Sonidos incomprensibles:'2 ' • No responde:'1 ' 'Respuesta motora' (M) • Cumple Órdenes Expresadas por voz:'6 ' • Localiza el Estímulo doloroso:'5 ' • Retira ante el Estímulo doloroso:'4 ' • Respuesta en flexión (postura de decorticación):'3 ' • Respuesta en extensión (postura de descerebración):'2 ' • No responde:'1 Variables: apertura ocular, respuesta verbal y respuesta motora.
IMPORTANTE A la hora de seleccionar las variables tendremos siempre en cuenta que hay que recogerlas de la manera que aporten mayor información y por ello siempre que sea posible serán cuantitativas.
12
3
TRANSFORMACION E INTRODUCCION DE VARIABLES EN LA MATRIZ
Para luego poder analizar los datos en SPSS o cualquier programa estadístico, hay que transformar el texto recogido en números que el ordenador pueda entender. Se suelen utilizar números enteros empezando por el 1 y evitando el 0 (el cero se suele reservar por acuerdo internacional para representar la ausencia de respuesta), así, aunando nuestro primer ejemplo de cuestionario de recogida de datos y el de la escala de Glasgow tendríamos: FECHA = se puede introducir en formato fecha. FECHANAC= igual que la anterior EDAD = Nº entero sin decimales SEXO = Hombre: 1 y Mujer: 2 NCIG (Nº cigarrillos) = Nº entero sin decimales ESTUDIOS = sin alfabetizar: 1 Sabe leer y escribir: 2 EGB/ Estudios 1º: 3 BUP/FP1-FP2/Estudios 2º: 4 FP3/ Diplomaturas de grado medio: 5 Universitarios: 6 ESTCIVIL = soltero: 1 Casado/vive en pareja: 2 Viudo: 3 Separado/divorciado: 4 ABAND = Si: 1 y No: 2 AYUDFCO = Si: 1 y No: 2 AYUDMED = Si: 1 y No: 2 PESO= Nº entero con 2 decimales TALLA= Nº entero con 2 decimales ROCULAR= Espontánea:'4 ' Estímulo verbal (al pedírselo):'3 ' Al Recibir un Estímulo doloroso:'2 ' No responde:'1 ' RVERBAL= Orientado:'5. ' Confuso:'4 ' Palabras inapropiadas:'3 ' Sonidos incomprensibles:'2 ' No responde:'1 RMOTORA= Cumple Órdenes Expresadas por voz:'6 ' Localiza el Estímulo doloroso:'5 '
13
Retira ante el Estímulo doloroso:'4 ' Respuesta en flexión (postura de decorticación):'3 ' Respuesta en extensión (postura de descerebración):'2 ' No responde:'1 El siguiente paso sería crear una matriz de datos en SPSS; cuando abrimos SPSS automáticamente se abre la pantalla EDITOR DE DATOS y sobre ella un cuadro de diálogo con distintas opciones, nosotros elegiremos INTRODUCIR DATOS y ACEPTAR.
Nos encontraremos con una ventana de datos en la que aparecen 2 pestañas en la zona inferior derecha, una con la “vista de datos” y otra con la “vista de variables”. En la primera observaremos los datos en formato tabla ya conocido, a modo de Excel o Access. Cada fila representa una persona de la muestra seleccionada (aparecen numeradas de forma automática a partir de 1) y en cada columna se reflejarán todas las variables recogidas en el estudio referentes a esa persona (inicialmente saldrá la etiqueta “var”).
14
En la pestaña “vista de variables”, la segunda, observaremos las variables que vamos a definir para cada estudio con cada una de sus características particulares y definitorias.
Al igual que existe esta ventana de datos, que reconoceremos por la extensión “sav” en SPSS hay que conocer los otros
15
tipos de ventanas con los que tendremos que trabajar, y que explicaremos a continuación. Ventana de sintaxis: La reconoceremos por tener la extensión “sps”. Todas las acciones que se generan en SPSS al ir seleccionando en el menú y sus diferentes opciones como codificar, definir, transformar, analizar, y otras, tienen su correspondencia en la denominada “sintaxis”, que es el lenguaje de programación, por decirlo así, de éste programa estadístico, por ello cada vez que demos una orden podemos seleccionar dos formas de ejecutarla, bien directamente mediante la opción “aceptar”, con lo que nos ejecutará la orden sin mas y no es nada recomendable, bien mediante la orden “pegar”, con lo que te abrirá la pantalla de sintaxis, lo seleccionaremos y la ejecutaremos. Aunque a priori parece que ésta última es mas complicada es la mejor opción y la que os recomendamos hacer siempre, ya que aunque en el momento hacemos en dos veces lo que desde el comando “aceptar” haces en una, en cambio te puede simplificar mucho el trabajo cuando trabajas con grandes bases de datos o con análisis repetitivos en los que solo hay que cambiar una variable, desarrollaremos este tema posteriormente en cada apartado:
De igual manera, cuando ejecutemos las acciones que nos lleven a realizar el análisis estadístico, tendremos como consecuencia una nueva ventana en la que veremos los resultados obtenidos, los gráficos, etc...
16
Esta ventana se llama visor de resultados, la reconoceremos por tener la extensión “spo” y la veremos con el siguiente aspecto:
Una vez repasado las distintas pantallas que nos podemos encontrar en el programa, vamos a retomar nuestras variables, teníamos ya realizado el trabajo de campo y el montón de cuestionarios listos para ser introducidos en el programa estadístico. Vamos primero a crear nuestra base de datos en la que posteriormente iremos introduciendo para cada sujeto todas las variables que queremos estudiar. Primero iremos a la pestaña “vista de variables”, Para comenzar cambiaremos la etiqueta “var” que define a cada una de las variables por el nombre con el que queramos asignar a las variables de nuestro estudio. Así para introducir la variable FECHA, colocaremos el cursor en la primera columna de la primera fila, y escribiremos el nombre de la variable: FECHA. En el recuadro TIPO elegiremos la opción FECHA y dentro de ésta la forma que nosotros queremos, en este caso será de la forma: dd.mm.yyyy. Recomendamos este formato para evitar el tener que “interpretar” si un registro con la fecha 14-09-09 es un niño de 2009 o bien un anciano de 1909. Cuando lo tengamos damos a ACEPTAR.
17
FECHANAC: Semejante a la anterior, tras ponerle el nombre, en el recuadro TIPO elegiremos la opción FECHA y dentro de ésta la forma que nosotros queremos, en este caso será de la forma: dd.mm.yyyy. Cuando lo tengamos damos a ACEPTAR. EDAD: Tras ponerle el nombre, haremos un clic sobre el recuadro TIPO, que nos permitirá describir nuestra variable (en este caso numérica), decir cuantos dígitos (ancho) puede llegar a tener como máximo (en nuestro caso 3, puesto que la variable edad puede constar de unidades, decenas o centenas) y si queremos expresarla o no con decimales (en nuestro caso pondremos cero decimales, ya que la edad lo expresaremos como número entero sin decimales...). Cuando terminemos daremos a ACEPTAR. Después haremos un clic sobre el recuadro ETIQUETAS, que nos permite poner el nombre completo de la variable. Definimos ahora la MEDIDA de la variable, en este caso ESCALA, pudiendo elegir entre ésta, ordinal o nominal, según el tipo de variable, aunque la mayor parte de las ocasiones no tiene trascendencia esta elección, en las últimas versiones del programa se tiende a que si la información que introduzcas en este campo te puede luego limitar el análisis para intentar minimizar los errores en la etapa de análisis de resultados. SEXO: En el recuadro ETIQUETAS, ponemos en primer lugar el nombre completo de la variable, en nuestro caso SEXO, y después vamos a definir los valores y el nombre de cada valor, así en nuestro caso, hemos designado el valor 1 a los hombres y el 2 a las mujeres, para introducir ésto, lo haremos de las siguiente manera: donde pone VALOR escribimos 1, donde pone ETIQUETA DE VALOR, ponemos hombre y damos a AÑADIR. A continuación donde pone VALOR escribimos 2, donde pone
18
ETIQUETA DE VALOR, ponemos mujer y damos a AÑADIR y después a ACEPTAR.
En la columna Medida, seleccionaremos nominal, puesto que se trata de una variable cualitativa. Para introducir la variable NÚMERO DE CIGARRILLOS, con el nombre NCIG, escribiremos el nombre de la variable: NCIG.
Después haremos un clic sobre el recuadro TIPO, que nos permitirá describir nuestra variable (en este caso numérica), decir cuantos dígitos (ancho) puede llegar a tener como máximo (en nuestro caso 2, puesto que la variable número de cigarrillos puede constar de unidades o decenas) y si queremos expresarla o no con decimales (en nuestro caso pondremos cero decimales, ya que el número de cigarrillos lo
19
expresaremos como número entero sin decimales...). Cuando terminemos daremos a ACEPTAR. Después haremos un clic sobre el recuadro ETIQUETAS, que nos permite poner el nombre completo de la variable, en nuestro caso: etiqueta de variable: NÚMERO DE CIGARRILLOS.
Después haremos un clic sobre el recuadro valores perdidos, en este caso, para nuestra variable NCIG, lo que nos interesa es que no haya valores perdidos, sino tener el número de cigarrillos de todas las personas incluidas en la muestra, por lo que haremos un clic sobre "sin valores perdidos".
Hay que tener en cuenta que en pequeños estudios no deben haber valores ausentes o perdidos, pues siempre podemos recuperar la fuente de datos para completar el ausente. Además, en determinadas ocasiones, si aceptamos valores perdidos, habrá que analizar su distribución, número, etc., como si se tratara de una variable más, dado que un número elevado de ellos, puede invalidar un estudio. Hay que tener además que prever errores en la codificación si se trata de grandes estudios, por lo que se pueden indicar rangos de valores que pueden considerarse como perdidos. No obstante, este tipo de análisis queda fuera de los objetivos de este manual.
20
Después haremos un clic sobre el recuadro COLUMNAS, que nos permite diseñar la matriz de datos ya que nos permite definir el ancho de la columna y luego la Alineación del texto dentro de ella.
Definimos ahora la MEDIDA de la variable, en este caso ESCALA, pudiendo elegir entre ésta, ordinal o nominal, según el tipo de variable, aunque la mayor parte de las ocasiones no tiene trascendencia esta elección, en las últimas versiones del programa se tiende a que si la información que introduzcas en este campo te puede luego limitar el análisis para intentar minimizar los errores en la etapa de análisis de resultados.
El resto de opciones que nos resta los podemos aplicar en otras variables, como veremos a continuación.
IMPORTANTE Muy importante dar siempre a añadir, lo que no lo pasemos mediante el comando añadir no quedará reflejado posteriormente.
El resto de las variables, las iremos introduciendo de igual modo, de forma que cada una ocupe una columna contigua, con algunas peculiaridades: ESTUDIOS: será similar a la variable sexo, pero en este caso en el recuadro ETIQUETAS, los VALORES y sus correspondientes ETIQUETA DE VALOR serán: 1: sin alfabetizar 2: Sabe leer y escribir
21
3: EGB/ Estudios 1º 4: BUP/FP1-FP2/Estudios secundarios 5:FP3/ Diplomaturas de grado medio 6: Universitarios En la columna medida seleccionaremos ordinal, puesto que hay un orden en las categorías de la variable.
ESTCIVIL: será similar al anterior, pero en este caso en el recuadro ETIQUETAS, los VALORES y sus correspondientes ETIQUETA DE VALOR serán: 1: soltero 2: Casado/vive en pareja 3: Viudo 4: Separado/divorciado En la columna medida seleccionaremos nominal, puesto que es cualitativa y no hay un orden en las categorías de la variable.
ABAND: será similar a SEXO, pero en este caso en el recuadro ETIQUETAS, los VALORES y sus correspondientes ETIQUETA DE VALOR serán: 1: Si y 2: No Un truco sencillo consiste en seleccionar la variable que es similar a la que vamos a construir, con el botón de la derecha se copia, se selecciona la siguiente fila que está vacía y se pega con el botón de la derecha. Después solamente deberemos cambiar los valores y etiquetas que son diferentes.
22
AYUDFCO: será similar a SEXO, pero en este caso en el recuadro ETIQUETAS, los VALORES y sus correspondientes ETIQUETA DE VALOR serán: 1: Si y 2: No AYUDMED: será similar a SEXO, pero en este caso en el recuadro ETIQUETAS, los VALORES y sus correspondientes ETIQUETA DE VALOR serán: 1: Si y 2: No PESO: será similar a edad, pero en este caso es un número entero con dos decimales. TALLA: será similar a edad, pero en este caso es un número entero con dos decimales. ROCULAR, RVERBAL Y RMOTORA, serán como la variable ESTUDIOS, en las que tendremos que definir sus valores correspondientes y en la columna de medida seleccionar ordinal, puesto que hay un orden. Una vez introducidas todas las variables, el aspecto final de la matriz de datos en la VISTA DE DATOS y VISTA DE VARIABLES será el siguiente, estando ordenadas según las hayamos colocado en la vista de variables:
23
Poniendo el cursor sobre el nombre de cada una de las variables, podremos ver la etiqueta de cada una de ellas, que es la que nos aclara realmente el concepto de cada variable.
Llegado este punto, tenemos ya la base de datos creada, es decir la estructura de lo que va a ser la composición de los datos que hayamos recogido en nuestro estudio, y que luego veremos como los recogemos y/o analizamos. Una de las acciones que nunca deberemos olvidar, es guardar nuestro trabajo, antes que las inclemencias eléctricas o de otra índole nos hagan tener que volver a repetir. Si nos fijamos, en la barra superior de nuestro programa indica “Sin Título”, que nos está indicando que no tiene nombre de archivo, y por lo tanto no está guardado.
Para ello, utilizaremos la opción ARCHIVO/GUARDAR:
24
Hay que fijarse bien dónde guardamos nuestro archivo, dado que luego podemos darlo por desaparecido, de igual forma que deberemos recordar el nombre del mismo para poder encontrarlo con la opción BUSCAR, caso de que “desaparezca misteriosamente”. Buscaremos el lugar donde lo colocamos, en nuestro caso en la carpeta Spss11 que está en el escritorio de nuestro ordenador (si no está, la podemos crear previamente o sobre la marcha, con la opción crear carpeta que aparece en la ventana “guardar como”.
Observaremos que los archivos del editor de datos se guardan con la extensión “.sav”, para así diferenciarlos de los archivos de la ventana de
25
sintaxis, con extensión “.sps” y de los archivos del visor de resultados, con extensión “.spo”. Cuando tengamos que abrir un archivo guardado de SPSS, podremos abrirlo clickeando 2 veces sobre el icono del archivo o sencillamente abrir el programa e ir al menú ARCHIVO/ABRIR/DATOS:
Con todos estos pasos que hemos descrito, ya estamos preparad@s para la introducción de datos para su posterior análisis.
4
INTRODUCCIÓN DE DATOS
Una vez creada la matriz vamos a pasar los datos de cada persona que tenemos en los formularios. Hay que hacerlo con mucho cuidado ya que un error a la hora de la transcripción sería irreparable. El aspecto una vez introducidos los datos podría ser el siguiente:
26
Como hemos podido observar en los ejemplos anteriores, hemos registrado como variables la fecha actual, la fecha de nacimiento y la edad, aunque la edad no la habíamos recogido, como hemos explicado anteriormente, para evitar errores, por lo que ese campo aparecerá vacío de momento. Ya que según la muestra que hayamos elegido, su edad y su capacidad de memoria, puede haber errores a la hora de acordarse de la edad o acertar en el cálculo a través de la fecha de nacimiento. Además, realizamos el mismo trabajo 2 veces, pues siempre se podría calcular la edad a partir de la fecha de nacimiento. Por último, según lo que dure el estudio, no será la misma edad al inicio del mismo que al final, mientras que la fecha de nacimiento no se puede modificar, a pesar de la duración. Por tanto, siempre se recogerá la edad como fecha, al igual que cualquier variable se debe recoger en la forma que más información nos pueda dar, es decir, cuantitativa siempre que se pueda. Ya aprenderemos a recodificarla o transformarla, y automatizar dicho proceso. Tenemos que tener en cuenta que cualquier variable podrá convertirse en una variable diferente, con lo que se conserva la original, aunque puede codificarse en la misma variable, desapareciendo la original y conservándose la nueva variable creada. De igual forma, podremos obtener otra variable nueva calculada a partir de otras cual puede ser el caso del Índice de masa corporal, objeto del siguiente apartado.
5
CALCULAR NUEVAS VARIABLES (A partir de una de ellas)
Una vez introducidos los datos vamos a calcular la variable EDAD a partir de la variable FECHA NACIMIENTO. Para ello abrimos nuestra base de datos y calcularemos la nueva variable. Nos vamos al menú TRANSFORMAR / CALCULAR VARIABLE donde aparecerá una pantalla con un listado de expresiones numéricas que nos permitirá crear una nueva variable EDAD a partir de la variable FECHA NACIMIENTO y de la fecha de fin del estudio (o de la fecha actual por ejemplo):
27
Ahora introduciremos en nombre de la nueva variable EDAD y buscaremos en la columna de la izquierda el término TRUNC, que añadiremos al espacio superior donde irá representada la función matemática de reconversión:
Al hacer un clic en la flecha tras marcarlo nos subirá la expresión matemática al recuadro superior derecho:
28
A continuación añadiremos en el espacio señalado en negrita que ha quedado la expresión CTIME.DAYS, que buscaremos en la misma columna (Ojo con no quitar la selección en azul, pues es donde irá la expresión matemática seleccionada). Con esta expresión le estamos diciendo que calcule tiempo en días entre dos fechas:
Buscaremos ahora la expresión DATE.DMY y la añadiremos también. Con esto le estamos diciendo que nosotros le pondremos la fecha en este formato: dos dígitos primeros será el día, los dos siguientes el mes y los cuatro últimos el año.
29
Quedará un paréntesis con interrogantes sobre una fecha, que deberemos añadir. Será la fecha a partir de la cual se calcula la edad del caso, y puede ser la de fecha de cierre del estudio:
A esta fecha habrá que restarle (siempre teniendo en cuenta los paréntesis) la variable FECHA NACIMIENTO, que es la que utilizamos para calcular la variable EDAD y que la buscaremos entre los nombres de las variables que encontramos en el recuadro inferior de la izquierda de la pantalla:
30
Una vez encontrado hacemos un clic sobre ella y otro sobre el recuadro con la flecha para que lo pase al recuadro superior de la derecha de la pantalla:
Finalmente, recordar que con esta expresión matemática habíamos dicho que nos calcularía los días que había entre dos fechas, para que nos de el dato en años en lugar de en días tendremos que dividir por 365.25, y así calculamos la denominada edad en años cumplidos. Se añade 0,25 para corregir el año bisiesto cada 4 años:
31
A continuación pegamos la operación, lo que nos permitirá por un lado tener por escrito las órdenes de realizar las operaciones todas las veces que lo precisemos, aunque añadamos nuevos casos, abriéndose la ventana de sintaxis, en la cual seleccionaremos y ejecutaremos la orden.
32
Por otro lado, podremos guardar esta sintaxis con el nombre de cálculo de edad lo que nos permitirá ya para siempre no tenerla que volver a reescribir y podremos usar en cualquier base de datos:
Obtendremos entonces la variable EDAD, que al haberla definido previamente saldrá ya con formato y por tanto sin decimales.
En caso contrario tendríamos que ir a vista de variables a modificarla como ya hemos aprendido, sin decimales y ancho necesario.
33
6.
CALCULAR NUEVAS VARIABLES ellas)
(A partir de varias de
Para calcular otra nueva variable, podemos tener que necesitar los valores de otras que hemos recogido. A estas alturas ya nos parece del todo l贸gico el no recoger el IMC, cuando se calcula a partir del peso y de la talla, de los cuales disponemos. Al ser un proceso automatizado, eliminamos los errores de calculadora sobre el terreno. Por tanto, como ejemplo, sobre los datos anteriores, vamos a calcular al IMC. Volveremos al mismo procedimiento TRANSFORMAR /CALCULAR ya conocido. Como sabemos, tenemos que implementar la siguiente f贸rmula:
IMC =
Peso
(Talla )
34
2
Tendremos entonces creada la nueva variable IMC, que tendremos que configurar si la queremos con decimales o no.
35
7.
RECODIFICAR EN UNA MISMA VARIABLE
En ocasiones, tenemos en la base de datos alguna variable que hemos definido de tal forma que o bien no es posible analizar y deberíamos haberla recogido de otra manera, o no resulta demasiado correcta al utilizarla porque puede confundir, como veremos a continuación. No obstante tenemos que estar muy seguros de este paso porque la nueva variable se pondrá sobre la anterior y ésta desaparecerá para siempre, por ello ante la mínima duda os aconsejo mejor trabajar con el paso que veremos en el apartado siguiente de decodificar en distinta variable. Para tener un ejemplo vamos a cambiar manualmente en nuestra base de datos, en la variable SEXO, el 1 por la H y el 2 por la M. Esta es una situación con la que podemos encontrarnos si tomamos los datos de otras base de datos o la persona que metió los datos no sabe que en SPSS no se puede trabajar con letras, sino que todas las variables tienen que estar codificadas en números.
Por si se nos diese este caso vamos a aprender como pedirle a SPSS que cambie la codificación a modo numérico, 1 = Hombre y 2 = Mujer. Iremos a TRANSFORMAR/RECODIFICAR en las mismas variables.
36
Seleccionamos la variable que deseamos recodificar y le indicamos los cambios que queremos.
En la nueva ventana indicaremos los valores antigĂźos y los nuevos valores que les vamos asignar. DespuĂŠs damos a CONTINUAR:
37
Finalmente Pegamos, y ejecutamos en el editor de sintaxis.
Obtendremos los nuevos cambios en la variable, quedándonos pendiente la modificación de los valores de las etiquetas.
Veremos pues en la vista de datos que salen los valores de las etiquetas al ir a la barra de menú y seleccionar VER/ETIQUETA DE VALORES. También puede hacerse directamente mediante un icono de una etiqueta:
38
8.
RECODIFICAR EN DISTINTAS VARIABLES
El siguiente tipo de transformación de una variable consiste en poder obtener una variable nueva a partir de otra, siempre conservando la original. Generalmente ocurre cuando tenemos variables cuantitativas y las queremos convertir a cualitativas de diferentes categorías para hacer diferentes tipos de análisis según los objetivos del estudio. Ya hemos indicado que lo preferible es codificar una variable en el formato en que ofrece la máxima información, que siempre que sea posible será cuantitativa. En nuestro caso, vamos a recodificar una variable como el número de cigarrillos por otra en la que cataloguemos el tipo de fumador en 4 categorías: No fumador-Fumador Leve- Moderado-Empedernido. Por ello seleccionaremos la variable “NCIG” y seguimos idénticos pasos, con TRANSFORMAR / RECODIFICAR / EN DISTINTAS VARIABLES, debiendo indicar cual es la variable de entrada (NCIG) y la de resultado (en nuestro caso por ejemplo, gradtab). Hay que recordar que hay que pegar las operaciones para conservarlas, y ejecutarlas cada vez que añadamos datos nuevos, para actualizar las recodificaciones. Recordar que los decimales se ponen con la coma (,).
39
Tendremos que indicar que número de cigarrillos corresponde a cada rango, prestando atención a no dejarnos ningún valor sin que lo abarque alguno de los rangos o categorías. Acordamos pues, 0 cig No fumador, 1 a 10 cig Fumador leve,
40
11 a 20 cig F. moderado y 21 en adelante F. empedernido, comenzando ya a codificar desde el 1 para los no fumadores, y luego ponerle la etiqueta y sus valores:
Finalmente damos a CONTINUAR y pegamos lo realizado, así podemos observar las operaciones en el editor de sintaxis, para comprenderlo antes de ejecutarlo. Con ello también nos daremos cuenta de los errores que hayamos podido cometer.
Así veremos la nueva variable a la que hay que recordar añadirle la etiqueta y sus valores y el formato:
41
Si ahora le damos al icono de valores de etiquetas lo veremos de forma comprensible, y además, al meter los datos se nos facilita el no tener que recordar los códigos correspondientes:
Si cada vez que hacemos una operación la pegamos, al acabar la sesión, tendremos en el editor de sintaxis todo el proceso completo en una sola ventana y un archivo único, sin confusiones. Hasta ahora hemos definido prácticamente todos los tipos de variables que podamos utilizar, así como las transformaciones más comunes que se suelen utilizar. Para transformaciones más complejas se recomienda bibliografía más avanzada. No obstante cuando para nuestros objetivos manejamos un programa que no conocemos, éste suele llevar en la mayoría de las ocasiones una ayuda, que puede sernos útil, en el caso de SPSS, la encontramos en el último icono de la barra superior:
42
Si seleccionamos TEMAS, aparecerá la ayuda para buscar por temas. Si señalamos TUTORIAL, aparece un curso interactivo o tutorial sencillo y útil cuando se conoce ya básicamente SPSS. La opción SYNTAX GUIDE es una guía en inglés de uso de la sintaxis. Finalmente existe un ASESOR ESTADÍSTICO que nos puede orientar en algunas de las operaciones de análisis estadístico, interesante abrir de vez en cuando. En este apartado estamos viendo que estamos introduciendo los datos directamente en SPSS, lo cual a veces no suele ser lo más cómodo, pues parece mejor introducirlos en un formulario de una base de datos que manejamos bien, como Access, o que nos han prestado para que nos la trabajemos y obtengamos resultados.
9. CREACIÓN DE UNA BASE DE DATOS SPSS A PARTIR DE UN CUESTIONARIO En numerosas ocasiones, lo que pretendemos con nuestros estudios es aplicar a una muestra seleccionada de pacientes, un cuestionario validado, para después realizar el análisis de los datos obtenidos con las distintas variables, que en este caso serán los ítems del cuestionario. Hay que tener en cuenta que para obtener una clasificación final de cada paciente en un grupo u otro según los resultados de los ítems del cuestionario, deberemos crear nuevas variables con las que ya tenemos. En ocasiones bastará con añadir una variable nueva que sea sumatorio de las demás, en otras ocasiones primero tendremos que transformar las existentes tal y como se ha explicado en apartados anteriores.
43
Vamos a crear una base de datos a partir de un cuestionario validado para valoración de la sintomatología prostática, el I-PSS:
Las 7 primeras • • • • • •
preguntas del test tienen 6 posibles respuestas: 0: Nunca 1: uno de cada 5 2: uno de cada 3 3: uno de cada 2 4: dos de cada 3 5: casi siempre
Las respuestas • • • • • • •
de la pregunta de calidad de vida son 7: 0: Encantado 1: contento 2: más bien satisfecho 3: indiferente 4: más bien insatisfecho 5: mal 6: muy mal
44
La calidad de vida sentida por el paciente se clasificará en aceptable si las respuestas son de la 0 a la 3, y será de alteraciones en la calidad de vida si las respuestas son de la 4 a la 6. De forma práctica, para evitar repeticiones, crearemos directamente la variable edad y obviaremos los campos identificativos de nombre y apellidos (teniendo en cuenta que deberemos haber recogido como se ha explicado antes, la fecha de nacimiento y calculado la edad por los procedimientos descritos). Por ello, para empezar, crearemos las variables que corresponden a la edad y las 7 preguntas del test y la de la calidad de vida, debiendo quedar de la siguiente manera:
Lógicamente, hay que definir las características de dichas variables según las indicaciones previas y lo explicado al inicio del manual de forma que obtendríamos una base de datos como la siguiente:
45
Tiene que quedar claro, a partir de este punto, que para obtener el total de puntos de la suma de cada pregunta, primero habrรก que haberle dado las etiquetas de valor a cada una de las respuestas y asignado dicho valor como se ha visto anteriormente, para luego obtener una nueva variable que serรก la suma de dichos valores (var = sumaipss).
Iremos a TRANSFORMAR/CALCULAR y realizaremos las operaciones de suma de los valores absolutos de cada una de las preguntas de la forma que se describe a continuaciรณn:
46
Seguidamente pegamos la operación, como se ha indicado anteriormente, para poder ejecutar la orden conforme se añadan casos y así se actualice la nueva variable:
Y seleccionando y ejecutando obtenemos la nueva variable, a la que habrá que ajustarle los decimales.
Nos quedará, a partir de los puntos totales, clasificar a cada paciente según los síntomas que padece según venía en el cuestionario, leve, moderado o grave, siguiendo el modelo descrito en recodificar en diferentes variables:
47
Pegamos la operaciĂłn y la ejecutamos, para darle despuĂŠs los valores a las etiquetas de cada tipo de sĂntomas:
48
Para finalizar la configuraci贸n de la base de datos, debemos igualmente, como se ha dicho antes, recodificar la variable que recoge la calidad de vida en una de las 2 categor铆as descritas. Lo realizaremos igualmente con el RECODIFICAR/EN DISTINTAS VARIABLES:
Pondremos las etiquetas correspondientes:
49
Y así tendremos todas las variables para poder empezar a registrar datos para el posterior análisis.
Finalmente, he aquí como quedaría una vez recogidos los datos y ejecutada de nuevo la sintaxis completa que previamente habremos guardado, para evitar repetir cada vez el trabajo.
Con esta base de datos ya podremos realizar análisis estadísticos, como posteriormente aprenderemos.
50
NOTAS
51
52
SEGUNDA PARTE: ANALIZAR E INTERPRETAR RESULTADOS
53
9. ANÁLISIS DESCRIPTIVO (VARIABLES CUANTITATIVAS) En este apartado vamos ya a comenzar con el análisis estadístico, propiamente dicho, comenzando por describir cada tipo de variables que hemos aprendido anteriormente a codificar, correspondiente a todos los tipos de variables con los que nos podemos encontrar. Como variable, vamos a describir la variable número de cigarrillos, que teníamos en la base de datos, utilizando las técnicas adecuadas (calculando medias, modas, cuartiles… etc.), y representándolas mediante diagramas de caja o Box-plot.
Para describir una variable cuantitativa como el número de cigarrillos iremos a ANALIZAR en la parte superior de la pantalla y hacemos un clic, se desplegará un menú del que elegiremos la opción ESTADÍSTICOS DESCRIPTIVOS, y de éste se desplegará otro menú del que elegiremos la opción FRECUENCIAS:
Se abre entonces un recuadro, en la primera columna están todas las variables de nuestro estudio, haremos un clic en las variables que queramos analizar, en este caso NCIG o TAB según el nombre que se le haya asignado y damos a la flecha que separa las dos columnas otro clic para que la variable seleccionada, que será la que el programa estadístico analice, pase a la otra columna.
54
Abrimos ahora el recuadro ESTADÍSTICOS, dentro de los VALORES DE PERCENTILES, señalaremos los CUARTILES y PERCENTILES, y dentro de éstos escribiremos: 25 y daremos a AÑADIR, 50 y AÑADIR, 75 y AÑADIR. Dentro de TENDENCIA CENTRAL seleccionaremos MEDIA, MEDIANA Y MODA. Dentro de DISPERSION, seleccionaremos DESVIACION TÍPICA, VARIANZA, AMPLITUD, MÍNIMO, y MÁXIMO. Dentro de distribución marcaremos ASIMETRÍA y CURTOSIS. Cuando terminemos de hacer la selección damos a CONTINUAR.
Abrimos ahora el recuadro GRÁFICOS, en TIPO DE GRÁFICA, seleccionamos ninguno en este caso porque nosotros representaremos la variable cuantitativa con un Box-plot que explicaremos más adelante, en caso de querer realizar alguna gráfica, marcaríamos aquí la opción deseada, y después damos a CONTINUAR.
55
Abrimos ahora el recuadro FORMATO, en ORDENAR POR seleccionaremos VALORES ASCENDENTES y en MÚLTIPLES VARIABLES la opción COMPARAR VARIABLES, y damos a CONTINUAR.
Si ya tenemos toda la selección damos a PEGAR, con esta opción, en lugar de ACEPTAR, lo que le estamos pidiendo es no sólo que realice las órdenes, sino que además las pegue en una carpeta, con lo que en caso de error o de que queramos repetir el análisis, tendremos las órdenes guardadas, podemos volver a ejecutarlas, sin necesidad de repetir todo el proceso anterior lo que ahorraría mucho tiempo. Una vez seleccionada la orden pegar vemos que aparece directamente una pantalla con el nombre de SINTAXIS1, donde están escritas todas las órdenes, que ejecutaremos como ya hemos descrito anteriormente:
56
Aparecerá lo que hemos solicitado en una buena ventana de resultados, RESULTADOS1, donde aparece analizada la variable NCIG:
Para saber como describir la variable cuantitativa necesitamos saber si sigue una distribución normal o no. Si ésta cumple los criterios de normalidad, la podremos describir con la media y la desviación típica. Caso de no cumplirlos, lo haremos con la mediana y el IQR (percentil 75 – percentil 25). Generalmente damos como normal cualquiera que contenga más de 30 casos, aunque esto es algo criticable como único criterio. Una forma para saber si sigue o no una distribución normal es fijarnos en los criterios de Asimetría y Curtosis. En la tabla de los resultados, 1º nos fijamos en la asimetría y su error y luego en la curtosis y su error. Empezamos con la asimetría: tenemos el valor del coeficiente de asimetría que es 0,416 y el error de asimetría que es 0,845; para saber si esta incluido el coeficiente de asimetría en el intervalo de confianza de dicho coeficiente primero vamos a calcular el intervalo, ya sabéis que la
57
forma de calcular el intervalo que incluya el 95% de los valores es multiplicando el denominado error típico por +2 (-1,69 a +1,69). Ahora nos fijamos en el valor del coeficiente de asimetría que en este caso es 0,416; Como queda incluido dentro del intervalo, sí que cumple el criterio de asimetría. Vamos ahora con la curtosis, el coeficiente de curtosis es -2,051 y su error típico 1,741; calculamos el intervalo de confianza, en este caso multiplicamos 1,741 por +2 (-3,482 a +3,482). Ahora vemos el coeficiente de curtosis que es 1,741; Como queda dentro del intervalo, sí que cumple el criterio de curtosis. Para poder considerar que una variable cuantitativa sigue una distribución normal y describirla con su media y desviación de estándar debe cumplir los dos supuestos anteriores, no basta con uno solo. En este caso, puesto que si sigue una distribución normal, describiremos la variable consumo de cigarrillos de la siguiente manera: la media de consumo de cigarrillos es de 10 cigarrillos al día (DS 9 cig/dia):
número de cigarrillos dia N Válidos Perdidos Media Mediana Moda Desv. típ. Varianza Asimetría Error típ. de asimetría Curtosis Error típ. de curtosis Rango Mínimo Máximo Percentiles 25 50 75
58
6 0 9,50 7,50 20 8,803 77,500 ,416 ,845 -2,051 1,741 20 0 20 1,50 7,50 20,00
Si no hubiese cumplido el criterio de normalidad lo que hubiésemos usado para describir la variable cuantitativa hubiese sido la mediana y el intervalo intercuartil (IQR). Para calcular éste último nos fijamos en los percentiles 25 y 75, en este caso 1,5 y 20, el IQR será entonces 201,5=18,5. Por lo que hubiésemos dicho que la mediana del consumo de cigarrillos es de 8 cig/dia (IQR 19 cig/dia). Ahora vamos a realizar ahora la representación gráfica de la variable cuantitativa número de cigarrillos mediante un BOX-PLOT, para ello vamos a ANALIZAR en la parte superior de la pantalla y hacemos un clic, se desplegará un menú del que elegiremos la opción ESTADÍSTICOS DESCRIPTIVOS, y de éste se desplegará otro menú del que elegiremos la opción EXPLORAR.
Se abre entonces un recuadro, en la primera columna están todas las variables de nuestro estudio, haremos un clic en las variables que queramos analizar, en este caso NCIG y damos a la flecha que separa esta columna de la columna DEPENDIENTES otro clic para que la variable seleccionada, que será la que el programa estadístico analice, pase a la columna denominada DEPENDIENTES.
59
Dentro de MOSTRAR seleccionamos con un clic GRÁFICOS. Vamos ahora al recuadro GRAFICOS, en DIAGRAMAS DE CAJAS, seleccionamos NIVELES DE FACTORES JUNTOS, en DESCRIPTIVOS, seleccionamos TALLO Y HOJAS. Damos a CONTINUAR. Una vez seleccionado todo daremos a PEGAR. Se abre entonces de forma automática la ventana de SINTAXIS1, donde se han pegado las nuevas órdenes a continuación de las que ya teníamos. Se seleccionan únicamente las nuevas instrucciones y las ejecutamos.
Y en la pantalla RESULTADO1, veremos el gráfico de tallo y hojas:
60
Y en el DIAGRAMA DE CAJA, tendremos el BOX-PLOT: 20
15
10
5
0
La línea más gruesa representa la media o la mediana, según la distribución sea o no normal. Los límites superior e inferior de la caja corresponden al valor de la desviación estándar o a los percentiles 75 y 25 respectivamente. Por ello la caja es la representación gráfica del intervalo de confianza o del IQR. Las “patas” que salen de la caja hacia arriba y hacia abajo son la representación de los valores máximo y mínimo respectivamente, en este caso solo hay valores mínimos, no máximos. En ocasiones hay también otros valores representados con un * más allá de las “patas” del box-plot. Son los valores denominados “extremos”, aunque en este caso no había ninguno.
10 ANÁLISIS DESCRIPTIVO (VARIABLES CUALITATIVAS) Para describir la variable cualitativa SEXO iremos a ANALIZAR en la parte superior de la pantalla y hacemos un clic, se desplegará un menú del que elegiremos la opción ESTADÍSTICOS DESCRIPTIVOS, y de éste se desplegará otro menú del que elegiremos la opción FRECUENCIAS, al igual que hicimos antes, salvo que elegiremos opciones diferentes correspondientes al nuevo tipo de variable.
61
Se abre entonces un recuadro, en la primera columna están todas las variables de nuestro estudio, haremos un clic en las variables que queramos analizar, en este caso SEXO y damos a la flecha que separa las dos columnas otro clic para que la variable seleccionada, que será la que el programa estadístico analice, pase a la otra columna.
Abrimos ahora el recuadro ESTADÍSTICOS, dentro de los VALORES DE PERCENTILES, no señalaremos nada. Dentro de TENDENCIA CENTRAL no seleccionaremos nada. Dentro de DISPERSION, no seleccionaremos nada. Dentro de distribución no marcaremos nada Cuando terminemos de hacer la selección damos a CONTINUAR.
Abrimos ahora el recuadro GRÁFICOS, en TIPO DE GRÁFICA, seleccionamos GRÁFICOS DE BARRAS en este caso y después damos a CONTINUAR.
62
Abrimos ahora el recuadro FORMATO, en ORDENAR POR seleccionaremos VALORES ASCENDENTES y en MÚLTIPLES VARIABLES la opción COMPARAR VARIABLES, y damos a CONTINUAR.
Si ya tenemos toda la selección damos a PEGAR, y en la ventana de sintaxis ejecutamos la orden:
Y aparecerá la pantalla RESULTADOS1, donde aparece analizada la variable SEXO:
63
Y en el GRÁFICO DE BARRAS, tendremos el DIAGRAMA DE BARRAS:
11 ANÁLISIS DESCRIPTIVO (VARIABLES ORDINALES) Como ya se ha comentado desde el principio de este manual, siempre que sea posible, las variables se deben recoger de forma cuantitativa, aunque las necesitemos posteriormente con otras características, pues una variable cuantitativa siempre puede transformarse en una cualitativa ordinal.
64
No obstante, cuando se valoran determinadas variables, éstas siempre se recogen de forma ordinal, como los grados de dolor, por ejemplo. Vamos a elegir la variable ordinal ROCULAR (respuesta ocular), que se compone de los valores: Espontánea: 4; Estímulo verbal: 3; Al Recibir un Estímulo doloroso: 2; No responde: 1.
Para describir la variable ordinal ROCULAR iremos a ANALIZAR en la parte superior de la pantalla y hacemos un clic, se desplegará un menú del que elegiremos la opción ESTADÍSTICOS DESCRIPTIVOS, y de éste se desplegará otro menú del que elegiremos la opción FRECUENCIAS. Se abre entonces un recuadro, en la primera columna están todas las variables de nuestro estudio, haremos un clic en las variables que queramos analizar, en este caso ROCULAR y damos a la flecha que separa las dos columnas otro clic para que la variable seleccionada, que será la que el programa estadístico analice, pase a la otra columna.
65
Abrimos ahora el recuadro ESTADÍSTICOS, dentro de los VALORES DE PERCENTILES, no señalaremos nada. Dentro de TENDENCIA CENTRAL no seleccionaremos nada. Dentro de DISPERSION, no seleccionaremos nada. Dentro de distribución no marcaremos nada. Cuando terminemos de hacer la selección damos a CONTINUAR.
Abrimos ahora el recuadro GRÁFICOS, en TIPO DE GRÁFICA, seleccionamos ninguno en este caso porque nosotros representaremos la variable ordinal con un diagrama de líneas y después damos a CONTINUAR.
66
Abrimos ahora el recuadro FORMATO, en ORDENAR POR seleccionaremos VALORES ASCENDENTES y en MÚLTIPLES VARIABLES la opción COMPARAR VARIABLES, y damos a CONTINUAR.
Si ya tenemos toda la selección damos a PEGAR. Una vez ejecutada la orden pegar aparecen en la SINTAXIS1, las órdenes nuevas, que seleccionaremos y ejecutamos:
Aparecerá la ventana de resultados donde vemos analizada la variable de interés:
67
Vamos ahora a GRÁFICOS en la parte superior de la pantalla y hacemos un clic, se desplegará un menú del que elegiremos la opción INTERACTIVOS: BARRAS:
Dentro del recuadro CREAR BARRAS, ASIGNAR VARIABLES, seleccionaremos la variable ROCULAR y la arrastraremos hasta el eje inferior del gráfico.
68
En la pestaña OPCIONES GRAFICO DE BARRAS marcaremos valor y recuento:
Si ya tenemos toda la selección damos a PEGAR. Una vez ejecutada la orden PEGAR vemos que aparece directamente una pantalla con el nombre de SINTAXIS1, donde están escritas las nuevas órdenes, que seleccionaremos y ejecutaremos.
Y en GRÁFICO, tendremos el DIAGRAMA DE LÍNEAS:
69
12 COMPARACIÓN DE VARIABLES Cuando a lo largo de un estudio llegamos al momento de intentar relacionar unas variables con otras para ver si se cumple o no la hipótesis alternativa propuesta o la nula de partida, nos encontramos en la disyuntiva de decidir que prueba estadística debemos elegir para un correcto análisis estadístico. Para ello podemos utilizar una tabla a modo resumen que nos indica la prueba estadística según las características de las variables que queremos relacionar, cuando se cumplan las condiciones de aplicación: Variable X (independiente) Variable Y (dependiente) Categórica
C=2 Categórica c>2 Cuantitativa
Categórica C=2
Categórica c>2
χ2
χ2
χ2
χ2
T de Anova Student
Cuantitativa
Regresión logística Regresión simple
Con este esquema, fácilmente podemos saber la prueba estadística que debemos aplicar. Hay que tener en cuenta, no obstante, que hay que diferenciar cual va a ser la variable independiente y cual la dependiente, pues el sentido en el que se quiere analizar la relación entre ambas determina el tipo de análisis. Cuando no se cumplan las condiciones de aplicación o para las variables ordinales, usamos correcciones como el test exacto de Fisher u otros test menos potentes, los no paramétricos, como la U de Mann Whitney o el Test de Kruskall-Wallis, a modo de resumen: Variable X (independiente) Variable Y (dependien te)
Categórica C=2
Categórica c>2
Cuantitativa
Categórica Test Exacto de Asociación lineal por lineal C=2 Fisher Regresión lineal Asociación Paramétrica Categórica Asociación por lineal lineal por lineal c>2 Cuantitativa U de Mann Test Kruskall Correlación Whitney
70
Wallis
Spearman
no
de
13 TABLAS DE CONTINGENCIA, COMPARACIÓN DE 2 PROPORCIONES: PRUEBA DE X2 Cuando queremos saber si existe relación o no entre 2 variables cualitativas, siempre tendremos que utilizar la prueba de χ2 (Chi2), independientemente de cual de ellas sea la variable independiente. No obstante, habrá que clarificar cual de ellas es la independiente, para darle un sentido a la relación que queremos analizar, y seleccionar en SPSS el comando correspondiente. Utilizaremos la base de datos anterior, en la que queremos saber si existe una relación entre el sexo y el nivel de estudios. Para saber si existe o no relación entre estas dos variables y que tipo de relación tienen, sabemos que la variable SEXO es cualitativa, con dos categorías (hombre, mujer), y, en nuestro caso sería la variable independiente, y que la variable ESTUDIOS es cualitativa con seis categorías (desde sin alfabetizar hasta universitarios) y que sería la variable dependiente. Para analizar una variable X independiente, cualitativa, con dos categorías (SEXO), con una variable Y dependiente, cualitativa, con seis categorías (HTA), utilizaremos pues la prueba de χ2. Hay que tener en cuenta que todas las pruebas estadísticas tienen unas condiciones de aplicación de las mismas, al igual, por ejemplo, que asumíamos normalidad cuando la muestra era mayor de 30 casos. En el caso de la χ2, las condiciones o criterios de aplicación van a ser:
N > 20 Menos del 20% con celdas con valor esperado <5 Si N>40, sólo se acepta 1 celda con valor esperado <1
Conviene recordar que con χ2 se intenta estudiar la independencia de 2 variables con varias categorías. Si se acepta la hipótesis nula, que es como obtener una p>0,05, se acepta la independencia, no se encuentra relación en esas variables. Si por el contrario, p<0,05, entonces se aceptará la hipótesis alternativa, se rechaza la hipótesis de independencia y se concluye que las 2 variables están relacionadas.
71
Este manual no tiene por objeto dar una amplia explicación teórica de los conceptos de cada prueba estadística, por lo que se recomienda encarecidamente que se repase en otro manual dichos conceptos para el mejor entendimiento de los análisis. Cuando no se cumplen los criterios de aplicación de la prueba, hay que utilizar otra prueba estadística, como será el Test exacto de Fischer o la Asociación lineal por lineal. Para ver como se aplica la prueba χ2, vamos ahora a ANALIZAR en la parte superior de la pantalla y hacemos un clic, se desplegará un menú del que elegiremos la opción ESTADÍSTICOS DESCRIPTIVOS, y dentro de éste la opción TABLAS DE CONTINGENCIA:
Podremos observar una nueva ventana similar a las vistas hasta ahora, pero con varios cuadros internos. En las Filas se colocará a variable a estudiar, la dependiente según nuestra hipótesis alternativa, y en las Columnas la variable independiente.
72
En la opción de Estadísticos podremos observar toda una gran variedad de ellos desconocidos para nosotros la mayoría, por lo que seleccionaremos la Chi cuadrado y los riesgos; del resto podemos encontrar una breve definición y finalidad al final de este manual.
En la opción casillas seleccionamos todas las opciones posibles, esperadas, observadas, fila, columna y total: 1. Frecuencias: *Observadas: Número de casos resultantes de la clasificación *Esperadas: Número de casos que debería haber en cada casilla si las variables utilizadas fueran independientes 2. Porcentajes: *Fila: % de la frecuencia observada frente al total de fila *Columna: % de la frecuencia observada frente al total de columna *Total: % de la frecuencia observada frente al nº total de casos
73
Una vez señaladas las opciones damos a PEGAR. Una vez ejecutada la orden PEGAR vemos que aparece directamente la pantalla de SINTAXIS1, donde están escritas las órdenes, las seleccionamos y ejecutamos:
Y la pantalla RESULTADO1, donde aparecen los resultados del análisis de las dos variables, HTA y SEXO:
Claramente podemos observar que se cumplen los 3 criterios de aplicabilidad de la prueba N>20 y >40, y no hay un 20% de frecuencias esperadas <5. Por todo ello, podremos pasar al cuadro inferior donde vienen descritos los estadísticos correspondientes, eligiendo entonces los correspondientes a la Chi cuadrado.
74
Los grados de libertad están calculados multiplicando el número de columnas menos 1 por el número de filas menos 1 de la tabla de contingencia (categorías de las variables SEXO(2-1)xESTUDIOS(2-1)=1. Obtenemos finalmente una p= 0,180, NO estadísticamente significativa, por lo que no aceptaremos que son variables independientes y se acepta la hipótesis nula de que no están relacionadas. Concluiremos que no existe relación entre el SEXO y los ESTUDIOS. Por ejemplo podíamos decir que hay mas mujeres universitarias 64% (9/14) y mas hombres con diplomaturas 62% (8/13), aunque la diferencia no es estadísticamente significativa (χ2= 1,801; p=0,180). A continuación observaremos el cuadro resultante de los riesgos, que nos proporciona el intervalo de confianza: Estimación de riesgo
Valor Razón de las ventajas para nivel de estudios (DIPLOMATURAS / UNIVERSIDAD) Para la cohorte SEXO = HOMBRE Para la cohorte SEXO = MUJER N de casos válidos
2,880
,603
13,749
1,723
,756
3,927
,598
,271
1,319
27
75
Intervalo de confianza al 95% Inferior Superior
14 COMPARACIÓN DE DOS MEDIAS: T DE STUDENT-FISHER Cuando lo que queremos es comparar la media de 2 grupos diferentes, la prueba que debemos elegir será siempre la T de StudentFischer. Queremos saber si existe una relación entre el IMC y el sexo de los pacientes de una muestra seleccionada de la población. Para saber si existe o no relación entre estas dos variables y que tipo de relación tienen, sabemos que la variable SEXO es cualitativa, con dos categorías (HOMBRE, MUJER), y, en nuestro caso sería la variable independiente, y que la variable IMC es cuantitativa, y que sería la variable dependiente. Para analizar una variable X independiente, cualitativa, con dos categorías (SEXO), con una variable Y dependiente, cuantitativa, (IMC) utilizaremos la prueba de T de Student-Fisher. El paso previo para la aplicación de la prueba es comprobar que cumple las condiciones de aplicación de la prueba, que en ésta serán: A/ Normalidad B/ Homogeneidad de varianzas Para poder realizar dichos análisis, es conveniente describir la variable cuantitativa estratificada por las 2 categorías de la variable cualitativa, utilizando para ello el método de EXPLORAR, y solicitando ciertas pruebas de normalidad por si acaso nos hicieran falta a posteriori para demostrar ésta. Seguiremos la DESCRIPTIVOS/EXPLORAR:
ruta
76
ANALIZAR/ESTADISTICOS
Después, en la opción gráficos seleccionamos GRAFICOS CON PRUEBAS DE NORMALIDAD y seguimos los procesos habituales:
Obtendremos los estadísticos descriptivos que nos servirán para verificar los criterios de normalidad:
77
Explicamos a continuación, los criterios que debe cumplir de normalidad: A/ Normalidad: n1 y n2 > 30 Si no se cumple la condición, habrá que comprobar que se cumplen los siguientes 3 requisitos siguientes en cada uno de los grupos, n1 y n2: A1.- Comprobar que el máximo y el mínimo quedan dentro del intervalo definido por media + 3 Desviaciones estándar A2.- |Asimetría| < 2xEEAsimetría A3.- |Curtosis| < 2xEECurtosis Si no se cumplieran las 3 condiciones, entonces no podríamos confirmar la normalidad, por lo que deberíamos recurrir a comprobarla con el test de Kolmogorov-Smirnov o el de Saphiro-Wilks. Al describir la variable cuantitativa, le hemos solicitado los gráficos con pruebas de normalidad, que encontraremos en la ventana de resultados: Pruebas de normalidad a
indice de masa corporal
SEXO HOMBRE MUJER
Kolmogorov-Smirnov Estadístico gl Sig. ,217 3 ,367 3
. .
Estadístico ,988 ,792
Shapiro-Wilk gl 3 3
Sig. ,792 ,096
a. Corrección de la significación de Lilliefors
Para que se acepte la normalidad, hay que recordar, que las pruebas no deben ser significativas, es decir, no deben mostrar diferencias, pues si la significación es adecuada (p<0,05), no podrá aceptarse la normalidad y entonces, nos veremos abocados directamente a realizar una Prueba No Paramétrica, la U de Mann-Whitney, y no utilizando la TStudent. Ya no sería necesario realizar la homogeneidad de variancias, que por otro lado nos viene dada al ejecutar la T-Student, ya que con que no se cumpla uno de los criterios ya no se puede aplicar la T de Student. Como en este caso no son significativas, si se cumple la normalidad y si pasaríamos a analizar la homogeneidad de variancias. Además si vemos los gráficos se ve la distribución que se puede “intuir” normal:
78
Hemos comprobado normalidad, para comprobar homogeneidad de variancias tenemos que pedir que nos realice la prueba de T-Student, que nos facilitará el estadístico de Levene sobre Homogeneidad de varianzas, para poder así interpretar la T-Student de manera correcta. La ruta será ANALIZAR/COMPARAR MEDIAS/PRUEBA T PARA MUESTRAS INDEPENDIENTES:
Pasaremos las variables IMC y sexo a contrastar variables y variable de agrupación respectivamente y nos pedirá que definamos los grupos.
79
Antes De interpretar la T-Student, veremos si se cumple la homogeneidad de varianzas, mediante el estadístico de Levene y su significación. Si es menor de 0,05 se asumirán que existen diferencias y se elegirá para analizar la fila que corresponda a esta situación. En este caso, no es significativa, Levene= 0,123, por lo que por ser mayor de 0,05 se asumirá que no existen diferencias, es decir que se han asumido variancias iguales por lo que la T de Student será la de la fila se han asumido variancias iguales: T=2,350; p=0,078. Si no se hubiesen dado los supuestos de normalidad y/o de homogeneidad de variancias, no hubiésemos podido realizar el test de Student, sino la prueba no paramétrica denominada U de Mann-Whitney para ello seguimos la ruta: ANALIZAR/PRUEBAS NO PARAMETRICAS/2 MUESTRAS INDEPENDIENTES:
80
Con los resultados, podremos interpretar que las diferencias entre las medias de ambos grupos no se deben al azar, que aceptaremos la hipótesis alternativa de que existen diferencias en el IMC según el sexo, con una p<0,05 (0,10).
15 COMPARACIÓN DE X MEDIAS: ANÁLISIS DE LA VARIANCIA El Análisis de la varianza (ANOVA) de un factor, sirve para comparar una variable cuantitativa en varios grupos o categorías, por lo que se puede entender como una generalización de la T-Student. Para saber si existe o no relación entre estas dos variables y que tipo de relación tienen, sabemos que la variable ESTUDIOS es cualitativa, con seis categorías (desde sin alfabetizar hasta universitarios), y, en nuestro caso sería la variable independiente, y que la variable IMC es cuantitativa, y que sería la variable dependiente. Para analizar una variable X independiente, cualitativa, con mas de dos categorías (ESTUDIOS), con una variable Y dependiente, cuantitativa, (IMC) utilizaremos la prueba de análisis de la variancia o ANOVA. Seguiremos los pasos ANALIZAR COMPARAR MEDIAS ANOVA DE UN FACTOR, seleccionando como variable dependiente el IMC e independiente ESTUDIOS:
81
En la ventana, nos iremos a OPCIONES seleccionamos EstadĂsticos descriptivos y homogeneidad de varianzas:
82
Una vez señaladas las opciones damos a PEGAR. Vemos que aparece directamente la pantalla de SINTAXIS1, donde están escritas las órdenes, las seleccionamos y ejecutamos:
Obtendremos los descriptivos que hemos solicitado para la variable cuantitativa global y por categorías de estudios.
Antes de proseguir analizando los resultados, debemos en primer lugar comprobar que se cumplen las condiciones de aplicación de la prueba:
83
1.- Normalidad: En muestras grandes se va a dar por normalidad, aunque si somos estrictos, deberemos comprobarlo. Para ello, le solicitaremos al SPSS que realice dichas pruebas, que serán la de Kolmogorov-Smirnov y la de Shapiro-Wilk, siguiendo los pasos en ANALIZAR ESTADÍSTICOS DESCRIPTIVOS EXPLORAR
En GRAFICOS PRUEBAS DE NORMALIDAD:
Pruebas de normalidad a
indice de masa corporal
nivel de estudios 5 6
Kolmogorov-Smirnov Estadístico gl Sig. ,271 4 ,260 2
. .
Estadístico ,823
Shapiro-Wilk gl 4
Sig. ,150
a. Corrección de la significación de Lilliefors
Observamos que la diferencia en este caso no es significativa (p=0,150), por lo que si podemos admitir normalidad.
84
2.- Homogeneidad de varianzas: Nos la va a detectar el estadístico de Levene, que nos viene dado con la solicitud de la ANOVA en el momento anterior:
En este caso, es estadísticamente significativo (0,016 es menor que 0,05), por lo que no podemos asumir homogeneidad de varianzas. Si se da el caso de NO cumplir cualquiera de las condiciones anteriores, como en nuestro caso, no podemos analizar nuestros datos con la prueba paramétrica ANOVA, y deberemos usar la Prueba NO Paramétrica de Kruskall-Wallis. Debemos recordar que las desventajas de las pruebas no paramétricas, como el caso del Kruskall-Wallis, son que tienen menor potencia y sensibilidad para detectar diferencias entre los grupos, y que no permite construir intervalos de confianza.
La prueba la encontraremos en ANALIZAR/PRUEBAS NO PARAMETRICAS/K MUESTRAS INDEPENDIENTES, donde introduciremos las variables como anteriormente:
85
Habremos seleccionado la prueba que queríamos y definimos los grupos indicando el mínimo y el máximo de categorías.
Finalmente aceptamos y obtendremos una tabla con los tamaños de la muestra y otra, presentando el estadístico H, que SPSS® llama Chicuadrado, con los grados de libertad y la significación:
Observaremos que la significación no es menor de 0,05 (p=1,00), por lo que no existen diferencias entre ambos grupos, aceptando la hipótesis nula. Podríamos decir que la media del IMC para los que tienen un nivel de estudios de diplomaturas de grado medio es de 22,67, menor que el de los que tienen estudios universitarios (26,82), aunque la diferencia no es estadísticamente significativa (Kruskall 0,00; p=1,00).
16 REGRESIÓN LINEAL SIMPLE Se trata de una técnica estadística que analiza la relación entre 2 variables de tipo cuantitativo, tratando de verificar si dicha relación es lineal. Siempre habrá una variable de “respuesta” o posible “efecto” y una variable “predictora” o posible “causa”, siendo la dependiente e independiente, respectivamente.
86
El primer paso debe ser siempre pedir a SPSS® un gráfico de dispersión para apreciar visualmente si se puede asumir un modelo lineal entre ambas variables. Se ajustará una regresión cuando la nube de puntos nos sugiera que existe una relación lineal. Una nube de puntos puede sugerir que no existe ninguna relación. Si no existe relación, la pendiente de la curva de regresión “b” será igual a 0. Seleccionaremos una base de datos con datos de supervivencia “Supervivencia cáncer de pecho”, para ver la relación entre el tiempo de supervivencia y el tamaño del cáncer. Para ver el gráfico DIAGRAMA DE DISPERSION:
seguimos
GRAFICOS INTERACTIVOS
En la selección de variables, en el eje vertical pondremos la variable dependiente que será el “número de cigarrillos” y en la horizontal la independiente, que será “EDAD”:
87
Pegamos y ejecutamos, obteniendo el siguiente diagrama de dispersión: A
número de cigarrillos dia
20
A
15
A
10
5
A
A A
0 40
50
60
EDAD
Podemos observar levemente como la mayor parte de los fumadores se sitúan entre los de menor edad, pero no apreciamos con claridad la tendencia. Volvemos otra vez a GRAFICOS INTERACTIVOS DIAGRAMA DE DISPERSION, y esta vez en la segunda pestaña, AJUSTE, en método seleccionamos regresión y en ajustar líneas para: marcamos total.
Tras aceptar veremos la recta de regresión con la tendencia que sigue “algo más clara” que con anterioridad:
88
A
n煤mero de cigarrillos dia
20
A
Regres i贸n lineal
15
A
10
5
A
A
0
1n煤mero de cigarrillos dia = 31,79 + -0,47 * EDAD R-cuadrado = 0,50 40
50
A
60
EDAD
Una vez que se ha visto que la nube es aproximadamente lineal, aplicamos el modelo de regresi贸n lineal, seleccionando ANALIZAR REGRESION LINEAL
e introduciendo las variables como anteriormente, primero la dependiente y luego la independiente:
89
En la opción ESTADÍSTICOS elegiremos Ajuste del modelo, Intervalos de confianza y Estimaciones:
En la opción GUARDAR seleccionamos Residuos NO tipificados:
90
Y finalmente, en la opción GRAFICOS, seleccionamos tal como indica la siguiente imagen:
Y tras pegar, seleccionamos todo y ejecutamos, pasando a continuación a la ventana de resultados generada, donde vemos en primer lugar un cuadro que nos recuerda lo que hemos hecho: Variables introducidas/eliminadasb Modelo 1
Variables introducidas EDADa
Variables eliminadas .
Método Introducir
a. Todas las variables solicitadas introducidas b. Variable dependiente: número de cigarrillos dia
Luego viene un resumen del modelo donde aparece el Coeficiente de Correlación de Pearson, pero en valor absoluto, correspondiéndole el mismo signo que la pendiente de la curva “b” observable en un cuadro inferior:
91
Resumen del modelob Modelo 1
R ,709a
R cuadrado corregida ,379
R cuadrado ,503
Error típ. de la estimación 6,938
a. Variables predictoras: (Constante), EDAD b. Variable dependiente: número de cigarrillos dia
Coeficientesa Coeficientes no estandarizados Modelo 1 (Constante) EDAD
B 31,791 -,473
Coeficientes estandarizad os
Error típ. 11,433 ,235
Beta -,709
t 2,781 -2,012
Intervalo de confianza para B al 95% Límite Sig. Límite inferior superior ,050 ,047 63,535 ,114 -1,125 ,179
a. Variable dependiente: número de cigarrillos dia
Como la b es negativa (-0,5), el coeficiente indica una correlación claramente negativa (-0,709). El siguiente cuadro que observamos nos lo indica como una ANOVA, que llama medias cuadráticas a las varianzas: ANOVA b Modelo 1
Regresión Residual Total
Suma de cuadrados 194,947 192,553 387,500
gl 1 4 5
Media cuadrática 194,947 48,138
F 4,050
Sig. ,114a
a. Variables predictoras: (Constante), EDAD b. Variable dependiente: número de cigarrillos dia
Al no detectarse en el estadístico F significación estadística (p=0,114), no se puede rechazar la hipótesis nula de que la pendiente sea 0.
92
La ecuación generada sería: y=a+bx y=31,791-0,473x El consumo de cigarrillos al día =31,791-0,473xla edad No se obtiene una significación estadísticamente significativa (p=0,114), y además, el intervalo de confianza engloba el 0, (-1,125 a 0,179), lo cual indica que la diferencia obtenida no es estadísticamente significativa. Tendríamos entonces, que por cada 10 años que aumenta edad, disminuye el consumo medio de cigarrillos al día (32 cigarrillos/día) en 5 cigarrillos, aunque la diferencia no es estadísticamente significativa (F 4,050; p=0,114).
93
NOTAS
94
17 TÉRMINOS USADOS •
AMPLITUD: Medida de dispersión. Se calcula mediante la diferencia entre el mayor valor de la muestra y el menor.
•
ANÁLISIS DE LA VARIANCIA: -Prueba estadística para analizar la relación entre: una variable X independiente, cualitativa con dos o más categorías; con una variable Y, dependiente, cuantitativa. -Condiciones de aplicación: Normalidad y Homogeneidad de variancias.
•
BOX-PLOT: Gráfico que permite representar una variable cuantitativa.
•
CURTOSIS: Característica de la distribución de los datos representados en una curva. Se refiere al grado de aplanamiento de la misma. Así tendremos curvas platocúrticas (son aplanadas), leptocúrticas (son picudas), mesocúrticas (intermedias entre las dos anteriores).
•
DESVIACIÓN TÍPICA: Medida de dispersión. Se calcula realizando la raíz cuadrada de la variancia.
•
GRADOS DE LIBERTAD: El número de datos que se pueden variar para que a un total fijo podamos reconstruir dicho total. así la media tiene n-1 grado de libertad, pues si conocemos el valor de esta podemos variar n-1 datos ya que restante vendrá fijado. En una tabla 4x3, si nos dan las frecuencias marginales podremos variar las frecuencias de (41)x(3-1)=3x2=6 celdas, quedando forzosamente determinadas las frecuencias de las celdas restantes. Así, los grados de libertad serían en este caso de 6.
•
MEDIA: Medida de tendencia central. Se calcula sumando todos los valores y dividiendo por el número de valores.
•
MEDIANA: Medida de tendencia central. Ordenando todos los valores que puede toma runa variable, en orden ascendente, la mediana sería el valor que ocupe el lugar central. Se prefiere a la media cuando hay valores muy extremos.
•
MODA: Medida de tendencia central. Es el valor de la variable que más veces se repite.
95
•
PERCENTILES: Medida de tendencia central. Se calcula con los valores ordenados de la muestra. Así el percentil 50 será aquel que deja a tantos valores por debajo, como por encima. El percentil 25 será aquel que deje al 25% de los valores por debajo y al 75% por encima. El percentil 75 será aquel que deje al 75% de los valores por debajo y al 25% por encima.
•
PRUEBA DE X2: -Prueba estadística para analizar la relación entre: una variable X, independiente, cualitativa, con dos categorías; con una variable Y, dependiente, cualitativa, con dos categorías. -Condiciones de aplicación: que los valores esperados sean mayores o iguales a cinco.
•
PRUEBA DE T STUDENT-FISHER: -Prueba estadística para analizar la relación entre: una variable X, independiente, cualitativa, con dos categorías; con una variable Y, dependiente, cuantitativa. -Condiciones de aplicación: Normalidad y Homogeneidad de variancias.
•
REGRESIÓN SIMPLE: -Prueba estadística para analizar la relación entre: una variable X, independiente, cuantitativa; con una variable Y, dependiente, cuantitativa.
•
VARIANCIA: Medida de dispersión. Se calcula dividiendo el sumatorio de la diferencia de cada valor de la muestra menos la media al cuadrado por en número de sujetos de la muestra, es decir: S2 = Σ (x- media)2 / n
96