3 minute read
Diseño y análisis en investigación
Otras operaciones habituales en proceso de depuración de BD son:
Combinación de ficheros
Cuando la información de un mismo individuo se encuentra separada en varias tablas (unidades de análisis), podemos requerir la fusión de las mismas para su tratamiento estadístico. Por ejemplo, podemos necesitar fusionar los datos evolutivos de revisiones periódicas de un paciente para estudiar cambios en la presencia o ausencia de un determinado síntoma o variaciones cuantitativas de parámetros bioquímicos. La operación requiere, en primer lugar, que las tablas tengan un mismo campo de identificación por el que deben estar ordenados y que no haya coincidencias entre los nombres de los campos de las tablas. Cada programa tiene sus instrucciones concretas para realizar dicha tarea. Otra combinación común de ficheros es la unión de tablas de la misma estructura con información de distintos individuos. Esto suele ser necesario cuando varias personas recaban la información por separado o cuando se ha distribuido el trabajo de introducción de datos al ordenador.
Detección y manejo de valores ausentes (missing)
Ya hemos dicho anteriormente que al diseñar una BD debemos definir para cada variable un código de “no especificado” (ausente o perdido). La utilización de dicho código nos permite registrar aquellos campos de los que no dispongamos información, porque no se haya podido obtener o porque se haya perdido. De esta manera diferenciaremos los valores ausentes de los errores en la introducción de datos.
Casi todos los paquetes estadísticos permiten asignar códigos o valores de “no especificado” o “missing”. Para los campos numéricos es frecuente utilizar “- 1” (para variables métricas > 0), “9” (para variables categóricas con menos de ocho opciones), “99.9” o “999” (para variables métricas con rango inferior a 99 o 998) o cualquier valor comprendido fuera de un rango de valores (por ejemplo: variable categórica, grado de reflujo vesicoureteral; rango, 1-5; código “no especificado”, < 1 o > 5).
Es importante conocer lo que el programa que empleamos hace con los campos numéricos que no se rellenan, especialmente si los deja vacíos o les asigna automáticamente el valor “0” o el código de “no especificado”.
Esta disciplina en el tratamiento de los “missing values” facilita las tareas de depuración y detección de errores en nuestros ficheros. En general, los valores ausentes o perdidos ocasionan problemas en la explotación estadística de las BD, especialmente si empleamos técnicas de análisis multivariante. Las rutinas estadísticas anulan los registros incompletos, de manera que los contrastes estadísticos podrían realizarse con subficheros distintos en función de los campos que hayamos incluido en el análisis. Suele recomendarse que las variables con códigos “no especificados” en una alta proporción de casos sean excluidas, y de igual manera aquellos registros con muchos valores ausentes.
Detección y manejo de valores fuera de rango (outliers)
Los “outliers” son observaciones aparentemente inconsistentes con el resto de los datos (por ejemplo: en un estudio sobre la concentración de colesterol total en un grupo de escolares un resultado de 660 mg/dl; por ejemplo: edad mayor de 18 años en una muestra pediátrica). Es importante distinguir si los valores fuera de rango corresponden a errores en la determinación o recogida de datos o a valores excepcionalmente raros, pero posibles. Cada una de esos “outliers” ha de tener un tratamiento distinto.
En el primer caso parece razonable mantener el valor en el análisis; no obstante, dicha decisión va a influir en las estimaciones que se hagan sobre el conjunto de datos. Es previsible que se modifiquen las medidas de tendencia y dispersión (aumentando el valor medio y la varianza) y que incluso cambie la distribución de los datos, impidiendo, por ejemplo, la asunción de normalidad que requieren algunos contrastes estadísticos. De hecho, la inclusión o no de los valores “outlier” puede alterar la significación estadística de nuestros resultados. Por ello, algunos autores sugieren que, en determinadas circunstancias, se haga un tratamiento estadístico duplicado, con y sin “outliers”, de manera que podamos evaluar si hay diferencias apreciables. Hemos de ser siempre muy cuidadosos al retirar observaciones fuera de rango, y en todo caso, la decisión debe ser claramente abordada en la metodología y discusión del estudio.
Los paquetes estadísticos disponen de distintas técnicas para la detección de valores fuera de rango en una BD (tablas de frecuencia, histogramas, diagramas de caja, etc.).
Transformación de variables
Las transformaciones de datos se realizan, habitualmente, para crear nuevas variables con un formato más conveniente para el análisis. Las transformaciones más frecuentes son:
• Normalización de variables continuas (por ejemplo: transformación logarítmica).
• Recodificación de variables cualitativas (por ejemplo: agrupación de diagnósticos).
• Cambios de escala o unidades (por ejemplo: transformación de gramos a kilogramos).
• Variables calculadas o combinadas (por ejemplo: estimación de tiempos a partir de fechas, estimación de índice de masa corporal a partir de peso y talla, etc.).
• Categorización de variables continuas (por ejemplo: peso al nacimiento en bajo peso sí/no).
Las transformaciones de variables pueden ser realizadas de forma simultánea durante la introducción de datos o posteriormente, constituyendo un paso previo al análisis. En la segunda opción la operación se hace de una vez con el fichero completo, reduciendo el número de instrucciones necesarias, así como la probabilidad de error.
Una información práctica a la hora de manipular tiempos en las BD es saber que, aunque las fechas se introducen y muestran en formato día/mes/año, las BD las almacenan como números, en referencia al tiempo transcurrido desde una fecha de referencia (por