Guía para la Construcción de Bases de Datos by Dimas E. Sulbarán Rey

UNIVERSIDAD CENTRAL DE VENEZUELA FACULTAD DE HUMANIDADES Y EDUCACIÓN ESCUELA DE PSICOLOGÍA CÁTEDRA DE ESTADÍSTICA

CONSTRUCCIÓN DE BASES DE DATOS

Profesora María Fátima Dos Santos

En matemática, una matriz es un ordenamiento particular de datos en una estructura determinada de filas y columnas. Para todos los casos que veremos a continuación estamos tratando con matrices planas, es decir, definidas en dos dimensiones: ancho y largo. Solo para recordar, las filas y las columnas funcionan así: Columna Columna Columna Columna Columna 1 2 3 4 4

…

Columna m

Fila 1 Fila 2 Fila 3 Fila 4 … … Fila n Cuando nos referimos a Columna m y Fila n estamos queriendo decir que esta matriz puede ser tan ancha y tan larga como se desee. El término “base de datos” se usa para indicar que la matriz con la que estamos tratando organiza los datos provenientes de la realidad, de determinados aspectos medidos en la realidad, y no se trata de números generados al azar, por ejemplo. Es decir, toda base de datos es una matriz, pero no toda matriz es una base de datos. Como puede verse en la matriz presentada arriba, la ordenación en filas y columnas nos provee de un espacio bidimensional (sea cuadrado o no, es decir, haya la misma cantidad de filas y de columnas o no) sobre el cual colocar los datos con los que estamos trabajando. En ciencias sociales (mucho más que en ciencias naturales) esta colocación se vuelve un tanto compleja, pues quienes trabajamos con ciencias sociales solemos movernos en varios niveles de medición, mientras que en ciencias naturales trabajan, con mayor frecuencia, con variables en nivel de razón. Por ello debemos diferenciar algunos términos antes de adentrarnos en los procedimientos de llenado de bases de datos.

1. Categorías, Etiquetas, Códigos y Libro de Códigos

Cuando decimos “categoría”, generalmente nos referimos a alguna de las opciones que puede asumir una variable cualitativa, especialmente una nominal. Si estamos trabajando con tipos de animales, por ejemplo, una categoría será “perro”, otra “águila calva”, otra “águila gris”, otra “demonio de Tazmania”, otra “boa constrictor”, y así. Cuando intentamos llevar estas categorías a la base de datos, debemos conseguir una manera de que quepan dentro del reducido espacio que permite cada casilla, evitando cualquier tipo de confusión entre una categoría y otra. Supongamos, por ejemplo, que solo tenemos ocho espacios para transcribir la categoría (lo cual es el límite usual de ciertas bases de datos), “águila calva”, “águila gris” y “demonio de Tazmania” exceden los límites de la casilla. Podemos intentar resumir la categoría, y usar, por ejemplo “águila”, “águila” y “demonio”, pero la reducción hace que en los dos primeros casos se repita una categoría y en el tercer caso pierde sentido (es decir, ¿un demonio es un animal?). Podemos seguir intentando opciones para que las categorías expresen adecuadamente al animal, sean cortas y no se repitan, pero cuando trabajamos con muchas categorías, esto puede ser extenuante. Es por ello que solemos recurrir a los libros de código. Al trabajar con niveles de medición distintos al de razón (recordemos que solo en el nivel de razón un número es exactamente y completamente eso: un número) solemos reemplazar la categoría por un valor numérico sin sentido, al cual llamamos código. En un listado aparte, el código es vinculado con la categoría, a veces utilizando una expresión abreviada o usando todo el nombre de la categoría, si el programa lo permite. De modo que tenemos, finalmente, cuatro cosas: a) Código: Valor numérico sin sentido, diferentes unos a otros b) Etiqueta: Expresión abreviada de la categoría c) Categoría: Según su expresión completa d) Definición de la categoría: Breve explicación que ayude a comprender cuáles sujetos deben ser incluidos en esta categoría

Cuando completamos toda esta información en relación a todas las variables y todas las categorías de una base de datos, estamos construyendo un libro de códigos. Por ejemplo: Variable Orientación vocacional

Código 1

Etiqueta Ciencnat

Categoría Ciencia naturales

Orientación vocacional

Humanida

Humanidades

Orientación vocacional

Trabmanu

Trabajos manuales

Definición Incluye a todos aquellos que muestran interés por áreas como física, química, biología y matemáticas Incluye a todos aquellos que muestran interés por idiomas y todo tipo de expresiones artísticas Incluye a aquellos que se inclinan por elaboraciones concretas y trabajos productivos no artísticos

Como vemos con claridad, una misma variable incluye tantas categorías como sean necesarias, cada una de las cuales tiene un código, una etiqueta y una definición. Cuando trabajamos con variables de razón, dado que cada número tiene valor por sí mismo, no es necesario el libro de códigos. Sea cual sea la variable (cualitativa o cuantitativa) es necesario hacer en algún lugar la definición de la variable, lo cual no forma parte del libro de códigos.

2. Algunos Tipos de Bases de Datos Presentaremos a continuación algunos tipos de bases de datos, clasificados según la naturaleza de los datos que contienen. Este apartado es apenas introductorio, y no pretende ser exhaustivo. En general, seguiremos el esquema propuesto por Abascal y Grande (1989), pero, para facilitar la comprensión, queremos diferenciar entre “Bases de Datos Primarias” (las que consisten en la transcripción y ordenación de las medidas, sin ningún procesamiento ulterior) y “Bases de Datos Secundarias” (conocidas generalmente como “tablas”, constituyen una procesamiento efectuado sobre las tablas de datos primarias).

2.1. Bases de Datos Primarias

2.1.1. Bases de Datos Cuantitativas Incluyen solo variables cuantitativas, de forma que en cada casilla vamos a conseguir un número, que representa la medición de una determinada variable para un determinado individuo. No hace falta generar un libro de códigos asociado a la base de datos. Código del sujeto

Edad

Talla de zapatos

1 2 3 … n

21 45 35 … 38

45 40 38 … 41

Frecuencia de visita al cine por semana 1 0 3 … 2

Cantidad de amigos 15 23 38 … 12

2.1.1.1. Bases de Datos de Series Temporales La clave de este tipo de bases de datos es que los sujetos no son personas, cosas, países, etc, sino “tiempos”. Podemos tener el caso de que cada sujeto corresponda a un año (1985, 1986, 1987, etc), a un mes (enero, febrero, marzo, etc), o incluso a una unidad de tiempo indeterminada (como t1, t2, t3, etc). En los diseños intrasujeto de psicología conductual es común la utilización de este tipo de bases de datos, que permiten ver cómo se va adquiriendo o extinguiendo una conducta a lo largo de repetidas mediciones. El reino por excelencia de las bases de datos temporales es, sobre todo, la economía. Veamos un ejemplo a continuación (todos los datos son ficticios): Mes

Precio del dolar

Enero 1990 Febrero 1990 Marzo 1990 … Junio 2008

1,95 1,98 2,43 … 2,15

Variación Variación intermensual en intermensual en el PIB la inflación 2,1 1,8 1,3 2,3 -0,4 2,5 … … 0,8 1,9

Población empleada 8,5 8,9 8,4 … 7,8

La base de datos que estamos usando como ejemplo incorpora también una novedad (que no está asociada con el hecho de ser una Base de Datos de Series Temporales): la de incluir porcentajes e índices como parte de los datos. Esto es válido, y esta información puede ser considerada, en sentido general, como cuantitativa.

2.1.1.2. Bases de Datos Ordinales y de Preferencias

Corresponden al vaciado de preguntas con nivel de medición ordinal. Cada casilla representa el orden asignado en determinada variable por determinado sujeto. Para que resulte más claro, supongamos el siguiente caso: un grupo de sujetos debe ordenar sus preferencias en cuanto a qué tanto les gustaría vivir en cada uno de cinco países. Se muestran a cada sujeto los cinco países candidatos y debe ordenarlos, asignando un número del 1 al 5, siendo 1 el país preferido y 5 el menos deseado. No se pueden saltar números ni colocar empates. Una muestra de la base de datos aparecería como sigue: Código del sujeto 1 2 3 … N

Francia 1 4 2 … 2

Estados Unidos 3 5 1 … 1

España

Chile

Honduras

2 2 3 … 3

4 1 4 … 5

5 3 5 … 4

Los datos dentro de las casillas constituyen una etiqueta referida a la posición del país en cuanto a la preferencia del sujeto. Cada país, o cada columna, constituye una variable. Como se utiliza la misma escala en todas las variables, y esta ya ha sido aclarada en el enunciado de la pregunta (cuando decimos que 1 corresponde al país preferido), podríamos prescindir de la elaboración de un libro de códigos para cada variable.

2.1.1.3. Bases de Datos de Modalidades

Son las correspondientes al vaciado de preguntas nominales. En este tipo de preguntas, el número es solo un “referenciador”, que sirve para vincular a determinado sujeto con una cierta modalidad o categoría, por lo cual es imprescindible el libro de códigos para establecer la correspondencia código-categoría. Por ejemplo, imaginemos una derivación del caso anterior sobre evaluación de países. Se le pide al sujeto que indique si 1) consideraría vivir en ese país, 2) ya ha considerado vivir allí o 3) jamás pensaría vivir allí. Cada persona puede elegir solo una opción para cada país. (Nota: si usted opina que estas opciones tienen cierto tinte ordinal, puede que esté en lo cierto. Sin embargo, note que los códigos no proponen una progresión: la opción más favorable no es la 1, aunque la más desfavorable es la 3). Los datos dentro de las casillas corresponden a estos números. Note que en este caso, a diferencia del anterior, las medidas son independientes, es decir, que los empates están permitidos. El sujeto 1 consideró la alternativa de vivir en todos los países evaluados, así que asignó 1 a cada país. El sujeto n, por el contrario, asignó 3 a todos los países menos a Estados Unidos, de modo que no consideraría la alternativa de vivir en ningún otro país que no fuera Estados Unidos. Código del sujeto 1 2 3 … N

Francia 1 3 1 … 3

Estados Unidos 1 3 2 … 1

España

Chile

Honduras

1 2 2 … 3

1 3 1 … 3

1 2 3 … 3

2.1.1.4. Bases de Datos Disyuntiva Completa o Base de Datos Binaria

La manera más sencilla de comprender esta base de datos es verla como un elaboración de la tabla anterior. En una base disyuntiva completa convertiremos cada alternativa de respuesta de cada variable nominal en una columna separada, donde las

opciones de respuesta son 1 (para el caso de que se cumpla la condición) y 0 (para el caso de que no se cumpla. Veamos cómo se transformaría la tabla anterior en una tabla disyuntiva completa para el caso de los dos primeros países, Francia y Estados Unidos. (No incluimos todos los países evaluados porque la mecánica es la misma y la base resultaría muy larga) Código del sujeto

Francia – Consideraría vivir (Código 1)

Francia – Ya ha considerado vivir (Código21)

Francia – Jamás pensaría vivir (Código31)

Estados Unidos – Consideraría vivir (Código 1)

Estados Unidos – Ya ha considerado vivir (Código21)

Francia – Jamás pensaría vivir (Código31

1 2 3 … N

1 0 1 … 0

0 0 0 … 0

0 1 0 … 1

1 0 0 … 1

0 0 1 … 0

0 1 0 0

En un principio, una Base de Datos Binaria puede parecer una pérdida de tiempo y energía, pues no proporciona mayor información que una Base de Datos de Modalidades. Sin embargo, es fácil apreciar que algunos procedimientos pueden facilitarse utilizando este tipo de estructuras: por ejemplo, para saber cuántas personas respondieron 1 en la evaluación de Estados Unidos, solo debemos aplicar una sumatoria a la columna correspondiente. Las bases de datos binarias fueron las primeras utilizadas cuando se produjo el boom de la computación, de modo que algunos procedimientos de almacenamiento y cálculo están especialmente desarrolladas para ellas.

2.1.1.5. Un Caso Especial de las Bases de Datos de Modalidades: Preguntas Únicas y Múltiples La construcción de categorías o taxonomías trae un problema particular: es difícil generar un listado de categorías en el que todos los sujetos produzcan una única respuesta, y no sientan tentados a responder afirmativamente en dos o tres categorías que aplican. En ciertos variables, esto difícilmente ocurre (por ejemplo, presente o ausente, vivo o muerto, etc). Pero en otras, es altamente probable. Piense, por ejemplo, que le preguntan de qué humor está hoy. Aunque haya un humos predominante, lo más probable es que responda varias palabras, como “soñoliento”, “fatigado” y “desmotivado”, o, en otro caso, “enérgico” y “optimista”. ¿Cómo se registran varias respuestas para un mismo individuo?

Una solución intuitiva sería colocar las respuestas una al lado de la otra dentro de la misma casilla. Desengáñese: los programas no las procesan. Colocar un código 3 al lado de un 1 es registrado por la máquina como 31. Si prueba a colocar caracteres que separen el 3 y el 1 (por ejemplo: 3,1 ó 3/1 ó 3 1). La máquina lo interpretará como un campo alfabético. De hecho, a los humanos mismos nos costaría interpretar adecuadamente una celda que dice 3 1 7 42 2 31 23. Suponga la pregunta de la que hemos estado hablando: ¿cómo describiría su humor el día de hoy?. Vamos a simplificar y considerar cinco alternativas: 1- soñoliento, 2nervioso, 3-enérgico, 4-optimista, 5-deprimido. Existen dos alternativas para registrar respuestas múltiples. Ambas cumplen el requisito de que cada celda recoja una sola respuesta. Estas alternativas son:

Método de la Opción de Respuesta para Respuestas Múltiples Este método es simple en cuanto a estructura y es mucho más corto en cuanto a transcripción, pero puede resultar más engorroso a la hora de procesar resultados. Como cada sujeto puede responder varias opciones (de hecho, hasta cinco opciones, en sujetos un poco confundidos), reservamos cinco columnas para esta respuesta. En la primera columna (llamada “primera respuesta”) colocamos la primera respuesta, en la segunda columna colocamos la segunda respuesta y así. Este modo de vaciado produce un patrón específico, con la primera columna llena (es decir, con una respuesta para cada individuo), y las demás disminuyendo la cantidad de respuestas por columna y aumentando los espacios en blanco (o “0”, o “missing”, o 99, dependiendo de lo que se haya decidido hacer). A continuación un ejemplo. Código del sujeto

Humor Primera respuesta

Humor – Segunda respuesta

Humor – Tercera respuesta

1 2 3 … N

2 1 3 … 5

5 4

… 1

…

Humor – Cuarta respuesta

…

Humor – Quinta respuesta

…

Siguiente variable (por ejemplo, edad)

23 42 15 … 25

Vea con cuidado: el sujeto 3 dio una sola respuesta, mientras que el 1 dio tres respuestas. Aparentemente tenemos dos columnas vacías (la de “cuarta respuesta” y la de “quinta respuesta”). Es preferible tener columnas vacías que no tener espacio para transcribir respuestas, así que esto no es un problema. Este tipo de bases de datos hay que procesarlas con cuidado. Si usted le pidió a los entrevistadores que registraran las respuestas en el orden en que se produjeron, la primera columna de respuesta debe corresponder a la primera respuesta producida, que probablemente sea el humor dominante. En ese caso, podría analizar esa primera columna sin tomar en cuenta las otras, y presentarla como el resultado del “humor dominante”. Fuera de eso, no tiene ningún sentido analizar las columnas sin sumarlas. El SPSS tiene una rutina (la de Respuestas Múltiples), para sumar estas columnas y procesar frecuencias y tablas cruzadas a partir de ellas. En otros paquetes estadísticos puede resultar más complicado. Decimos que en este sistema es más fácil la transcripción, pues todas las primeras respuestas son colocadas en la primera columna, y cuando dejan de producirse respuestas, dejamos de escribir. Es bastante diferente al caso que veremos a continuación. Método Binario para Respuestas Múltiples Es igual al método binario que ya hemos visto: cada alternativa de respuesta se convierte en una columna en sí misma, y las opciones de respuesta son 1 (para “sí tiene este estado de ánimo”) y 2 (para “no tiene este estado de ánimo”). Los resultados del ejemplo anterior quedarían así: Código del sujeto

Soñoliento

Nervioso

Enérgico

Optimista

Deprimido

1 2 3 … N

1 1 0 … 1

1 0 0 … 0

0 0 1 … 0

0 1 0 … 0

1 0 0 … 1

Siguiente variable (por ejemplo, edad)

23 42 15 … 25

Estos resultados son más difíciles de llenar (para empezar, tal vez deban llenarse todas las casillas), pero son mucho más fáciles de procesar: para saber cuántos deprimidos hay, solo hay que sumar la columna. Un buen investigador elabora el instrumento en armonía con la base de datos, es decir, ya tiene pensada la estructura de la base de datos antes de fotocopiar el instrumento. Háganle un favor a los transcriptores y a ustedes mismos: si van a utilizar el método binario en la base de datos, por favor, utilicen también la pregunta con código binario en el cuestionario. Es decir, en vez de colocar en el cuestionario las alternativas de respuesta así: Soñoliento Nervioso Enérgico Optimista Deprimido Colóquenlas de la siguiente manera:

Soñoliento Nervioso Enérgico Optimista Deprimido

1 2 3 4 5

Sí 1 1 1 1 1

No 0 0 0 0 0

Parece una pérdida de tiempo a nivel del levantamiento de la información, pero al transcriptor le tomará mucho menos tiempo conseguir la columna Enérgico, y transcribir 0, que pensar “enérgico es el código 3, o sea, que es la columna 3, cuando llegue allí, debo transcribir un 1”. Si la muestra es de 50 personas, tal vez no importe, pero si son 2000, esta pequeña tontería puede representar una semana de trabajo. Por supuesto, si saben utilizar los paquetes estadísticos y entienden de bases de datos, toda data transcrita de un modo puede ser recolocada luego según otro esquema.

2.1.1.6. Bases de Datos Mixtas

En ciertas metodologías que involucran la construcción de cierto tipo de instrumentos (como la metodología de sondeos por encuestas), es común enfrentarse con

instrumentos mixtos, que incluyen preguntas de todos los niveles de medición, y donde hay tanto preguntas únicas como múltiples. A la base de datos correspondiente se le llama “base de datos mixta”. Presentaremos un ejemplo basado en una encuesta extremadamente corta, y la estructura de base de datos que generaría.

2.1.2. Bases de Datos Secundarias

Llamamos bases de datos secundarias a las logradas luego del procesamiento de bases de datos primarias, como las que hemos visto hasta ahora. Usualmente son llamadas tablas y, aunque pueden considerarse como “resultados” o “análisis” de información que ya fue transcrita en forma de bases de datos primarias, en ocasiones representan insumos para nuevos análisis estadísticos. Consideraremos dos: las Tablas de Contingencia y las Tablas de Proximidades y Distancias.

2.1.2.1. Tablas de Contingencia (o Tablas Cruzadas, Tablas de Doble Entrada, Tablas Gris o Grillas)

El término “Tablas Grid” y “Grillas” viene del inglés “grill”, es decir, parrilla. A veces (muy pocas veces) a estas tablas también se las llama parrila en español. En su nivel más básico, constituyen un procesamiento de dos variables, usualmente nominales. Niveles más complejos pueden incluir más variables, lo cual es más difícil de visualizar. El cruce de tres variables produce un cubo, no una tabla plana. Veamos un ejemplo con dos variables: sexo y rango de edad.

De 18 a 24 años De 25 a 35 años De 35 a 45 años De 45 a 55 años 56 años o más TOTAL

Masculino 15 13 11 15 10 64

Femenino 20 10 9 5 7 51

TOTAL 35 23 20 20 17 115

Lo primero que hay que notar es que, por primera vez en lo que hemos venido estudiando, las filas no corresponden a sujetos individuales, sino a categorías. Los números dentro de las casillas muestran la cantidad de personas que cumplen las dos condiciones de las variables estudiadas. Por ejemplo, hay 15 personas que simultáneamente son de género “masculino” y tienen una edad “de 18 a 24 años”. A los bordes de la tabla (aquí denotados como “TOTAL”) se les llama “marginales”, y muestran las frecuencias para cada categoría de cada variable, sin cruce. Por ejemplo, hay 17 personas de 56 años o más, sumando hombres y mujeres. La casilla del extremo derecho inferior muestra el total de sujetos evaluados. Imaginemos que incluimos una tercera variable, como ciudad de residencia (con las opciones Caracas, Maracaibo y Valencia). Esta nueva variable dividiría cada una de las celdas en tres sub-casillas, una para cada ciudad. Una cuarta variable complejizaría aún más la situación. Hay estilos de representación para esta complejidad creciente (como las capas y los filtros) que no abordaremos ahora. Sí creemos necesario decir que la inclusión de mayor número de variables producirá una fragmentación de los resultados (frecuencias muy bajas por casilla), de modo que, si se espera que estas tablas sean útiles, debemos tener Bases de Datos Originales con suficiente cantidad de sujetos. Por último, aunque las Tablas de Doble Entrada, per se, dan información descriptiva de la asociación entre variables, también constituyen el insumo para ciertos análisis estadísticos, como Chi Cuadrado y Análisis de Correspondencias Binarias.

2.1.2.2. Tablas de Proximidades y Distancias Son una especie particular de tablas con variables de razón. En ellas se coloca la distancia (física o psicológica, da igual) entre cada par de elementos comparados. La tabla tiene a los mismos elementos en las filas y en las columnas, y cada una de las celdas muestra la distancia entre un par de elementos. Esto da origen a una matriz triangular: la mitad inferior izquierda de la tabla es idéntica a la mitad superior derecha, pero vista en espejo. Veamos el siguiente ejemplo, muy simple, con apenas cuatro comparaciones entre sectores de Caracas. Los datos en las casillas representan distancias ficticias en kilómetros.

Catia Altamira Petare El Silencio

Catia

Altamira

Petare

0 32

32 0

48 28 0

El Silencio 11 25 35 0

Note cómo la diagonal está formada por 0, pues la distancia de un punto con respecto a él mismo es 0. Como dijimos, la matriz es diagonal. Generalmente, no tiene sentido colocar los marginales. Veamos un ejemplo psico-social. Se le pidió a un grupo de personas que dijeran qué tanto se parecían dos sistemas políticos, utilizando una escala del 1 al 10, donde 10 es “son muy diferentes” y 1 es “son muy similares”. Los datos en las casillas representan promedios (Datos ficticios).

Democracia Monarquía Parlamentarismo

Democracia

Monarquía

0 4,2

4,2 0

2,1

9,3

Parlamentarismo 2,1 9,3 0

Podemos ver que la democracia y el parlamentarismo son considerados como más parecidos entre sí que cualquiera de ellos a la monarquía. Aunque las tablas de distancia nos dan información por sí mismas, o sea, que podrían ser consideradas un resultado, también se usan como insumo para algunos análisis estadísticos, como el Escalamiento Multidimensional.