Inscripción Registro chileno de Propiedad Intelectual nº 122.264. © Raymond Colle, Santiago de Chile, 2001. Derechos reservados para todos los países. Producido por Visagrafic, S.L. Impreso en España - Printed in Spain Tel./Fax: (34) 91 739 88 75 ISBN: 84-0Depósito Legal: M-
Reservados los derechos para todos los países. Ninguna parte de esta publicación, incluido el diseño de la cubierta, puede serreproducida,almacenada o transmitida de ninguna forma, ni por ningún medio, sea éste electrónico, químico, mecánico, electro-óptico, grabación, fotocopia o cualquier ortro, sin la previa autorización escrita por parte del autor.
INDICE PRESENTACION PROLOGO........................................................................7 INTRODUCCIÓN ............................................................. 11 PRIMERA PARTE: BASES DE DATOS, META-INFORMACION Y "MINERÍA DE DATOS" 1. BASES DE DATOS Y SISTEMAS DOCUMENTALES AVANZADOS .............................................................. 17 1.1. Supuestos básicos..................................................... 17 1.2. Sistema documental ................................................... 18 1.3. ¿Banco de datos o Bodega de datos? (Data Warehouse).......... 19 1.4. Feria y depósito de datos (Data Mart y Data Repository) ......... 20 1.5. Meta-datos.............................................................. 22 1.6. Análisis Visual de Datos ("VDA")................................... 23 1.7. Los datos, su valor y su complejidad ............................... 24 1.8. Tipos de bases de datos............................................... 25 1.8.1. Tipo jerárquico................................................. 25 1.8.2. Tipo relacional................................................. 27 1.8.3. BD orientada a objetos........................................ 31 1.8.4. Otros tipos de BD ............................................. 32 1.9. Operaciones con los datos............................................ 33 Conclusión................................................................... 34 2. MODELOS DE DATOS Y META-INFORMACIÓN................... 35 2.1. Modelo lógico.......................................................... 35 2.1.1. Modelo conceptual ............................................ 35 2.1.2. Atributos........................................................ 36 2.1.3. Relaciones...................................................... 36 2.1.4. Dominios....................................................... 38 2.2. Normalización de datos............................................... 39 2.2.1. Primera forma normal......................................... 39 2.2.2. Segunda forma normal........................................ 40 2.2.3. Tercera forma normal......................................... 40 2.2.4. Modelo canónico .............................................. 42
2.3. Diseño físico........................................................... 42 2.3.1. Modelo "compacto"........................................... 42 2.3.2. Modelo canónico .............................................. 43 2.3.3. Modelo de datawarehouse.................................... 44 2.4. Explotación básica de los datos...................................... 46 2.4.1. Meta-datos compuestos....................................... 46 2.4.2. Explotación algebráica........................................ 47 2.4.3. Explotación estadística........................................ 48 Conclusión................................................................... 49 3. EXPLOTACIÓN AVANZADA O "MINERÍA DE DATOS".......... 51 3.1. Concepto de "Minería de Datos" ("Data Mining") ................. 51 3.2. Los métodos de Data Mining......................................... 54 3.2.1. OLAP........................................................... 54 3.2.2. KDD ............................................................ 55 3.3. Principios básicos ..................................................... 56 3.3.1. Reiteración ..................................................... 56 3.3.2. Temporalidad .................................................. 56 3.4. Etapas de trabajo....................................................... 56 3.4.1. Fase preliminar ................................................ 56 3.4.2. La preparación de los datos .................................. 57 3.4.3. La aproximación al problema ................................ 60 3.4.4. La secuencia básica de trabajo ............................... 64 3.5. Las herramientas de Data Mining .................................... 70 3.5.1. La visualización de datos como método de análisis ....... 71 3.5.2. Otras herramientas............................................. 75 3.6. Algunos ejemplos de Data Mining................................... 81 3.6.1. Las telecomunicaciones....................................... 81 3.6.2. El mundo de las nuevas tecnologías......................... 82 3.6.3. Las relaciones interpersonales ............................... 82 Conclusión................................................................... 83 SEGUNDA PARTE: BASES DE DATOS, METAINFORMACIÓN Y "MINERÍA DE DATOS" EN EL PERIODISMO 4. LA INFORMATIZACION DE LA DOCUMENTACION DE PRENSA..................................................................... 87 4.1. Sistema documental periodístico..................................... 87 4.2. Bases para el modelamiento de datos............................... 89 4.2.1. El registro documental como conversación................. 89 4.2.2. Análisis genérico de referentes............................... 90 4.3. Modelamiento conceptual de los hechos noticiosos ............... 96 4.3.1. Actor............................................................ 95 4.3.2. Relator y "Vector"............................................. 95 4.3.3. Reseña.......................................................... 96 4.3.4. Núcleo de la reseña............................................ 96
4.3.5. Periféricos de la reseña ....................................... 97 4.3.6. Atributos seleccionados....................................... 98 4.3.7. Producto.......................................................100 Conclusión..................................................................100 5. META-INFORMACION PERIODISTICA.............................101 5.1. Estado inicial de la base de datos ...................................102 5.1.1. Ingreso y publicación de los datos .........................102 5.1.2. El problema de los actores y afectados.....................104 5.1.3. Otras tablas....................................................107 5.2. Extracción de meta-información ex post facto por procedimientos comunes: estadísticas de frecuencias............107 5.2.1. Atributo "Fecha"..............................................108 5.2.2. Atributo "Lugares"...........................................109 5.2.3. Atributo "Descriptores temáticos"..........................109 5.2.4. Atributo "Implicados"........................................112 5.2.5. Atributo "Fuentes" ...........................................112 5.2.6. Producto.......................................................112 5.3. Preparación para la "Minería de Datos"............................115 5.3.1. Verificación de la consistencia lógica y semántica de la Base de Datos original.......................................115 5.3.2. Traspaso de los datos de la tabla única de noticias a múltiples tablas de "tercera forma normal". ..............115 5.3.3. Reestructuración de la lista de Implicados.................117 5.4. Estadísticas del nuevo total de noticias.............................118 5.4.1. Atributo "Fecha"..............................................118 5.4.2. Atributo "Lugares"...........................................118 5.4.3. Atributo "Descriptores temáticos"..........................121 5.4.4. Atributo "Implicados"........................................121 5.4.5. Clases de "Implicados"......................................121 5.4.6. Atributo "Fuentes" ...........................................122 5.4.7. Coeficiente de predictibilidad ...............................122 Conclusión..................................................................129 6. "MINERIA DE DATOS" EN UN MEDIO PERIODISTICO.........131 6.1.Análisis visual de datos...............................................132 6.1.1. Visualización de Descriptores...............................132 6.1.2. Visualización de los Implicados repartidos por clases ...135 6.2. Coocurrencias internas...............................................135 6.2.1. Coocurrencias entre Descriptores...........................137 6.2.2. Coocurrencias entre Implicados ............................142 6.2.3. Coocurrencias entre clases de Implicados.................142 6.2.4. Coocurrencias entre Lugares................................145 6.3. Coocurrencias externas ..............................................147 6.3.1. Coocurrencias entre descriptores y clases de implicados 147 6.3.2. Descriptores por períodos mensuales......................150 6.3.3. Implicados por períodos mensuales........................155 6.3.4. Lugares y Descriptores ......................................156
6.3.5. Lugares y períodos mensuales..............................158 6.3.6. Lugares y clases de Implicados.............................160 6.3.7. Fuentes y clases de Implicados.............................165 6.3.8. Descriptores y Fuentes.......................................165 6.4. Asociaciones de tres atributos.......................................170 6.4.1. Tríada Descriptor-Implicado-Lugar ........................170 6.4.2. Tríada Descriptor-Implicado-Fecha ........................172 6.4.3. Tríada Descriptor-Lugar-Fecha.............................174 - [ Láminas a color ] -................................................177 6.4.4. Tríada Implicado-Lugar-Fecha..............................181 6.4.5. Conclusión....................................................181 6.5. Análisis multidimensional ...........................................182 6.5.1. Demultiplicación combinatoria..............................182 6.5.2. Proyecciones tridimensionales..............................185 Conclusión..................................................................186 CONCLUSION................................................................189 7.1. Evaluación de la experiencia.........................................189 7.1.1. Principales hallazgos.........................................189 7.1.2. Ventajas y limitaciones de la visualización ................192 7.1.3. Las dificultades...............................................193 7.2. El futuro de la Data Mining en el Periodismo .....................194 ANEXO Ciencias humanas y matemática...................................197 1. Matemática del caos y ciencias humanas .............................197 2. El concepto de "orden implicado".....................................200 GLOSARIO....................................................................203 BIBLIOGRAFIA..............................................................207
A mis amigos docentes del área de la Documentación, especialmente los que conocí en España y los chilenos con quienes he compartido el sueño de introducir programas de postgrado que permitiesen a los profesionales en ejercicio dominar herramientas más avanzadas.
A los periodistas que podrán encontrar aquí nuevas herramientas de trabajo.
A Daniel, mi asesor en computación.
PROLOGO "EN BUSCA DE LA INFORMACIÓN PERSONALIZADA"
Desde mediados de los años 90 la idea de un "diario electrónico" (mal nombre pero que sigue siendo el más utilizado para describir un multimedio informativo absolutamente novedoso) contempla -entre muchas posibilidades- la del acceso personalizado del usuario a sistemas documentales. Conforme a este planteamiento teórico, a partir de una nota de actualidad -por ejemplo. una referencia a una intervención del Presidente de la República- el interesado podría complementarla de inmediato con otros antecedentes. Así, si se trata de un lector extranjero, tal vez le interese saber más de la situación política interna del país; los motivos del discurso o la personalidad del Jefe del Estado. En cambio, un usuario local medianamente informado, querría saber la opinión de diversos sectores políticos, estadísticas y mayores detalles sobre aspectos concretos.. Esta es una de las ventajas más significativas de las tecnologías digitales y del acceso a la información en red: a la instantaneidad con que se entrega el encabezado noticioso, el propio usuario -o un programa adecuado a sus intereses y gustos- podría lograr acceso inmediato a una amplia gama de antecedentes. Esta profundización debería permitirle comprender mejor la actualidad, antes incluso que los propios periodistas hayan agregado sus análisis y comentarios. La posibilidad existe, como se demostró en una investigación acerca del Diario Electrónico en la que participamos en los años finales de la década pasada con otros profesores -periodistas e ingenieros- de la Universidad Diego Portales1 . Pero desde entonces, a pesar de que el número de medios electrónicos en la red se ha multiplicado considerablemente, todavía no termina de concretarse de manera sistemática. Ello se debe, probablemente, a un cierta falta de interés de las empresas informativas. La incursión de los medios impresos en esta área se inició con comprensible reticencia y todavía no se define con precisión, pese a que ya se han instalado sobre este escenario numerosos medios audiovisuales e incluso existen no pocos que no tienen asociación alguna con medios tradicionales. Es evidente, además, que no se dispone todavía del software que facilite la puesta en práctica del concepto del link que vaya más allá del "archivo" tradicional (generalmente a través de un botón que dice: "ver ediciones anteriores") o de los enlaces externos. Y, aunque no sería difícil crearlos, la verdad es que ha faltado 7
algo que nos parece esencial: una reflexión acerca de lo que se quiere obtener y de cómo mejoraría el servicio que deben prestar los periodistas. Ese es, sin duda, el gran aporte de esta obra. Hay que decir, en primer lugar, que no es casual que su autor sea el doctor Raymond Colle. Su formación europea le ha hecho exigente y riguroso en un área donde abunda la improvisación y durante años dominaron los técnicos, los hombres "prácticos", frente a los "teóricos" que aparentemente no tenían mucho qué decir. Pero no sólo eso: es, además, un auténtico pionero que desde la prehistoria de Internet -digamos, los años 80- y lo que todavía llamamos "nuevas tecnologías" ha estado preocupado del tema. Y, finalmente, hay que reconocerle la persistencia en una reflexión difícil y con pocos alicientes. La realidad, como suele ocurrir, ha ido forzando el curso de los acontecimientos. Todo empezó, en cierto modo, con la agonía de las viejas "morgues" de los periódicos, donde se sepultaba el material -normalmente impreso- que recopilaban los periodistas y que después no se atrevían a botar a la basura, junto con libros de referencia, almanaques, atlas y otros documentos. La innovación tecnológica fue produciendo un visible, aunque paulatino cambio en los viejos archivos que hasta entonces repletaban estantes en miles de diarios y revistas en el mundo entero. Primero apareció el microfilm, con fichas algo engorrosas, pero más fáciles de revisar y aprovechar que los recortes de papel. Luego vino la incorporación creciente de la computación, dando origen a un concepto nuevo: el servicio de documentación, donde se encontraron en un terreno compartido periodistas y documentalistas. Pero es evidente que todavía falta. Habría, sin duda, mayor interés si se comprendiera, como dice nuestro autor, que "el tiempo que se invierte en la confección de los registros (ingreso de información) se recupera con creces en la recuperación de la información". El interés por recuperar información no se limita, por cierto, al periodismo y así se explica en esta obra. Pero, por vocación y profesión, Raymond Colle termina por entrar de lleno a los desafíos que todo esto implica para el periodismo. Y lo hace tratando de responder una gran interrogante: "¿Puede el periodismo beneficiarse de la "Minería de datos"?. Su respuesta es positiva: "Como gran «consumidor» -y difusor- de información, (el periodismo) no debería quedar al margen de los aportes que estas técnicas podrían significar para sus analistas y comentaristas; al contrario, estimamos que no puede ignorar la importancia de éstas para su labor de ahora en adelante. Nadie mejor que un medio de comunicación puede "auscultar" la vida de la sociedad y descubrir los hilos que unen los hechos y explican los éxitos y fracasos en múltiples campos". Por haber dedicado gran parte de mi vida académica y profesional a lo que hemos denominado el "género interpretativo", el de las explicaciones, una manera de hacer periodismo cada vez más necesaria ante la avalancha ininterrumpida de 8
información, no me cabe duda de que la respuesta afirmativa a esta pregunta del profesor Colle es lo que hace tan importante esta obra. Nos coloca en uno de los nudos de la preocupación periodística de todos los tiempos, que se ha acelerado y profundizado de manera creciente desde comienzos del siglo XX. Y no solo eso. También se apunta en estas páginas a otros aspectos, tal vez en apariencia menos importantes, pero que sin duda nos han preocupado largamente a los formadores de periodistas. La falta de uniformidad en los nombres, por ejemplo. Cuando el coronel Gadafi estaba de moda, se le llamaba -según la procedencia del cable- Khadaffy, Gaddafi o de cualquier modo parecido. Al Jazeera, la cadena informativa de Qatar aparece ahora incluso como Al Gazeera y no hablemos de las confusiones todavía no resueltas por el paso de los nombres chinos de la transcripción tradicional al "pinyin", ya que son muchos los que creen que Pekín y Beijing son dos ciudades distintas y Mao Zedong un pariente lejano de Mao Tse-tung. La verdad es que este tipo de situaciones se seguirá repitiendo, como pasó antes con los apellidos rusos, transcritos por los franceses ("Lenine", "Staline", o "Moscou", por ejemplo), sin contar con los lugares y países que han cambiado de nombre, como San Petersburgo, que fue Petrogrado y luego Leningrado en menos de un siglo antes de volver a su nombre original. Pero si no se pueden evitar estas confusiones, lo que recomienda el sentido común es que cada medio tome su decisión y la respete, en vez de brindar el espectáculo de usar un nombre o una grafía distinta en cada página o sección Para todo esto -si se usan bien- pueden ocuparse las herramientas tecnológicas que tenemos a nuestra disposición, junto con las conexiones a Internet. Lo que Raymond Colle nos dice, con insistencia, es que aprendamos a usarlas... y las usemos. Abraham Santibañez Martínez Periodista. Coordinador del Area Académica de Periodismo, Facultad de Ciencias de la Comunicación e Información, Universidad Diego Portales. Ex-director del diario "La Nación" y de la revista "Hoy". Premio de Periodismo 2001, Embotelladora Andina (Coca-Cola Chile), Santiago de Chile.
1 Ver "El Portaliano on-line: El diario (sin tinta ni papel) del futuro". De Luis Alvarez
Baltierra, Esteban Alvarez, Pedro Arrau Fontecilla, Miguel González Pino y Abraham Santibáñez. Editado por la Universidad Diego Portales. Santiago. 1999.
9
10
INTRODUCCIÓN
"El conocimiento de las técnicas documentales ha dejado de ser un terreno exclusivo del documentalista o experto en Documentación para convertirse en una de las herramientas más eficaces del profesional de la Información y de la Comunicación. No parece tener ya cabida alguna en nuestra llamada «sociedad de la información» el profesional mal documentado (indocumentado) y desconocedor de las vías por las que circulan y se accede a los conocimientos. En un mundo donde prima la especialización, el periodista indocumentado es visto hoy día como una persona no suficientemente preparada para afrontar con eficacia su trabajo periodístico y, por ende, ser útil a los ojos de su medio de comunicación." 1 Dra. Ángeles López Hernández Profesora de Documentación Audiovisual, Periodística e Informativa Departamento de Periodismo. Universidad de Sevilla
Los Sistemas Documentales cumplen una función cada día más importante y vital en todo de tipo de organización. ¡Máxime en una empresa cuya razón de ser consiste en informar! Mucha información que era hasta hace poco (no más de 15 a 20 años) del dominio "del lápiz y del papel" se ciñe hoy a formatos estándares e ingresan a sistemas computacionales que facilitan no sólo su utilización posterior sino también la obtención de "subproductos" informativos de alta importancia para la toma de decisiones. Por otra parte, cierto tipo de información - como la bibliográfica, científica o tecnológica - que era siempre requerida pero de difícil o lenta difusión ha ganado enormenente en posibilidades de acceso gracias a los sistemas informáticos de gestión de "bases de datos" y a las redes informáticas como Internet y más aún con la World Wide Web. Nacidos en los Estados Unidos a principios de los 60 - junto a la tercera generación de computadores - los sistemas documentales informatizados sólo fueron cobrando una importante difusión en los 70 con el nacimiento del llamado "modelo relacional", llegando a cierta madurez en los 80. Esto explica que el 11
mercado mundial que había llegado recién a unos 500 de estos bancos de información en 1975 sobrepasó los 2.500 diez años después2 . Así, han empezado a tranformar los hábitos de trabajo de los docentes, investigadores, profesionales y ejecutivos: usuarios que hoy suman millones de personas en todo el mundo, cifra difícil de apreciar si se consideran las bases de datos que se usan hoy para "abastecer" páginas informativas en la WWW. Si bien en Estados Unidos la informatización de los centros de documentación de los medios de prensa se inició en los 70, en Europa empezó a mediados de los 80. Y el costo de infraestructura (especialmente para conservar grandes cantidades de datos en medios magnéticos) llevó a muchos medios a constituir sistemas que estuvieran al servicio de conjuntos de empresas (como la Asociación de Editores de Periódicos en Bélgica, o el para-estatal "Banco de Información Política de Actualidad -BIPA-" de Francia). Gracias a la posterior evolución de los sistemas de compresión de datos y el abaratamiento de los soportes magnéticos cada vez más potentes, casi todos cuentan hoy con Bases de Datos donde se conserva información, al menos, sobre toda publicación propia. El desarrollo de la computación no sólo ha significado una mayor rapidez en el procesamiento de datos y una gigantesca acumulación -y difusión- de informaciones en todo el mundo (Se estima que solo las organizaciones científicas almacenan cada día sobre 1Tb -terabyte- de nueva información). También, gracias al creciente poder y abaratamiento de los procesadores así como a la investigación en Inteligencia Artificial, ha permitido el desarrollo de aplicaciones capaces de sacar partido de esas grandes cantidades de datos, en la medida en que se conserven en formatos "normalizados". Tal como la "matemática del caos" ha podido poner en evidencia la existencia de reglas en fenómenos aparentemente caóticos y la posibilidad de que reglas simples y cambios ínfimos puedan conducir a transformaciones enormemente complejas, la "minería de datos" ("DataMining") reúne hoy procedimientos que permiten explorar grandes conjuntos de datos y sacar de ellos conocimientos nuevos que, de otro modo, permanecerían por siempre escondidos. Aplicaciones de este tipo han permitido, por ejemplo, a la compañía de teléfonos British Telecom obtener invaluable información acerca de los fraudes en las llamadas telefónicas, descubriendo -por ejemplo- que se concentraban en determinadas zonas geográficas. También ha permitido a organismos policiales descubrir sofisticados métodos de lavado de dinero como la petición ("limpia") de créditos para obras inmobiliarias reembolsados luego mediante dinero "sucio", y ayuda a los bancos a detectar el uso fraudulento de tarjetas de crédito cuando aparecen operaciones que se salen de la rutina normal del dueño legítimo. En la investigación médica, ha permitido descubrir cómo ciertas combinaciones de médicamentos explicaban el fracaso de diversos tratamientos. Podríamos dar mucho más ejemplos.Prácticamente en todas las áreas del quehacer humano, donde se acumule información, la minería de datos puede tener hoy aplicación como un nuevo medio de ampliar el conocimiento, resolviendo problemas, 12
ayudando a la toma de decisiones, permitiendo una mejor comprensión de los fenómenos, llenando vacíos o facilitando proyecciones históricas. Ante este panorama, nos surgió la pregunta: ¿puede el Periodismo beneficiarse de la "Minería de Datos"? Como gran "consumidor" -y difusor- de información, no debería quedar al margen de los aportes que estas técnicas podrían significar para sus analistas y comentaristas: al contrario, estimamos que no puede ignorar la importancia de éstas para su labor de ahora en adelante. Nadie mejor que un medio de comunicación puede "auscultar" la vida de la sociedad y descubrir los hilos que unen los hechos y explican los éxitos y fracasos en múltiples campos. En una primera serie de capítulos abordaremos conceptos generales acerca de las bases de datos, los sistemas documentales y los métodos de procesamiento de la información contenida en ellos. Luego pasaremos a aplicar estos conceptos a la realidad propiamente periodística y finalizaremos dando un ejemplo completo real, basado en la experiencia realizada con las noticias acumuladas en la base de datos de la hiperrevista "Temas de Tecnologías Digitales de Comunicación (TDC)" del Centro de Estudios Mediales de la Universidad Diego Portales de Santiago de Chile, que hemos tenido a nuestro cargo. El lector encontrará también al final de la obra un Glosario que contiene todos los términos técnicos que utilizamos en nuestro texto.
13
14
Primera Parte
Bases de Datos, Meta-informaci贸n y "Miner铆a de datos"
15
16
1 BASES DE DATOS Y SISTEMAS DOCUMENTALES AVANZADOS
En este capítulo inicial recordaremos la definición de los principales conceptos que utilizaremos. Partiremos aquí hablando de las bases de datos y los sistemas avanzados construidos a partir de éstas. Posteriormente abordaremos la descripción de los métodos y técnicas que se encuentran hoy disponibles.
1.1. Supuestos básicos Abordar y efectuar adecuadamente la informatización de la documentación periodística no es un problema trivial, como lo hacen pensar algunas veces vendedores de software. Lo más común en el pasado ha sido encontrarse con ofertas de un tipo de sofware que retomaba cada nota o artículo publicado -en el caso de un medio impreso- y lo archivaba "full text" en forma de fichas (registros), ofreciendo a la vez algunas facilidades de búsqueda/recuperación. Esta forma de trabajar ha sido bastante común en países anglosajones pero no permite responder a preguntas precisas como "¿Qué dijo tal parlamentario o ministro acerca de tal tema?", pregunta típica de un periodista del sector político. Tampoco llevó a la correcta implantación de un verdadero SISTEMA documental, el cual se compone necesariamente de múltiples archivos que se han de complementar mútuamente. Típico error sistémico sería, por ejemplo, la ausencia de un Archivo Biográfico, obligando a leer numerosos registros de un archivo "full text" de crónicas para reconstruir el currículum de algún personaje público. Esto lleva por lo tanto a señalar dos condiciones básicas a tener presentes en la informatización de la documentación periodística: 17
1. Mientras más analítica es la estructura del archivo diseñado, más fácil y más precisamente se podrá recuperar la información buscada. 2. Es indispensable configurar un verdadero SISTEMA DOCUMENTAL, y no solamente construir diversos tipos de archivos, de acuerdo a la intuición o las necesidades del momento. De la primera condición se deriva otro principio esencial: EL TIEMPO QUE SE INVIERTE EN LA CONFECCIÓN DE LOS REGISTROS (INGRESO DE INFORMACIÓN) SE RECUPERA CON CRECES EN LA RECUPERACIÓN DE LA INFORMACIÓN . Este es justamente el principio que infringen los modelos no-analíticos: al invertir muy poco tiempo para confeccionar los registros (puede hacerse automáticamente), se pierde gran cantidad de tiempo en la recuperación y se desalienta a los usuarios debido a la cantidad de ruido informativo que se genera (registros que no responden a las preguntas que guían la búsqueda). Pero los modelos analíticos tienen además otras ventajas, muy importantes hoy. Permiten ligar la entrada de información con nuevas formas de salida de la misma. En efecto, cuando se cuenta con múltiples atributos (como por ejemplo el nombre del "actor" de un hecho noticioso, el nombre de la institución a la cual pertenece, el tipo de acción y el tema tratado –si es una declaración–, etc.) se pueden generar estadísticas tales como "quiénes han hecho alguna declaración sobre tal tema, con qué frecuencia, durante tal o cual período). El trabajo interpretativo del periodista se ve grandemente facilitado. Y la misma tabla de resultados constituye un nuevo producto que, con algunos ajustes redaccionales, es también publicable. (Constituye lo que se llamaría hoy "meta-información": ver Cap.5). Paralelamente, es posible instalar un sistema de DISEMINACIÓN de información (como se explica más adelante), aproximándose así a un sistema de "diario a la carta", en que los suscriptores reciban boletines personalizados, de acuerdo a sus intereses particulares.
1.2. Sistema documental Sólo se puede hablar de SISTEMA DOCUMENTAL si el conjunto de archivos se estructura en forma de "espacio de información", permitiendo diversas formas de lectura de la información que contiene y contemplando la existencia de relaciones entre los distintos archivos que lo conforman.
18
El diseño de sistemas documentales debe partir del análisis de las características propias e intrínsecas de los referentes (objetos y eventos) representados además de tener en cuenta las necesidades y los hábitos de los usuarios, es decir la forma en que los usuarios o destinatarios de la misma tenderán a requerirla. Pero los hábitos de los usuarios no pueden ser los únicos que han de guiar el diseño, por cuanto ello podría impedir un mejor aprovechamiento de la información para nuevas tareas o productos que se pueden diseñar hoy o en el futuro. Solo un sistema documental construido de acuerdo a estos principios y administrado con herramientas informáticas que permitan mantener relaciones entre los datos de varios archivos constituye un verdadero y provechoso "BANCO DE DATOS".
1.3. ¿Banco de datos o Bodega de datos? (D ATA W AREHOUSE ) El término "BASE DE DATOS" "se refiere a la información que una empresa u organización mantiene almacenada en el computador [...] Al usar una base de datos, todos los datos se almacenanen forma integrada, y están sujetos a un control centralizado, ejercido por un administrador de la base de datos" (P.Poblete, p.1) Se ha utilizado algunas veces como sinónimo "Banco de datos". Sin embargo, debería hacerse una distinción entre estos dos conceptos, el "Banco" haciendo más referencia al contenido (información), mientras la "Base" -en sentido estricto- hace referencia a la estructura lógico-matemática y al tipo de software utilizado, poniendo el énfasis en el carácter de "fundamento" y punto de partida sobre el cual se construye. De ahí que los programas informáticos (software) se llamen habitualmente "Sistemas de Gestión de Bases de Datos" (SGBD) y no "sistemas de gestión de bancos de datos". El concepto de SGBD también refleja un aspecto importantísimo del sistema: la "INDEPENDENCIA" de los datos, que se refiere a que éstos son independientes del software con el cual han sido imgresados y pueden ser modificados, representados o consultados de diversas maneras, mediante diversas aplicaciones computacionales (Poblete, p.4). Por ello,todo SGBD debe cumplir como mínimo las siguientes condiciones: • 1. Las estructuras de datos (espacio informativo) son simples e independientes del programa que genera los datos. • 2. Varios espacios informativos -si los hay- se asocian mediante la presencia de al menos un atributo común1 . • 3. Un conjunto de operadores permite la definición, búsqueda y actualización de los datos. 19
• 4. Un conjunto de requisitos de integridad define el estado coherente de la base de datos. En los últimos años, el término "BANCO de datos" a caído prácticamente en desuso, reemplazado por "DATA W AREHOUSE"2 o "Bodega de Datos", concepto que engloba: • el conjunto integrado y organizado de todos los datos no volátiles (Bases de Datos) de que dispone una empresa, • mantenidos a través del tiempo, registrando históricamente su evolución, • acompañados de herramientas capaces de administrar el conjunto y facilitar información útil para la toma de decisiones • mediante interfaces que faciliten la consulta. La gestión de la Bodega de Datos así concebida y adecuadamente estructurada es vital para la correcta toma de decisiones y forma parte de los "sistemas de apoyo a la decisión" o "DSS" ("Decision Support System"). La Bodega de Datos, tal como se entiende actualmente -a diferencia del antiguo "Banco de datos"- tiene dos componentes importantes: - los datos propios (por ejemplo la información acerca de los productos, inventario, precios, etc.) y - los datos que se recogen acerca de quienes consultan dichos datos, como podría ser -crecientemente- quienes consultan por diversos productos en un sitio web. Esos datos acerca de los "usuarios" de información son cada vez más valorizados por las empresas que, más que centrarse en sus productos, se van preocupando de sus clientes (cfr. D.Marco, p.20 y vea Gráfico 1.1.). Pero, además, estos componentes son son datos estáticos y todos los cambios que los afectan debe ser registrados de tal modo que se pueda obtener una visión HISTÓRICA de lo ocurrido.
1.4. Feria y depósito de datos (D ATA M ART y D ATA R EPOSITORY ) Junto al nuevo concepto de Bodega de Datos han aparecido otros como "DATA R EPOSITORY", "DATA MART " y "META DATA ". El "DATA MART " , apelación que podría ser traducida por "feria de datos" o "mercado de datos", puede entenderse en dos diferentes niveles:
20
• en el interior de la institución: disponibilidad de los datos del Almacén para ser consultados e intercambiados entre todos los posibles usuarios, mediante consultas on line o reportes periódicos (aspecto de "feria"); • externamente (DATA MARKET ), es la posibilidad de intercambio -obviamente a título oneroso- de bases de datos entre empresas, cosa que ya observamos frecuentemente con carteras de clientes de negocios que operan por Internet (aspecto de "mercado" o comercio). Gráfico 1.1: Depósito y mercado de datos
BODEGA DE DATOS
Base de datos
Archivo de consultas
METADATOS Técnicos Usuarios Internos Operacionales
Explotados Usuarios Externos
DEPOSITO DE DATOS
"FERIA" DE DATOS
Existe un creciente mercado para las informaciones sobre los clientes (cuando están bien clasificadas) y una presión cada vez más grande para crear estándares internacionales que faciliten tales intercambios. En ello compiten actualmente dos grandes organizaciones: la MDC, o Meta Data Coalition, y el OMG, Object Management Group (D.Marco, p.11). El lenguaje XML representa una alternativa muy prometedora para la estandarización, por cuanto es independiente de toda plataforma y compatible con el HTML (el lenguaje de las "páginas web"); y los navegadores de versión 5 o superior ya lo "entienden". Se ha de combinar con el sistema de hojas de estilo ("style sheets") por cuanto no provee etiquetas destinadas a definir el despliegue en pantalla. Puede ser programado con el más simple de los procesadores de texto aunque, sin duda, aparecerán pronto aplicaciones que faciliten el desarrollo por el método WYSIWYG (producción a nivel de visualización del producto en pantalla) (cfr. D.Marco, pp.77-79). Sin embargo, se ha de tomar en cuenta que 21
el XML, al permitir la definición de sus propias "etiquetas" (definiciones de formatos), aumenta en forma importante la cantidad de meta-datos y el espacio necesario para ellos en medios digitales, ya que estas definiciones son meta-datos acerca de los meta-datos, pudiendo además generar dificultades de consistencia a la hora de crear nuevas definiciones. El auge del comercio electrónico vía web sin duda promete éxito para el XML y el OMG lo está adoptando3 . El "DATA R EPOSITORY" o depósito de datos, por su parte, se compone de la Bodega de Datos y, además, de todo el conocimiento ligado a ésta o que pueda ser extraído mediante diversas técnicas, hoy muy sofisticadas. Éstos son los Meta-Datos (META DATA ), de los cuales hemos de hablar luego y que concentrarán especialmente nuestra atención a lo largo de la presente obra. Otra característica de un correcto Depósito de Datos es que ha de contener toda la información histórica acerca de los cambios aportados eventualmente al diseño o estructura del Almacén de Datos y de los usos que se han dado tanto al Almacén como al propio Depósito. Finalmente -y esto es quizás el aspecto más complejose espera que el Depósito también tenga la forma de una Base de datos.
1.5. Meta-datos Los meta-datos (META DATA ) son, como sugiere el nombre, "datos acerca de los datos" o información acerca de la información. Las tarjetas bibliográficas del catálogo de una biblioteca son meta-datos. El modelo de cada tarjeta y las reglas que ha de seguir el documentalista también son meta-datos. ¿Pero qué son los meta-datos en los SGBD? ¿Y de qué tipos de datos o informaciones estamos hablando? ¿Cuál será su utilidad? Los meta-datos son de dos tipos: - La información acerca de la estructura de la información conservada en los bancos o almacenes de datos y acerca de las reglas para su ingreso, transformación y uso. Estos meta-datos han de ser definidos cuidadosamente ANTES de entrar a operar, por cuanto puede resultar extremadamente difícil y costoso modificarlos después del ingreso de datos. Cualquier duda que surja después y que pueda inducir a efectuar cambios requiere un serio estudio de impacto antes de ser llevado a cabo. La ingeniería dispone de métodos para efectuar tales estudios y es siempre aconsejable recurrir a un especialista en este campo. Estos meta-datos, a su vez, se subdividen en dos clases: los relativos al sistema informático (meta-datos técnicos en sentido estricto) y los relativos al funcionamiento de la empresa u organismo ("business meta data", que podríamos traducir por "operacionales"). - La información extraída del conjunto de los datos ingresados (meta-datos "explotados"), tratando éstos como un sistema (datos interrelacionados) mediante técnicas que van desde la estadística clásica hasta los métodos más 22
modernos de visualización y explotación ("Data Mining"), a los cuales nos referimos en otro capítulo. Los meta-datos son herramientas que deben poder guiar a los usuarios de los datos: a quienes los ingresan y a quienes los consultan, tanto para encontrar una información puntual como para extraer información sobre el conjunto en un momento dado o a través de la historia del sistema. Así, pueden proveer un contexto que puede ser de gran importancia para una mejor interpretación de informaciones puntuales. Si, como ya lo hemos mencionado, los Almacenes de Datos son vitales para la gestión, los meta-datos son aún más importantes para la toma de decisiones a nivel directivo. En este caso, es común considerar la evolución del sistema (empresa o unidad operativa) a través del tiempo: la posibilidad de manejar el Depósito de Meta-Datos incluyendo el factor histórico es por lo tanto fundamental. Pero, en la forma en que las técnicas computacionales existentes extraen los meta-datos, éstos no son generalmente de fácil interpretación. Por este motivo deben ser acompañados de "interfaces semánticas" que faciliten su comprensión por parte del usuario (ejecutivo) que, generalmente, no domina los formatos matemáticos en que se generan o la terminología correspondiente. En dicho sentido, las técnicas de "visualización de datos" (proyecciones bi- o tridimensionales) que permite el ordenador son una importante ayuda. Sin embargo no todo debe ser "traducido": es necesario tener en cuenta que existen meta-datos que sólo han de manejar los expertos a cargo del sistema ("meta-datos técnicos", como por ejemplo la información sobre la estructura física de las tablas de datos), mientras otros - más generales o relativos a los resultados significativos para la gestión - han de ser comunicados de la forma más inteligible que se pueda (a veces llamados "meta-datos informativos").
1.6. Análisis Visual de Datos ("VDA") El análisis visual de datos es una técnica emergente que usa en forma intensiva las innovaciones en el campo de las interfaces gráficas y de la visualización científica de datos. Se puede considerar que las primeras aplicaciones de VDA han sido las planillas de cálculo que venían acompañadas de un medio de graficación (como Excel). Pero la idea del VDA no es simplemente de facilitar la representación de funciones estadísticas, sino de ayudar al usuario a explorar los datos y "navegar" a través de ellos de manera más interactiva. Esto supone recurrir también a técnicas de "rendering" y de animación o incluso de "inmersión" virtual en el "espacio" tridimensional de los datos. Usaremos ampliamente algunas técnicas de visualización en la aplicación práctica que expondremos más adelante. 23
1.7. Los datos, su valor y su complejidad Para concluir y sintetizar los conceptos introducidos recientemente por la ingeniería de los sistemas de información, podemos mostrar en un gráfico la relación existente entre el "valor corporativo" y la complejidad de diversos conjuntos de datos a los cuales nos acabamos de referir. Adaptamos aquí un gráfico propuesto por el experto D.Marco en su libro sobre "Depósitos de Datos" (p.30). Reflejamos en este gráfico tanto el avance de los sistemas (principalmente a través del desarrollo de nuevos recursos computacionales) como su creciente complejidad. Pero a ésta va asociado un beneficio creciente para toda empresa y, como lo veremos más adelante, un beneficio que no se limita al campo de los valores económicos sino que involucra en realidad todas la áreas del conocimiento en que es posible ordenar y clasificar datos (de cualquier tipo). Gráfico 1.2. "Potencial de retorno" de los sistemas de datos
Valor Corporativo Sistemas de Control basados en Meta-Datos Interfaz basada en Meta-Datos (VDA) Depósito de datos
Mejor DSS
Bodegas de datos Control de calidad de datos SGBD Diccionario de datos Complejidad
24
1.8. Tipos de bases de datos Se conocen en la actualidad al menos cuatro tipos de bases de datos de acuerdo a su estructura: el jerárquico (practicamente obsoleto), el relacional, el orientado a objeto y el "relacional orientado a objetos", que combina los dos anteriores. 1.8.1. Tipo jerárquico Un ejemplo típico de sistema documental jerárquico podría ser uno que acumula información acerca de equipos deportivos (supongamos de futbol). La raíz del árbol jerárquico sería la ANFP (Asociación Nacional de Futbol Profesional). Acerca de ella existirá un registro con una serie de datos (nombres de directivos, dirección, etc.) y la indicación de que encabeza dos agrupaciones de clubes, llamadas "Primera División" y "Segunda División" (podrían haber más). Gráfico 1.3. Ejemplo de estructura jerárquica: ANFP ANFP 1a. División 2a. División
Clubes
Clubes Colo-Colo -------------
U. de Chile U. Católica Unión Española -------------
Presidente Secretario Tesorero
Entrenador Médico -----Cuerpo Técnico
Cuerpo Directivo
Jugador 1 Jugador 2 -----Jugadores
Luego tendremos un registro por cada una de estas divisiones, dónde estarán los nombres de los clubes. Los datos sobre éstos irán en registros separados, uno 25
por club. Y para cada club habrá datos generales (registro específico del club) y datos específicos relativos a los miembros del cuerpo directivo, del cuerpo técnico y del equipo de jugadores. Otro ejemplo de sistema documental jerárquico es el que sigue las operaciones de una industria: supondremos que ésta se divide en "departamentos", cada uno de los cuales desarrolla ciertas funciones. Éstas implican actividades seriadas que son documentadas de diversas maneras. Así, la adquisición de materias primas es seguida del uso de las mismas, con lo cual debe ajustarse permanentemente la información sobre el saldo disponible a fín de ordenar a tiempo la compra de lo que haga falta. Gráfico 1.4. Ejemplo de estructura jerárquica en una empresa EMPRESA Departamentos
Personal
Producción
Funcionarios
Ingreso de movimientos Mov. de materia prima Mov. de productos
Empleado 1 Empleado 2 Empleado 3 ---------
Informe de movimientos Mov. de materia prima Mov. de productos
Inventario de materia prima Inventario de productos
Contabilidad Ingresos Egresos
Al mismo tiempo, el uso está determinado por la creación de los productos terminados, que deben ser sometidos a inventario y son luego vendidos. Hay por lo tanto un nuevo sistema de control de existencias, referido ahora a productos terminados, y nuevos procesos contables referidos a las ventas. Todo ello da orígen a un complejo sistema de manejo de información. El ejemplo adjunto presenta un sistema jerárquico simplificado de archivos destinados a documentar las señaladas operaciones y sus consecuencias sobre las existencias de materias 26
primas y productos terminados y la situación contable de la empresa. Implica que ciertas personas deben llenar ciertos formularios cuando pasan ciertas cosas, y éstos conforman los registros de ciertos archivos, al mismo tiempo que ciertos datos son transferidos a otros archivos (dependientes) a cargo de otras personas, donde pueden ser objeto de nuevas operaciones. Las relaciones entre archivos estarán dadas por los atributos comunes (variables que describen cada referente) y por reglas de "herencia" o transferencia. Pero, por principio (para efectos de economía de espacio y menor redundancia), solo se colocan en un archivo propietario ("padre") los atributos del archivo dependiente ("hijo") cuyos datos constituyan la entrada (encabezado) en este último y los que deban ser transferidos por razones operativas. Luego se agregará en el dependiente el detalle de la información. (Del archivo de mayor jerarquía se dice que es "propietario" de los de menor jerarquía). La principal ventaja de esta estructura consiste en que la información que aparece en un registro jerárquicamente superior se aplica igualmente a todos los registros que le son subordinados (llamados sus "descendientes"), por lo cual no debe repetirse (economía de espacio y baja redundancia), gracias al principio de "herencia". Así, no debe anotarse en la ficha de un jugador -por ejemplo- que juega en "Primera división", ya que podemos saber a qué club pertenece y -remontando la jerarquía- que este club pertenece a la "Primera División". Las desventajas son que el árbol jerárquico debe definirse previamente y es difícil de modificar para insertar nuevos registros, especialmente si se utilizan medios magnéticos de conservación, debido a la forma en que se deben intercalar los registros de diversos niveles jerárquicos (dificultad de actualización). (Cfr. Gillenson, p.117) Es también difícil responder con rapidez a una consulta sobre un punto específico de un registro subordinado (sobre todo si a partir de un dato subordinado se espera obtener una respuesta que es una información "heredada" de un registro de nivel superior). 1.8.2. Tipo relacional Considerando el espacio informativo como un conjunto de datos en forma de matriz (tabla de doble entrada o conjunto de n dimensiones), podemos apelar a la teoría de conjuntos para efectuar operaciones entre diferentes espacios informativos si mantienen entre sí algún atributo en común. Es evidente que esta exigencia nos permite construir un conjunto intersección, un conjunto unión, un conjunto diferencia (complemento de la intersección), etc. Pero en el caso de archivos, el mecanismo y sus resultados presenta características un poco más complejas (y provechosas) que en conjuntos no organizados en forma de matriz.
27
La estructurarelacional 4 de un sistema documental es la que considera y aprovecha estas operaciones del álgebra de conjuntos y la idea de fondo es que todos los archivos relacionados entre sí pueden ser considerados como formando un solo espacio informativo, en el cual pueden efectuarse múltiples operaciones de selección y de reordenamiento sin perder las relaciones entre datos definidas al confeccionar los registros. Gráfico 1.5.Relaciones en los dos tipos de estructuras Relaciones en archivos jerárquicos 1 1a1
Marido
1an
Padre
1
Mujer
n 1
Hijo
Relaciones en BD relacional m man
Lector
n
Libro
La estructura relacional permite conservar aspectos de la estructura jerárquica, pero permite además operaciones lógicas y de álgebra de conjuntos sobre todos sus componentes, lo cual la otra no permite. Considerando sólo la representación lógica de un espacio informativo, es muy fácil entender la enorme cantidad de operaciones que sería posible efectuar si se pudieran mantener todos los datos en forma de tabla, independientemente de los mecanismos por los cuales se generen. Suponiendo que los datos sean conservados adecuadamente, lo más importante es descubrir que podríamos entonces cambiar casi indefinidamente el orden de los mismos. En primera instancia, podemos elegir uno de los atributos para reordenar todos los registros en la base de datos (p.ej. orden alfabético de materias, en un archivo bibliográfico que era ordenado por autores). Ya que las "claves" (identificadores) de los referentes son datos que van en una celdilla -como todos los otros-, no hay riesgo de perder la relación biunívoca que vincula los registros con los referentes. (Esto implica que cambiemos de lugar las "filas" enteras y no sólo las celdillas de una columna). Del mismo modo podemos cambiar el orden de los atributos (columnas), sin que se produzcan pérdidas ni errores. 28
Gráfico 1.6. Reordenamiento Autor
Materia
Título
Nº
Ordenado por autor Bustos, A. Medicina Pérez, J. Novela Urrutia, F. Informática Zamorano, V. Informática
El hígado y la vesícula El pasajero de la noche Ordenadores digitales Sistemas expertos
622B 431P 550U 551Z
Ordenado por materia Urrutia, F. Informática Zamorano, V. Informática Bustos, A. Medicina Pérez, J. Novela
Ordenadores digitales Sistemas expertos El hígado y la vesícula El pasajero de la noche
550U 551Z 622B 431P
La "estructura relacional" permite estos cambios - como también otras operaciones - no estando condicionada por la forma física de los archivos, lo cual es muy ventajoso por cuanto permite el uso de una gran variedad de programas para acceder a la información. Sus ventajas están evidentemente condicionadas por múltiples reglas que no detallaremos aquí por ser una materia técnica. Un sistema de gestión de base de datos (SGBD) relacional exige como mínimo que: • 1. Toda información de la Base de Datos sea representada por valores en tablas. • 2. No habrá punteros (direcciones codificadas) visibles para el usuario de tales tablas. • 3. El sistema debe poder utilizar operadores de restricción, proyección y unión natural sin limitaciones dependientes de condiciones internas ("Operadores relacionales"). Si cumple con otras dos condiciones, podrá llegar a ser "completamente relacional": • 4. Reconoce y utiliza todos los operadores del álgebra relacional. • 5. Cumple los requisos de integridad por unicidad de clave y de constricción referencial. Las constricciones o exigencias básicas de los sistemas relacionales son tres, relacionadas con la "clave": • 1. Unicidad de clave: Como un conjunto no puede tener dos veces un mismo elemento, no puede existir dos veces el mismo registro en un archivo. Se llama "clave" el conjunto mínimo de atributos cuyos valores permite identificar 29
un registro (fila de datos o "tupla" en lenguaje matemático) único, y también -indirectamente- un referente único. • 2. Constricción de entidad (o sea de referente): Ya que debe haber un referente para todo dato ingresado, se prohibe dejar en blanco (sin información o "valor nulo") los campos (celdillas) en que debe ser registrada una clave. • 3. Integridad de referencia: A partir de la relación biunívoca que ha de existir entre un referente y un registro (tupla o fila de datos), para ser fiel al principio general de relación se debe asegurar que la clave de un archivo esté presente en cualquier otro archivo con el cual se "relacione". En otras palabras, dos archivos se relacionan correctamente cuando remiten a los mismos referentes, individualizados de la misma manera. (Esto no quiere decir que, si pasamos de un 2º a un 3º archivo, los referentes sigan siendo los mismos que para el 1º y el 2º: podrán ser otros, pero descritos con igual clave en el 2º y 3º archivo). Esto se parece a lo que hemos visto en la estructura jerárquica. (Vea Gráfico 1.7). Gráfico 1.7. Relaciones entre Archivos de Vinos y de Consumidores Clave 1
Tabla de Apellido Nombre Est.Civil Nº Hijos Consumidores
Tabla de Actos de Consumo
Apellido Nombre Fecha Nº Vino
Clave 2 Clave 3
Tabla de Vinos
Nº Vino Viña Milésº Gº alcohol
30
1.8.3. BD orientada a objetos Las bases de datos orientadas a objetos (BDOO), a la vez que combinan aspectos propios de los sistemas jerárquicos y de las BD relacionales, introducen importantes diferencias. Un objeto es, aquí, no una mera entidad que se describe sino algo que se describe y que incluye procedimientos que desencadenan acciones cuando el objeto es referenciado. Un ejemplo muy claro es un "botón" en una página web, que abre una ilustración o produce la navegación hacia otra página cuando es pinchado. Gráfico 1.8: Estructura de una BDOO Página Web Imagen
Texto
Datos: L.U.Corner R.D.Corner Métodos: Abrir Ampliar
Foto
Botón Datos: Color Trama ... Métodos: Pinchar
ORDEN
Código del procedimiento
Pero el botón es un objeto que pertenece a (y sólo aparece en) una "página web" y comparte características con otros tipos de ilustraciones. Así, el botón pertene a la clase de las imágenes y éstas, junto con los textos, a la clase llamada "página web". Así, descubrimos un conjunto de objetos de misma jerarquía que pertenecen a otros objetos de mayor jerarquía. Al igual que en las BD jerárquicas 31
opera el principio de "herencia", mediante el cual las características del "padre" se transmiten al "hijo". Pero aquí, como ya señalado, los objetos son generalmente "activos", es decir asociados a determinadas acciones, como el "pinchar" el botón ha de desencadenar, por ejemplo, la apertura de otra página. Las acciones asociadas a un objeto son llamadas "métodos". Se activan mediante una orden y desencadan un procedimiento (Ver Gráfico 1.8). El adecuado manejo de BD orientadas a objetos plantea una considerable cantidad de dificultades técnicas y conceptuales que son objeto de una intensa investigación (cfr. J.Navón, Cap.4, pp.1-3) y se desarrollan solamente, en la actualidad, para sistemas CAD-CAM (manufactura controlada por ordenador, a partir del diseño en la misma máquina) y CASE (sistemas de ayuda a la gestión administrativa). Tiene el defecto de no ajustarse al modelo de la "tercera forma normal" de los sistemas relacionales ni admitir las operaciones de álgebra relacional que permiten manipular con mucha facilidad las BD relacionales para extraer meta-datos. 1.8.4. Otros tipos de BD Más recientemente, otros tipos de bases de datos han aparecido en el mercado o están en vías de desarrollo. Entre los modelos más significativos hemos de mencionar a: • Las "Bases de Datos Relacionales Orientadas a Objetos" ("Object Oriented Relational Data Bases"), que combinan las características de las dos categorías antes citadas. Permiten conservar datos de objetos de diferente naturaleza y establecer relaciones entre ellos, independientemente de dicha naturaleza. Toda la base de datos se transforma de este modo en una suerte de "hipermedio". Este nuevo formato es importante para el desarrollo de grandes sistemas hipermediales interactivos en red ("servidores universales"). • Las "Bases de Datos Activas" o BD con reglas activas (reglas ECA:"Event Condition - Action"). La incorporación de estas reglas a los SGBD permiten controlar su comportamiento sin necesidad de modificar los sistemas (por lo cual pueden integrarse, por ejemplo, a las BD relacionales, que son las más comunmente utilizadas). La base de la operación consiste en un sistema de monitoreo que detecta cuando ocurren determinadas condiciones, en cuyo caso aplica una regla y efectúa una acción predeterminada (p.j. poner una advertencia en pantalla). Las reglas pueden estar interrelacionadas (una activando otra en ciertas condiciones) y pueden incluir un motor de inferencias para realizar deducciones automáticas y darlas a conocer en el momento oportuno a uno o varios usuarios. • Las "Bases de Datos Inteligentes", que son SGBD acompañados de recursos propios de los sistemas expertos (es decir de "bases de reglas" y de un "motor de inferencia" que permiten hacer deducciones y proyecciones a partir de los 32
datos). Con técnicas de minería de datos ("DataMining) - ver capítulo 3 - se puede llegar a resultados similares a partir de bases de datos relacionales.
1.9. Operaciones con los datos Consideraremos aquí esencialmente el caso de las bases de datos relacionales, que son las que se prestan mejor para efectuar diferentes tipos de operaciones, más allá de las simples consultas. Las operaciones relacionales tradicionales (álgebra de conjuntos) son: • 1. la UNION: A U B = conjunto de los registros que pertenecen a la tabla A y que pertenecen a la tabla B, sin duplicación, A y B teniendo la misma estructura. • 2. la INTERSECCION: A Ω B = conjunto de los registros que pertenecen a la vez a las tablas A y B. • 3. la DIFERENCIA: A - B = conjunto de los registros que pertenecen a la tabla A sin pertenecer a la tabla B. • 4. el PRODUCTO CARTESIANO: A * B = conjunto de todos los registros que se obtengan concatenando un registro de la tabla "B" con un registro de la tabla "A". Gráfico 1.9: Operaciones relacionales básicas A
U
B
A
Ω
B
A*B A-B
B-A
A1.B1 A1.B2 ... A1.Bn
A2.B1 A2.B2 ... A2.Bn
... ... ... ...
An.B1 An.B2 ... An.Bn
Las operaciones relacionales especiales (que dependen del "lenguaje" de gestión adoptado) son, típicamente: • 5. la ADICION: Crea un nuevo registro para un archivo dado. • 6. la SUPRESION: Elimina un registro de un archivo dado. 33
• 7. la ACTUALIZACION: Permite modificar los valores de un registro. • 8. la SELECCION: arroja un conjunto de registros que cumplen con ciertas condiciones (que son valores esperados para atributos elegidos). • 9. la PROYECCION: produce una tabla con el subconjunto obtenido al seleccionar ciertos atributos especificados (y elimina los registros duplicados). • 10. la JUNCION ("Join"): Idéntica al Producto Cartesiano pero con conjuntos de registros que tienen un atributo común. Pone valores nulos (blancos) en los atributos diferentes de las combinaciones donde el atributo común no tiene igual valor. • 12. la DIVISION: produce una tabla con un subconjunto de registros selecionados por contener valores dados para ciertos atributos (sin que en la tabla queden tales atributos).
Conclusión Como se ha podido observar, todas las operaciones que ofrece el álgebra de conjuntos y las bases de datos relacionales permiten realizar múltiples combinaciones de los datos, ductilidad de la cual no se dispone en los sistemas jerárquicos y que es fundamental para el propósito que nos ocupa: "explotar" y extraer todo el conocimiento oculto en nuestras bases de datos. Los sistemas de BD que se inventaron con posterioridad por una parte no se han generalizado y, por otra, - en algunos casos - tienden a incluir procedimientos orientados a extraer conocimiento, pero se limitan generalmente a casos muy específicos no afines a nuestro propósito final.
NOTAS DEL CAPITULO 1 En Ámbitos 5, Revista Andaluza de Comunicación, Universidad de Sevilla, 2º semestre de
2000 (http://www.ull.es/publicaciones/latina/ambitos/5/32angeles.htm). 2 Según E.H. Daniel, que se refiere a las bases de datos "disponibles públicamente" a nivel
mundial, éstas han pasado de ser cincuenta y dos millones en 1975 a sumar cerca de cinco billones en los albores de los años noventa ("Quality Control of Documents", Library Trends, 41 (4), 1993, pp. 644-664). 1 El "espacio informativo" es la totalidad de la información contenida en un conjunto de datos (típicamente una "tabla"). Un "atributo" es una variable de descripción de un referente (evento u objeto que se documenta). 2 "DATA W AREHOUSE" fue originalmente un producto (desarrollado por IBM), pero su nombre se ha transformado en un concepto de uso general. 3 Sin embargo no se puede considerar el desarrollo del XML como terminado y las herramientas en el mercado tienden aún a tener variaciones que producen algunas incompatibilidades. 4 Modelo creado por Edgar F.Codd y Chris Date.
34
2 MODELOS DE DATOS Y META-INFORMACIÓN
Repasaremos aquí algunos conceptos básicos relativos a las estructuras y los modelos de datos, tal como se entiende en la ingeniería de los SGBD (Sistemas de Gestión de Bases de Datos), por cuanto son parte importante de la metainformación (meta-datos anteriores) y por cuanto de la adecuada "modelización" previa de los datos depende la extracción de nuevos conocimientos acerca del espacio informativo constituído por la totalidad de los datos acumulados a través del tiempo (meta-datos posteriores).
2.1. Modelo lógico 2.1.1. Modelo conceptual El modelo "conceptual" de los datos corresponde al análisis teórico de los mismos desde el punto de vista de su significado, con miras a la gestión. Se distingue del modelo lógico y del modelo físico. El modelo "lógico" considera el significado de los datos y los requerimientos de información que les corresponde y que podrán ser formulados por diversos usuarios. Implica por lo tanto agregar a la consideración de la estructura "interna" (semántica) de los datos el estudio de los usos y usuarios que se pueden prever. El modelo "físico" define la forma concreta en que serán conservados los datos, en función del harware y del software que se han de utilizar. El análisis conceptual considera como su objeto las "entidades" o "referentes", que son las "cosas" acerca de las cuales se conservará información en la base de datos. Las entidades pueden ser de dos tipos:
35
- los "sujetos", u objetos cuya existencia es en principio independiente del tiempo (una persona, un bien inmobiliario); conducen a un modelo dicho descriptivo (estático); - los "eventos", o acontecimientos, cuya característica fundamental es la temporalidad efímera (una compra, una declaración pública); conducen a un modelo llamado transaccional (dinámico). 2.1.2. Atributos Para describir tanto hechos noticiosos como otros referentes a los cuales pueden remitir archivos documentales, es necesario contar con un sistema constante de variables en función de las cuales se describen estos referentes. En los sistemas documentales estas variables pasan a llamarse "atributos" y definen distintos tipos de características o componentes típicos de la descripción (por ello, en semántica se llaman "caracteres distintivos"). Ejemplos serían: "Autor" y "Título" para libros, "Marca" y "Modelo" para autos, "Fecha" y "Lugar" para un hecho noticioso, etc. Pero es también necesario establecer distinciones entre los objetos que deben ser documentados, ya que los atributos variarán de acuerdo a las categorías genéricas a las cuales pertezcan éstos. Consecuentemente, distinguir el tipo de referente observado para luego elegir los atributos adecuados para describirlo son los primeros pasos a realizar y constituyen la primera etapa del "modelamiento" de los datos. Los atributos pueden ser intrínsecos, presentes explícitamente en la entidad como identificación (nombre o título), contenido, características únicas de forma, etc. -, o extrínsecos: caracteres distintivos que fija el analista de acuerdo a una pauta - como el tema de un texto, los nombres comunes de las figuras presentes en una foto, etc.-. 1 2.1.3. Relaciones Las entidades de un modelo de datos están relacionadas lógicamente de tal manera que forman una malla. Típicamente estas relaciones pueden ser de pertenencia, de jerarquía, de cercanía o distancia espacial o temporal, de semejanza, de complementaridad, de parentezco, etc. La relación puede ser biunívoca (1 a 1), de 1 a N (uno con muchos) o de M a N (muchos con muchos). Esta tipificación -de carácter cuantitativo- es de suma importancia para el diseño de la estructura de una base de datos y determina los mayores o menores usos que se podrá hacer después de la información registrada. Esta estructura es lo que se llama "modelo entidad-relación", que conviene siempre explicitar antes de proceder a diseñar una base de datos. Generalmente se hace en forma gráfica, como lo mostraremos a continuación.
36
Ejemplo: Un socio de una mutual de salud puede haber recibido muchas prestaciones de salud (relación 1 : N de un sujeto con varios eventos), pero una determinadad prestación corresponde a un solo socio (relación 1 : 1). A su vez, dicha prestación pertenece a una determinada categoría -supongamos que es un "ECG" -: en este sentido la relación es 1 a 1, pero la inversa no es verdadera, ya que se pueden haber realizado ECGs a muchos socios e incluso varios al mismo socio, en diferentes fechas (relación 1 : N de la categoría a los eventos efectivos que le corresponden). Gráfico 2.1.3 : Tipos y mallas de relaciones Prestaciones específicas
Sujeto Socio
1
1
ECG del 1/4/99
Tipos de Prestaciones 1 N
1
ECG del 3/6/99
1
ECG
1
EQUIVALE A: 1
Socio
N
Prestaciones
N
M
Tipos
Analizando este ejemplo, a primera vista lo que determina la identificación precisa de una determinada prestación es la combinación de su tipo y de su fecha. Sin embargo, sabemos que se pueden realizar muchos ECG un mismo día, por lo cual se requiere relacionar tres "datos" para identificar una prestación específica: un identificador único del socio (su nombre completo o su número de identidad), la fecha (incluída eventualmente la hora) y el tipo de prestación. Éstos son los atributos que conforman el modelo conceptual de este tipo de información. Por cierto se los "agrupará" y simplificará habitualmente dando a la prestación un número único que la identificará y permitirá realizar diversas operaciones con los datos. De este modo, el conjunto de datos correspondiente a una prestación determinada podrá ser representada de la siguiente forma, que constituye un modelo del registro de la misma: Tabla 2.1.3: Registro de un evento Nº 21345
Nombre Juan Pérez Pérez
Fecha-Hora 99-04-01:15.50
37
Tipo ECG
Sin embargo, sabemos que varios de estos datos podrán repetirse en el archivo de todos los eventos y, además, que tendremos otros archivos que se relacionen con éste, como es el caso de los demás datos asociados al sujeto Juan Pérez P. (con su dirección, número de identidad o de socio, estado de pago de sus cuotas, etc.). Así, debemos complementar el modelo conceptual con todos los demás archivos y definir con claridad las relaciones que existen entre los atributos de todos ellos. Una base de datos óptima trata de evitar estas repeticiones, llegando a una estructura más funcional a través del proceso llamado "normalización" (Ver nº 2.2). 2.1.4. Dominios Otro aspecto de los datos ha de ser tomado en cuenta en el modelamiento de las relaciones, especialmente con miras a extraer meta-datos y aplicar operaciones tendientes a extraer nuevos conocimientos, como la data mining. Es el hecho de que los referentes o entidades pueden pertenecer a dominios totalmente diferentes. En una fábrica, el inventario de materias primas y de productos terminados pertenecen a un mismo dominio. Pero el proceso de transporte y entrega a los mayoristas o distribuidores pertenece a otro dominio. En un caso como éste es fácil percibir la diferencia porque salta a la vista que el primero es del tipo "sujeto" (estático) mientras el segundo es del tipo "evento" (dinámico, transaccional). Los procesos administrativos (contabilidad, manejo de personal, etc.) son también transaccionales, pero no son del mismo dominio que el transporte. Lo mismo ocurre en nuestro ejemplo de la mutual de salud: los socios y beneficiarios pertenecen a un dominio, los eventos que corresponden a prestaciones a otro, y las prestaciones en cuanto técnicas de intervención constituyen un tercer dominio, que no se describe del mismo modo que los eventos en los cuales se aplican aunque, como lo hemos visto, existen relaciones ciertas y necesarias entre estos diversos dominios. Una buena modelización de datos debe tomar en cuenta estas diferencias para orientar el análisis futuro de las relaciones entre los datos: en algunos casos podrán darse relaciones entre dominios diferentes, mientras en otros todas las relaciones de importancia (o la finalidad del análisis) se concentrarán en un sólo dominio. En la investigación que describiremos más adelante (Capítulos 5 y 6) la "explotación" de una base de datos noticiosos - nos concentramos en la búsqueda de patrones en un sólo dominio (intra-dominio), mientras en un medio periodístico podría ampliarse la exploración a patrones inter-dominios, como por ejemplo "cruzando" datos noticios con datos biográficos de los personajes implicados.
38
2.2. Normalización de datos 2.2.1. Primera forma normal La "normalización" del modelo de datos se realiza en tres etapas. Poner el modelo en primera forma normal significa sacar del conjunto de las entidades del modelo conceptual los atributos repetitivos. Es lo que ocurre cuando separamos y colocamos en distintos archivos todos los datos asociados a un sujeto, distinguiendo claramente sujetos y eventos. Ejemplo: En el caso del socio Juan Pérez, podríamos tener en una carpeta todos sus "antecedentes" (identidad, dirección, categoría socio-económica, cuotas pagadas, prestaciones recibidas, etc.). Pero es preferible crear una base de datos donde tendremos una tabla destinada a recibir los datos personales de los socios y otras más: con los datos de las cuotas cobradas, con los tipos de prestaciones, con las prestaciones efectuadas, etc. Gráfico 2.2.1 : Primera forma normal Carpeta Sujeto: Juan Pérez Pérez Nº Domicilio Categoría Beneficiarios Cuotas pagadas Fecha - monto ... Prestaciones otorgadas Fecha - tipo ...
N
1
Socio 1 N
1
Beneficiario
PRIMERA FORMA NORMAL:
Prestaciones otorgadas
N
Pagos
39
N
M
Tipos
2.2.2. Segunda forma normal Pasamos a la "segunda forma normal" cuando transformamos todas las relaciones M:N en relaciones 1:N. Así, en el ejemplo anterior, hemos de eliminar (transformar) las relaciones entre las prestaciones otorgadas y los tipos de prestaciones. Así, se relaciona a un socio con un tipo de prestación (que puede haber ocurrido N veces) de la siguiente manera: Gráfico 2.2.2 : Segunda forma normal FORMA INICIAL N
Prestaciones otorgadas
M
Tipos
SIGNIFICADO
J.Pérez P. 1/4/99
Tipo 1
J.Pérez P. 3/6/99
Tipo 2
A.Ríos B. 1/4/99
Tipo 3 Tipo 4
SEGUNDA FORMA NORMAL: 1
Socio
N
Prestación
N
1
Tipo
2.2.3. Tercera forma normal Para acceder a la "tercera forma normal", debemos resolver las transitividades en los atributos (datos) repetidos, dejándolos cada uno exclusivamente en el registro que corresponde a la entidad a la cual pertenece y reemplazando eventualmente los enlaces (relaciones) por códigos de asociación que, en sí mismo, no tienen significado alguno (generalmente designados como "Id").
40
Gráfico 2.2.3: Tercera forma normal Id. Prestación
Socio
Tipo
Fecha Diagnóstico
Gráfico 2.2.4: Modelo canónico (ejemplo) SOCIO Nombres Apellidos Nº Domicilio 1
BENEFICIARIO 1
Id socio Id benef
N
1
1
1
Id socio Id pago
Id benef Id pr/ot
Id socio Id pr/ot. N
N
Id socio Id categ.
PAGO Fecha Monto N
N
PRESTACION OTORGADA Fecha Diagnóstico N
Id pago Id categ. 1
Nombres Apellidos Nº
Id pr/ot Id prest.
1
1
CATEGORIA
PRESTACION
Tipo Cargo mensual
Tipo Valor Prestatario
41
2.2.4. Modelo canónico Esto nos conduce al llamado "modelo canónico", que es el modelo teórico a partir del cual se diseñará la base de datos y que incluye la lista de los atributos de cada uno de los archivos (tablas) que conformarán la base de datos así como las relaciones entre las tablas (que pueden a su vez constituir tablas, aunque solamente con pares de códigos -los hexágonos del gráfico-). Siguiendo nuestro ejemplo, el modelo canónico podría ser como indicado en el gráfico 2.2.4.
2.3. Diseño físico Al análisis y desarrollo del modelo conceptual de la información, tal como acabamos de hacerlo, sigue la toma de decisión relativa a la forma concreta en que se construirá la base de datos, etapa denominada de "diseño físico". Los tipos de diseño con que nos podemos encontrar para el registro de noticias son esencialmente tres: un modelo que podríamos llamar "compacto", que corresponde al que se usa generalmente para bibliografías, el modelo relacional de tercera forma normal o "canónico" y el modelo utilizado en dadtawarehouse, que es altamente redundante. 2.3.1. Modelo "compacto" El concepto básico de este tipo de modelo consiste en establecer una relación biunívoca entre una entidad (un hecho noticioso en nuestro caso) y un registro de la base de datos. Este registro equivale a una "fila" o "tupla" y el conjunto conforma una única tabla, en que quedaría contenida toda la información. De este modo, todo el llamado "espacio informativo" queda representado en esta tabla, que tiene un doble orden: la secuencia de las entidades y la secuencia de los atributos, llegando a una representación teórica que corresponde a un cuadro de doble entrada como el que se adjunta y que corresponde al llamado "modelo entidadrelación" (ver Tabla 2.3.1). En él, cada atributo tiene una posición fija, definiendo una columna de la base de datos. Tabla 2.3.1: Estructura de tabla única
Nº id. 1 2 3 ...
a
Atributos b c
42
d
...
Si a alguno de los atributos, para una misma entidad, pueden corresponder varios valores - como en el caso de los descriptores temáticos - en una tabla de este tipo tenemos dos posibles soluciones: o bien (solución frecuente en archivos biliográficos) colocar estos múltiples valores en un mismo campo de datos (celdilla de la columna correspondiente) o bien crear tantas columnas como valores pueden ser admitidos, para respetar el principio de relación bi-unívoca entre el referente y su representación en el correspondiente registro de la base de datos. Como ya sabemos, este tipo de tabla no está "normalizado" y, si ocurre este tipo de multiplicidad, su tratamiento tanto estadístico como por medio de "minería de datos" es prácticamente imposible. Como lo veremos, los otros modelos solucionan este problema de manera diferente. 2.3.2. Modelo canónico Ya hemos explicado detalladamente en qué consiste el modelo canónico y cómo se llega a la "tercera forma normal". Esta normalización, como lo sabemos, obliga a eliminar toda redundancia y a asegurar que a cada valor de un atributo corresponda una fila en la tabla que le corresponde. La combinación que corresponda a una multiplicidad de valores de diversos atributos podrá ser obtenida mediante una operación de multiplicación lógica propia del álgebra de conjuntos. Así, por ejemplo, para una entidad con tres atributos, dos de los cuales puedan tomar múltiples valores, deberemos incluir al menos tres tablas en la base de datos: - una tabla básica con un identificador único (preferentemente numérico) de la entidad y el atributo que sólo puede tomar un valor; si el identificador único no es numérico y secuencial, se agrega normalmente una columna más para numerar secuencialmente las filas de la tabla; - una tabla con tres columnas para cada uno de los otros dos atributos: una columna para la numeración de filas, una para el identificador único y una para los valores del atributo. Así, como se muestra en el Gráfico 2.3.2, el identificador único opera como "clave" relacionando las distintas tablas. Este modelo es sumamente práctico para extraer con facilidad información estadística y para asegurar la total consistencia de los datos (tema sobre el cual volveremos en el Capítulo 6). Pero no es el más fácil de utilizar para efectuar un análisis mediante Data Mining. Esta metodología, en efecto, recurre a un modelo que se aleja de la forma canónica, generando una gran redundancia informativa: el siguiente modelo, del cual hemos de hablar ahora.
43
Gráfico 2.3.2: Tablas asociadas en una BD normalizada (Ejemplo) Tabla "descriptores"
Tabla base id único titulo
1
n
id fila en 'd' id único descriptor Tabla "lugares"
n
id fila en 'l' id único lugar
2.3.3. Modelo de datawarehouse Al contrario de lo que ocurre con los modelos anteriores, el sistema de base de datos utilizado por sistemas de datawarehousing prefiere verter todos los datos en una sola tabla, aunque sea altamente redundante. Dado que la mayor parte de las "suites" de DM se enfocan hacia el datawarehousing, pocas son las que admiten operaciones de álgebra de conjunto como para juntar y combinar datos contenidos en varias tablas. El principio de una BD de datawarehouse se asemeja al modelo que hemos llamado "compacto", pero renuncia a la regla de relación biunívoca y también acepta que los atributos puedan tener diversos valores. Si esto ocurre, se han de repetir los datos para representar, en varias filas, todas las combinaciones posibles, como en los ejemplos de las Tablas 2.3.3. Tablas 2.3.3: Estructura básica de tablas de WH Tabla 2.3.3a: Operaciones financieras
id
Nombre
Cuenta
1
Pérez León, Franco Pérez León, Franco Pacheco Silva, Gustavo
120-37195-8
2 3
120-37195-8 231-53429-7
Atributos Fecha Ingreso Egreso 1999. 07.21 1999. 07.21 1999. 07.21
..
44
35.351
Cta.rel.
127.374
32-81476-15
35.351
231-53429-7 120-37195-8
Tabla 2.3.3b: Librería
id
Autor
Título
1
MATURANA, Humberto
2
MATURANA, Humberto
3
MATURANA, Humberto
4
TOFFLER, Alvin TOFFLER, Alvin
Biología de la cognición y epistemología Biología de la cognición y epistemología Biología de la cognición y epistemología El cambio del poder El cambio del poder
5
Atributos Edita Universidad de la Frontera Universidad de la Frontera Universidad de la Frontera Plaza & Janés Plaza & Janés
Año Descrip.
ISBN
1990
Biología
956-236019-8
1990
Psicología
956-236019-8
1990
Epistemología
956-236019-8
1990
Ciencias sociales Prospectiva
84-01230016-0 84-01230016-0
1990
..
Pero además, el datawarehousing también toma en cuenta una doble necesidad: - la de trabajar con datos históricos acumulados (es decir que el cambio del valor de un atributo para una entidad determinada no puede hacerse mediante sustitución, sino mediante el agregado de un nuevo registro, fechado) - la de que existen diversas entidades y diversos tipos de procesos (transacciones), los que sí deben ser representados en diferentes tablas, que para complicar más el panorama, pueden requerir de identificadores que relacionen los registros de estas diversas tablas: tómese como ejemplo todos los datos que un banco tiene acerca de sus clientes, que incluyen no sólo su identificación y residencia sino también su declaración de bienes - necesaria para otorgarle una cuenta corriente y una "línea de crédito" -, los eventuales tipos de servicios que tiene contratados con la institución (cuenta corriente, cuenta de ahorro, tarjeta de crédito, préstamo hipótecario, etc.), todos los cambios que pueden afectar la mera definición o información básica correspondiente, además de todas las transacciones ordinarias que corresponden a cada servicio. Como las transacciones son algo central en el mundo de los negocios como también en el área de la salud, en el campo jurídico (investigación y enjuiciamiento de delitos) y generalmente de gran importancia en diversas áreas de la investigación científica, los sistemas de datawarehousing se han ido generalizando en numerosísimas instituciones y son el campo en el cual se aplican cada vez más las técnicas de Data Mining, las que se ajustan mejor a este tipo de situación. 45
2.4. Explotación básica de los datos Los datos pueden ser "explotados" (es decir analizados para obtener mayor conocimiento) de diversas maneras, aún antes de aplicar técnicas propias de la "minería de datos". Aún más: pueden ser preparados de tal manera que cierto tipo de explotación sea posible, como es el caso del uso de tesauros para codificar descriptores, método bien conocido en el campo de la bibliotecología, que es solo un ejemplo entre los que se agrupan bajo la denominación de "meta-datos compuestos". 2.4.1. Meta-datos compuestos En determinados casos, los datos pueden ser agrupados con facilidad en categorías de mayor nivel de abstracción que los originales, lo cual puede ser de utilidad para guiar la exploración por medio de data mining. Como lo acabamos de señalar, los tesauros son un importante medio de este tipo de organización de datos, en este caso -además- jerarquizados en forma piramidal. De este modo se hace posible estudiar lo que ocurre con categorías de mayor jerarquía (los "términos genéricos" o 'TG'), especialmente si - al efectuar conteos - los resultados a nivel último de especificidad son demasiado puntuales o dispersos. Gracias al uso de códigos numéricos y "wildchars" (claves de sustitución de caracteres) se podría, por ejemplo, considerar toda la categoría "Educación" (código 1.00 del tesauro UNESCO, que se podría reemplazar por 1*** o 1%, con los wildchars * o %, según el lenguaje de programación o búsqueda) en lugar de sus términos específicos como los siguientes 1.05 - Educación ambiental 1.10 - Política educativa 1.15 - Planificación educacional 1.20 - Administración educacional 1.30 - Sistemas educativos 1.35 - Instituciones educacionales 1.40 - Curriculum 1.45 - Contenidos educativos básicos 1.50 - Contenidos técnicos 1.55 - Población educacional Se obtendría de este modo una información asociada a la categoría genérica. Pero es también posible crear otros tipos de datos compuestos. Quizás el atributo que mejor se preste para ello es el de la fecha de un evento. Recuérdese que la forma canónica del registro de una fecha sigue el orden aritmético: Año-Mes-Día (y eventualmente Hora-Minuto-Segundo). Así, basta truncar los datos originales para obtener datos compuestos de valor categorial, clasificando y contando por 46
ejemplo los eventos por meses y años, y no solamente por días. En este caso, además, es factible realizar comparaciones, como por ejemplo entre el mismo mes de diferentes años, práctica muy común en el área de la economía. El caso de las fechas también nos permite ilustrar otra forma de crear datos compuestos: se pueden agrupar los meses en trimestres o las fechas en estaciones y, así, comparar trimestres o estaciones de diversos años. También pueden ser analizados los días de la semana, las semanas de cada mes: ciertos eventos se agrupan al principio o al final de una semana - como los accidentes automovilísticos en fines de semana - o de un mes (compras luego de los días de pago), etc. Pero tesauros y fechas no son los únicos casos. Numerosos datos son en realidad compuestos, como -generalmente- los números de serie de muchos productos (que indican modelo, tipo, cadena de fabricación o máquina que los produjo, fecha o período, etc.), los códigos postales ("ZIP codes"), los números de teléfonos, etc. De todos ellos se pueden extraer informaciones complementarias que, en determinadas circunstancias, podrían ser de suma importancia. Pero este tipo de análisis, obviamente, obliga a crear nuevos campos de datos para conservar esta nueva información - y a realizar algún procesamiento adicional. Pero un buen conocimiento previo (meta-información que forma parte del "bagage" del analista) permite descubrir con facilidad las abstracciones que pueden resultar productivas a la hora de indagar con más profundidad en el significado oculto en las bases de datos. Piénsese, por ejemplo, como se pueden agrupar ciudades en provincias, provincias en regiones o países en continentes y se visualizarán diversos niveles de análisis del factor geográfico aplicable en problemas de mercadeo, de desarrollo socio-económico, de geopolítica, etc. Los ejemplos son innumerables y demuestran que existen ingentes cantidades de información dentro de datos en apariencia simples (cfr. Westphal y Blaxton, pp.37-42). 2.4.2. Explotación algebráica Lo anterior puede ser abordado desde otro ángulo. Los meta-datos compuestos pueden ser vistos como el producto de una operación de álgebra de conjunto, llevada a cabo después de construir un modelo de datos que tome en cuenta componentes significativos que pueden haber sido pasados por alto por el diseñador original de la base de datos. Se trata simplemente de una operación de Unión, que corresponde a la reagrupación jerárquica (ver Gráfico 2.4.2).
47
Gráfico 2.4.2: Unión de meta-datos compuestos ("Mes de Mayo")
-052000-05 2000-05-21
2000-05-18
2001-05 2001-05-29
2001-05-12
Obviamente, si podemos realizar una operación de unión, hemos de considerar que los datos compuestos se prestan para otras operaciones de álgebra de conjuntos, aunque tanto la utilidad como la factibilidad de ello podrá variar según el tipo de información agregada. Si consideramos, por ejemplo, que la primavera se inicia en septiembre en el hemisferio norte pero en marzo en el hemisferio sur, tendremos que intersectar región con estación para comparar los fenómenos que pudieran estar relacionados con el factor estacional. La unión de las dos intersecciones realizadas nos dará el conjunto "Primavera en el mundo" (Gráfico 2.4.3). Gráfico 2.4.3: Intersección de meta-datos compuestos ("Primavera")
-09-21 a -12-20
H.Norte
Primavera -03-21 a -06-20
H.Sur
2.4.3. Explotación estadística La forma más tradicional de analizar los datos consiste en recurrir a la estadística. Los principales métodos estadísticos que podemos aplicar son: 48
1. El cálculo de "marginales simples": se trata meramente de sumar las frecuencias de los datos de un mismo tipo (atributo) y transformarlas en porcentajes para poder efectuar comparaciones. 2. El cálculo de coeficientes de asociación o predictibilidad: aquí se trata de buscar las correlaciones entre datos correspondientes a diferentes variables (atributos). El método de cálculo varía según la naturaleza de los datos (nominales, ordinales, intervalares, aleatorios contínuos o discontínuos). 3. La extracción de coocurrencias2 : técnica que construye una tabla de frecuencias de todas las combinaciones existentes de datos agrupados en pares, lo cual permite con posterioridad construir un mapa de interrelación de los mismos. No nos extenderemos aquí sobre estos métodos ya que los desarrollaremos con ejemplos en los siguientes capítulos.
Conclusión Tener plena claridad acerca de la estructura de la información no sólo es necesario para iniciar el diseño de un sistema documental: constituye una forma de metaconocimiento que es altamente significativa e importante para el diseño de cualquier investigación que se proponga analizar la información recopilada y buscar en su conjunto o en sus relaciones conocimientos que vayan más allá de la mera acumulación o de la posible consulta de algunos datos específicos.
NOTAS DEL CAPITULO 1 Cfr. COLLE, R.: "Documentación periodística - principios y aplicaciones", pp.25ss. 2 Llamado "análisis de correspondencias" en Francia y "association analysis" en textos
maericanos sobre Data Mining.
49
3 EXPLOTACIÓN AVANZADA O "MINERÍA DE DATOS"
Vivimos en la Era de la Información. La importancia de extraer de datos existentes un mayor conocimiento acerca de un negocio o una actividad científica - especialmente para lograr ventajas competitivas- se reconoce ampliamente en la actualidad gracias a su mayor factibilidad técnica. Cualquier empresa o institución grande o media dispone ya de sistemas poderosos para recolectar información y administrarla en extensas bases de datos. Incluso empresas pequeñas y particulares (como los investigadores en su PC de la oficina o de la casa) pueden utilizar bases de datos que se prestan para funciones avanzadas de cálculo. Sin embargo, cuando se pretende transformar estos datos en factor de éxito surge la dificultad de extraer de ellos un verdadero conocimiento acerca del conjunto sistémico que representan. Examinaremos aquí las herramientas que existen para tal propósito.
3.1. Concepto de "Minería de Datos" ("Data Mining") Es común que grandes empresas dispongan de ingentes cantidades de datos acerca de sus operaciones, sus clientes, el mercado en el cual operan, etc. Así, también, las posibilidades de cruzar variables son numerosas y es imposible adivinar de antemano, en muchos casos, cuales serían los cruces más significativos. Nuevas técnicas computacionales - agrupadas bajo el concepto de "minería de datos" o "Data Mining" - se han desarrollado y permiten descubrir los factores que pueden ser importantes. Entre ellos se cuentan los sistemas de "descubrimiento de conocimientos en bases de datos" ("KDD": "Knowledge Discovery in Databases"), que no se refieren a la extracción de informaciones 51
obvias de los registros acumulados (como lo hacen los "motores de búsqueda" en la WWW) sino a un tipo particular de "meta-información": las características que relacionan de un modo inesperado - o difícil de descubrir - los valores de múltiples variables en una gran cantidad de registros. "¿Qué mercaderías deberían promocionarse para tal cliente? ¿Cuál es el la probabilidad de que cierto cliente responderá a una promoción planificada? ¿Puede uno predecir las opciones más lucrativas para comprar/ vender durante la próxima sesión de compra/venta? ¿Este cliente faltará a un compromiso de reintegro o pago de préstamo en la fecha asignada? ¿Qué diagnostico médico debe asignarse a este paciente? ¿Cuán altos serán las cargas-pico de una red de energía o de teléfono? ¿Por qué empiezan repentinamente a producirse mercaderías defectuosas? Estas son todas preguntas que pueden probablemente ser contestadas si la información oculta en los megabytes de su base de datos pudiera encontrarse explícitamente y ser utilizada. Modelar el sistema investigado, descubriendo relaciones que conectan las variables en una base de datos son el objetivo de la minería de datos". (Megaputer Intelligence)
Grandes bases de datos contienen siempre - como se viene comprobando mucha "información oculta" que es de gran valor conocer. Los métodos de DM (Data Mining) permiten descubrir esta información y transformarla en un valioso conocimiento tanto retrospectivo (histórico) como prospectivo (proyecciones) o "comprensivo" (entender lo que ocurre), siendo así muy importante para las tomas de decisiones en las empresas, organizaciones y gobiernos. Por lo tanto, la DM es por esencia una metodología de exploración y descubrimiento. Una vez obtenido un resultado - por ejemplo un patrón de comportamiento de un posible sujeto (natural o jurídico) - y transformado dicho resultado en modelo de contrastación para ser utilizado repetidamente con posterioridad, este nuevo uso que también es una investigación - ya no puede ser llamado "minería de datos", porque no apunta a descubrir un conocimiento nuevo (Westphal y Blaxton, p.6) Las razones para la popularidad creciente de la DM son esencialmente tres: 1. el creciente volumen de datos que maneja toda organización: "Según la información del centro de investigación GTE, sólo las organizaciones científicas almacenan cada día sobre 1 Tb (terabyte) de nueva información." (Megaputer Intelligence)
2. las limitaciones del análisis humano: "Dos de los otros problemas que emergen cuando los analistas humanos procesan datos son la inadecuación del cerebro humano para buscar en los datos dependencias multifactoriales complejas y la carencia de objectividad en este análisis." (Megaputer Intelligence)
3. el bajo costo del aprendizaje automático (Machine Learning): mientras la minería de datos no elimina la participación humana para resolver la tarea completamente, simplifica significativamente el trabajo y permite a un analista 52
que no es un profesional de las estadísticas y de la programación administrar el proceso de extraer conocimiento a partir de los datos. Los métodos de DM son variados y el software existente incluye habitualmente una "batería" de programas que operan de distintas maneras y entregan distintos tipos de resultados, en su mayoría acompañados de formas visuales destinadas a poner en evidencia las relaciones descubiertas. Estos métodos pueden ser agrupados además en dos categorías de acuerdo a características estructurales de los datos que son fundamentales: • manipulación de datos estructurados (caso de la mayoría de las bases de datos: se ha de conocer o definir con anticipación el formato de cada campo de dato, p.ej. numérico o de cierto número de caracteres), o • manipulación de datos no estructurados, como son los textos (sean archivos de formato .txt, bases de datos de "texto completo" o imágenes digitalizadas). Operaciones propias de la Minería de Datos Los autores que abordan la DM señalan diferentes tipos de operaciones. Señalamos aquí las que hemos encontrado en diversos papers sobre el tema: • Clasificación: encontrar una función que combina registros en una variedad de categorías discretas. • Estimación: "llenar vacíos" (datos desconocidos) en una serie en función del valor de los datos conocidos. Se realiza habitualmente mediante el cálculo estadístico de una "curva de regresión" (línea que recorre del mejor modo posible el conjunto de los valores conocidos). • Predicción: descubrir un patrón a partir de ejemplos y usar el modelo desarrollado para predecir valores futuros de una determinada variable. Se basa normalmente en una etapa previa de clasificación y puede ser una extensión de la "estimación". • Detección de relaciones: buscar las variables independientes más influyentes relacionadas con una determinada variable dependiente. • Modelamiento: encontrar fórmulas explícitas que describen dependencias entre diversas variables. • Segmentación (Clustering): identificar grupos de registros que son similares entre sí pero diferentes del resto de los datos, y especialmente las variables que proveen la mejor agrupación posible.
53
• Análisis de canasta: procesamiento de los datos de transacciones a fin de encuentrar grupos de productos que se venden bien juntos. Se buscan también las reglas de asociación que identifican el mejor producto a ofrecer con un conjunto preseleccionado de otros productos (recomendación de compra). • Detección de desviación: determinar los cambios más importantes en algunas medidas claves, en relación a valores esperados o previamente conocidos. Lo normal es que estas operaciones estén acompañadas de alguna técnica que facilite la visualización gráfica de los resultados o que utilice ésta para refinar el análisis.
3.2. Los métodos de Data Mining La DM no es una simple aplicación computacional de la cual existirían en el mercado varias "versiones": es esencialmente un método de trabajo, que puede recurrir a múltiples aplicaciones, siendo alguna más adecuada que otras en un caso determinado. Tampoco es una técnica cuya aplicación lleve en forma automática a un resultado: es - como muy bien lo señalan Westphal y Blaxton un método de descubrimientointeractivo (p.16), especialmente adecuado en un escenario en que no se tiene la menor idea de cual podría ser el producto de la investigación. Por lo tanto es especialmente adecuado en los casos en que las técnicas clásicas de análisis estadístico resultan inaplicables. Pero hemos de insistir: las herramientas de DM no entregan nunca por sí solas ninguna solución. Todo depende del conocimiento de ellas por parte del analista y de la creatividad del mismo. Aunque la minería de datos incluye sin embargo, a veces, alguna técnica estadística (como el análisis de regresión) y parte con técnicas relativamente simples de DataWarehousing consistentes en facilitar consultas y producción de informes ("reportes"), cuando se habla de DataMining se apunta normalmente a sus formas más avanzadas, las que se agrupan fundamentalmente en dos grandes modos de operar: OLAP y KDD. 3.2.1. OLAP Una metodología ya "clásica" en minería de datos es la llamada OLAP ("OnLine AnalyticalProcessing"). Esta metodología se centra en la base de datos de tal manera que el ordenador pueda contestar en forma rápida un conjunto de consultas relativas a combinaciones de variables. En vez de considerar la BD en forma bidimensional (como la tradicional planilla de cálculo), OLAP permite considerar cada columna de la misma como un eje en un cubo multidimensional. Para cada dimensión (atributo o variable cuyo valor representa una característica 54
de la entidad representada en el registro), OLAP calcula y registra los totales, clasificándolos y segmentándolos eventualmente en forma interactiva. Esto permite obtener una rápida visión de las informaciones que corresponden a estas clasificaciones, si el usuario sabe qué tipo de pregunta realizar, lo cual no siempre es obvio (al contrario: en conjuntos masivos de datos, puede ser extremadamente difícil formular preguntas significativas). Pero esto no aborda ni resuelve el problema de las relaciones que pudieran existir entre el valor de un atributo y otro valor de otro atributo, y que permitirían -por ejemplo- averiguar cual es el factor más decisivo o más "explicativo" de una determinada situación o un determinado resultado comercial. Un método más avanzado es necesario, y éste es el propósito de la metodología KDD. 3.2.2. KDD La KDD ("Knowledge Discovery in Databases") pretende extraer un conocimiento escondido en las bases de datos "a mayor profundidad" y requiere, por lo tanto, herramientas más avanzadas. Éstas se han adquirido a través de los avances en el campo de la Inteligencia Artificial y, más precisamente, del aprendizaje automático (machinelearning). La capacidad de aprendizaje artificial de KDD permite que el análisis que realiza descubra las relaciones significativas, los patrones repetitivos y las anomalías escondidos en los datos. Con este método, el analista ya no necesita adivinar qué pregunta formular: el software busca en forma automática todo el conocimiento que se puede extraer. Sin embargo, como es sabido, las técnicas de Inteligencia Artificial - a las cuales recurre-, por ahora no son aplicables en ámbitos generales (como el del periodismo) sino sólo en dominios bien definidos, si se quieren obtener buenos resultados. Esto no quita que se hayan hecho grandes progresos en el aprendizaje automático orientado a la inducción, lo cual es muy favorable para inducir reglas asociativas a partir de grandes conjuntos de datos, como se lo propone la minería de datos. La intervención externa -mínima- de quienes conocen la problemática a la cual están asociados esos datos permite "afinar" el método y ajustarlo a las necesidades del usuario experto ("KDD supervisado"), quién podrá, con más facilidad y precisión, interpretar los resultados. Existe software de KDD que requiere supercomputadores o máquinas que funcionen en paralelo. Pero también existen alternativas que ya operan en estaciones de trabajo menos costosas, generalmente al alcance de cualquier empresa mediana. Mientras tanto las herramientas que operan con OLAP están al alcance de los ordenadores personales con procesador Pentium 3 o superior, aunque - en la mayoría de los casos - exigen disponer de bastante memoria RAM y operan con más facilidad si la mayor parte de los datos son numéricos.
55
3.3. Principios básicos 3.3.1. Reiteración El método de investigación es esencialmente reiterativo: se explora una posible combinación de factores y, como la primera revisión rara vez da buenos resultados - y aunque lo parezca - se vuelve a probar otra. También es normal que se apliquen varias técnicas o se recurra a diversas herramientas computacionales (aplicaciones) para ver cual arroja los mejores resultados que recordémoslo - han de ser nuevos conocimientos acerca de "lo que ocurre" en el "mundo" que corresponde al espacio informativo cubierto por la base de datos y acerca de lo que "se esconde" en ella. 3.3.2. Temporalidad Una investigación de DM no puede extenderse más allá de algunos días o un par de semanas. Si no se obtienen resultados de interés en este período de tiempo, se ha de volver a los supuestos iniciales o cambiar de herramienta. Sería muy raro que no se encuentre nada, pero puede ocurrir cuando los datos no son consistentes o son demasiado pobres, pero este tipo de situación puede ser descubierta de antemano. Si se utiliza la metodología adecuada, lo normal es que ciertos patrones empiecen a aparecer de inmediato, y las reiteraciones permitirán ampliarlos o reconfigurarlos practicamente "al vuelo". (cfr. Westphal y Blaxton, p.19).
3.4. Etapas de trabajo 3.4.1. Fase preliminar 1. Asegurar la disponibilidad de los datos y su coherencia Nada se podrá hacer si no se dispone de la totalidad de los datos en un formato digital - idealmente en una o varias bases de datos - y si los datos no son consistentes (Si el nombre de un cliente o producto se encuentra escrito de diversas maneras, no será considerado como uno solo y el proceso de DM será inútil). (ibidem, p.20). 2. Definir la apariencia externa del problema Para realizar la DM, es necesario entender la problemática en la cual se inscriben los datos. No basta con querer encontrar "cualquier cosa que pueda ser de interés". Es necesario figurarse ya algunas de las preguntas que se podrían hacer u obtener y ejemplos - aunque puramente imaginarios - de posibles resultados. El proceso mismo permitirá entonces - en sus etapas 56
reiterativas - afinar el modo de enfocar los datos y los objetivos, aunque el resultado podrá ser bastante diferente de lo imaginado. (ibidem, p.21). 3. Si el problema es complejo, dividirlo en partes De nada sirve tratar de abarcar todas las posibilidades de una sola vez. Ante la complejidad, más vale subdividir los objetivos y abordarlos uno por uno, eventualmente con distintas técnicas, reuniendo los resultados - si es factible y esclarecedor - en un conjunto único solamente al momento de producir un informe final. (ibidem). 4. No olvidar nunca el destinatario final (la audiencia) ¿Quiénes usarán el conocimiento nuevo extraído? ¿Con qué propósito? Estos objetivos, que van más allá de los objetivos de la investigación en sí misma son igualmente importantes y es necesario que el analista los conozca. Por lo tanto, conocer ejemplos de uso y conocer a quiénes se beneficiarán es tan importante como oír de ellos ejemplos de resultados, cosas que, por lo demás, estarán generalmente ligadas. Pero no es lo mismo trabajar para ejecutivos (tomadores de decisión) - especialmente si tienen formación ingenieril - que para los jueces en un tribunal o para un grupo de comentaristas del sector económico, político u otro. (ibidem, p.22). 5. Vencer la inercia institucional Si una institución solicita el trabajo, gran parte de este tipo de inercia - la resistencia al cambio - ya habrá sido vencida, aunque no ha de descuidarse la restante inercia relativa al aprovechamiento real del conocimiento obtenido. Pero si uno trabaja en una institución y sugiere introducir la minería de datos como una nueva forma de aproximación a la realidad y de obtención de conocimiento acerca de la misma, puede enfrentarse con una dramática negativa sea por desconfianza o incomprensión de los procedimientos ingenieriles en general1 , sea porque se estima que los cambios sugeridos por los primeros resultados serían demasiado drásticos o costosos. Westphal y Blaxton citan el caso de compañías de seguros que, con data mining, descubrieron fraudes reiterativos - que les costaban millones - pero que decidieron suspender la investigación y no perseguir a los culpables porque el costo de los juicios podrían ser aún mayores. 3.4.2. La preparación de los datos Uno de los aspectos más importantes de la minería de datos consiste en asegurarse de que los datos se encuentran en un formato adecuado, capaz de ser explorado con las herramientas existentes. El llamado "modelo de datos" (representación generalizada de la estructura de la información) será, en efecto, el que determine lo que será posible extraer. "Un buen «minero», sabrá qué tipos y clases de patrones pueden ser identificados antes de que el primer registro de datos sea procesado. El proceso de modelamiento determina qué características de los datos serán accesibles al usuario para el análisis. Si los datos no han
57
sido adecuadamente modelados, las relaciones críticas contenidas en el conjunto no serán representadas correctamente e importantes patrones no serán detectados, reduciendo las posibilidades de éxito." (Westphal y Blaxton, p.25)
Los pasos a seguir en esta fase son: 1. Definición de objetivos Se trata de formalizar lo constatado en la "Etapa preliminar", definiendo los objetivos del trabajo. Se parte de las sugerencias o ejemplos formulados por el cliente, así como de la comprensión que el analista ha logrado obtener del "espacio informativo" en el cual deberá trabajar. Se tratará también de precisar si las principales preguntas preexistentes se centran en variables específicas o no. 2. Estudio de los atributos Se verificará si algunas variables parecen por naturaleza formar parte de otras o - al contrario - descartarlas (p.ej. el estado civil "soltero" excluye normalmente "número de hijos" - salvo casos de adopción por solteros, admitidos en algunos países -). También pueden existir variables que sería inútil incluir en la búsqueda en razón de la inexistencia de datos en muchos casos (como la norespuesta masiva a ciertas preguntas en encuestas) o porque existe gran uniformidad en los valores recopilados. De mucho interés es ampliar el análisis de la dispersión de los valores de cada variable: la posibilidad de agrupar dichos valores en "bloques" discretos podría ser de gran ayuda. 3. Modelamiento de los datos Es indispensable tener presente el modelo entidad-relación (cfr. Capítulo 2). Se ha de observar la estructura de los datos representada en las bases de datos o archivos existentes, especialmente las relaciones visibles en el modelo de segunda o tercera "forma normal". Si los datos no están normalizados, será necesario diseñar previamente este modelo. (Posteriormente, según la herramienta de minería escogida, se determinará si los datos deben ser traspasados a una BD de segunda o tercera forma normal, en caso de no estarlo, o bien a una BD redundante como las usadas en DataWarehousing). Recordando que la DM es por naturaleza reiterativa, se podrá modificar el modelo durante el trabajo, para explorar nuevos derroteros. 4. Consideración de las fuentes Si los datos deben ser extraídos de múltiples fuentes para poder ser explotados, será necesario construir un modelo especial y, posiblemente, realizar transferencias entre bases de datos, lo cual implica un trabajo más extenso y más complejo tanto para el modelamiento como para la transferencia física y - sobre todo - para los indispensables controles de consistencia y la solución de las inconsistencias. 5. Prevención del fan-out o demultiplicación combinatoria Una de las características de los modelos transaccionales (como el que hemos de utilizar para registrar y analizar hechos noticiosos) es el efecto multiplicador 58
que tienen los atributos. Mientras más atributos se consideren y más valores diferentes puedan tomar dichos atributos, mayor será el efecto combinatorio y, consecuentemente la memoria y el tiempo de procesamiento requerido. Es, por lo tanto, importante proceder por pasos que vayan de menor a mayor efecto combinatorio, evaluando - a la luz de los resultados de cada etapa - la conveniencia de incluir más variables (atributos o valores). Esto significa que se debe tener claridad acerca de los "datos compuestos" (ver apartado 2.3.1) que pueden resultar de mayor interés y partir de éstos, por cuanto las agrupaciones correspondientes reducirán la cantidad de factores que entren en el proceso combinatorio. Se parte, por lo tanto, de un modelo con bajo efecto combinatorio ("low fan out") para encontrar pistas acerca de las combinaciones más detalladas y complejos ("higher fan out") que podrían generar nuevos descubrimientos significativos (Westphal y Blaxton, pp.49-50). 6. Limpieza y normalización de los datos Los datos utilizados en DM provienen muchas veces de diferentes fuentes, por lo cual es indispensable asegurarse de su normalización, por ejemplo traduciendo todas las fechas al formato AAMMDD (año-mes-día), el cual permite un fácil ordenamiento posterior. También han de eliminarse los registros con datos nulos, asegurarse de que no quedan errores y de que las mismas entidades han sido descritas siempre de la misma manera. En los medios de comunicación escritos es frecuente que los nombres de personas o instituciones sean escritos de las formas más variadas, especialmente cuando se trata de nombres extranjeros. Es indispensable filtrar y substituir los datos cuyo valor es idéntico pero que el ordenador diferenciará debido a alguna variación en el tipeo. Por ello resulta mucho más adecuado trabajar con datos codificados (como los tesauros de descriptores) y tablas "look up" (donde se conserva el significado único de cada código). Formatos complejos como las imágenes y los textos largos deben ser separados, ya que no pueden ser tratados con las mismas técnicas que los campos de datos numéricos o que contengan pocas palabras (como nombres y apellidos, o descriptores pertenecientes a un tesauro). Además, dado que el modelo de datos (especialmente si se recurrió a la "tercera forma normal") divide frecuentemente en registros de tablas separadas las informaciones que conciernen a una misma entidad, es necesario asegurarse de que el sistema podrá producir eventualmente nuevos registros en que todos los datos sean reunidos, concatenándolos, para que a una entidad corresponda un sólo o varios registros con asociaciones de todos los datos relevantes. Finalmente, dado que las herramientas de DM están diseñadas para adecuarse a múltiples situaciones y plataformas, es también común que exijan que los datos sean traspasados a un formato "de intercambio", como ASCII con separación por comas o tabuladores (El formato .CSV es uno de los más usados actualmente para transferir los contenidos de bases de datos). Es importante, en consecuencia, asegurarse de poder "exportar" los datos de esta manera. 59
3.4.3. La aproximación al problema 3.4.3.1. Niveles de exploración ¿Qué es lo que queremos obtener mediante data mining? Si partimos del "Modelo Entidad-Relación" que constituye habitualmente el fundamento del diseño de bases de datos, estaremos sin duda tratando de descubrir nuevas relaciones entre entidades. Esto, como lo señalan Westphal y Blaxton, puede ocurrir en distintos niveles (ver Gráfico 3.1): relaciones simples desconocidas, redes o sistemas. Podemos intentar encontrar "patrones de asociación" en estos distintos niveles, que van - obviamente - de menor a mayor complejidad. Partiremos - y podemos limitarnos a - las meras entidades, buscando características compartidas: esto nos conducirá a establecer relaciones entre ellas. Pero si un grupo tiene una característica común, es muy probable que existan otros conjuntos con otra característica en común. Las entidades se reagruparán así de acuerdo a los valores diversos de un mismo atributo. Éstas son las relaciones que pueden poner en evidencia la más simple de las estadísticas: el conteo de frecuencias. Gráfico 3.1: Niveles de exploración
0.Entidades 1.Relaciones
2.Redes
3.Sistemas
Pero ¿no podría ocurrir que las entidades con idéntico valor del atributo A también compartan - todas o parte de ellas - también un mismo valor para el 60
atributo B? En términos estadísticos, estamos ahora "cruzando" variables. Y, en la mayoría de los casos de minería de datos, la estadística clásica o "paramétrica" resulta inaplicable porque los datos (valores de las variables - o atributos en nuestro caso -) no son ni contínuos ni ordenados sino nominales, es decir con significados representados por palabras (o incluso cifras, como los números de series o identificadores de productos) que no representan en sí mismos orden alguno o sólo lo representan en un enfoque semántico, como en una taxonomía o un tesauro. Debemos entonces recurrir a la estadística no-paramétrica, por ejemplo al coeficiente de predictibilidad mútua lambda de Guttman para la asociación de dos variables nominales. También podemos registrar estas relaciones como nuevas entidades y analizar, en una nueva etapa, las relaciones que podrían mantener entre sí. Estamos ahora trabajando con las entidades, sus relaciones y sus meta-relaciones, lo cual nos lleva a un nuevo nivel: el de la red de los datos. Aquí deberíamos poder poner en evidencia el predominio de ciertos "senderos", es decir de la existencia de cierta subestructura en el conjunto de datos. El Gráfico 3.2 ilustra esta situación y es de mucho interés porque la visualización de la red muestra dos aspectos significativos: la existencia de un "sendero" (las líneas más gruesas, que corresponden a una mayor frecuencia) y la mayor frecuencia de las subredes de cuatro componentes (los 4 cuadrados). En conocimiento de los datos reales, estas indicaciones pueden aportar un meta-conocimiento muy importante. Este es un producto típico de la minería de datos, que podría ser imposible de captar con otras herramientas. Gráfico 3.2: Subestructura en una red
La percepción de este doble aspecto nos llevará a un estudio más profundo ya que lo lógico, a la vista del gráfico, será preguntarnos si existe una tendencia generalizada a que los subconjuntos formados por los cuadrados se unan entre sí, si ocurre predominantemente en forma directa (como en los 3 cuadrados del lado superior derecho) o si lo hacen en forma indirecta y, en este caso, mediante cuantos "pasos" intermedios. Estamos ahora analizando el conjunto en forma global, es decir como un sistema, y la visualización de datos (VDA) nos ha facilitado esta tarea. Las buenas aplicaciones de DM apuntan a llegar a este nivel e incluyen herramientas de VDA que han de permitir esta puesta en evidencia (Westphal y Blaxton, pp.58-60).
61
3.4.3.2. Las formas del nuevo conocimiento buscado Otro aspecto importante a considerar es si el "espacio de datos" que exploramos implica un conocimiento episódico - es decir relativo a una secuencia de acciones o acontecimientos - o más bien conceptual, independiente de la variable histórica. En otras palabras, ¿queremos saber "cómo son" las cosas o "qué ocurre con ellas"? A lo primero corresponde el conocimiento llamado "declarativo", mientras al segundo corresponde, en términos informáticos, el conocimiento "procedural" ("episódico" en psicología cognitiva). Ambos términos - que no son los más apropiados desde el punto de vista de las ciencias cognitivas - corresponden en realidad a distintos tipos de software. Pueden obviamente darse casos en que ambos aspectos se combinan, como ocurre en el caso de la información periodística. Si bien se ha de decidir en algunos casos si el aspecto secuencial-histórico tiene importancia (lo habitual es que un sólo atributo - como la fecha - sea suficiente para ello), también se ha de clarificar si se pretende buscar patrones cuya existencia se sospecha o si, al contrario, se desea precisamente encontrar lo insospechado. En otras palabras se formularán y pondrán a prueba hipótesis o bien se hará un estudio exploratorio sin ningún o casi ningún supuesto inicial. Estas opciones se enmarcan en realidad en 4 áreas de meta-conocimiento (ver Gráfico 3.3, traducido de Westphal y Blaxton, p.63): Gráfico 3.3: Tipos de meta-conocimiento CC
DC
Conocimiento conocido
Desconocimiento conocido
CD
DD
Conocimiento desconocido
Desconocimiento desconocido
- CC: "conocimiento conocido" es lo que se sabe ya acerca de los datos, antes de iniciar el proceso de DM (meta-datos previos; véase el apartado 1.5 del primer capítulo). - DC: "desconocimiento conocido", corresponde a lo que se sabe que no se sabe, por ejemplo la frecuencia de cada valor posible de cada atributo (las noticias que leen realmente quienes compran su periódico, los términos introducidos en el motor de búsqueda de su sitio web, etc.). Para esta categoría existen herramientas específicas de DM como los algoritmos genéticos, las redes neuronales o los sistemas expertos. 62
- CD: el "conocimiento desconocido" es lo que no sabemos que sabemos. Esta es la situación más típica de la minería de datos: el conocimiento está en nuestras bases de datos, pero no lo sabemos y quizás no dispongamos (aún) de las herramientas adecuadas para buscarlo. La consecuencia es que - si no lo buscamos - no lo podemos utilizar, a pesar de que pueda tener un valor considerable, como la optimización de los servicios ofrecidos, la reducción de costos, la predicción de comportamiento de los clientes, etc. El objetivo de la DM consiste en transformar este contenido en "conocimiento conocido" (CC) lo más pronto y lo más claramente posible. - DD: el "desconocimiento desconocido" cuyo ejemplo más típico es la ausencia de ciertos datos - que podrían ser importantes - en nuestras bases de datos. Es lo que hace más vulnerable cualquier organización y que, por lo tanto, debería ser investigado en la forma más exhaustiva posible. 3.4.3.3. Las condiciones del trabajo de DM Acercándonos al problema de elegir herramientas o métodos de minería de datos, hemos de preguntarnos en qué situación nos encontramos en relación a las características de nuestro conjunto de datos y lo que representan. Podemos estar tratando con entidades (objetos o eventos) conocidos o desconocidos y dichos eventos pueden ser representados por variables cuyos valores son predecibles y acotados (variable "cerrada") o impredecibles (variable "abierta"). Esto nos da las cuatro situaciones representadas en el Gráfico 3.4 (adaptado de Westphal y Blaxton, p.67): Gráfico 3.4: Situaciones de data mining Parámetros Var.cerrada C Entidades
CC
CA
Reglas automáticas
Top-down Exponer patrones
DC
D
Var.abierta
Bottom-up Descubrir tendencias
DA Análisis proactivo de amenazas
- CC: Entidad conocida y variables cerradas: sabemos como descubrir todos los casos que podrían ocurrir; cualquier caso que se presente fuera de los parámetros establecidos será rechazado por el sistema (p.ej. una noticia sin fecha no podrá ser aceptada).
63
- DC: Entidad desconocida y variables cerradas: estamos aquí, en realidad, considerando meta-entidades o conocimientos que deberán surgir mediante DM del análisis de los datos, como son las tendencias globales que se pueden extraer a partir de la acumulación de casos puntuales (bottom-up). - CA: Entidad conocida con variables abiertas: aquí se trata de descubrir patrones discontínuos y los valores de una o más variables que permitirían clasificar distintas categorías de casos (por ejemplo la determinación de rangos en la asociación entre solicitudes de crédito y volúmenes de compra, o el hecho de que la mayoría de los lectores de noticias con descriptor A pasan a la lectura de textos de análisis en profundidad, mientras no ocurre lo mismo con la mayoría de los que leen noticias con descriptor B). - DA: Entidad desconocida y variables abiertas: la minería de datos trata aquí de descubrir prácticas desconocidas (generalmente ilegales) y el posible carácter estructurado de las mismas (como el lavado de dinero mediante numerosos depósitos que son unos pocos dólares por debajo del monto que obliga a los bancos a informar o investigar). Es el área principal de aplicación de la DM en "inteligencia" en el sentido policial o militar del término. En esta última situación hemos introducido una perspectiva "proactiva". Implica que se está alerta o se planea el estudio sin saber si ya ocurrieron los hechos de interés o sin tener en cuenta esta situación. Toda minería de datos puede hacerse en forma proactiva. Pero también puede hacerse en forma "reactiva", que es el modo opuesto o más bien complementario: aplicarse como consecuencia del descubrimiento de casos atípicos o de la acumulación obvia de casos parecidos, que llevan a formular una hipótesis que se desea verificar, para mejorar la planificación de las acciones o la atención de clientes, o para tomar medidas precautorias. Responde habitualmente a la detección de una situación de crisis. Una DM reactiva puede limitarse a estudiar los casos ajustados al patrón detectado, a diferencia de la proactiva que requiere normalmente considerar la totalidad de los datos, con obvias consecuencias en materia de etapas de desarrollo, volumen de información a tratar, duración del estudio, reiteración del mismo, etc. 3.4.4. La secuencia básica de trabajo Las etapas principales de trabajo se señalan en el gráfico 3.5 y son esencialmente cinco: definir el problema, acceder a las estructuras de datos, combinar las fuentes de datos, realizar la "explotación" propiamente dicha y, finalmente, exponer los resultados. Hemos de introducirnos ahora en aspectos más concretos de la metodología, dando por supuesto que contamos ya con los datos en un "formato de intercambio" y que sabemos en que "situación" de Data Mining nos encontramos.
64
Gráfico 3.5: Etapas de trabajo
3.4.4.1. Análisis preliminar El estudio proactivo requiere detectar primero tendencias generales y luego refinar el análisis, para lo cual se realiza normalmente un trabajo preliminar con una muestra de los datos (llamada "tajada proactiva") y no la totalidad de los mismos. A diferencia de los métodos estadísticos, la muestra no se elige al azar sino en función de un criterio definido en función de la naturaleza de los datos y de las combinaciones de variables que, según se estiman, podrían ser significativas (por ejemplo un mes para datos episódicos, un tema para lecturas, una región geográfica para un sistema de reparto). Serán indicadores interesantes tanto las más altas frecuencias como los casos que parecen excepcionales. En ambos casos se tratará de ver qué otras características comparten o diferencian los casos descubiertos de esta manera con lo cual, en cierto modo, el estudio proactivo se torna en reactivo. Se turnan entonces ambos enfoques hasta conseguir los objetivos prefijados (Westphal y Blaxton, p.71). Aún en los casos en que el inicio deba ser proactivo y no se pueda prever nada acerca de los posibles resultados, algunas estructuras han de ser definidas a fin de determinar qué datos han de ser incluídos en el análisis, ya que mientras más datos se incluyen, más complejo, lento y exigente en poder de cómputo se vuelve el proceso. Esto es vital si la cantidad de registros supera los 25.000, según Westphal y Blaxton (p.85), mientras con cantidades inferiores es generalmente factible incluir todos los datos, aunque ello también depende de las exigencias de la herramienta computacional de DM que se elija. La clave está en la posibilidad de mantener todos los datos en un sólo disco y en que la herramienta disponga de suficiente RAM para procesarlos. De lo contrario será necesaria una reducción estructural o un trabajo con múltiples "tajadas" (cada una por separado). Para definir la reducción estructural se cuenta obviamente con el "modelo de datos". 65
Y, después de contar con los resultados de la explotación de la "tajada proactiva", se podrá aplicar el proceso a una muestra aleatoria - estadísticamente representativa del conjunto -, para verificar si la selección estructural conduce o no a resultados de interés. 3.4.4.2. Integración o descomposición de datos La tercera etapa señalada en el Gráfico 3.5. se refiere a la combinación de datos de diferentes fuentes. Estas fuentes pueden ser desde diferentes tablas de una misma base de datos (caso habitual de las tablas "normalizadas") hasta reportes proveniendo de distintas empresas o investigadores. Obviamente, para su integración, se requiere contar con un modelo de datos donde "encajen". En este caso es indispensable verificar la consistencia (valores idénticos o compatibles para los atributos en común), suprimir las redundancias y - eventualmente escribir alguna rutina para ajustar los formatos o traducir ciertos códigos y permitir de este modo que la herramienta de DM escogida opere de la misma forma en los distintos conjuntos de datos. (Generalmente no es necesario integrar todo en una misma tabla: más bien podría reducir la eficiencia del trabajo). Los datos numéricos son siempre los más fáciles de procesar, sean valores aritméticos, fechas, códigos de productos u otros sistemas de clasificación numérica (ISBN, tesauros, etc.). Los datos textuales pueden ser fuente de mayor dificultad. Para textos largos existen herramientas de DM a las que no nos referiremos. En el caso de textos cortos (partiendo por los nombres de personas y su direcciones), es indispensable una cuidadosa verificación de la consistencia, la cual puede ser asegurada - cada vez que sea posible - mediante el uso de una codificación (con tablas "look up", que susbtituyen el código por su significado en las instancias de lectura o consulta), codificación que se preferirá siempre recurriendo a un sistema numérico, sea o no decimal2 . Si no lo hizo quién diseñó la base de datos, deberá hacerlo el analista, lo cual puede transformarse en una etapa larga y tediosa pero indispensable. En un próximo capítulo tendremos la oportunidad de comentar lo que nos ocurrió en esta fase para operar con los "implicados" en las noticias que analizáramos. Obviamente el poder trabajar con tablas en "tercera forma normal" asegura en sí mismo un mayor nivel de consistencia, aunque la multiplicación de tablas que conlleva no es necesariamente la estructura más favorable al trabajo de minería de datos. Un proceso que puede parecer "inverso" a la integración es la desagregación de datos que pueden tener una parte significativa. El caso más común es el de una fecha, que tiene tres componentes: año, mes y día. Se mantendrán los tres juntos si se requiere un "análisis fino", al nivel de los días. Pero, en muchos casos, se requerirá hacer comparaciones mensuales o anuales, para lo cual cada uno de estos componentes ha de extraerse y conservarse en un campo de dato propio (generando una nueva columna en la tabla que los contiene). Lo mismo ocurre si utilizamos un tesauro: si queremos efectuar un análisis a cierto nivel jerárquico (p.ej. las categorías correspondientes a las dos o tres primeras cifras en un sistema de cinco o más cifras), deberemos copiar las cifras representativas en una 66
nueva columna, para que el software de DM pueda acceder a ellas en forma directa. 3.4.4.3. Transferencia de datos Aunque la "tercera forma normal" es el mejor medio para asegurar la consistencia, evitar duplicaciones inútiles y facilitar la confección de estadísticas ordinarias, no es "del gusto" de las herramientas más comunes de DM. Éstas exigen habitualmente trabajar con una tabla única, que contenga la descripción completa de las entidades bajo análisis. Si, lo que es poco frecuente, cada entidad se describe con un conjunto de atributos que tienen cada uno, en cada caso, un sólo valor, se podrá confeccionar una tabla única en que cada registro se componga de los valores de todos los atributos (método llamado "de los registros largos"). Un ejemplo podría ser el de la Tabla 3.1. (donde podrían agregarse más columnas, como para incluir los nombres de los hijos, el monto del sueldo mensual vigente, la dirección de e-mail -para quienes la tienen-, etc.): Tabla 3.1. "Registros largos" id 1 2 3
Nombre José Alvarez Martínez
Identidad 12.235.436-1
Felipe Castro Zunino Andés Méndez Zamorano
5.519.657-0 9.147.382-2
Dirección Teléfono Av.Vicuña 234.21.28 3121, Santiago San Francisco 357.92.23 12, Temuco Esmeralda 0 237, Iquique
Conyugue Marisa Solar Vicuña Clara Pastor Torres Alicia Castro del Pozo
Pero como, en muchos casos, existen atributos que pueden aplicarse más de una vez o tomar más de un valor para describir cada entidad (como ocurre con los descriptores temáticos en una biblioteca), debe utilizarse un procedimiento diferente, de multiplicación de registros cortos. Esto equivale, con algunos ajustes, a traspasar, una tras otra, parte o todas las tablas de tercera forma normal a una tabla única destinada exclusivamente a la minería. ¿Cuáles son los ajustes que pueden ser necesarios? Los requeridos para que los datos puedan ingresar a esa tabla única sin perder su especificidad. Lo cual implica, generalmente, crear una columna en la cual se indica a qué tipo de atributo corresponde el conjunto traspasado (según la definición de la tablafuente). Obviamente, este procedimiento supone: • que el número de columnas de las diferentes tablas-fuentes sea más o menos equivalente, 67
• que deberá redactarse un programa (por ejemplo en PERL, PHP, GREP u otro lenguaje parecido) que efectúe la transferencia, incluyendo el nuevo dato (información sobre el atributo) en la columna ad hoc. En la Tabla 3.2. se muestra un ejemplo de este procedimiento. Tabla 3.2. "Registros cortos" id 1
Entidad José Alvarez
Tipo Ent. Persona
Atributo 1 Av.Vicuña 3121, Santiago San Francisco 12, Temuco Esmeralda 237, Iquique
Atributo 2 234.21.28
Tipo Atr. Dir.Personal
2
Felipe Castro
Persona
357.92.23
Dir.Personal
3
Andés Méndez
Persona
0
Dir.Personal
... 115 116 117 118 ... 223 224 225
... Citroen Renault Volvo BMW ... José Alvarez Felipe Castro Andés Méndez
Auto Auto Auto Moto
Saxo 1 Clio RT V40 99/2000
2000 1999 1998 1994
Car.Vehículo Car.Vehículo Car.Vehículo Car.Vehículo
Persona Persona Persona
139-29993-99 53-14375-97 152-35658-87
DZ88013 139-2346K CV32661
Póliza Póliza Póliza
Como se puede ver, se han incluido dos columnas nuevas, para clasificar mejor los datos: "Tipo Ent." (tipo de entidad) y "Tipo Atr." (tipo de atributo). Así, el significado de "Atributo 1" y "Atributo 2" cambian según lo indicado en "Tipo Atr." : el atributo 2 corresponde al número de teléfono, para las personas, mientras es el año de fabricación para los vehículos y el número de rol público (de vehículos o de bienes raíces) en el caso de las pólizas de seguro. A su vez, en el caso de las pólizas, los atributos 1 y 2 son compuestos, el primero indicando -en uno de sus segmentos- el tipo de bien asegurado (lo se podría descomponer), mientras el segundo indica igualmente el tipo de bien, pero en un formato que no puede ser fácilmente descompuesto. Obviamente el ejemplo es incompleto, y la tabla completa debería dar cuenta también de otras interrelaciones. 3.4.4.4. Preparación de textos Los textos en lenguaje natural constituyen un caso especial que requiere, necesariamente, una etapa de preprocesamiento mediante herramientas especializadas. Las más simples crean una tabla que contiene cada palabra encontrada en los diversos textos con un código que indica a qué documento pertenece y cuál es su posición en el mismo. Un procesamiento posterior permite tener en cuenta la mayor o menor proximidad de diversos términos. Es lo que hacen habitualmente los motores de búsqueda en la WWW para devolver por 68
orden de mayor a menor relevancia las páginas web clasificadas por el motor. Se incluye habitualmente un "anti-diccionario" o lista de palabras no útiles, como los artículos, conjunciones, preposiciones, etc. Herramientas más avanzadas permiten efectuar y registrar en forma automática clasificaciones temáticas, de acuerdo a pautas dadas al inicio del proceso. Algunos de estos sistemas toman en cuenta la gramática mientras otros recurren a aplicacions de Inteligencia Artificial para reconocer unidades semánticas. El costo y los requisitos de hardware varían evidentemente de acuerdo a lo avanzado de las prestaciones. Es probable que, en el futuro y al menos en el área de la WWW, el trabajo de analizar textos se vaya facilitando gracias a la introducción progresiva del lenguaje de definición de datos XML, compatible con el actual HTML. El XML permite en efecto a los creadores de documentos incluir etiquetas propias con las cuales definir componentes, como por ejemplo: <actor>Andrés Aylwin</actor> <accion>Discurso</accion> <tema>Explotación de niños en supermercados</tema>
etc... Al usar con regularidad las mismas etiquetas, los documentos HTML-XML pueden así ser tratados como si fuesen parte de una base de datos y se puede prever incluso que nuevos navegadores de web faciliten el pasar de un documento a otro recurriendo a tales etiquetas. La minería de datos, obviamente, se vería grandemente facilitada con documentos de este tipo, pudiendo recurrir a aplicaciones mucho más sencillas y económicas para su tratamiento. 3.4.4.5. Aplicación de las herramientas No detallaremos aquí las herramientas que se pueden utilizar (Se enuncian en el nº 3.5). Recordemos solamente de que se trata de un proceso reiterativo, en que el analista ha de avanzar y retroceder, cambiar parámetros, definir diferentes rangos, etc. para buscar pistas. Las aplicaciones que permiten el tratamiento visual de los datos son las más apropiadas para ello y hablaremos de ellas en el apartado 3.5.2. 3.4.4.6. Presentación final de los resultados Como sabe todo buen comunicador, el resultado real del trabajo depende de la forma en que se presenten los resultados a quiénes lo encargaron o lo tendrán que utilizar. La forma en que el "minero de datos" entiende los resultados no es necesariamente (ni generalmente) la más adecuada. Dado que nos dirigimos esencialmente a personas que trabajan en el área de la comunicación, no nos extenderemos aquí sobre este punto. Pero, anticipando la importancia que tienen 69
los sistemas de visualización de datos en DM (tema que abordaremos en en acápite 3.6.1.2), podemos recalcar desde ya que tener cierta habilidad para el diseño gráfico es una virtud no menor que un "minero de datos" ha de cultivar para poder sacar el mayor partido de sus investigaciones. En este sentido, podría ser de sumo interés que estudie algunos textos sobre Lenguaje Visual y sobre Infografía.3
3.5. Las herramientas de Data Mining En cierto modo, los "paquetes estadísticos" ya proveen las primeras herramientas de Data Mining, pero la experiencia y la intuición del analista resultan fundamentales a la hora de escoger las variables a analizar y, en particular, las asociaciones que podrían ser significativas (p.ej. para realizar un cálculo del coeficiente de asociación nominal-nominal, como el coeficiente de predictibilidad lambda de Guttman). La minería de datos va mucho más lejos, recurriendo a métodos automatizados, como - Los métodos de regresión nolineal - La programación evolutiva - Los algoritmos genéticos - Los árboles de decisión - El razonamiento basado en la memoria - Las redes neuronales Pero dichas técnicas pueden arrojar con más facilidad resultados que informen sobre tendencias generales y exigen algunas veces - como, en la mayoría de los casos, los métodos estadísticos - que se formulen hipótesis al inicio o durante la búsqueda. Si no se percibe una clara segmentación de las entidades y no se tiene idea de adónde llevará la exploración, lo más conveniente será escoger árboles de decisión o redes neuronales. Pero incluso las redes neuronales podrían desembocar solamente en informaciones sobre tendencias o categorías demasiado generales. Por ello los métodos que incluyen la visualización de los datos son de la mayor importancia y utilidad. Permiten al mismo tiempo tener una visión de conjunto y, mediante mayor "acercamiento" o ampliación (efecto de "zoom"), explorar más detalladamente algunas zonas, descubriendo los patrones inesperados que son los que se está buscando. Hemos de recalcar aquí que los métodos de análisis visual son un paradigma relativamente nuevo y muy diferente de los métodos analíticos estrictamente numéricos. Su potencia ha sido descubierta solamente gracias al desarrollo de computadores suficientemente potentes, se ha formalizado principalmente en la llamada "matemática del caos" o "geometría fractal", y se ha demostrado ya ampliamente la universalidad de su aplicabilidad. (Desarrollamos este tema en el ANEXO final de la presente obra). 70
3.5.1. La visualización de datos como método de análisis Frente a grandes tablas de datos como las que puede arrojar la más simple de las técnicas estadísticas aplicadas a grandes conjuntos de datos, nuestra memoria se ve totalmente sobrepasada. Tal como lo advirtió en una memorable conferencia en 1956, George Miller dejó en claro que la memoria de corto plazo no es capaz de almacenar más de 7±2 pequeños "trozos" (chunks) de información4 , o sea entre 5 y 9 cifras de (o palabras y cifras) de una tabla. Pero, como bien lo saben los psicólogos cognitivos y los diseñadores gráficos, podemos - con una breve mirada - captar toda la estructura de una imagen y descubrir con facilidad sus principales variaciones. ¿Acaso no será capaz el lector, después de mirarla en la página 199, de recordar la estructura básica del conjunto de Mandelbrot y no habrá descubierto de inmediato las repeticiones presentes? Y reemplazan evidentemente centenares o miles de cifras, según el grado de ampliación o detalle escogido. Véase en la página siguiente el mapa (parcial) de un proyecto de web, que no es más que la visualización de la información sobre los hipervínculos registrados en una base de datos a partir de la cual se confeccionaron las páginas web (Gráfico 3.6). A pesar de la cantidad de datos, es fácil percibir los subconjuntos de vínculos (recuadros punteados) y sus diferentes características, que pueden ser revisadas en detalle si se desea. Así, los métodos de visualización se han revelado a la vez muy eficientes y confiables, especialmente para descubrir estructuras "encubiertas", con la ventaja adicional de hacer innecesario cualquier preconcepto y eliminar cualquier prejuicio. Pueden mostrar simultáneamente diversos patrones de relaciones, tendencias generales y casos atípicos, obteniendo una visión global de grandes cantidades de datos o desmenuzando pequeños grupos de los mismos. La visualización tiene también otra ventaja: la de poner de inmediato en evidencia los valores que se encuentran fuera de rango y, por lo tanto, corresponden a datos corruptos o casos excepcionales. Indican, por lo tanto, registros que deben ser revisados, corregidos o eliminados del análisis. Pero también pueden existir valores dentro del rango admisible pero que la imagen mostrará como separados del resto, es decir como anómalos. Ésta puede ser una pista de gran interés para la extracción de nuevos conocimientos. La flexibilidad del VDA permite hacer aparecer estos casos al "penetrar a mayor profundidad en la mina" de datos. En efecto, gracias a la interactividad que las aplicaciones de VDA ("Visual Data Analysis") incluyen, el analista puede no sólo "acercarse" o "alejarse", sino también modificar diversos parámetros para ver cómo afectan los datos. De este modo resulta muy fácil estudiar no sólo los patrones típicos y los casos atípicos, sino también los cambios de escenario ligados al cambio de determinadas condiciones, método que las hojas de cálculo digitales han introducido desde hace tiempo. Mientras los algoritmos de cálculo permanecen oscuros para el usuario, 71
Gráfico 3.6: Páginas de ingreso a un sitio web ludo-educativo de Introducción a la Computación 5 index.html
Directo Tabla
Lúdico
Programa
Historia
c_in
1
Prospectiva Piratería
Aplicaciones
1f
Arquitectura
3b
3f
Lenguaje 4b
Operaciones Inteligencia Art.
Informática 5b 6b 6d 8b
Inteligencia Artificial
Lúdico 9b
97b
Historia
95b
Prospectiva
90b 93b 99b
Aplicaciones
Operaciones
99s cfin
Lenguaje
1 2 3
Fin
72
Arquitectura
Gráfico 3.7. Estadígrafo de dispersión con clusters
Gráfico 3.8. Arbol jerárquico
Gráfico 3.9. Red auto-organizada
Gráfico 3.10a. Paisaje de datos
Gráfico 3.10b. Paisaje de datos
Gráfico 3.10c. Paisaje de datos
73
los resultados son de muy fácil manejo y la alteración de parámetros - con sus resultados visuales - permite comprender con facilidad lo que ocurre, lo cual incrementa las probabilidades de éxito en el análisis (cfr. Westphal & Blaxton, pp.123-129). La visualización puede hacerse de diferentes formas. Ello puede depender de la estructura de los datos y de los resultados deseados, pero también puede ser conveniente explorar varias alternativas con un mismo conjunto de datos. Los formatos más comunes son los estadígrafos de dispersión que pueden conducir a categorizaciones oclusters (Gráfico 3.7), los árboles jerárquicos (Gráfico 3.8), las redes auto-organizadas (Gráfico 3.9) y los "paisajes de datos", que pueden tomar varios aspectos (Gráficos 3.10 a, b y c).6 Las redes (como la 3.9 o la 3.10c) son especialmente útiles porque agregan un nuevo atributo: el de las relaciones entre entidades, que pueden ser un importante aporte al metaconocimiento, poniendo en evidencia entidades que aparecen como nodos centralizadores o como puntos de articulación (o cuellos de botella) entre subredes (el Gráfico 3.9 muestra uno muy claro en la sub-red superior), todo lo cual requiere obviamente interpretación en función de la naturaleza de los datos. Una etapa muy interesante del análisis consiste en "borrar" estos datos y estudiar las consecuencias para el resto de la red. Aunque nos limitamos en nuestros gráficos a trazos y tramas, por razones tipográficas, la VDA recurre también a la diferenciación por el color, además de permitir la rotación interactiva, el titileo y otros efectos visuales. Pero la diferenciación por el color sólo puede ser aplicada a atributos que no toman más de unos seis valores porque de lo contrario se produce un efecto de "arcoiris" que hace ilegible el conjunto. Algo parecido puede ocurrir con la variación de tamaño (sea de elipses o rectángulos) que se hace difícil de percibir si los valores son numerosos (excepto en histogramas ordenados, con la escala apropiada). Recordemos también que dos atributos generan gráficos de dos dimensiones. Así que entidades con, digamos, diez atributos, generan una matriz matemática de diez dimensiones, lo cual es evidentemente imposible de graficar. Sabemos muy bien que la geometría clásica - y sus gráficos - se ve limitada a las tres dimensiones (aunque existen medios para agregar, como cuarta dimensión, la variación temporal). Por lo tanto, se deberán siempre hacer varias selecciones de los dos o tres atributos cuya combinación será visualizada7 . El mismo análisis siempre reiterativo, como lo hemos señalado ya - tiende generalmente a indicar cuáles pueden ser de mayor provecho. Si, como ocurre en la mayoría de los casos, se trabaja con datos codificados, debe recordarse que los códigos deberán ser reemplazados por su significado para producir la presentación final de los datos. Es importante, para ello, reducir los términos a su forma más breve posible ya que textos largos sobre gráficos tienden a hacerlos más ilegibles. También puede ocurrir que esto obligue a sacrificar detalles en la vista general, reemplazando un gráfico por varios, con diferentes escalas de ampliación. Y, sin duda, habrá información que será preferible ignorar (no representar) por cuanto sólo introduciría un factor de 74
distracción o una complejidad exagerada, haciendo más confuso el producto de la investigación: así, la "limpieza" de los gráficos finales ha de primar, antes que la exhaustividad. La presentación visual de los resultados, sin embargo, no excluye la necesidad de que los datos que la sustentan también estén disponibles. Aunque sea imposible presentarlos, por ejemplo, en una conferencia donde se dé cuenta de los resultados, estos datos deben estar disponibles y su relación con los gráficos exhibidos debe ser clara e inequívoca. Pero esta documentación -en forma de tablas o textos- constituye más un "soporte" o respaldo que el cuerpo mismo del producto. El usuario final debe poder acceder a ella si lo desea pero no debe abrumarse con ella cuando se le entregan los resultados. Dicha entrega, por lo tanto, se compone normalmente de dos partes o fases: la entrega de la "esencia" del contenido, con predominio visual, y la entrega de anexos detallados que sostienen y comprueban los elementos puestos en evidencia.
3.5.2. Otras herramientas A diferencia de la visualización de datos, existen otras herramientas que no son interactivas durante su aplicación sino que obligan a determinar las condiciones iniciales, lanzar la aplicación computacional - que resulta ser una "caja negra" (el usuario no sabe cómo opera) - y se observan luego los resultados (que pueden ser traducidos a una forma visual) para decidir si son satisfactorios o se han de modificar los parámetros iniciales y reiterar el proceso. La estadística descriptiva e inferencial es sin duda la herramienta conocida de más larga data. No nos extenderemos aquí sobre estos procedimientos clásicos. El lector encontrará ejemplos en el capítulo 5. Recalquemos, sin embargo, que este tipo de herramienta requiere datos numéricos (valores cuantificables) y, generalmente, para profundizar, la formulación de hipótesis que se ponen luego a prueba. Pero los tests estadísticos nunca podrán arrojar información sobre patrones que se repiten en diversos segmentos o grupos de entidades: sólo sirven para tener una visión de conjunto y, eventualmente, hacer predicciones en relación al comportamiento futuro del conjunto de las entidades o de la población que ellas representan. Su utilidad en DM, por lo tanto, es extremadamente limitada. 3.5.3.1. Los árboles de decisión Si el objetivo del análisis es efectuar clasificaciones sobre la base de combinaciones de atributos, la herramienta más adecuada es el "árbol de decisión". Los "árboles de decisión" proceden dividiendo en subgrupos el conjunto de datos, estableciendo la existencia de reglas o relaciones que aparecen en forma sistemática. Para ello, el software busca las variables o atributos que permiten efectuar la mayor segregación posible de las registros correspondientes 75
a las entidades, es decir las que reducen al máximo la incertidumbre (en el sentido de la teoría de la información). Pero se requiere que cada variable o atributo tenga un número muy limitado de posibles valores (idealmente menos de 4 o 5) ya que, de lo contrario, la fragmentación sería demasiado grande para que nuevas divisiones significativas puedan aparecer en un siguiente nivel (ramificación) del árbol. Si tomamos, por ejemplo, un análisis de la venta de vehículos - como lo hacen Westphal y Blaxton- si bien en Estados Unidos el atributo "aire acondicionado" es irrelevante (casi todos los vehículos lo tienen), no pasará lo mismo en el cono sur de América, donde sí será relevante y permitirá sin duda identificar un grupo específico de clientes, con determinadas características socio-económicas. Es altamente probable que este mismo grupo comprará también vehículos con mayor cilindrada, mayor cantidad de elementos de seguridad, dirección servo-asistida, etc., todos elementos que aparecerán en el árbol de decisión. Lo que no podemos prever (con nuestros conocimientos previos) y podrá revelar esta técnica es, por ejemplo, si existe un color preferido y si el segmento etario o el sexo del comprador juega algún papel, y a qué "altura" en el árbol, es decir cuál es el orden de importancia de estos factores. Este tipo de información puede ser clave para el buen diseño de una campaña publicitaria. Una vez elaborado el árbol con un primer conjunto de datos, se somete a prueba verificando qué cantidad de errores se producen cuando se aplica a un nuevo conjunto. De este modo se puede establecer el grado de precisión de las reglas subyacentes, eliminando las menos significaticas. Y aprendiendo tanto de las combinaciones que no ocurren como de las que tienen "mayor peso". 3.5.3.2. El análisis de asociaciones Si lo que interesa son las coincidencias en los valores de algunas variables, se preferirá la técnica de extracción de coincidencias, típica del análisis de las "canastas de compras" (sea en supermercados, sea en tiendas virtuales en Internet, por ejemplo). Puede haber muchos ejemplos de conductas que (casi) siempre ocurren juntas y que pueden estar relacionadas con variables de otra naturaleza como un sector geográfico o variables socio-económicas o culturales. Y es lo que esta herramienta pondrá en evidencia. El análisis de asociación recurre a la construcción de una matriz de correlación en que se anota la frecuencia de coocurrencia de cada par de factores. Los datos pueden ser tanto numéricos como verbales, perteneciendo a una base de datos o a textos completos, por lo que esta técnica sirve tanto en warehousing como en el análisis de contenido. Hemos sido pioneros en su utilización para el análisis del discurso, creando en 1984 unsoftware de análisis de coocurrencias en textos para el Apple II y, posteriormente (1987-88), una versión para Mac OS llamada "ANATEX"8 , que funcionaba en los Macintosh Plus (con 1Mb de RAM) y hemos seguido utilizando hasta el Mac OS 7.x. 76
Lo hemos utilizado numerosas veces en el campo del análisis de contenido, por ejemplo en un estudio comparativo de discursos políticos en una campaña electoral. Para este tipo de análisis, se considera la oración como el conjunto significativo o "entidad" y cada par de palabras en el interior de esta unidad gramatical constituye una coocurrencia. Para efectuar el análisis, se han de confeccionar previamente un diccionario de sinónimos (términos que serán reconocidos y computados) y un "anti-diccionario" de palabras que no deben ser consideradas (como los artículos, conjunciones, etc.), cosa generalmente innecesaria en bases de datos normalizadas, salvo que contengan campos de texto que deban ser considerados. Obviamente lo que se puede hacer para analizar la estructura conceptual de un texto con más razón y mayor facilidad puede realizarse en el caso de los conjuntos de datos pertenecientes a un mismo atributo - o, incluso, a varios atributos - en una base de datos. ¿Cómo opera este sistema de análisis? Supongamos que disponemos de una serie de 10 términos aceptables - que representaremos aquí por las minúsculas de la 'a' a la 'j' -, y que se seleccionan algunas para formar la descripción de dos entidades distintas. Dos registros podrían contener: [Registro A:] a, c, e, g [Registro B:] b, d, f, h, i Las coocurrencias correspondientes son, para el conjunto A: a-c a-e a-g
c-e c-g
e-g
d-f d-h d-i
f-h f-i
y para el conjunto B: b-d b-f b-h b-i
h-i
Supongamos que, ahora, para otras entidades se efectúen las agrupaciones: [C:] [D:]
a, d, e, i, j. b, c, f, g, h.
Son nuevas coocurrencias que, al considerarse todo el super-conjunto (A, B, C, D), han de sumarse a las anteriores, para lo cual es necesario trasladar la información a una matriz cuadrada que tomaría la forma siguiente: 77
Tabla 3.3: Matriz de Coocurrencia (Modelo básico) a b c d e f g h i j
a 0 1 1 2 0 1 0 1 1
b 0 1 1 0 2 1 2 1 0
c 1 1 0 1 1 2 1 0 0
d 1 1 0 1 1 0 1 2 1
e 2 0 1 1 0 1 0 1 1
f 0 2 1 1 0 1 2 1 0
g 1 1 2 0 1 1 1 0 0
h 0 2 1 1 0 2 1 1 0
i 1 1 0 2 1 1 0 1 1
j 1 0 0 1 1 0 0 0 1 -
El mismo procedimiento se aplica a conjuntos mayores, obteniendo evidentemente una "matriz de coocurrencia" de mayor tamaño. Cuando empezamos a utilizar el software de análisis de coocurrencia (en Macintosh, en 1988), el tamaño de la memoria RAM era crítico, cosa que hoy día es mucho menos importante gracias al importante aumento habido en las memorias RAM y a soluciones de programación que permiten trabajar con tablas temporales y matrices virtuales en disco duro. Después de analizar el superconjunto, se habrá formado una matriz con todas las coocurrencias reales. Esta matriz representará el campo semántico determinado por los componentes anotados, poniendo en evidencia estructuras subyacentes de tipo semántico en el caso del análisis de contenido - (como lo señalaban ya Danowski, Moles, Hudrisier y otros en los años ochenta9 ). En efecto, los pares asociados pueden unirse en cadenas y éstas en redes que forman, por lo tanto, mapas de los contenidos, los que - al dibujarse - pueden poner en evidencia subáreas, términos más centrales y términos que - si bien pueden ser poco frecuentes - jueguen un papel importante al unir las sub-áreas (términos llamados "visagras" o "puntos de articulación"). Se puede, por lo tanto, obtener una nueva aproximación al significado de la información y a su "estructura latente", escondida trás el contenido manifiesto de la multiplicidad de los datos bajo estudio. Ejemplo es el mapa del núcleo central de uno de los discursos programáticos de Eduardo Frei Ruiz-Tagle (30 de mayo de 1993), candidato a Presidente en las elecciones chilenas de 1993, que mostramos a continuación10 .
78
Gráfico 3.11: Mapa semántico construido sobre la base de un análisis de coocurrencias temáticas - Campaña electoral de E.Frei poder 11
gobierno
7
Concertación
partido 8
8
7
10
jóvenes 19
historia
9
9
Chile
chileno 13 7
7
querer
población
7
educación
12 7
trabajo
3.5.3.3. Las redes neuronales Las redes neuronales son una metodología computacional comunmente utilizada para para la identificación de patrones y la categorización, que se diferencia de las anteriormente citadas en la ponderación del valor excitativo o inhibitorio de las relaciones entre los nodos que componen la red. La red se va completando y dichos valores se van modificando a medida que se presentan nuevos casos, por lo cual también se dice que es una metodología basada en el aprendizaje artificial, el cual puede ser "supervisado" o "no-supervisado". El aprendizaje supervisado opera a partir de un conjunto de datos cuya estructura ya es conocida. Se introduce cada serie de datos, verificando la salida que arroja la aplicación. Si no es satisfactoria, se introducen factores correctivos (hay distintas maneras de hacerlo) hasta conseguir outputs satisfactorios. una vez que todo funciona adecuadamente para todo el conjunto conocido, el aprendizaje ha terminado y se puede pasar a la aplicación a nuevos datos, para detectar los patrones aprendidos y señalar su ocurrencia. Pero en este caso no se realiza una verdadera minería de datos, ya que se trabaja con conocimiento ya adquirido. El aprendizaje no-supervisado, al contrario, genera su propia propuesta a partir de los datos recibidos, sin control por parte del operador. En este caso, por cada entrada los nodos compiten entre sí para entregar un resultado y es el conjunto de las interacciones entre nodos que, ajustando cada vez su "peso" en función del 79
input, determina el output. Así, entradas semejantes activan conjuntos semejantes de nodos y refuerzan su peso, disminuyendo el de otros. De este modo se puede construir un mapa que represente la fuerza de estas interconexiones: esta visualización es generalmente necesaria para poder interpretar los resultados, segmentando los datos en subconjuntos que pueden ser analizados también con otras herramientas. El producto más conocido de esta técnica son los "mapas de Kohonen", o mapas autoasociativos ("Self Organising Maps" o SOM), desarrollados por Teuvo Kohonen, a partir de 1989. El algoritmo en el cual se basan toma un conjunto N dimensional de objetos como entrada y entrena una red neuronal que converge finalmente a la forma de un mapa 2D de categorías en las que cada categoría ocupa un espacio proporcional a las frecuencias de sus componentes. El mapa puede tener varios niveles, apareciendo primero el más diferenciador. Si se selecciona una de las áreas representadas, se puede pasar a un segundo nivel con más detalles (y subdivisiones) de la misma, y así sucesivamente. Los mapas de Kohonen han sido utilizado en diversas aplicaciones destinadas a explorar la World Wide Web11 y para hacer búsquedas exclusivamente visuales en bancos de imágenes (caso de la aplicación "PicSOM"12 , de la Universidad Tecnológica de Helsinki). Pero las redes neuronales no permiten saber las razones por las que se obtiene un resultado y no otro y, en ningún caso, permiten hacer predicciones. Estas, en muchos casos, pueden ser limitaciones muy importantes. Pero su ventaja está en poder trabajar en forma totalmente exploratoria, sin ninguna hipótesis previa, es decir en su potencial para generar enfoques realmente novedosos. 3.5.3.4. Los algoritmos genéticos Esta última herramienta se inspira en el proceso evolutivo, con sus operaciones de selección, cruzamiento y mutación. La selección se basa en la supervivencia del individuo que se adecúa mejor a su entorno y puede así traspasar sus características a una nueva generación. La adecuación se calcula para toda la población (entidades) y los de más alta adecuación pueden reproducirse proporcionalmente, así los de menor adecuación tendrán menos copias de sí mismos. La selección de los que pertenezcan a una nueva generación se hace normalmente al azar y se mantiene por lo tanto la proporción entre los más y los menos numerosos (pero éstos se irán extinguiendo paulatinamente). En los algoritmos más comunes la población se reemplaza completamente entre una generación y otra y el tamaño (total) de la misma permanece constante. En otros se puede actuar sobre algunos factores, y la población total puede crecer o decrecer. En el cruzamiento, un nuevo individuo procede de la copia de parte de la información de cada uno de sus "padres". El acoplamiento se produce al azar, se asegura que todos los registros sean representados y la "reproducción" se desarrolla de acuerdo a un factor de probabilidad que puede ser modificado. 80
Algoritmos más complejos permiten también determinar los fragmentos "dominantes" y "recesivos" de la información transmitida e introducir cierta tasa de mutación (mediante error en la transmisión de los fragmentos), aunque siempre pequeña porque una mutación leve puede - a la larga - tener efectos devastadores. Las mutaciones habitualmente permiten ampliar el área de búsqueda de soluciones. ¿Cuál es la utilidad de esta herramienta? Fundamentalmente buscar la optimización de las soluciones a cierto tipo de problemas. Pero exigen una gran uniformidad en la estructura de los datos, porque cada atributo debe codificarse en vectores con igual número de dimensiones. Se usan generalmente para buscar cómo maximizar una rentabilidad o una combinación de características.
3.6. Algunos ejemplos de Data Mining Las herramientas de Data Mining nacieron fundamentalmente de la ineficiencia de herramientas anteriores (como sistemas de gestión de bases de datos y hojas de cálculo) para solucionar dos tipos de problemas: el análisis conducente a proyecciones útiles para la toma de decisión en materia financiera y el requerido para extraer datos significativos para descubrir conductas ilícitas y proyectar acciones policiales para desbaratar el crimen organizado. También han sido muy importantes en el campo de las telecomunicaciones, como lo explicaremos a continuación. No nos extenderemos aquí citando los numerosos ejemplos de aplicaciones que ya existen en la literatura especializada. Sólo nos referiremos brevemente a algunos casos que pueden inspirar a quienes nos interesamos por las comunicaciones y más particularmente la información periodística. 3.6.1. Las telecomunicaciones La telefonía es en sí misma una enorme y compleja red. Y las empresas telefónicas se han destacado por su interés por las aplicaciones de minería de datos. Así es como la compañía británica de teléfonos (BT) pudo descubrir una gran concentración de fraudes en una limitada región geográfica de la isla. Y compañías telefónicas americanas, en conjunto con el FBI, han podido detectar redes de apuestas ilegales viendo cómo, en determinadas fechas (coincidentes con ciertos campeonatos) un número inusual de llamados se dirigían hacia un mismo punto, donde fue descubierto el ilegal corredor de apuestas. Pero recordemos que Internet también es una red de telecomunicaciones. El situar los servidores con más tráfico y la densidad de las "subidas" y "bajadas" de consultas es hoy un ejercicio que produce mapas sin gran necesidad de DM (mapas consultables en la misma World Wide Web13 ). Pero esta herramienta podría ser de mucha utilidad para analizar el contenido de las consultas a los 81
motores de búsqueda, especialmente si se cruzan con la localización de los clientes. Por otra parte, sabiendo que las páginas pornográficas se encuentran entre las de mayor consulta, se podría determinar si existen zonas geográficas en que son más frecuentes que otras (y ponderar en función de la concentración local de ordenadores por habitantes). Con cierto tipo de acceso a este flujo, se podría incluso obtener más información acerca de quienes hacen las consultas, por ejemplo si lo hacen desde su hogar, desde un "ciber-café" o desde la empresa donde trabajan. Las grandes empresas pueden fácilmente filtrar las consultas web que salen y determinar si corresponden efectivamente al trabajo o si tal o cual empleado se está aprovechando de la conexión para su entretención. Hemos conocido directamente el caso de un funcionario de una universidad que pretendió enviar a algunos de sus colegas y a autoridades superiores un correo electrónico anónimo denunciando supuestas irregularidades cometidas por sus jefes. Para ocultarse, lo hizo desde una sala de computadores. Pero no contaba con que el número de la máquina y la hora de envío quedaban registrados junto a su mensaje en el servidor de correo, datos que - analizando la base de datos del servidor - podían indicar exactamente desde qué terminal de qué sala se había enviado. Y, dado que el supervisor de la sala conocía a todos los que habían ingresado en ese horario, era muy fácil descubrir el autor del anónimo que, por cierto, ya no pertenece a la institución. 3.6.2. El mundo de las nuevas tecnologías La mera lectura regular de las noticias relacionadas con el desarrollo de las nuevas tecnologías de información nos permite saber que los países que dominan este sector son Estados Unidos, seguidos por Japón, Taiwán y Corea, así como algunos otros países asiáticos que fabrican componentes para empresas de países desarrollados del hemisferio norte. Un trabajo de DM podría eventualmente mostrar la red de relaciones entre estos países y mostrar cuales tienen mayores relaciones entre sí. Y también pondría en evidencia que existe un sector en que Europa se destaca muy claramente: el de las nuevas tecnologías de telefonía móvil. 3.6.3. Las relaciones interpersonales Existen múltiples casos en que pueden ser analizadas redes de relaciones interpersonales. Westphal y Blaxton (pp.148-149) dan el ejemplo de los repartos en el cine: se puede ver cómo se forma una red de relaciones entre los actores que actuaron juntos, descubrir quiénes están más distantes y quiénes se juntan más frecuentemente. También se hace frecuentemente este tipo de análisis para analizar lazos en la comunidad científica, verificando quienes aparecen como coautores de publicaciones y quién cita a quién, especialmente en artículos de
82
revistas especializadas. Las aplicaciones de DM incluyen generalmente una herramienta especial para detectar la existencia de estos sub-grupos. Obviamente se puede hacer lo mismo estudiando el envío y recepción de e-mails, las relaciones mantenidas a través del teléfono, etc. además de las conocidas técnicas de análisis sociométrico en las empresas. Un caso que nos toca de más cerca es el de las personas o instituciones que aparecen involucradas en las noticias. Aunque existen, en este caso - como lo veremos más adelante - una gran dispersión, también es posible formular e investigar la posible existencia de algunas redes muy específicas.
Conclusión Hemos explicado, en grandes líneas, qué es la minería de datos o DataMining y cómo las técnicas de visualización de datos juegan en ella un papel especialmente importante, tanto para la exploración de los datos como para la producción de presentaciones de resultados. Aún en el caso de herramientas que no parten de la visualización debemos subrayar la importancia de modalidades que terminan en una representación en forma de red, como ocurre con los árboles de decisión, el análisis de asociaciones o coocurrencias y las redes neuronales. Los pocos ejemplos citados han de hacernos sospechar la multiplicidad de los casos en que es posible recurrir a estas técnicas para extraer, de un conjunto enorme de datos, conocimientos que de otro modo permanecerían indefinidamente escondidos e inalcanzables. Ésto habría de llamar particularmente la atención de quiénes trabajan constantemente con grandes cantidades de información, como son los periodistas y documentalistas. En los siguientes capítulos abordaremos más directamente la forma en que ellos pueden sacar provecho de esta metodología para enriquecer su labor.
NOTAS DEL CAPITULO
1 ¡Lo hemos sufrido en carne en propia, nada menos que en el seno de una escuela universitaria,
donde se supone que la exploración de nuevas metodologías forma parte de la labor académica! 2 Los sistemas decimales son adecuados para representar jerarquías. Pero una numeración
aleatoria o que sigue un orden de llegadoa es igualmente válida, aunque no está cargada de una "segunda significación" como en el caso de un sistema decimal-jerárquico. 3 Podemos recomendar aquí en especial el libro de Robert Horn titulado Visual Language Global Communication for the 21st Century", Brainbridge Island (Wa), Macro VU, 1998.
83
4 Publicada originalmente en la Psychological Review, vol.63, nº2, 1956, pp.81-96. Se
encuentra en español en el Capìtulo 2 de G.Miller: "Psicología de la Comunicación", Buenos Aires, Paidos, 1973. 5 De la documentación personal del autor. Colle, R.: "Conceptos Básicos de Computación", Curso por WWW, Santiago, Pontificia Universidad Católica de Chile, 1996. (No es un mapa completo del sitio ni de todo su componente lúdico sino, como indicado, de la mera secuencia de ingreso a los diversos capítulos). Se puede observar claramente que, en la aproximación lúdica, el capítulo de "Historia" es clave para poder pasar a los otros capítulos. 6 El autor dicta por Internet un curso sobre "La Imagen: Ventana al Conocimiento", donde aborda múltiples formas - actuales y pasadas - de información científica visual. Más información en http://facom.udp.cl/CEM/procursos/ 7 Existe sin embargo una técnica de VDA que permite representar un mayor número de dimensiones, basándose en un tipo particular de gráfico circular. Se incluye un ejemplo de dicha técnica en el Capítulo 6 (nº 6.4.3.). 8 COLLE, R., MUÑOZ, L. Y ROJAS, H.:"ANATEX", Software de Análisis de Textos para Mac OS, Santiago de Chile, Pontificia Universidad Católica, 1987-88. 9 ACOCK, A.: "Computer-aided content analysis in family research", Paper, Louisiana State University, 1985. BENZECRI, J.P. & alt.: "L'analyse des données", Dunod, Paris, 1976. DANOWSKI, J.: "A network-based content analysis methodology for computed-mediated communication", art. en Communication Yearbook VI, SAGE, 1982. HUDRISIER, H.: "L'iconothèque", La Documentation Française, Paris, 1983. MOLES, A.: "Teoría de los objetos", G.Gili, Barcelona, 1974. 10 Cfr. Colle, R.: "Análisis de contenido, mapas semánticos y Teoría del Caos", Ponencia presentada en el II Encuentro Internacional de Comunicación y Cultura, Holguín (Cuba), 1997. Véase también Colle, R.: "Teoría del Caos, cognitivismo y semántica", Revista Latina de Comunicación Social, nº3, Marzo 1998. (www.ull.es/publicaciones/latina/). Otros ejemplos en Colle, R., Rozas, E. y Romo, W.: "Presnsa y moral familiar", Santiago de Chile, Ed.Pontificia Universidad Católica, 1993. 11 Cfr. Dursteler, J.C.: "Mapas de Kohonen", en "InfoVis", Las Revistas de Infonomía.com, 25-2001, y el libro del propio Kohonen citado en nuestra Bibliografía. 12 http://www.cis.hut.fi/picsom 13 Véase "An Atlas of Cyberspace", http://www.cybergeography.org/atlas/
84
Segunda Parte
Bases de datos, Metainformaci贸n y "Miner铆a de Datos" en el Periodismo
86
4 LA INFORMATIZACION DE LA DOCUMENTACION DE PRENSA
Como lo hemos señalado en el capítulo anterior, no es posible realizar un trabajo de minería de datos sin contar con un buen modelo conceptual de los mismos, cosa que, en realidad, debería hacerse antes de diseñar cualquier sistema documental. Partiremos aquí de algunas consideraciones generales acerca del diseño de sistemas documentales -especialmente periodísticos-, para luego especificar mejor el "modelo de datos" que corresponde al caso de las noticias.
4.1. Sistema documental periodístico Obviamente el manejo de la documentación periodística al modo de un "Almacén de Datos" no estará directa o principalmente orientado a influir en decisiones gerenciales concernientes a la empresa periodística, aunque ello no queda descartado y sí puede influir en decisiones editoriales y en las relativas a la propia gestión de los servicios del Centro de Documentación. Al desarrollar un banco de datos con fines periodísticos, se ha de tomar en cuenta una multiplicidad de factores y, en particular, la necesidad de desagregar información para poder recomponer información. ¿Qué entendemos por esto? La médula de la información periodística es la actualidad. Pero la actualidad está compuesta de hechos - principalmente acciones humanas - que se suceden unos a otros. Los acontecimientos son tan efímeros como los días y las horas, mientras las personas involucradas y –más aún– los escenarios en que ocurren pertenecen a un orden de permanencia muy superior. Por otra parte, en los medios de prensa que conocemos, existe habitualmente un vacío entre la biblioteca (atlas, libros de historia, "quién es quién", enciclopedia, etc.) y el Archivo de Crónica: vacío de información y ausencia de 87
nexos que conduzcan de un tipo de registro a otro. Para conocer los antecedentes de un personaje público, se requiere a veces revisar gran cantidad de noticias (banco de datos noticioso o carpetas de recortes); para conocer la historia reciente de un país debe hacerse lo mismo pero con una cantidad aún mayor de noticias de diversos ámbitos, lo cual puede resultar engorroso e ineficiente. Consecuentemente una adecuada economía (de espacio y de tiempo de búsqueda) en un sistema de archivos implica separar las informaciones más permanentes de las más efímeras. Así, datos relativos a personas, instituciones, lugares, instrumentos técnicos o conceptos científicos deberán ser separados de los registros de acontecimientos (o "Archivo de Crónica", como lo llamamos), reduciendo de este modo la longitud de éstos y facilitando las consultas necesarias para trabajos posteriores de redacción. Los archivos que componen un Sistema Documental Periodístico son típicamente los siguientes (ver Gráfico 4.1): • Crónica • Biografías • Instituciones • Geopolítico (Sistema político, estructuras ejecutiva y legislativa, etc.) • Soportes audio-visuales: audio, vídeos, fotografías • Enciclopedia (Definiciones, explicaciones de objetos, técnicas, etc. que no estén en enciclopedias publicadas) • Estadísticas • Diseminación (Datos acerca de los lectores suscritos) Gráfico 4.1: Sistema documental periodístico Archivo de audio
Archivo fotográfico
Archivo de vídeos
Archivo institucional
Archivo de crónica
Archivo topológico
Archivo biográfico
Archivo de descriptores
Archivo geopolítico
Archivo enciclopédico
Archivo de diseminación
Archivo estadístico
Se observa claramente el rol central del Archivo de Crónica, donde se encuentra el texto de todas las notas publicadas. Los componentes no-verbales (no escritos) 88
se encuentran en los archivos de componentes de la primera fila: Archivos de audio, de fotos y de vídeos. Otros cuatro archivos complementan el de Crónica y están destinados a la navegación para reconstruir el contexto de la información: los archivos de biografías, de antecedentes geopolíticos, de estadísticas, y la enciclopedia (especialmente orientada a explicaciones de descubrimientos científicos, maquinarias, etc.). Se destaca también el Archivo de Diseminación, que contiene la información acerca de los perfiles de requerimientos de los suscriptores. Gracias a su enlace con el Archivo de Descriptores y de éste con el Archivo de Crónica es posible seleccionar las noticias para cada cliente, conforme a sus intereses declarados, en un formato compatible con el Tesauro de descriptores de la empresa. Algo aparte y de uso estrictamente interno es el "Archivo topológico" que contiene las referencias de los artículos publicados en papel (hemeroteca)1 . Hoy todas estas informaciones pueden conservarse en bases de datos relacionales u orientadas a objetos y estos archivos podrían ser integrados gracias a los sistemas de HIPERTEXTO e HIPERARCHIVOS, de modo que se pueda "navegar" de un archivo a otro sin siquiera tener a la vista las separaciones entre uno y otro, tal como lo hemos demostrado hace tiempo en un sistema experimental creado a mediado de los años ochenta con el HyperCard de Macintosh y como lo tenemos hoy en la hiperrevista "Temas de Tecnologías Digitales de Comunicación" accesible en la World Wide Web2 y que nos sirvió para el experimento que comentamos en la Capítulo 6.
4.2. Bases para el modelamiento de datos 3 4.2.1. El registro documental como conversación En el enfoque de la "Teoría de los actos del habla" (cfr.J.Searle), el registro documental ha de ser entendido como la médula de una conversación acerca del referente. En efecto, está claro que ha de contener lo que el documentalista pueda decir del mismo y las respuestas a lo que el consultante podrá preguntar. En algunos casos se exigirá tal exhaustividad (especialmente en el caso de textos) que el referente estará comprendido en el registro documental (Bases de datos de "texto completo"). Pero debería parecer obvio que la mera transcripción - factible en el caso de textos - no asegura, generalmente, una adecuada respuesta. Así, por ejemplo, si se transcriben reseñas periodísticas de hechos noticiosos como "textos completos" sin agregar ninguna información extraída analíticamente, será muy difícil encontrar respuestas a preguntas como "¿Qué hizo el Presidente de Chile?", "¿Quiénes resultaron heridos en tales tipos de atentados?", etc. Los sistemas actuales no permiten aún un análisis automático adecuado. Se requeriría un "sistema experto" de análisis de texto para ello. 89
El análisis de los referentes requiere por lo tanto considerar la significación de éstos para las personas que se interesen por ellos. En otras palabras, todo referente queda "definido" a partir de las conductas semánticas en que está implicado. Y una de estas conductas, la lingüística, constituye un modo particular de implicar al referente "en ausencia". En el caso en que esta implicación queda mediatizada por un registro documental, se crea un compromiso entre el documentalista y el consultante, acerca de la adecuación de la semiosis (proceso de evocación y "reconocimiento" del significado). El problema central corresponde por lo tanto en asegurar ésta para evitar incomprensiones, es decir para evitar "rompimientos" en la comunicación, que impidan a los usuarios de la información realizar las acciones posteriores que habían planeado. 4.2.2. Análisis genérico de referentes Para resolver este problema es posible seguir dos caminos: considerar características genéricas de los referentes (tan generales que no dependen de un uso particular y se reflejan en el lenguaje ordinariamente ligado a ellos) y considerar las situaciones particulares que implican descripciones más específicas, para contestar preguntas más específicas. Para describir tanto hechos noticiosos como otros referentes a los cuales pueden remitir archivos documentales, es necesario contar con un sistema constante de variables en función de las cuales se describen estos referentes (son los "atributos"). Pero es también necesario establecer distinciones entre los objetos que deben ser documentados, ya que los atributos variarán de acuerdo a las categorías genéricas a las cuales pertenezcan éstos. Consecuentemente, distinguir el tipo de referente observado para luego elegir los atributos adecuados para describirlo son los primeros pasos en el sentido de registrar la información significativa. Luego deben definirse los valores que pueden tomar los atributos. En algunos casos, estos valores se obtienen transcribiendo datos que aparecen en el referente (por ejemplo el nombre del autor y el título de un libro). Estos son datos "intrínsecos". Pero la mayoría de las veces los datos intrínsecos no son los adecuados. Así, para representar el contenido de un libro o artículo, es pocas veces posible transcribir los datos intrínsecos, que son el texto completo. Éste no sólo ocuparía generalmente demasiado espacio en un archivo documental: también se presta poco para las operaciones de búsqueda de información. Necesitamos habitualmente saber si se trata cierto tema en un texto o si un objeto tiene determinada característica, y -generalmente- falta tiempo para leer una transcripción o una descripción pormenorizada. Cómo o qué atributos deben ser seleccionados para describir adecuadamente los referentes es lo que consideraremos ahora.
90
• Identificación nominal ¿Cuáles son los atributos genéricos que pueden ser utilizados para "documentar" - es decir "representar" en un sistema documental - tanto entidades como acontecimientos? Ambos tienen al menos un atributo común: la identificación nominal o "nombre común" que corresponde a una "clase" de objeto. Su valor será el término con el cual todo observador se referirá al conjunto de ellos. Así, se describen entidades como "libros", "artículos de revistas", "personas", etc., y acontecimientos como "viajes", "declaraciones", "incendios", "accidentes", etc. Al respecto deben hacerse dos observaciones. Primero, es posible que el identificador nominal no permanezca en la lista de atributos considerados para el registro que documentará cada objeto. Pero en este caso, lo normal es que pase a formar parte de la definición del archivo, como ocurre habitualmente en una biblioteca (donde habrá archivos constituídos exclusivamente por registros de libros, por lo cual no se registra este atributo). Este atributo se transforma en identificador de una clase de entidad. La segunda observación dice relación con el grado de especificidad del identificador, el cual depende obviamente de la profundidad del conocimiento (especialización) de los usuarios. Así, mientras para algunos usuarios será suficiente identificar un objeto como "animal", para otros podría ser indispensable anotar "ave", "insecto", "mamífero", etc. o usar términos aún más específicos. Así, el diseñador debe tener absoluta claridad en relación a los niveles de generalidad y especificidad útiles para los usuarios, lo cual se relaciona con la elección o construcción de un lenguaje documental apropiado (tesauro, lista de autoridades, taxonomía, u otro). Si bien los acontecimientos se identifican mediante un término que designa la acción ("atentato", "conferencia de prensa", "visita", "emigración", "compraventa", etc.), es paradojalmente poco común que se usen tales identificadores como atributo en un sistema documental periodístico. Sin embargo, esta identificación ha de estar presente en algún otro campo, como el resumen o la transcripción del lead de la noticia. En consecuencia, el tratamiento dado a la identificación nominal tiende a reflejar ya la diferencia que existe entre entidades y acontecimientos, diferencia que lleva a modelos diferentes de análisis y estructuración de los registros, como lo veremos a continuación. Siendo la identificación nominal el primero de los atributos requeridos para documentar una entidad, deben agregarse otros que también podemos considerar como genéricamente determinados por la naturaleza de los objetos considerados. Para ello, podemos distinguir, inspirándonos en las facetas propuestas por el "Classification Group" de Londres: - objetos materiales (entidades físicas): entes naturales y artefactos, - objetos no-materiales: "mentefactos" y organizaciones.
91
• Entidades físicas • Identificador propio En el caso de los entes naturales, a los atributos ya definidos se agregará en los casos que corresponda el identificadorpropio, equivalente al "nombre propio". El caso normal aquí será el de la identificación de seres humanos, en cuyo caso el nombre propio se descompone en nombres de pila y apellidos. Adicionalmente puede ocurrir que el mismo principio se aplique a otras entidades,especialmente los animales (p.ej. en un archivo relativo a caballos de carrera o perros de raza). El identificador propio también es aplicable -en numerosos casos- a los artefactos: corresponde por ejemplo al número de serie de algun producto, al número ISBN de un libro (considerado como entidad física), etc. • Autoría Pero los artefactos, siendo definidos como entidades materiales creadas por el hombre, se caracterizan necesariamente -además- por el hecho de tener un creador o diseñador, la "AUTORÍA" siendo por lo tanto un atributo intrínseco, aunque no siempre identificable ya que existen creaciones colectivas, objetos de existencia inmemorial, etc., y muchos objetos son de difusión tan común que ya no se acostumbra señalar su autor, por lo cual tampoco constituye un atributo imprescindible. El objetivo del sistema documental, nuevamente, determinará si debe incluirse o no. • Función El artefacto, por otra parte, tiene una razón de ser que corresponde a su destino, a la función que ha de cumplir. He aquí un nuevo atributo intrínseco que será mucho más frecuente registrar. • Fundamentación Finalmente, la razón de ser o el funcionamiento de los artefactos sólo puede comprenderse adecuadamente recurriendo a cierto cuerpo de conocimientos que justifica su uso y - si es el caso - explica su funcionamiento, por lo cual también se desprende la existencia de un atributo que ha de permitir registrar la disciplina que ofrece tal explicación. Proponemos llamarlo fundamentación. Sólo se incluirá ocasionalmente, cuando el objetivo del sistema documental lo requiera. • Características físicas Todos los objetos materiales o artefactos tienen características físicas, algunas de las cuales pueden ser relevantes para describirlos y compararlos: dimensiones, forma, peso, color, etc. Se deberá registrar todo lo que pudiera ser significativo a la hora de analizar el conjunto de la información. (El color de los objetos es, por ejemplo, de suma importancia en el mercadeo de muchísimos productos.) 92
• Representaciones audio-visuales Todos los objetos materiales tienen una forma física, por lo cual pueden ser representados icónicamente. Así, podemos considerar un atributo de representaciónicónica que, si bien no se utiliza aún en forma generalizada, tomará cada vez mayor importancia a medida que se difundan los medios digitales de conservación masiva de datos como los discos ópticos. (Esto no implica necesariamente una graficación realista: hay muchas modalidades posibles). También existen acontecimientos de los cuales podemos conservar un registro sonoro o audio-visual. Todos estos registros pueden formar parte de una base de datos orientada a objetos o bien ser archivados en directorios especiales y su referencia ingresada a una base de datos relacional que forme parte del sistema documental. • "Mentefactos" Los productos de la mente, accesibles a terceros, son discursos verbales, icónicos o verbo-icónicos. Del mismo modo que los artefactos, todos tienen autoría. Y, por cierto, lo más importante es su significado o contenido, nuevo atributo propio que hemos de introducir aquí. Los mentefactos no tienen una "identificación propia" comparable con las entidades materiales, por cuanto solo la totalidad de su contenido significativo los identifica plenamente. En este caso, el contenido se registraría mediante copia (atributo de transcripción) o su condensación mediante "abstract", resumen o conjunto de descriptores temáticos. Hay que tomar en cuenta, además, que el acto de enunciación es un acontecimiento y que, una vez registrado y conservado (mediante impresión o grabación), queda indisolublemente ligado a un soporte físico que se constituye en artefacto. La descripción completa de una obra de la mente registrada en un soporte implica por lo tanto tomar en cuenta los dos aspectos y sumar los atributos relevantes aplicables a artefactos y a mentefactos. • Organizaciones Entendemos aquí por organizaciones agrupaciones de individuos (principalmente seres humanos) que son el producto de una especialización y de un reparto ordenado de las funciones que cada individuo cumple en la agrupación. Tales organizaciones se identifican - igual que los seres que las componen - mediante un identificador propio (nombre propio). Pero, para identificarlas más detalladamente, resulta necesario indicar quienes son sus miembros (generalmente utilizando identificadores nominales de los mismos), cuál es la actividad que desarrolla o sea la función que cumple en la sociedad (semejante al caso de los artefactos) y cuál es su estructura organizativa u organigrama.
93
• Acontecimientos Como ya lo señaláramos, todo acontecimiento tiene un identificador nominal, que corresponde al tipo de acción que tuvo lugar. Pero, además, todo acontecimiento ocurre en cierto lugar del espacio y momento del tiempo: estos dos atributos constituyen "situadores" que pertenecen a la esencia del hecho. Además, dado que es observable, el hecho tendrá algún efecto sobre algún objeto material o alguna persona, que llamaremos afectado. La ausencia de los atributos de lugar y momento en un archivo de acontecimientos (por ejemplo "operaciones" o "procesos" en una industria), pondrá de inmediato en evidencia que se está describiendo un "modelo" - es decir un mentefacto - y no un acontecimiento efectivo. En este caso, varios atributos típicos de los objetos que llamamos "acontecimientos" podrán estar presentes en archivos relativos a mentefactos. Mientras para los hechos naturales son habitualemente suficientes los atributos ya mencionados como válidos para todo tipo de acontecimiento, para el caso de hechos artificiales deben agregarse otros atributos. En efecto, son hechos artificiales los que ocurren como producto de la acción humana. Por esta razón, todo hecho artificial tiene su autor - aunque pueda ser desconocido -, por lo cual vuelve a aplicarse aquí el atributo de autoría, que corresponde a quién realiza la acción, o sea al actor. Para lograr producir algún cambio observable, éste debe utilizar algún recurso físico capaz de afectar su entorno: el hecho podrá por lo tanto ser descrito haciendo referencia al instrumento utilizado. Conforme al carácter histórico de todo acontecimiento y teniendo por marco de referencia la biología del conocimiento, tenemos que agregar que todo hecho tendrá necesariamente alguna razón de ser (antecedente) y alguna consecuencia, aunque ésta puede ser trivial. Estos son dos nuevos posibles atributos para describir acontecimientos. Pero tienen una característica muy particular: ellos mismos son, en numerosos casos, también acontecimientos, por lo cual se hace patente el vínculo secuencial que conforma la trama de la historicidad tanto de las personas como de los grupos sociales. El tratamiento más lógico de estos atributos consiste en reemplazar el valor real (descripción de los acontecimientos antecedentes y consecuentes) por "direcciones" (o punteros, en el sentido informático) que remitan a los correspondientes registros en el sistema documental.
4.3. Modelamiento conceptual de los hechos noticiosos Definidos estos atributos, podemos preguntarnos ahora acerca de la mejor manera de representar hechos noticiosos. Esto implica un análisis de carácter lógico-semántico que es vital para el correcto diseño de un sistema documental y de registros que sean después manipulables en forma eficiente. 94
Los "centros de documentación" periodísticos comunes de hoy siguen aún, muchas veces, un modelo heredado de la hemeroteca, es decir construidos sobre la base del objeto físico (el "artículo" o recorte de prensa) - es decir un modelo descriptivo (ver apartado 2.1.1) - y no sobre la naturaleza real del referente que es en la mayoría de los casos un acontecimiento y requiere por lo tanto el uso de un modelo transaccional. Sólo una parte de la documentación periodística - y más bien anexa que central - es realmente de tipo descriptivo o sea relativo a un "sujeto" como una persona - cuya biografía se publica - o un objeto técnico como cuando se describe algún nuevo artefacto -. La consecuencia de ello es la alta ineficiencia de los sistemas de búsqueda y recuperación de información. ¡Es imposible realizar un trabajo de data mining con datos exclusivamente descriptivos si el referente real es de tipo transaccional! (Westphal y Blaxton, p.46). Las exigencias de mejoramiento en este campo, especialmente para facilitar la creación de efectivos "hipermedios informativos" obliga al análisis basado en la naturaleza del referente - que preconizamos aquí - y, obviamente, ante todo a una correcta identificación de la naturaleza de dicho referente. En el caso que nos interesa se trata de la "noticia" que es - en sí - el acontecimiento mismo y no el discurso acerca del mismo, el cual es sólo una forma de registrar o representar el hecho. 4.3.1. Actor El núcleo de todo acontecimiento es la existencia de alguna acción que provoca el cambio observado. En el caso de acciones humanas, interviene alguna persona que hace que lo ocurrido sea observado (directamente) o conocido (indirectamente) por los observadores calificados que son los periodistas. A esta persona, la llamaremos el actor. El actor humano es siempre definido, aunque pueda ser momentáneamente desconocido. En otros casos - como en los fenómenos naturales -, no habrá un actor definido. El que el actor sea definido no significa necesariamente que sea una sola persona individualizable, aunque el observador-retransmisor (periodista) ha de tratar siempre de identificar e individualizar lo mejor posible los actores. Podrá ocurrir que tal individualización personal no sea factible, en cuyo caso se considerará un actor colectivo, es decir un organismo, institución, o grupo social. Ejemplo: "El Ministerio de la Vivienda financió la edificación de 37.000 viviendas sociales", donde sería imposible precisar alguna persona en particular. Se ha de considerar incompleto o "mal documentado" un relato noticioso que mencione un actor colectivo cuando la acción corresponde obviamente a una persona individualizable. 4.3.2. Relator y "Vector" Puede surgir un problema de análisis cuando lo que el periodista observa es una acción secundaria referida a otra acción -principal-, como una persona que relata un acontecimiento que él ha observado o en el cual participó. En este caso hemos 95
de considerar que el núcleo informativo (lo importante, el contenido medular) es el acontecimiento relatado por este intermediario ("fuente"). Pero la acción directamente observada aquí NO forma parte de este núcleo. Sólo es una suerte de "soporte" que da acceso al hecho importante. Diremos que nos encontramos con un vector de información. Este vector será primario si quién relata es a la vez un participante en el hecho principal, mientras será secundario si esta persona es sólo un observador. En ambos casos se distinguirá este rol particular con el nombre de relator. En los casos en que hay un vector, mientras el relator es quién da cuenta del hecho, el actor será quién o quiénes producen la acción constitutiva del hecho noticioso (acontecimiento relatado). En algunos casos, por lo tanto, una misma persona podrá ser a la vez Relator y Actor (Ej.: "El dueño de la panadería relató cómo logró reducir al maleante que intentó asaltarle."). Sin embargo, cuando el sujeto del hecho es una colectividad a la cual pertenece el relator, se mantendrá la distinción. (Ej.: "El presidente de RN, S.O.Jarpa, dijó que esa colectividad...": relator = Jarpa; actor = RN). Será conveniente tener en cuenta estas diferencias para una más clara redacción noticiosa. Al revisar documentos noticiosos, habrá casos en que podrán surgir dificultades para distinguir entre relator y actor. Debe analizarse la noticia con suma prudencia cuando el texto favorece la duda. 4.3.3. Reseña La reseña es el relato del hecho que aparece en el documento. consecuencia, ser:
Podrá, en
• directa: relato del acontecimiento por un periodista-observador (que ha sido testigo presencial); • indirecta: relato en que el periodista recoge las expresiones de actores, testigos o relatores que describen acciones propias, o las de una colectividad a la cual pertenecen, o las de terceros (Ej.: relatos de accidentes o delitos). Se ha de considerar mal documentada una reseña que tiene forma directa cuando -en realidad- su origen es indirecto (e.d. si el periodista no indica que recurrió a testigos). Esto no significa que los testigos o fuentes deban ser identificados en la reseña. Si aparecen versiones de varios testigos, habrá eventualmente multiplicidad de relatores, pero no de acontecimiento, por lo cual el núcleo informativo ha de permanecer unitario. 4.3.4. Núcleo de la reseña En el núcleo informativo, encontraremos habitualmente los siguientes componentes, que pueden organizarse de diferentes maneras:
96
• el actor o sujeto que realiza la acción correspondiente al acontecimiento, y que puede aparecer citado con nombre y apellido(s) así como con su cargo o función. • la acción: es lo que realiza el actor (corresponde al verbo principal del núcleo noticioso), • el paciente o afectado : es quién sufre las consecuencias de la acción tangible o es el destinatario directo de la acción intangible; puede aparecer citado con nombre y apellido(s) así como con su cargo o función. • el objeto de la acción : es la realidad tangible (material) o intangible que da sentido a la acción: "contenido" de una acción intangible o materialidad del acto si es una acción tangible. (¡A no debe confundir con el "instrumento"!). El "objeto" podrá estar compuesto de dos partes: • 1. el referente que corresponde a la entidad implicada (un objeto material, otro acontecimiento o un concepto, como el "tema" de una declaración). • 2. la calificación, que corresponde al juicio que formula eventualmente el actor acerca del referente (o de la acción, si no hay referente). Gráficamente, la estructura informativa aludida puede representarse como en el gráfico 4.3, agregando algunos otros elementos que pueden aparecer en la reseña: Gráfico 4.3: Estructura de la información periodística Lugar
Fecha
Objeto
Afectado
Conceptual Actor
Acción
Material Instrumento
Destinatario
Referente Calificación
Paciente Efecto
Relator (+ acción de relatar)
Periodista (Fuente del conocimiento público)
4 . 3 . 5 . Periféricos de la reseña Aparte del núcleo antes mencionado - el cual es suficiente, si está bien redactado, para entender al menos el acontecimiento, sino para apreciar su importancia -,
97
pueden aparecer otros elementos periféricos que podemos clasificar en dos grupos: • los datos complementarios: explicitan brevemente el instrumento eventual, el efecto o consecuencia inmediata y el contexto del hecho. (Hasta aquí puede llegar eventualmente el llamado "lead" de la noticia). • el desarrollo: que explica más detalladamente los datos ya mencionados. No consideraremos este en el procesamiento documental. La consideración de causas y consecuencias a futuro no pertenece como tal a la descripción del hecho mismo sino de una secuencia histórica de varios hechos concatenados. En nuestro libro sobre "Documentación Periodística"4 , hemos incluído un exhaustivo análisis y desarrollo formal de la estructura de las reseñas periodísticas. No es del caso reproducirlo aquí, por cuanto sólo nos interesa la estructura básica requerida para documentar el referente, la cual es idéntica a la que ha de componer la reseña. 4.3.6. Atributos seleccionados El análisis lógico-semántico de los componentes de la información destinada a ser registrada ha de complementarse con el análisis lógico de la "conversación-tipo" que un usuario tendría con un documentalista con el fín de encontrar lo que busca. En el caso de hechos noticiosos, hemos de preguntarnos, en consecuencia, cuáles serían las preguntas más comunes que harían los periodistas. Encontramos por ejemplo: - ¿Qué hizo tal persona, en tal momento o período de tiempo? - ¿Cuándo hizo tal cosa? - ¿Cuántos hechos de tal tipo ocurrieron en tal período? - ¿Qué pasó en tal país desde tal fecha? - ¿Quiénes fueron los más afectados por tal tipo de hecho? De estas preguntas y del modo de trabajar del analista de información noticiosa, deducimos una serie de puntos de acceso o "Entradas" necesarias en el banco de datos: 1. Fecha 2. Lugar (país,ciudad) 3. Actor (nombre propio) 4. Objeto (=tipo de hecho/referente; clasificado por descriptores) 5. Implicados (nombres propios de pacientes, destinatarios u otras personas citadas como cuando un político se refiere a las declaraciones de otro) 6. Resumen 7. Fuente (referencia) 98
Gráfico 4.4: Selección de atributos ATRIBUTOS Lugar Fecha Actor
Lugar
Fecha
Descriptores
Implicados Resumen Referencia
Objeto Conceptual
Actor
Acción
Destinatario
Referente Material
Instrumento
Afectados
Calificación
Paciente Efecto
Obtenemos así 5 atributos constitutivos, a los cuales se debe poder acceder con facilidad para encontrar respuesta a una pregunta típica. Pero el detalle de la información buscada, a su vez, no estará en el campo correspondiente a alguno de estos atributos - ya que cada uno registra sólo un componente informativo - y deberá aparecer en una reseña sintética, redactada en forma clara y precisa, de tal modo que el lector pueda entender exactamente qué ocurrió. Un sexto atributo será por lo tanto el del resumen o "representación simbólica, sintética y comprensiva del acontecimiento". Aunque éste es un modo de evitar que el usuario deba buscar la fuente o el documento original de dónde procede el resumen, conviene generalmente indicar cuál es esa fuente o documento primario, ya que el usuario puede desear saber más detalles o conocer los comentarios hechos por el relator o periodista. En consecuencia, se ha de registrar (7º atributo) la referencia al lugar donde aparece más detallada la información (p.ej. diario, fecha y página en qué el acontecimiento ha sido relatado). Un registro confeccionado de acuerdo a esta pauta podría tener la siguiente apariencia: Fecha: 2001-04-11 Lugar: Estados Unidos Actor: Yahoo! Descriptores: Economía, Portal, Trabajo, Ética, Valores morales Resumen: Yahoo! Inc. anunció hoy que en el primer trimestre de 2001 registró una pérdida neta de 11.49 millones de dólares, ó 2 centavos por acción. Despedirá 400 empleados para sanear su situación. Con el mismo fin, la puntocom estadounidense ha lanzado una tienda electrónica de pornografía con miles de películas en formato vídeo y DVD, informó hoy el diario "Los Angeles Times". Fuente: Mouse (La Tercera), 2001-04-11
Pero si nuestra descripción es muy detallada y precisa o nuestros datos son de "primera mano" es posible que no presente ningún interés remitir a otro 99
documento (que podría ser un borrador que destruiremos). De ello deducimos que este tipo de archivo, bien hecho, también puede ser autosuficiente y no requerir "referencia". Incluso podría constituir la fuente de la "nota" publicada, ya que es posible recurrir a procedimientos de publicación automática en páginas web de los contenidos de la base de datos. Se puede invertir de este modo el modo tradicional de operar, que situaba el proceso documental después de la producción de la publicación. 4.3.7. Producto Con los antecedentes acumulados en la forma señalada podemos - a posteriori realizar consultas, como buscar todas la noticias relativas a un determinado tema (p.ej.: el plebiscito chileno de 1988) o las intervenciones de una determinada persona (p.ej.: "Ricardo Lagos"), o generar informes copiando la totalidad o parte de los registros que respondan a estos criterios de búsqueda, o produciendo tablas ordenadas con datos correspondientes a algunos de los atributos, como mostramos en los siguientes capítulos. El procesamiento en Tablas nos conduce a otra posibilidad: la confección de estadísticas (Vea los capítulos 5 y 6). Todo ello podrá ser de sumo interés para confeccionar artículos que sinteticen la actualidad durante cierto período, expliquen antecedentes o factores contextuales, demuestren el rol preponderante de ciertas personalidades, etc.
Conclusión Hemos recordado aquí algunos aspectos generales de la estructura de los sistemas documentales y nos hemos detenido en el análisis de la estructura lógico-semántica del hecho noticioso y de su representación, tarea esencial para el correcto diseño del "modelo de datos" de tipo conceptual que será la base para la explotación o "minería" de datos que nos proponemos abordar en adelante. Pero aún sin pretender llegar a utilizar tal metodología de investigación, debemos insistir en que toda empresa periodística debería contar con un archivo digital construído sobre la base de este modelo. Como lo hemos mostrado en algunos artículos publicados con anterioridad (ver Bibliografía), dicha estructura resulta extremadamente útil especialmente para los medios que se publican online, en la World Wide Web. 1 Hemos descrito y ejemplificado en la práctica un sistema de este tipo en el software
totalmente funcional titulado "El Periodista", realizado en HyperCard para computadores Macintosh (para el uso personal de los periodistas, no para uso masivo en un medio de comunicación). 2 http://facom.udp.cl/CEM/TDC/ 3 Alcances complementarios en R.Colle: "Documentación periodística". 4 Ver Capítulo 6 del libro señalado.
100
5 META-INFORMACION PERIODISTICA
Como lo hemos indicado en el Capítulo 2, existe meta-información "previa", la cual corresponde al modelo de datos y a la estructura de los sistemas documentales, y meta-información posterior o resultante de un proceso de añálisis o cálculo (lógico - mediante operaciones de álgebra de conjuntos - o estadístico). En el capítulo pasado hemos mostrado cómo llegar a un "modelo de datos" que permita seleccionar atributos importantes para registrar los hechos noticiosos en una BD relacional, que es la forma más adecuada para el procesamiento posterior. En el presente capítulo, daremos cuenta de un "procesamiento clásico" y de lo que es posible extraer ya de una base de datos de tabla única, no ajustada a la "tercera forma normal". Hemos trabajado con este tipo de base de datos desde la aparición de los primeros computadores personales en Chile, a mediados de los años ochenta. Sin embargo, en mayo del año 2000, desarrollamos e implantamos - en el Centro de Estudios Mediales (Facultad de Ciencias de la Información y Comunicación, Universidad Diego Portales, Santiago de Chile) - un proyecto de hiperinformativo titulado "Temas de Tecnologías Digitales de Comunicación TDC" (http://facom.udp.cl/CEM/TDC/). A partir de aquí daremos cuenta de esta experiencia, que ha tenido como fundamentos los estudios del autor sobre representación del conocimiento en hipermedios, que fueron el objeto de su tesis doctoral (cfr. Colle, R.: "La representación...", 1999).
101
5.1. Estado inicial de la base de datos Las noticias que publicamos no son informaciones recogidas de primera mano, sino una selección extraída de más de 60 medios de prensa, principalmente electrónicos (Véase la Tabla 5.2.5 y el Gráfico correspondiente, donde aparecen nuestras fuentes más frecuentes). 5.1.1. Ingreso y publicación de los datos La información recogida - y reproducida en nuestra hiperrevista para fines esencialmente académicos - es ingresada a la base de datos mediante una página web conteniendo un formulario, disponible solamente para el encargado de la publicación, cuya estructura en la primera etapa de implantación (año 2000) se muestra en el Gráfico 5.1.a. Activado el botón de envío que se encuentra al final de dicho formulario, la noticia es ingresada automáticamente en la tabla de noticias de nuestra BD, pasando a ser inmediatamente accesible para los lectores gracias a una combinación de lenguaje SQL y de un sistema de pre-procesamiento (PHP) que las extrae para su publicación en la página de "Noticias" de la revista (Ver Gráfico 5.1.1.b). Al margen de las Noticias se ofrece permanentemente el acceso a un diccionario y al motor de búsqueda (frame izquierdo). Se muestran siempre las últimas 20 noticias, y el lector puede regresar en el tiempo de 20 en 20 noticias o bien acceder a un motor de búsqueda y extraer las noticias de acuerdo a criterios que corresponden a los atributos representados en la base de datos1 o sea: - Fecha - Lugar (país) - Implicados (nombre de organismos o funciones de personas citadas) - Descriptores temáticos - Palabras en titulares - Palabras en el cuerpo de la noticia - Fuente periodística. La tabla de noticias también contiene otros campos que corresponden a los siguientes atributos: - Id (Número único, identificatorio, que el sistema otorga en forma automática) - Imagen: referencia a la imagen que debe ser exhibida junto al texto, cuando la hay (URL relativa) - Referencia a texto anexo: cuando existe un texto que complementa la noticia (URL relativa). 102
Gráfico 5.1.1.a: Formulario de ingreso de noticia ID: Fecha: Lugar: Implicados: Descriptores: Título: Texto:
Fuente: Imagen:
(Si la hay, contiene el nombre del archivo)
Texto relacionado:
(Si hay un texto más extenso anexo, contiene la URL relativa)
Gráfico 5.1.1.b: Pantalla de noticias de la revista "TDC"
103
5.1.2. El problema de los actores y afectados Como se puede observar, no existen los atributos de actores y afectados: han sido agrupados en un solo campo de datos, el de "Implicados" (que incluye también a los sujetos o instituciones meramente citadas). Ésto ha sido el resultado de las primeras semanas de experimentación, en que se descubrió que - para este campo peculiar de información - los límites categoriales entre actores y afectados eran extremadamente ambigüos. A continuación, un par de ejemplos de las dificultades de análisis que se presentan con alta frecuencia: • Ejemplo 1 "2000-11-27 - Bulgaria - Descubren brechas de seguridad en aplicaciones de Microsoft para Internet - Georgi Guninski, un investigador informático búlgaro, ha anunciado el descubrimiento de una brecha de seguridad en los Explorer 5.0 o superiores que permite controlar el ordenador desde Internet. El error consiste en que cualquier hacker puede ejecutar un programa a través de los archivos de ayuda comprimidos CHM o ver los archivos temporales guardados en el disco duro. (Noticias.com y CNN)."
A pesar de su aparente simplicidad, esta información es relativamente compleja. En efecto, sintetiza varios acontecimientos entrelazados, que no es posible registrar separadamente. Nótese que si bien Microsoft aparece como "afectado" por la revelación de errores, es - en realidad - el "actor remoto" que desencadenó el hecho noticioso de la fecha mencionada. El gráfico 5.1.2a. muestra nuestro análisis de esta noticia. Conforme a éste, no sería muy lógico - desde el punto de vista del significado - llamar a Microsoft "afectado", dado que es en realidad el que originó los problemas derivados de sus errores y que sólo han sido dados a conocer por el investigador (que, en este caso, tampoco es un simple "relator", en los términos definidos en el apartado 4.3.2). Gráfico 5.1.2a : Noticia acerca de errores de Microsoft Actor principal Investigador
estudió
descubrió
Objeto Explorer
Fallas Característica
Microsoft
programó
Actor remoto
104
publicó
• Ejemplo 2 "2000-09-14 - Estados Unidos - Muchas empresas punto-com desaparecerán - Un estudio de PriceWaterhouse-Coopers Consulting revela que los primeros ejecutivos de 65 empresas punto com, aquellas que operan exclusivamente en Internet, consideran que en el plazo de dos años sólo sobrevivirán un tercio de las que hoy mantienen actividad en el negocio de comercio electrónico destinado a consumidores (B2C). Estos mismos ejecutivos se muestran algo más optimistas al evaluar el futuro de las empresas que operan comercio electrónico entre empresas (B2B). Estiman que algo más de la mitad de estas compañías tendrán dificultades o fracasarán en los dos próximos años. En el horizonte temporal de los cinco años, las expectativas de éxito aumentan ligeramente. (Expansión)"
Aquí se puede observar nuevamente un caso de doble "actor", acompañado de un doble objeto, y este segundo objeto (las empresas del sector) sería a la vez, a nuestro entender, actor y afectado (ya que generan su actividad comercial pero el retorno negativo afecta su viabilidad). Nuevamente, clasificar separadamente actores y afectados sería una muy difícil labor. Gráfico 5.1.2b : Noticia acerca del futuro de las "punto-com" Actor inmediato PriceWaterh.
realizó
publicó
Objeto 1 estudio Contenido Ejecutivos Actores remotos
opinan
Pronóstico
Objeto 2 Empresas
• Solución adoptada La única forma que pareció resolver eficientemente las dificultades que surgían de este modo en el ingreso de datos pareció ser la utilización de un atributo único, que hemos llamado "implicado". Obviamente la búsqueda o el análisis posterior se vería afectado por esta decisión, que hemos tenido que tomar a nuestro pesar, ya que esperábamos inicialmente poder realizar un tratamiento "más fino", conforme al modelo lógico-semántico que hemos expuesto con anterioridad.
105
• Dispersión Por otra parte, al avanzar en el registro de noticias, hemos visto crecer con gran rapidez el número de Implicados que estabamos registrando, lo cual hizo prever como lo demostraron las primeras estadísticas extraídas - que la dispersión de los mismos haría impracticable cualquier intento de extraer conocimiento del conjunto acumulado (considerando que cada Implicado nuevo se codificaba en forma secuencial, sin pre-clasificación alguna). Así, al sobrepasar la cantidad de mil noticias en nuestra BD, hemos revisado las estadísticas obtenidas y hemos establecido las siguientes reglas, que nuestros lectores podrán ajustar a sus propios casos si pretenden efectuar un procesamiento estadístico o de Data Mining de sus datos noticiosos: 1. Eliminar todos los implicados que aparecen una sola vez (0,1%), reemplazando los identificadores propios (nombres) por identificadores nominales (términos que designan categorías de organizaciones o de personas). Dichas categorías se definieron teniendo en cuenta los datos presentes y experiencias realizadas durantes varios años con alumnos de un curso de análisis de contenido. 2. En los otros casos cuya frecuencia haya sido inferior al 1%, conservar exclusivamente los nombres propios de organismos de alta relevancia en la vida pública nacional o internacional si son al mismo tiempo del sector tecnológico, ya que existe una alta probabilidad de que vuelvan a aparecer en el futuro. Ejemplo: "Telefónica CTC Chile". 3. En los casos cuya frecuencia se sitúa entre el 1 y el 10%, conservar solamente los nombres propios de organismos de alta relevancia nacional o internacional aunque no sean del sector tecnológico, como por ejemplo: Corfo (Corporación de Fomento, de Chile), OEA (Organización de Estados Americanos), ONU, etc. 4. Todos los nombres que hayan obtenido un 10% o más se conservaron. 5. En el caso de que aparezcan nuevos nombres, se agregarán a la lista si cumplen con las reglas 2, 3 o 4. Si no es el caso, se ha propuesto tener en cuenta la factibilidad de que puedan ocupar un lugar significativo en el futuro y, si es así, efectuar un ingreso "condicional" sujeto a verificación de frecuencia después de un determinado lapso de tiempo (p.ej. 6 meses) o cantidad de noticias (p.ej. revisión cada 500 noticias). Paralelamente se ingresará el identificador nominal de la categoría a la cual pertenecen de tal modo que el sistema global de descripción no se vea afectado si se elimina el código del identificador propio.
106
5.1.3. Otras tablas A la tabla de noticias están anexadas (formando parte de la misma base de datos) otras tablas que contienen información también disponible en la revista: • una tabla de "Textos": artículos (de fuentes externas), estudios (propios del Centro de Estudios Mediales) y "fichas técnicas", que aclaran o complementan las Noticias (las cuales nunca se extienden más de unas diez líneas); estas tablas contienen los atributos de autor, título, fuente, fecha y referencia (URL relativa) • una tabla de "Diccionario": donde se mantienen definiciones de términos técnicos y siglas; sus atributos son la entrada, la definición y el tipo (sigla o término). Como ya señalado, el acceso a dicho Diccionario está siempre presente, en una columna separada (frame, vea la columna izquierda de la ilustración 5.1.1b), donde es posible llamar a una lista de siglas o una de términos y, a partir de éstas, consultar lo deseado. El acceso a los textos es de dos tipos: mediante un menú de botones, también siempre presente (visible debajo del nombre de la revista y encima del título "Noticias", ver Gráfico 5.1.1b), que remite al índice de contenidos de cada sección ("Estudios", "Artículos" o "Fichas técnicas"), o mediante los hipervínculos (links), que son los que se anotan en el campo de "referencia" de la tabla de noticias, cada vez que una relación útil existe, y que aparecen a continuación del cuerpo de la noticia en la página web cuando corresponde.
5.2. Extracción de meta-información ex post facto por procedimientos comunes: estadísticas de frecuencias para mil noticias Una primera extracción de estadísticas se realizó confeccionando un programa ad hoc capaz de obtenerlas a partir de la tabla única de noticias (lo cual, como hemos dicho, demostró las frecuentes inconsistencias). Reducidos los errores, obtuvimos los resultados que sintetizamos a continuación. Las cifras fueron inmediatamente traducidas en histogramas por el mismo programa - que generaba una página web con los resultados - a fin de facilitar la visión de conjunto (visualización de datos). Presentamos aquí los resultados, para cada variable medida, solamente para las frecuencias no inferiores al 1% (para no alargar extremadamente las tablas) pero con las frecuencias totales y medias correspondientes a la totalidad de las noticias. Tómese en cuenta que estas estadísticas representan nuestra información y no necesariamente la realidad de todo lo que está ocurriendo en el mundo de las 107
tecnologías digitales, como puede ocurrir con cualquier medio de comunicación. Según estimaciones realizadas hace algunos años, un medio de prensa publica apenas del orden del 10% de las noticias que recoge y, si se toma en cuenta lo que recogen las agencias noticiosas, su propia selección de lo que efectivamente transmiten y la selección final por los medios que publican, sólo del orden del 2% del total llega al público. Sin embargo, sin desconocer que podemos introducir algunas distorsiones en la estimación de lo que puede ser relevante (y publicamos) versus lo que dejamos de lado, estimamos significativo que nuestras fuentes -al completar mil noticias- han llegado a ser 69, de las cuales siete son las más frecuentes, superando cada una el 5% del total y quince superan el 1% (Vea tabla 5.2.5). 5.2.1. Atributo "Fecha" Las fechas se agruparon por mes y se calculó la cantidad de noticias ingresadas cada mes desde el inicio del trabajo de recopilación. Tabla 5.2.1: Frecuencia de noticias por mes Mes 2001-03* 2001-02 2001-01 2000-12 2000-11 2000-10 2000-09 2000-08 2000-07 2000-06 2000-05 Frec.Total Frec.Media
Frec. 167 170 179 110 103 96 54 38 41 26 16 1000 90,91
* Mes incompleto, en el que se llegó a la noticia nº 1.000
Observaciones: • La cifra del mes de marzo 2001 (último considerado ) no corresponde al mes completo, ya que se limitaron los cálculos - en esta etapa - a las mil primeras noticias registradas. • El crecimiento del número de noticias, mes a mes, no corresponde forzosamente al aumento de noticias del área, al menos en los primeros meses 108
de trabajo, ya que el período de mayo a julio incluído fue de "marcha blanca" y la revista empezó oficialmente su publicación en el mes de agosto. En este período inicial se fueron afinando los criterios de selección. Así, al principio no se registraban noticias financieras, pero la aparición de la tendencia que se llamó posteriormente "crisis de las punto com" hizo añadir este tipo de noticias, que abundaron en el último trimestre del 2000 y en todo el período cubierto del 2001. Gráfico 5.2.1 : Noticias por mes de ocurrencia 2000-05 2000-06 2000-07 2000-08 2000-09 2000-10 2000-11 2000-12 2001-01 2001-02 2001-03
0
50
100
150
200
5.2.2. Atributo "Lugares" Como "Lugar" se considera cualquier país, agregándose "Internet" para casos en que no hay otra precisión e "Internacional" cuando están involucrados más de dos países (Si son dos se registran ambos). Como se ve en la tabla adjunta, Estados Unidos domina la noticia y se explica fácilmente que Chile aparezca en segunda posición por la importancia que hemos dado a las noticias nacionales. (Ver Tabla y Gráfico 5.2.2) 5.2.3. Atributo "Descriptores temáticos" Nuestros descriptores temáticos corresponden al tesauro de la Unesco, que hemos ampliado agregando términos propios en las áreas de las tecnologías de la información. A la fecha, contábamos con uno 180 descriptores. Como era de esperar, conforme a la temática de la revista, Internet concentró gran parte de la atención. (Ver Tabla y Gráfico 5.2.3)
109
Tabla 5.2.2: Frecuencia de Lugares Lugar Estados Unidos Chile España Japón Unión Europea Gran Bretaña Alemania Brasil Suiza ? (Desconocido) Francia Argentina México Italia Otros: (1 cada uno) Frec.Media Frec.Total
Frec. 444 134 84 54 26 24 20 20 16 15 13 12 12 11 115 16.6 1000
Gráfico 5.2.2: Lugares más frecuentes Italia México Argentina Francia ? Suiza Brasil Alemania Gran Bretaña Europa Japón España Chile Estados Unidos
0
100
110
200
300
400
Tabla 5.2.3: Frecuencia de Descriptores Descriptor Internet Digital Electrónico Comercio Teléfono Derecho Estadística Sitio Seguridad Música Telecomunicación Software Economía Web
Frec. 544 116 113 99 94 88 76 64 59 58 57 50 47 47
% 20.32 4.33 4.22 3.70 3.51 3.29 2.84 2.39 2.20 2.17 2.13 1.87 1.76 1.76
Descriptor Celular Computador Televisión Red Industria Tecnología Gobierno Hardware Portal PDA Periférico Información Otros (inf. 1%)
Frec. 45 45 40 38 37 33 32 31 30 28 28 27 751
% 1.68 1.68 1.49 1.42 1.38 1.23 1.20 1.16 1.12 1.05 1.05 1.01 28.50
Frec.Total Frec.Media
2677 9.1
100.00
Gráfico 5.2.3: Descriptores temáticos más frecuentes Información Periférico PDA Portal Hardware Gobierno Tecnología Industria Red Televisión Computador Celular Web Economía Software Telecomunicación Música Seguridad Sitio Estadística Derecho Teléfono Comercio Electrónico Digital Internet
0
200
111
400
600
5.2.4. Atributo "Implicados" Hemos registrado habitualmente el nombre de los organismos o instituciones que aparacían en las reseñas noticiosas y, cuando no aparecían dicho nombre o el implicado real solo podía ser una persona, anotamos la función o cargo de dicha persona. Esto fue elevando el número de implicados a más de 700. Basta ver (Tabla 5.2.4) que la empresa más citada - Microsoft - aparece solamente en el 4,3% de los casos y que en solo 12 casos se superó el 1% del total de las frecuencias para confirmar la enorme dispersión de este atributo. Como lo explicamos ya (al final del nº 5.1.2), esto nos llevó con posterioridad a introducir reglas de selección y efectuar substituciones, para evitar la enorme dispersión producida inicialmente y poder proyectar un más efectivo resultado cuando se hiciera la "minería de datos". (Ver Tabla y Gráfico 5.2.4) 5.2.5. Atributo "Fuentes" Ya hemos comentado el caso de las fuentes: no efectuamos reporteo directo, sino que recopilamos información "de segunda mano", en fuentes electrónicas (Web) e impresas, algunas de las cuales -a su vez- recopilan a otras. En total, hemos registrado cerca de 70 fuentes, 7 de las cuales agrupan cada una más del 5% de las noticias, entre ellas 3 medios nacionales: "Mouse", suplemento del diario "La Tercera", de la cual recibimos la versión electrónica por e-mail; "MTG", diario que se reparte en el metro de Santiago, y "El Mercurio", principal diario nacional, en su versión impresa. 5.2.6. Producto Además de las definiciones correspondientes al "modelo de datos" - que constituyen meta-datos previos - las estadísticas que hemos obtenido constituyen nuevos datos que podemos conservar a su vez en una tabla. De hecho contruimos temporalmente una tabla para recibir, archivar y reordenar las frecuencias, hasta traspasarlos a un archivo de texto (para respaldo) y a una página web "estática" en que pudieran ser consultadas sin necesidad de rehacer los cálculos ni de consultar la tabla para generar dicha página.
112
Tabla 5.2.4: Frecuencia de Implicados (previa a la reclasificaciรณn) Implicados
Frec.
%
Microsoft Wired Napster IBM Presidente Sony AOL Intel Palm Telefรณnica Ministro Yahoo
58 28 26 22 20 20 18 18 18 16 14 14 1091 1363 1.9
4.26 2.05 1.91 1.61 1.47 1.47 1.32 1.32 1.32 1.17 1.03 1.03 80.04 100.00
Otros (inf. 1%) Frec.Total Frec.Media
Grรกfico 5.2.4 : "Implicados" mรกs frecuentes Yahoo Ministro Telefรณnica AOL Intel Palm Presidente Sony IBM Napster Wired Microsoft 0
20
113
40
60
Tabla 5.5: Frecuencia de Noticias por Fuentes Fuentes
Frec.
%
Mouse (La Tercera) CNN MTG Noticias Intercom WSJI I Actual El Mercurio Diario TI El Correo Español Es.internet BPenet Expansión Ganar.com Cinco Días Clarín Otros (inf. al 1%) Frec.Total Frec.Media
179 99 75 74 74 61 57 39 22 21 18 16 15 14 13 223 1000 15.25
17,9 9,9 7,5 7,4 7,4 6,1 5,7 3,9 2,2 2,1 1,8 1,6 1,5 1,4 1,3 22,3 100,00
Gráfico 5.8: Noticias por Fuentes más frecuentes Clarín Cinco Días Ganar.com Expansión BPenet Es.internet El Correo Español Diario TI El Mercurio I Actual WSJI Noticias Intercom MTG CNN Mouse (La Tercera) 0
50
114
100
150
200
5.3. Preparación para la "Minería de Datos" Después de confeccionar, en el mes de marzo del 2001, las estadísticas correspondientes a las mil primeras noticias de nuestra hiperrevista, decidimos considerar la factibilidad de aplicar a nuestra base de datos un proceso de Data Mining, con el fin de conocer mejor esta metodología y sus posibles aportes en el campo del periodismo. Nuestros primeros estudios y nuestra búsqueda de software especializado de libre acceso en Internet nos tomaron hasta el mes de julio, período en que sobrepasamos la cantidad de 1.700 noticias. En ese momento iniciamos la etapa de revisión y preparación de los datos, de la cual damos cuenta a continuación. 5.3.1. Verificación de la consistencia lógica y semántica de la Base de Datos original Como los datos se ingresaban inicialmente por tipeo textual en los diferentes campos de datos (ver Gráfico 5.1), se introducían errores de tipeo o se reproducían inconsistencias presentes en las fuentes. Éstas constituyeron un importante problema a la hora de extraer las primeras estadísticas. Constatamos especialmente numerosas imprecisiones o copias erróneas de nombres de personas o instituciones (como Bertelsmann, Bertelsman y Bertlesmann, MediaMetrix y Media Metrix, o diferencias aún mayores como BSCH y Banco Santander Central Hispano, etc.). Esto puso en evidencia la necesidad de contar con un sistema codificado, utilizando un tesauro para los descriptores temáticos y listas de autoridades2 para las fuentes periodísticas, los implicados y los lugares de ocurrencia de los datos. Por otra parte, al existir un solo campo para los descriptores (como también para los implicados), se ingresaban inicialmente diversos términos, es decir diversos valores, en dichos campos de datos. Esto, aunque práctico en una base de datos o archivo "doméstico", infringe las reglas de modelamiento canónico. Obviamente, si se hubiese mantenido el modelo original, se habría tenido que duplicar un registro por cada descriptor y por cada implicado, con la consiguiente repetición de todos los demás datos: esto es justamente lo que la normalización impide y soluciona, aunque con el costo de una multiplicación de tablas y una mayor complejidad - pero también flexibilidad - asociada a la necesidad de recurrir a operaciones de álgebra de conjuntos. (Veremos sin embargo, al final del capítulo, que la metodología OLAP requiere justamente tales repeticiones.) 5.3.2. Traspaso de los datos de la tabla única de noticias a múltiples tablas de "tercera forma normal". Como recién señalado, se trabajó en un primer período con una base datos en que toda la información noticiosa se vertía en una tabla única. La inclusión de un sistema codificado llevó en forma natural a crear tablas con los códigos y 115
enlazarlas con la tabla principal de noticias, así como a cambiar la interfaz de ingreso de palabras por una interfaz de ingreso de códigos, excepto para el título y el cuerpo de la noticia (La diferencia reside exclusivamente en que la página web de ingreso de datos contiene un frame para dicha finalidad y otro para consultar los códigos). La multiplicación de las tablas y sus interrelaciones hicieron obvia la necesidad de recurrir a la tercera forma normal, que no se había aplicado hasta ese momento. El modelo normalizado se expone en el gráfico 5.3.2. Gráfico 5.3.2 : Modelo normalizado de la BD de noticias Tabla "nofechas"
Tabla base id 1 titulo texto referencia imagen
n
idno fecha Tabla "nodescrip"
n
id idno iddes
Tabla "descriptores" n
1
Tabla "noimplic" n
id idno idim
n
1
Tabla "nolugar"
n
id idno idlug
iddes descriptor Tabla "implicados" idim implicado Tabla "lugares"
n
1
idlug lugar
Tabla "nofuente"
n
id idno idfue
n
Tabla "fuentes" 1
idfue fuente
En la columna de la izquierda, la "Tabla base" contiene el número identificador de la noticia (id) el cual es igual a "idno" en las tablas de la columna del medio. Con excepción de la tabla de fechas, dichas tablas contienen exclusivamente la numeración propia - secuencial - de sus registros (id) y códigos que aseguran el enlace de cada noticia con los términos que la describen, los que se encuentran en 116
las tablas de la tercera columna - de tipo "look up" -, que contienen la equivalencia entre un código y el término legible (conforme a un tesauro o una lista de autoridades, según sea el caso). Debido a que, con este modelo, la recuperación de datos para la producción de las páginas normales de noticias se hacía cada vez más lenta a medida que aumentaba el número de éstas (ampliándose el espacio requerido en memoria RAM), se mantuvo además una tabla no normalizada con la estructura expuesta en la Tabla 5.3.2, que corresponde a los datos publicados secuencialmente en las páginas web. Tabla 5.3.2: Tabla generadora de la revista (para consultas y publicación rápidas) Tabla "Noticias" id título texto imagen (URL) referencia fecha lugar fuente
Campos iguales a la Tabla "base" Datos en forma legible
Los procedimientos programados llenan primero las tablas "normales", extraen el significados de los códigos y los insertan en los campos de fecha, lugar y fuente de la tabla de Noticias, lo cual permite que el sistema de extracción para la publicación inmediata online trabaje exclusivamente sobre los campos de datos de esta única tabla. Una vez codificados los datos y conservados en "tablas normales", resultó mucho más fácil y rápido extraer las estadísticas de frecuencias correspondientes a cada uno de los atributos y se incluyó en la revista una página que permite permanentemente solicitar estas estadísticas actualizadas al instante (online processing). 5.3.3. Reestructuración de la lista de Implicados Esta lista creció inicialmente en forma inorgánica: a medida que aparecían nuevos nombres de instituciones o de categorías de personas, se iban agregando a la lista. Esto produjo un crecimiento cercano al de la propia tabla de "Noticias" y la estadística de frecuencias puso en evidencia la dispersión (80% de casos aparecían menos del 1% de las veces, como se puede observar en la Tabla 5.4). Por ello se decidió, tal como lo recomienda la metodología, aumentar las "autoridades" de tipo categorial y substituir por ellas las identificaciones propias 117
de instituciones que aparecían una sola o muy pocas veces en el conjunto inicial de 1.000 noticias (conforme a las reglas que hemos enunciado en el apartado 5.1.2). También se eliminaron los nombres de personas que se habían incluído debido a su particular relevancia en la temática cubierta (como "Berners-Lee" y otros próceres de Internet o de la informática), reforzándose de este modo la regla establecida (y publicada) para el uso del motor de búsqueda que acompaña la revista: que los nombres de personas deben ser buscados en el "cuerpo" (texto) de la noticia y no en el campo de datos "Implicados".
5.4. Estadísticas del nuevo total de noticias Recordemos que el análisis final se realizó sobre un conjunto de 1.766 noticias. El primer paso del análisis consistió en extraer las frecuencias netas y porcentajes, para tener una visión de conjunto. También se realizó una primera "visualización de datos", para descubrir posibles tendencias y divergencias. 5.4.1. Atributo "Fecha" Las fechas se agruparon por mes y se calculó la cantidad de noticias ingresadas cada mes desde el inicio del trabajo de recopilación. Observaciones: • En este caso, la cifra del mes de julio 2001 (último considerado) no corresponde al mes completo, ya que se inició el día 20 de ese mes el trabajo de minería de datos. • Como ya señalado en el capítulo anterior, el crecimiento del número de noticias, mes a mes, en el año 2000, no corresponde forzosamente al aumento de noticias del área, ya que los primeros meses fueron de "marcha blanca" y la revista empezó oficialmente su publicación en el mes de agosto. Por otra parte, la aparición, a fines del 2000, de la tendencia que se llamó posteriormente "crisis de las punto com" hizo añadir noticias financieras, las que no habían sido consideradas al principio y abundaron en el último trimestre del 2000 y en todo el período cubierto del 2001. 5.4.2. Atributo "Lugares" Como se ve en la siguiente tabla, Estados Unidos se ha mantenido en primera posición, seguido de Chile, debido a la importancia que hemos dado a las noticias nacionales. La importancia, a continuación, de España se explica principalmente por razones idiomáticas pero un análisis más profundo también mostraría que influye en ello la presencia de importantes inversiones españolas en países iberoamericanos. 118
Tabla 5.4.1: Frecuencias de noticias por mes Mes
Frec.
2001-03 2001-05 2001-06 2001-01 2001-04 2001-02 2001-07 2000-12 2000-11 2000-10 2000-09 2000-07 2000-08 2000-06 2000-05 TOTAL
%
232 211 196 179 176 170 118 110 103 96 54 41 38 26 16 1766
13,14 11,95 11,10 10,14 9,97 9,63 6,68 6,23 5,83 5,44 3,06 2,32 2,15 1,47 0,91 100,00
Gr谩fico 5.5.1: Frecuencias por fechas a. por frecuencia b. por orden cronol贸gico 250
2000-05 2000-06 2000-08 2000-07 2000-09 2000-10 2000-11 2000-12 2001-07 2001-02 2001-04 2001-01 2001-06 2001-05 2001-03
200
150
100
50
119
2001-07
2001-05
2001-03
15 %
2001-01
10
2000-11
5
2000-09
2,5
2000-07
0
2000-05
0
Tabla 5.4.2: Frecuencias de Lugares Lugar
Frec.
Estados Unidos Chile España Internet Japón Europa Internacional Alemania Inglaterra Latinoamérica ?(Desconocido) Brasil Argentina Francia Suiza Otros (< 1% c.u.) TOTALES
775 235 151 112 94 62 44 41 40 29 28 27 26 23 20 146 1853
% 41,82 12,68 8,15 6,04 5,07 3,35 2,37 2,21 2,16 1,57 1,51 1,46 1,40 1,24 1,08 7,89 100,00
Gráfico 5.4.2: Lugares más frecuentes Suiza Francia Argentina Brasil ? Desconocido Latinoamérica Inglaterra Alemania Internacional Europa Japón Internet España Chile Estados Unidos
0
5
10
120
20
30
40 %
5.4.3. Atributo "Descriptores temáticos" Para nuestras 1.766 noticias, considerando que se les podía dar a cada una entre 1 y 5 descriptores, la cantidad total de descriptores ingresados fue de 4.733 (o sea un promedio de 2,7 descriptores por noticia). Comparando la totalidad de las noticias analizadas ahora con las mil primeras, observamos un ligero descenso en el porcentaje de noticias a las cuales se asoció el descriptor "Internet". Este término, sin embargo, mantiene la primera posición, junto con "Digital", aunque con un amplio margen entre ambos. En los siguientes descriptores se observa un cambio del orden relativo, lo cual respalda la hipótesis de que no existe una constante en los hechos del sector noticioso aquí considerado. (Ver Tabla y Gráfico 5.4.3). Quizás la variación más notable - aunque con una proporción de sólo 3,49% - es la aparición en tercera posición del "e-Comercio", que no aparecía en las frecuencias de 1% o más en las mil primeras noticias. Ello indica por lo tanto un auge significativo durante el año 2001, en comparación con el año anterior. 5.4.4. Atributo "Implicados" Microsoft sigue apareciendo como la empresa más citada, por sobre categorías más generales como "Fabricante de hardware" - que es la que la sigue en importancia -, aunque ambas corresponden solamente al 6,2 y el 5,3 % de los casos. Esta vez, fueron 26 en lugar de 12 los casos en que se superó el 1% del total de las frecuencias, lo cual da cuenta de la reagrupación que tuvo lugar conforme a las nuevas reglas implantadas (señaladas en el nº 5.1.2). A pesar de ellas, se observa sin embargo aún una gran dispersión (ver Tabla 5.4.4). 5.4.5. Clases de "Implicados" Como lo explicamos ya, esta dispersión de los Implicados nos llevó con posterioridad a introducir reglas de selección y efectuar sustituciones, para evitar la enorme dispersión así producida y poder proyectar un más efectivo resultado cuando se hiciera la "minería de datos". Junto con formular y aplicar reglas para conservar nombres propios de organismos o reemplazarlos por categorías, creamos 16 "clases" de mayor extensión categorial y hemos procesado las noticias también en función de éstas. Las clases definidas y sus códigos son los siguientes: 10 11 12 19 20 30
Asociaciones Asociaciones de empresas Asociaciones de centros de estudios Asociaciones de personas Organismos internacionales Organismos públicos
121
40 41 42 43 44 45 46 47 48 49 50 90
Institución o empresa Organizaciones temporales Empresas de asesoría o investigación Instituciones de enseñanza Empresas de servicios Empresas de informática Empresas de TI Empresas de telecomunicaciones Empresas financieras Empresas comerciales (otras) Medios de comunicación Personas (particulares)
De este modo, sin embargo, sólo tres categorías de Implicados superan el 10%: la clase "Empresas de informática" con 27,7%, seguida por "Empresas TI" (de Tecnologías de la Información) con 15,8%, y "Organismos públicos" con 10,9%. (Ver Tabla y Gráfico 5.4.5). 5.4.6. Atributo "Fuentes" Ya hemos comentado el caso de las fuentes: no efectuamos reporteo directo, sino que recopilamos información "de segunda mano", en fuentes electrónicas (Web) e impresas, algunas de las cuales -a su vez- recopilan a otras. En total, hemos registrado cerca de 70 fuentes, 7 de las cuales agrupan cada una más del 5% de las noticias, entre ellas 3 medios nacionales: "Mouse", suplemento de "La Tercera", de la cual recibimos la versión electrónica por e-mail; "MTG", diario que se reparte en el metro de Santiago; y "El Mercurio", principal diario nacional, en su versión impresa. (Ver Tabla y Gráfico 5.4.6). 5.4.7. Coeficiente de predictibilidad Es evidente que, con el tipo de datos que manejamos, muchas herramientas de la estadística común o "paramétrica" - aunque incluídas en algunas suites de Data Mining - no son aplicables. Ordenando las frecuencias, no obtenemos - ni es de esperar que podamos observar - curvas de Gauss o distribuciones lineales que tengan algún sentido, fuera de los histogramas de frecuencias - ascendentes o descendentes - mostrados con anterioridad, ya que todos nuestros datos - con la sola excepción de las fechas - son "nominales", es decir no ordenados. Por ello, si queremos analizar la relación existente entre dos variables, no podemos recurrir a las técnicas de cálculo paramétricas, sino que debemos recurrir a métodos no-paramétricos de verificación de asociación entre variables. Para el caso de dos variables nominales, debemos recurrir al cálculo del coeficiente de predictibilidad lambda de Guttman. Dicho coeficiente nos indica en qué porcentaje se reduce el error de predicción cuando conocemos el valor de ambas variables en comparación con la predicción que haríamos de los valores de la segunda al conocer una sola.
122
Tabla 5.4.3: Frecuencias de Descriptores Descriptor Internet Digital e-Comercio Derecho Sitio web Software Estadística Economía Seguridad Teléfono Celular Música Telecomunicación Comercio Computador Industria
Frec. 834 215 164 163 155 147 134 130 123 117 107 107 84 80 75
% 17,74 4,57 3,49 3,47 3,30 3,13 2,85 2,77 2,62 2,49 2,28 2,28 1,79 1,70 1,60
Descriptor Frec. Portal 70 Teléfono 69 Sistema Operativo 68 Periférico 63 Televisión 63 Ética 58 Hardware 53 Tecnología 52 Trabajo 52 Copyright 49 E-mail 49 PDA 49 Política 48 Educación 47
% 1,49 1,47 1,45 1,34 1,34 1,23 1,13 1,11 1,11 1,04 1,04 1,04 1,02 1,00
Gráfico 5.4.3: Descriptores temáticos más frecuentes Educación Política Copyright E-mail PDA Tecnología Trabajo Hardware Ética Periférico Televisión Sistema Operativo Teléfono Portal Industria Computador Comercio Música Telecomunicación Teléfono Celular Seguridad Economía Estadística Software Sitio web Derecho e-Comercio Digital Internet
% 0
2,5
5
123
10
15
20
Tabla 5.4.4: Frecuencia de Implicados Implicados Microsoft Fabricante de hardware Sitio Web Empresa de Investigación Fabricante de software Gobierno Napster AOL Time Warner Empresa Internet Universidad Empresa de telecomunic. IBM Sony Hacker
Frec.
%
Implicados
Frec.
168 143 117 79 73 72 65 60 55 51 48 48 40 39
6,20 5,27 4,32 2,91 2,69 2,66 2,40 2,21 2,03 1,88 1,77 1,77 1,48 1,44
Compañía telefónica Parlamento ISP Empresa Periódico Ministro Tribunal Intel Empresa TI Presidente Consultora Repartición pública Otros ( < 1% c.u. ) TOTALES
35 35 33 32 32 31 31 30 29 29 28 28 1280 2711
Gráfico 5.4.4: "Implicados" más frecuentes Consultora Repartición pública Empresa TI Presidente Intel Ministro Tribunal Empresa Periódico ISP Compañía telefónica Parlamento Hacker Sony Empresa de telecomunicación IBM Universidad Empresa Internet AOL Time Warner Napster Gobierno Fabricante de software Empresa de Investigación Sitio Web Fabricante de hardware Microsoft
0
2
124
4
6
%
% 1,29 1,29 1,22 1,18 1,18 1,14 1,14 1,11 1,07 1,07 1,03 1,03 47,22 100,00
Tabla 5.4.5: Clases de "Implicados" Categ.Implicados Empresas informáticas Empresas de TI Organismos públicos Personas (particulares) Medios de comunicación Empresas de telecomunicaciones Empresas de asesoría o investig. Empresas comerciales (otras) Instituciones de enseñanza Organismos internacionales Empresas financieras Asociaciones de empresas Empresas de servicios Asociaciones de personas Organizaciones temporales Asociaciones de centros de estudios TOTALES
Frec. 751 428 295 203 183 165 146 144 102 97 58 56 32 23 15 13 2711
% 27,70 15,79 10,88 7,49 6,75 6,09 5,39 5,31 3,76 3,58 2,14 2,07 1,18 0,85 0,55 0,48 100,00
Gráfico 6.2.5: Agrupación de "Implicados" en clases
Asoc. de centros de estudios Organizaciones temporales Asociaciones de personas Empresas de servicios Asociaciones de empresas Empresas financieras Organismos internacionales Instituciones de enseñanza Empresas comerciales (otras) Empresas de asesoría o investig. Empresas de telecomunicaciones Medios de comunicación Personas (particulares) Organismos públicos Empresas de TI Empresas de informática
0
125
10
20
30 %
Tabla 5.4.6: Frecuencia de Noticias por Fuentes Fuentes
Frec.
Mouse (La Tercera) CNN MTG Noticias.com (Intercom) WSJI I Actual El Mercurio Diario TI El Correo Español Es.internet BPenet Expansión Ganar.com Cinco Días Clarín Otros (inf. al 1%) Frec.Total
179 99 75 74 74 61 57 39 22 21 18 16 15 14 13 223 1000
% 17,9 9,9 7,5 7,4 7,4 6,1 5,7 3,9 2,2 2,1 1,8 1,6 1,5 1,4 1,3 22,3 100,0
Gráfico 5.4.6: Fuentes más frecuentes Clarín Cinco Días Ganar.com Expansión BPenet Es.internet El Correo Español Diario TI El Mercurio I Actual WSJI Noticias Intercom MTG CNN Mouse (La Tercera) 0
50
126
100
150
200
Trabajando por etapa, como lo sugiere la metodología de DM, hemos verificado primero la aplicabilidad de la fórmula a 20 noticias, luega a 100 y a 1000. Para mantener un paralelismo con el estudio anterior, calculamos el coeficiente lambda para el "cruce" de los siguientes atributos de nuestras 1.000 primeras noticias, antes de la recodificación de las mismas . Luego lo calculamos de nuevo para las 1.766 noticias, ordenando los resultados de mayor a menor predictividad. De modo general, como se verá a continuación, el mayor número de noticias ha llevado a mejores coeficientes de predictibilidad. 1. Lugar - Descriptores: 1.000 Noticias: lambda = 0.03 1.766 Noticias: lambda = 0.03 El valor del coeficiente se ha mantenido sin variación. Indica una relación estrechísima entre el lugar de ocurrencia del hecho noticioso y la temática del mismo. Este resultado puede parecer bastante lógico si se considera que los protagonistas generan, habitualmente, los mismos tipos de hechos y en el lugar de su residencia. Sin embargo nuestra percepción previa, en función de la incidencia del desplazamiento frecuente de los ejecutivos para ferias, congresos y conferencias, no nos hizo esperar tan alto grado de predictibilidad. Casos típicos de esta alta predictibilidad serían los de Japón, asociado prioritariamente a la telefonía móvil y a periféricos - como los monitores -, y Europa, que se ha destacado - en el período estudiado - por sus avances en telefonía celular. 2. Fuente - Descriptores: 1.000 Noticias: lambda = 0.05 1.766 Noticias: lambda = 0.04 Aquí también observamos altísimos coeficientes de predictibilidad, o sea que conociendo la fuente - tenemos altísimas posibilidades de predecir el tema de la noticia. Si bien este resultado no se esperaba, se ha de tomar en cuenta aquí que no se registraron todas las noticias publicadas en cada medio-fuente y que hemos introducido una variable interviniente que actúa con gran fuerza: la selección en función de los objetivos de nuestra propia publicación. El resultado, por lo tanto, tiene poco valor en sí mismo y sólo representa la coherencia de nuestro propio proceso de selección. 3. Fuente - Lugar de la noticia: 1.000 Noticias: lambda = 0.13 1.766 Noticias: lambda = 0.10 Con el aumento de la cantidad de noticias, se produce igualmente un mejoramiento de la asociatividad. Los factores observados significan que existe una correlación significativa - aunque no tan determinante como las anteriores 127
entre la fuente y el lugar del hecho noticioso, lo que indica una alta importancia para cada medio de comunicación - de las noticias locales, en desmedro de las noticias procedentes del extranjero. (Si la fuente es "Wired", es de esperar que la noticia sea de Estados Unidos; si es "El Mercurio", será de Chile, etc.) 4. Descriptores - Implicados: 1.000 Noticias: lambda = 0.17 1.766 Noticias: lambda = 0.13 También mejorado, el coeficiente indica igualmente una alta correlación (superior al 80% de predictibilidad) entre la temática y los protagonistas de la noticia, cosa por lo demás bastante lógica ("Microsoft" implica "software" y "sistema operativo"; "Intel" implica "microprocesador", etc.) 5. Lugar - Implicados: 1.000 Noticias: lambda = 0.40 1.766 Noticias: lambda = 0.19 Para las 1.000 noticias y, en este caso, antes de la modificación del sistema de codificación de los mismos, el coeficiente -por su magnitud- obligaba a descartar la posibilidad de predecir cuales serían los protagonistas conociendo el lugar o inversamente. Sin embargo, la situación cambió radicalmente con la modificación del sistema de registro (y la substitución de los datos anteriores de acuerdo a las nuevas reglas): el nuevo coeficiente está ahora dentro de un rango más aceptable, aunque no extremadamente bueno. Es posible que influya aquí la gran cantidad de informaciones situadas en Estados Unidos o en Chile (ver nº 6.2.2), pero compensada por la dispersión de los "Implicados", que se mantuvo bastante alta. Éste es el tipo de metaconocimiento que demuestra cómo un nuevo procesamiento (reagrupación de los "Implicados") puede arrojar una mejor información y una profundización del análisis recurriendo a la data mining. 6. Fuente - Implicados: 1.000 Noticias: lambda = 0.43 1.766 Noticias: lambda = 0.11 La situación observada merece los mismos comentarios que en el caso anterior, pero el segundo coeficiente es netamente superior y casi equivalente a la relación Fuente - Lugar. Sintetizamos el estado de estos coeficientes de predictibilidad y su relación mútua en el Gráfico 5.4.6, donde las líneas más gruesas indican el mayor grado de predictibilidad mútua. 128
Gráfico 5.4.7: Predictibilidad mútua de 4 atributos 1.000 noticias 1.766 noticias Lugar
0.13
Fuente 0.05
0.03
Lugar
0.43
0.10 0.04
0.03
0.40 Descriptores
Implicados
Fuente 0.11
0.19 Descriptores
0.17
Implicados 0.13
Conclusión Los meta-datos estadísticos se han transformado ahora en lo que se denomina datos compuestos, tal como los definimos en el Capítulo 2 (ver nº 2.3.1). Lo ocurrido con la estadística de "implicados" ha sido muy significativo desde este punto de vista, ya que puso en evidencia que no se podrían esperar resultados de ninguna clase con el alto nivel inicial de dispersión. Aparte del valor que representan en sí mismo estos resultados, este tipo de extracción de meta-datos ex post facto es de significativa importancia como paso intermedio para orientar el trabajo posterior. Se ha de considerar también que el hecho de utilizar un tesauro, como en el caso de nuestros descriptores temáticos, ofrece automáticamente la posibilidad de trabajar con datos compuestos, en distintos niveles de abstracción. De poder operar con este tipo de estructuras categoriales jerarquizadas, como lo son también las taxonomías, la minería de datos ofrecería más niveles de búsqueda de posibles combinaciones de factores.
NOTAS DEL CAPITULO 1 La justificación del uso de una base de datos estructurada y del proceso (que llamamos
"documentar antes de publicar") se encuentra en nuestra ponencia «Del "diario electrónico" al "hiperinformativo" del ciberespacio» presentada en el marco del congreso ALAIC 2000 y accesible en Internet en http://facom.udp.cl/CEM/TDC/estudios/hiperinfo/ . Véase también nuestro libro "Para informar en la WWW", Centro de Estudios Mediales, Universidad Diego Portales, Santiago, 2001. 2 La "lista de autoridades" es una simple lista alfabética de términos autorizados, sin mayor estructuración u organización.
129
6 "MINERIA DE DATOS" EN UN MEDIO PERIODISTICO Una experiencia con más de 1.700 noticias sobre Tecnología Digital
Como señalado en el capítulo anterior, en el mes de julio 2001 iniciamos la adaptación de nuestra base de datos a las formas normales y extraímos las nuevas estadísticas correspondientes a las noticias acumuladas hasta esa fecha. Luego de las modificaciones que señaláramos, aplicamos diversas herramientas de DM al material informativo acumulado, trabajando con un duplicado de la base de datos reestructurada que alimenta a la revista en línea "TDC", la cual contenía 1.766 noticias al momento del traspaso (noticias que van del 4 de mayo 2000 al 20 de julio 2001). Siguiendo los pasos sugeridos en la metología de la minería de datos (Capítulo 3, nº 3.4), definimos nuestro objetivo como "descubrir conjuntos de hechos y relaciones entre características de los mismos que puedan ser la expresión de tendencias o situaciones significativas que trascienden el carácter puntual de cada hecho noticioso y podrían merecer un estudio global más profundo por parte de un periodista especializado en el área".
Apuntamos, por lo tanto, al "conocimiento desconocido", o sea al conocimiento que está en nuestra base de datos pero que no sabemos que está ni cómo está. Como lo hemos dicho, ésta es la situación más típica de la minería de datos. Hemos hecho el análisis de los atributos y el modelamiento de datos en el Capítulo 4 (nº 4.3) y hemos realizado una exploración inicial de los datos en el Capítulo 5. Falta ahora preparar más adecuadamente los datos para los procesos que pretendemos realizar y pasar luego a la aplicación de las herramientas que estuvieron a nuestro alcance. En dicha aplicación, partimos de lo expuesto en el 131
capítulo pasado, es decir con las herramientas exentas de efecto combinatorio (estadísticas comunes, actualizadas para el conjunto de datos ahora más amplio y hecho más consistente) y pasamos luego a considerar progresivamente las combinaciones más detalladas y complejas, pasando de un menor a un mayor efecto combinatorio ("fan out").
6.1.Análisis visual de datos El análisis visual de los datos, como lo hemos señalado, es una herramienta que no sólo puede complementar la investigación sino guiarla hacia derroteros imprevistos pero altamente deseables de descubrir. Esto es posible en las diversas etapas. Obviamente es la técnica más adecuada para poner en evidencia las redes de relaciones o asociaciones de datos y dedicaremos los siguientes apartados a las redes que hemos descubierto. Pero, si bien la visualización se inicia en realidad con la graficación de los primeros resultados estadísticos, tal como lo hemos hecho en el numeral anterior, podemos también recurrir a ella para descubrir otros aspectos de la información que estamos analizando. Particularmente clarificador al respecto, en una etapa inicial, es el tratamiento visual de las tablas de descriptores y la clasificación de Implicados por categorías, que mostraremos aquí. A pesar de que estos gráficos tienen obviamente dos dimensiones en el papel, corresponden al análisis de una sola dimensión del espacio informativo, o sea del espacio multidimensional en el cual constituye un eje cada uno de los atributos diferentes del identificador propio - o "llave primaria" - de cada de entidad. Desde este punto de vista, nuestro espacio informativo (también llamado habitualmente "cubo de datos", a pesar de tener generalmente más de tres dimensiones) cuenta con 5 dimensiones, ya que son 5 los atributos que hemos considerado (Fecha, Lugar, Descriptor, Implicado y Fuente). 6.1.1. Visualización de Descriptores La visualización de datos muestra claramente la fuerte presencia de los temas relativos a Internet (ver Gráfico 6.1.1a) y la irregularidad de aparición de los otros temas. Esta visualización se obtiene con facilidad dado que los descriptores son codificados numéricamente mediante un tesauro. Así, al código del descriptor corresponde el eje vertical (Y), mientras en el eje horizontal (X) se van desplegando las sucesivas noticias, repetidas cada una tantas veces cuantos descriptores tengan. Hemos tenido que reducir aquí en tamaño el gráfico completo y limitarlo a 4.000 puntos (1.600 noticias) por limitaciones del software utilizado, mientras la tabla completa se compone de 4.733 puntos (por los 4.733 descriptores registrados en relación a las 1.766 noticias).
132
Gráfico 6.1.1a: 4000 descriptores aplicados (1600 noticias)
En el gráfico 6.1.1a, el eje horizontal (X) corresponde a la secuencia de ingreso de las noticias (los números corresponden a un descriptor por noticia), mientras el eje vertical corresponde al código numérico de los diversos descriptores, de acuerdo al tesauro utilizado. A cada noticia pueden corresponder de 1 a 5 posiciones en X, según la cantidad de descriptores que le fueron atribuídos. Se explica a continuación (Gráf.6.1.1b) con algunos ejemplos cómo se interpretan los códigos del eje Y.
133
Gráfico 6.1.1b: Interpretación 70000
60000
< <
Economía/Comercio Gobierno
50000
< < <
Hardware Internet Informática
<
Música
<
Etica
<
Optica (fibra)
<
Educación
40000
30000
20000
10000
0
Gráfico 6.1.1c: Descriptores de "Comunicación" (abarcando todas las noticias) Hardware
55000
Redes
Software
54000 53000 Internet
52000 51000 50000
134
Sin embargo, se observa claramente la agrupación de ciertos tipos de datos, principalmente en la franja de 50 a 59.000, numeración que corresponde a "Comunicación", y más particularmente en torno a las subdivisiones 52040 ("Internet"), 54100 ("Software") y 54500("Hardware"). Obviamente estos datos coinciden con las estadísticas de frecuencias que ya hemos extraído, pero se prestan para sugerir un análisis más acucioso de algunas agrupaciones de datos. Así, por ejemplo, descubierta la concentración en el rango de códigos de los 50.000, podemos reorganizar la visualización reagrupando todos los casos que corresponden a este rango, prescindiendo del orden histórico de las noticias y prefiriendo la agrupación de acuerdo al código (tesauro). Esto nos lleva al Gráfico 6.1.1c, que cubre la totalidad de las noticias de la categoría "Comunicación" y permite visualizar mejor lo que ya sabíamos por la estadística de frecuencias: gran concentración para "Internet" (52040), y otra concentración en el rango de los 54000, especialmente 54100 ("Software"), 54500 ("Hardware" y sus subdivisiones) y 54600 ("Redes"). 6.1.2. Visualización de los Implicados repartidos por clases Hemos explicado antes cómo la multiplicidad y dispersión de los "Implicados" registrados inicialmente nos había llevado a definir reglas de selección y agrupación, primero conservando los nombres propios de los más frecuentes y reeemplazando a los otros por términos de categorías muy específicas y, posteriormente, confeccionando una clasificación reducida a 16 clases. Podemos visualizar el resultado observando cómo, a lo largo de las 1.766 noticias, los términos identificando a los Implicados se han ido agrupando en las 16 clases definidas y comprobar de este modo lo acertado que fue subdividir la clase "40", que corresponde a instituciones y empresas privadas, como lo demuestra el Gráfico 6.1.2.
6.2. Coocurrencias internas Aún manteniéndonos en la "primera dimensión" del "cubo de datos", podemos recurrir a cálculos que nos permitirán establecer la RED DE RELACIONES que se forma entre los diferentes valores de un mismo atributo, teniendo en cuenta que varios atributos pueden tomar más de un valor para cada entidad (El sistema permite que un hecho noticioso sea calificado por uno a cinco descriptores temáticos, por ejemplo). Entramos de este modo en otro tipo de análisis visual, apelando a la gráfica de redes, para lo cual hemos de considerar la coocurrencia de términos asociados a una misma entidad. Como lo hemos explicado en el acápite 3.5.3.2, esto corresponde al análisis de coocurrencia, que consiste en considerar pares de componentes, midiendo la simultaneidad de su aparición en conjuntos significativos predeterminados. 135
0
10
20
30
40
50
90
0
100
200
300
400
500
600
700
800
900
Gráfico 6.1.2: Implicados repartidos por clases
136
Las cifras de 0 a 900 (en realidad de 1 a 853) del eje horizontal corresponden al código numérico de los identificadores de Implicados, los cuales tienen una numeración aleatoria y discontínua.
Hemos utilizamos una nueva versión de nuestro software "ANATEX" (esta vez en PHP, sobre base de datos mySQL) para analizar las coocurrencias de los descriptores entre sí y de los implicados entre sí (coocurrencias "internas"). Posteriormente analizaremos asociaciones entre atributos diferentes, lo cual llamamos "coocurrencias "externas" y corresponde a la combinación de DOS dimensiones del cubo de datos. 6.2.1. Coocurrencias entre Descriptores Para las 1.762 noticias, obtuvimos 4.763 coocurrencias agrupadas en 1.378 pares diferentes para los 190 descriptores utilizados. En la Tabla 6.2.1 mostramos las coocurrencias cuyas frecuencias fueron iguales o superiores a 10 (El corte en esta cantidad sólo se debe, aquí, a limitaciones tipográficas). Como era de esperar, siendo "Internet" el descriptor más frecuente de las noticias sobre Tecnologías Digitales de Comunicación (ver Tabla 5.4.3), aparece también como central en las coocurrencias. Aparece a su vez asociado a varios otros descriptores, como "Estadística", "e-Comercio", "Derecho", "Música", "Seguridad", "Sitio Web", etc. (ver Tabla 6.2.1, a continuación). Con las frecuencias superiores a 16, confeccionamos una red de relaciones (Gráfico 6.2.1) que nos presenta una imagen de la estructura del "campo semántico" así constituido. En dicho mapa intentamos traducir la frecuencia de asociación tanto en el grosor del trazo como en su longitud (las uniones menos frecuentes presentan un trazo más delgado y más largo siempre que sea posible), además de anotar la cifra exacta junto al vector correspondiente. Podemos observar cómo la fuerte cadena triple "Internet - Música - Digital" se vincula con "Copyright", con "Sitio Web" y también con "Derecho" y éste a su vez con "Ética". Se forma así un sub-campo integrado por "Copyright - Derecho - Internet - Música - Digital - Sitio Web", todo lo cual conforma un área noticiosa que es posible explicar principalmente como producto de los juicios que afectaron al sitio "Napster" y los acuerdos entre compañías discográficas para estructurar otros canales de distribución. También se cierren triángulos que unen "Internet - Estadística - e-Comercio" e "Internet - Estadística - Economía" (lo cual podría corresponder principalmente a los resultados económicos del año), "Internet - Economía - Industria", "Internet Software - Seguridad", etc. Existen más relaciones de menor frecuencia pero, en la mayoría de los casos, llevan a incluir más términos en el grafo e interrelaciones que ya se hace difícil incluir en una escala que permita la legibilidad. Ésto nos indica que hemos puesto en evidencia ya las que constituyen el núcleo temático más sólido del cuerpo noticioso analizado. Un buen gráfico final podría obtenerse eliminando las relaciones bi-unívocas exclusivas para dejar solamente los conceptos multi-
137
vinculados (con arcos que cierran figuras geométricas), como en el ejemplo del Gráfico 6.2.1b. Tabla 6.2.1: Frecuencias de Coocurrencia de Descriptores Términos Internet & Estadística e-Comercio & Internet Derecho & Internet Digital & Internet Digital & Música Seguridad & Internet Internet & Música Sitio web & Internet Economía & Internet Software & Internet Internet & Ética Portal & Internet Comercio & Internet Internet & Educación Teléfono Celular & Internet Televisión & Internet Telecomunicación & Internet Política & Internet Software & Industria Digital & Fotografía Disco & Digital Teléfono & Internet Copyright & Internet Copyright & Digital Sitio web & Música Copyright & Música Digital & Televisión Desarrollo & Internet Trabajo & Internet Digital & Sitio web Economía & Industria Internet & Medicina Derecho & Ética Derecho & Sitio web Trabajo & Economía Internet & Información Internet & Industria Seguridad & Software Desarrollo & Tecnología Computador & Internet Derecho & Música Derecho & Seguridad Economía & Estadística e-Comercio & Estadística e-Comercio & Sitio web Internet & Entretención Red & Internet
Frec. 94 90 86 84 81 69 61 58 53 46 43 43 34 33 33 30 29 27 26 26 26 26 26 26 25 25 24 22 22 21 20 19 19 19 19 18 18 18 18 17 17 17 17 17 17 16 16
138
Términos Video & Internet Digital & Video Teléfono & Telecomunic. Teléfono Celular & PDA Derecho & Software e-Comercio & Economía Internet & Lenguaje Virus & Internet Periférico & Computador Privacidad & Internet e-Comercio & Derecho Internet & Teleducación Internet & Cine Internet & Publicidad ISP & Internet Periférico & Internet Derecho & Industria Derecho & Digital Economía & Software Economía & Derecho Internet & Comunicación Buscador & Internet Tecnología & Internet Seguridad & Informática Hardware & Software Procesador & Microchip PDA & Internet Red WAN & Internet Privacidad & Derecho Economía & Telecomunic. e-Comercio & Seguridad e-Comercio & Digital e-Libro & Internet Seguridad & Virus Derecho & E-mail Comercio & Sitio web Comercio & Digital Comercio & Economía Valor moral & Ética Internet & Valor moral Internet & Com. Interperson. Sitio web & Estadística Periodismo & Internet E-mail & Internet Sistema Operat. & Software Digital & Archivo Digital & Software
Frec. 15 15 15 15 15 15 14 14 14 14 14 13 13 13 13 13 13 13 13 13 12 12 12 12 12 12 12 12 12 12 12 12 11 11 11 11 11 11 10 10 10 10 10 10 10 10 10
Gráfico 6.2.1: Red de relaciones entre Descriptores Copyright Software
18
46
Seguridad
Música 25
17
20 Estadística 53
Internet
61
Economía 19
Digital 58
21
43
Sitio web
43 Portal
Ética 26
26 Disco Fotografía
33
34 Comercio
Educación 33 Teléfono celular
24
29 27 Política
Industria
e-Comercio
Derecho 86 19 19
81
18
17 17
25
17
69
26
26
Telecomunicación 30
22
26
Televisión 22
18
Trabajo Medicina Computador
Información
17
19
139
Teléfono
Desarrollo
Gráfico 6.2.1b: Red de relaciones entre Descriptores Copyright 26 18
Seguridad 26
46
17
25
Ética 43
Software
26 Industria
69
18
19
20
Derecho 17 Música
61
Economía
17 Digital
81 25
53
Internet
58 21
e-Comercio
19
17 Sitio 17 web
24
19
Estadística 22
Trabajo
30
Televisión
En el caso de los Descriptores también puede ser ilustrativo el análisis de las metafrecuencias (frecuencias de frecuencias, o sea cuantas veces se repite cada frecuencia de coocurrencia): Tabla 6.2.1b: Metafrecuencias Frec. 94 a 46 1 c.u. Frec.43 2 Frec.20 1 Frec.10 Frec.34 1 Frec.19 4 Frec.9 Frec.33 2 Frec.18 4 Frec.8 Frec.30 1 Frec.17 6 Frec.7 Frec.29 1 Frec.16 2 Frec.6 Frec.27 1 Frec.15 6 Frec.5 Frec.26 6 Frec.14 5 Frec.4 Frec.25 2 Frec.13 9 Frec.3 Frec.24 1 Frec.12 12 Frec.2 Frec.22 2 Frec.11 6 Frec.1 Frec.21 1 140
17 16 11 21 20 30 79 118 215 766
Salvo 2 excepciones, por sobre la Frecuencia 26 sólo aparecen pares una vez cada una, mientras por sobre la Frecuencia 19 existen sólo 5 casos en que aparecen pares más de una vez. Entre 19 y 6, las cifras progresan con cierta regularidad, mientras suben muy rápidamente después, para dispararse en los pares únicos (766, o sea 16 % de los pares existentes). Un análisis visual de estas cifras, recurriendo a una curva logarítmica, muestra una progresión bastante regular con algunas excepciones, como la frecuencia 26 que quiebra la línea por exceso y la 16, la 11 y la 8 por defecto (Gráfico 6.2.1c). Son estos "quiebres" que se consideran habitualmente como umbrales para determinar hasta donde llegar en la confección de los mapas de relaciones o grafos de asociación y, por lo tanto, teníamos la opción de detenernos en la frecuencia 26 o luego en la 17 (como hicimos) por el quiebre en la frecuencia 16, siendo el siguiente umbral la 12, por el quiebre producido por la frecuencia 11 (pero exigía un gráfico más extenso, que no se habría podido leer en estas páginas). Las frecuencias altas (parecidas al caso de 12 veces la frecuencia 12 aquí) también pueden sugerir la presencia de casos especiales que podría ser conveniente analizar como grupo separado. Gráfico 6.2.1c: Distribución de cantidades de Frecuencias 1000
100
10
90
81
58
43
30
26
22
19
16
13
10
7
4
1
1
Sin embargo estos datos, salvo por la ayuda que representan al momento de elegir los límites de un mapa, no resultan significativos en relación al "fondo" o contenido de la información propiamente tal. Los citamos solamente porque apuntan a un tipo de análisis (DM) más elaborado, cuya aplicación podemos ver 141
en el tratamiento gráfico, aunque no se puede asegurar que siempre darán pistas tan claras para definir los límites de un mapa. Sin embargo, en otros estudios, también podrían resultar de interés en relación al problema de fondo. Utilizaremos de modo habitual este procedimiento para definir los límites de visualización de nuestros gráficos de redes. Antes de proseguir, hemos de recordar que si bien hemos trabajado con 190 descriptores - y comprobamos aquí que ha sido una cantidad suficiente (y que incluso no aparecen algunos que están en nuestro tesauro), los medios periodísticos suelen usar de tres a cinco mil, para describir adecuadamente la multiplicidad de hechos que "cubren". En este caso, la visualización en pantalla del uso de los mismos puede ser una herramienta efectiva para afinar la estructuración de su Tesauro. Trabajando con diferentes escalas de visualización es, además, posible descubrir eventuales fluctuaciones temáticas en diversos períodos de tiempo, como lo veremos en el apartado sobre coocurrencias "externas". 6.2.2. Coocurrencias entre Implicados Comparado con el primer análisis, realizado con mil noticias y más de 700 "Implicados" diferentes, la recategorización permitió trabajar con sólo 216 identificadores de "Implicados". Las frecuencias de asociación sin embargo, son relativamente bajas e incluimos en la Tabla solamente las iguales o superiores a 5. (Hubo 1395 casos, que se agruparon en 960 pares diferentes). En el correspondiente gráfico, además de observar el papel central de "Microsoft" - lógico de acuerdo a la estadística de frecuencias antes calculada -, podemos ver el rol también central de "Fabricante de hardware" y "Fabricante de software". Nos parece interesante ver cómo el término "Tribunal" aparece como conector entre Napster y Microsoft, empresas de muy diferente tamaño y poder, pero que han estado involucradas en los casos judiciales de mayor eco durante el período bajo estudio. (Ver Tabla y Gráfico 6.2.2) 6.2.3. Coocurrencias entre clases de Implicados Pero nuestro siguiente paso en la recategorización de "Implicados" consistió en reunirlos en clases de mayor extensión, las cuales fueron 16. En este caso las coocurrencias se agruparon en 574 pares diferentes. Presentamos la tabla de los resultados en que las asociaciones tuvieron una frecuencia superior a 6. En la graficación, tuvimos que detenernos en la frecuencia 10, en razón de la escala de impresión, pero -por análisis de frecuencias- el umbral lógico, después de 11, podría haber sido 7 o 6.
142
Tabla 6.2.2. Frecuencias de Coocurrencia de Implicados Términos Microsoft & AOL Time Warner Napster & Discográfica Fabricante de software & Microsoft Tribunal & Microsoft Fabricante de hardware & IBM Sitio Web & Empresa Internet Microsoft & Gobierno Tribunal & Napster Fabricante de hardware & Sony Entel & Empresa de telecomunicación Ministro & Gobierno EMI & AOL Time Warner Intel & AMD Intel & IBM Microsoft & IBM Napster & Bertelsmann
Frec 13 13 12 11 11 9 8 7 7
Presidente & Gobierno RealNetworks & Microsoft Sitio Web & Empresa de Investigación Sitio Web & Napster Compañía telefónica & Empresa de telecomunic. Yahoo! & AOL Time Warner Yahoo! & Microsoft Fabricante de software & IBM Fabricante de hardware & Hitachi Fabricante de hardware & Intel Fabricante de hardware & Microsoft Fabricante de hardware & Palm Fabricante de hardware & Fabricante de software
6 6 5 5 5 5 5
Frec 5 5 5 5 5 5 5 5 5 5 5 5 5
Gráfico 6.2.2: Red de relaciones entre Implicados Empresa Internet
Discográfica 13
9 Empresa de 5 Investigación Compañía telefónica 5 Empresa de telecomunic. 6 Entel Ministro 6 Gobierno 5 Presidente
Sitio Web
5
5 Intel 5
5
5
5
11
12
Microsoft 13
5
AOL Time Warner
11 5
5
Fabricante de hardware
AMD 5
Hitachi
7 Sony
143
Bertelsmann
Tribunal
IBM
5
5
7
RealNetworks Fabricante de software
Napster
EMI 5
Palm
5
5
Yahoo!
En el umbral 11, se obtenía un grafo bastante más simple y, al agregar la frecuencia 10, se hizo necesario redistribuir varios nodos para facilitar la lectura de los arcos. El gráfico nos permite observar que hay aquí tres grandes "focos": Las "Empresas Informáticas", las "Empresas TI" (de Tecnologías de la Información) y los "Organismos públicos". En efecto, el gráfico pone mucho más de manifiesto los múltiples vínculos que asocian estas tres clases de Implicados con las otras. Ésta es una importante ventaja de la visualización. Tabla 6.2.3 "Implicados" asociados por clases Términos Empresas TI & Empresas informáticas Empresas comerciales & Empresas TI MCM & Empresas informáticas MCM & Empresas TI Personas & Org.públicos Empresas TI & Org.públicos Empresas informáticas & Org.públicos Empresas telecomunic. & Empresas informáticas Empresas comerciales & Empresas informáticas Personas & Empresas informáticas Empresas TI & Empresas ases./investig. Org.públicos & Org.internacionales Empresas informáticas & Empresas ases./investig. Personas & Empresas TI Empresas telecomunic. & Org.públicos MCM & Empresas comerciales Empresas TI & Asoc.empresas Empresas telecomunic. & Empresas TI MCM & Empresas ases./investig. Empresas financieras & Empresas informáticas Empresas financieras & Empresas TI Empresas comerciales & Org.públicos MCM & Org.públicos Instit.enseñanza & Org.públicos Empresas comerciales & Org.internacionales Personas & MCM MCM & Empresas telecomunic. Personas & Empresas ases./investig. Personas & Empresas comerciales
144
Frec 54 42 42 41 40 31 30 25 20 18 17 16 16 14 13 13 12 12 11 10 10 10 10 9 9 8 7 7 7
Gráfico 6.2.3: Mapa de clases coocurrentes de "Implicados" Personas 16
40
Organismos Públicos
14 18
13 25
30
31 54
Empresas Informáticas 16
10
Empresas Ases./Inv. 11
Empresas Telecomun. 12 Empresas TI
17
42
41 10
42 20 MCM
Organismos Internac.
Empresas Comerciales
13 10
12 Asociac. Empresas
Empresas 10 Financieras
6.2.4. Coocurrencias entre Lugares Este tipo de coocurrencia es evidentemente muy bajo, dado que en pocos casos aparecen involucrados varios países. Por esta misma razón, salvo el caso dominante de Internet asociado con algún país (fundamentalmente Estados Unidos), podía ser de interés ver en qué casos aparecían más de una ocasional asociación. Estados Unidos, Japón, España y Chile - que aparecieron como los más frecuentes - son también los más centrales en el grafo de relaciones. Aunque las frecuencias son muy bajas, es interesante ver como España parece servir de "visagra" para unir el grupo centrado en Chile con el centrado en Estados Unidos.
145
Tabla 6.2.4: Frecuencias de Coocurrencia de Lugares Pares asociados Internet & Estados Unidos Japón & Estados Unidos España & Latinoamérica Estados Unidos & Canadá Latinoamérica & Estados Unidos España & Estados Unidos Brasil & Estados Unidos Chile & España Chile & Italia Chile & Inglaterra Chile & Argentina Internet & España Pares que aparecen 1 sola vez
Frec. 20 6 4 2 2 2 2 2 2 2 2 2 31
Gráfico 6.2.4: Red de relaciones entre Lugares Italia 2
2
Inglaterra 2
Chile 2
4
España 2 Internet
2 20
Argentina
Latinoamérica 2
2
Estados Unidos 6
Brasil
2
Canadá
Japón
No corresponde analizar las eventuales coocurrencias "internas" entre Fuentes, ya que no se anota cuando varias varias fuentes se refieren a la misma noticia (se registra la primera o la más precisa) y sólo se han registrado ocasionalmente dos fuentes cuando era necesario complementar la información de una con la otra.
146
6.3. Coocurrencias externas Después de estudiar las coocurrencias dentro de una mismo dimensión de datos, podemos ahora pasar al análisis de las relaciones entre dos dimensiones, buscando las asociaciones entre pares de atributos diferentes. Nuevamente hemos de crear las tablas de frecuencias y transformar éstas en redes de relaciones pero éstas tendrán ahora dos tipos diferentes de componentes, correspondientes a dos tipos de atributos cada vez. 6.3.1. Coocurrencias entre descriptores y clases de implicados Se dieron 2.227 combinaciones, que se agruparon en 618 pares diferentes. Los resultados aparecen en la siguiente Tabla, para las frecuencias superiores a 10, cifra que corresponde a uno de los posibles umbrales de visualización. No hemos indicado en el gráfico las frecuencias, para facilitar más su visualización. Aparecen aquí dos términos más centrales (con más vínculos): "Internet" como tema (descriptor) y "Empresas Informáticas" como tipo de implicados. Podemos agregarles "Empresas TI" (de Tecnologías de la Información), "Personas", "Organismos públicos", "Empresas de Telecomunicación", "Empresas comerciales" y "Empresas de asesoría o investigación", que son las clases con más de un vínculo. Paralelamente y además de "Internet", los Descriptores que aparecen con más de una relación son "Telecomunicaciones", "Seguridad", "Derecho", "Teléfono celular", "Música", "Digital" y "e-Comercio". Esto nos conduce al gráfico simplificado 6.3.1b, que constituye la síntesis más clara de lo hallado. Si comparamos ahora este gráfico con los gráficos de coocurrencias internas de los atributos que lo componen, podríamos volver atrás y simplificar estos gráficos anteriores de acuerdo a la presente selección, lo cual ayudaría a una mejor visión de lo realmente relevante. Como señalado en la metodología, este proceso de "ida y vuelta" es típico - e importante - en la minería de datos. Llama la atención aquí que no aparece "Fabricantes de Software", categoría a la cual pertenece Microsoft y que se diferencia de "Empresas Informáticas" en nuestra clasificación (expuesta en el Nº 5.3.3).
147
Tabla 6.3.1: Asociación entre descriptores y clases de implicados Términos Internet & Empresas TI Internet & Empresas informáticas Software & Empresas informáticas Internet & Org.públicos Internet & Personas Internet & MCM Digital & Empresas informáticas Estadística & Empresas ases./investig. Derecho & Org.públicos Sitio web & Empresas TI Internet & Empresas ases./investig. Sistema Operativo & Empresas informáticas Computador & Empresas informáticas Internet & Instit.enseñanza Internet & Empresas comerciales Digital & Empresas TI Periférico & Empresas informáticas Teléfono Celular & Empresas informáticas Industria & Empresas informáticas Internet & Org.internacionales Internet & Empresas telecomunic. Portal & Empresas TI Música & Empresas TI Telecomunicación & Empresas telecomunic. PDA & Empresas informáticas e-Comercio & Empresas TI Teléfono Celular & Empresas telecomunic. Hardware & Empresas informáticas Política & Org.públicos e-Comercio & Empresas ases./investig. Televisión & Empresas informáticas Seguridad & Org.públicos Seguridad & Personas Teléfono & Empresas telecomunic. Telecomunicación & Org.públicos e-Comercio & Empresas financieras Fotografía & Empresas informáticas Música & Empresas comerciales Procesador & Empresas informáticas Derecho & Personas
148
Frec. 64 47 42 40 38 34 34 31 31 29 27 26 25 23 23 22 22 22 21 21 20 20 19 19 19 18 17 15 15 14 13 13 13 13 12 12 11 11 11 11
Gráfico 6.3.1: Descriptores e Implicados (por clases)
Telecomunicaciones Personas
Seguridad Política
Organismos Internacion.
Teléfono
Empresas Telecomunic.
Derecho
Fotografía Telef. celular
Instituciones Enseñanza
Org.Públicos
Computador
MCM
PDA
Empresas comerciales Empresas ases./investig.
Internet
Digital
Música
Estadísticas
e-Comercio
Hardware
Empresas TI
Portal
Industria Sistema Operativo
Sitios Web
Empresas Informáticas
Software Periférico Televisión Procesador
Empresas financieras
(Los marcos punteados indican Implicados mientras los óvalos indican Descriptores)
149
Gráfico 6.3.1b: Descriptores y clases de Implicados con relaciones múltiples Telecomunicaciones Empresas Telecomunic.
Derecho Personas
Seguridad
Org.Públicos
Empresas comerciales Empresas ases./investig.
e-Comercio
Telef. celular Empresas Informáticas
Internet
Digital
Música
Empresas TI
6.3.2. Descriptores por períodos mensuales Dada la cantidad de descriptores aplicables (190) y el estrecho número de meses cubiertos (14) era lógico encontrar frecuencias bastante bajas, al menos en términos porcentuales. La siguiente tabla da cuenta de los casos en que se obtuvieron frecuencias mensuales iguales o superiores a 20 (cifra elegida solamente en razón de espacio). Como se podrá ver, la primera cifra aparece comparativamente muy elevada y corresponde a noticias relacionadas con Internet en marzo de 2001. Y todas las frecuencias superiores al 1% del total corresponden a Internet, lo cual nos llevó a hacer un análisis más detallado de la evolución mensual de las noticias en este sector (ver Gráfico 6.3.2). Si aislamos y ordenamos por mes las frecuencias correspondientes a "Internet", podemos ver con claridad el fuerte crecimiento correspondiente a los primeros meses del año (Gráfico 6.3.2a), que corresponde, por otra parte, a la curva evolutiva general que hemos visto al calcular las frecuencias totales (Gráfico 6.2.1b). Lo interesante sería poder verificar a futuro si esta tendencia se repite en otros años. 150
Tabla 6.3.2: Descriptores por mes Términos Internet & Marzo 2001 Internet & Febrero 2001 Internet & Enero 2001 Internet & Mayo 2001 Internet & Abril 2001 Internet & Junio 2001 Internet & Diciembre 2000 Internet & Octubre 2000 Internet & Noviembre 2000 Internet & Septiembre 2000 Digital & Enero 2001 Sitio web & Mayo 2001 e-Comercio & Marzo 2001 Internet & Julio 2001 Internet & Agosto 2000 Software & Junio 2001 Software & Mayo 2001 Digital & Marzo 2001 Economía & Abril 2001 Internet & Julio 2000 Digital & Julio 2001 Derecho & Febrero 2001 e-Comercio & Enero 2001 Digital & Junio 2001 Teléfono Celular & Marzo 2001 Comercio & Junio 2001 Sitio web & Junio 2001 Digital & Abril 2001 Sitio web & Julio 2001 Digital & Febrero 2001 Derecho & Marzo 2001 Comercio & Mayo 2001 Otros TOTALES
Frec. 117 97 91 82 70 61 60 53 53 41 34 32 32 30 29 29 28 26 26 24 24 24 23 22 22 22 21 21 20 20 20 20 3414 4688
% 2,50 2,07 1,94 1,75 1,49 1,30 1,28 1,13 1,13 0,87 0,73 0,68 0,68 0,64 0,62 0,62 0,60 0,55 0,55 0,51 0,51 0,51 0,49 0,47 0,47 0,47 0,45 0,45 0,43 0,43 0,43 0,43 72,82 100,00
Sabemos por otra parte (ver Estadísticas del nº 5.4.3) que "Digital" fue el segundo descriptor más frecuente. Si analizamos su aparición por mes, obtenemos la evolución descrita en el Gráfico 6.3.2b. Podemos ver que en enero 2001 hubo un alza mayor, aunque con un repunte en marzo. 151
152
200107
200106
200105
200104
200103
200102
200101
200012
200011
200010
200009
200008
200007
200006
200107
200106
200105
200104
200103
200102
200101
200012
200011
200010
200009
200008
200007
200006
200005
Grรกfico 6.3.2a: Noticias acerca de Internet por mes 120
100
80
60
40
20
0
Grรกfico 6.3.2b: Noticias "digitales" por mes
35
30
25
20
15
10
5
0
La repetición de estas cumbres, aproximadamente en el mismo período - a principio de año - nos llevó a preguntarnos si ocurría lo mismo con otros descriptores. La tercera mayor frecuencia, entre ellos, era "e-Comercio". Y el Gráfico 6.3.2c también nos muestra un punto alto en enero y otro mayor aún en marzo. Gráfico 6.3.2c: Noticias de "e-Comercio" por mes 35 30 25 20 15 10 5
200107
200106
200105
200104
200103
200102
200101
200012
200011
200010
200007
0
Nota: En este y otros gráficos semejantes pueden no aparecer algunos meses por el hecho de que, al no haber noticia alguna, no aparecen en la tabla de frecuencias.
El siguiente descriptor, por orden decreciente de frecuencia era "Derecho", que también muestra su punto cumbre en febrero y su segundo puntaje más alto en marzo. Pero ya no ocurre lo mismo con los siguientes ("Sitio Web", "Software", etc.), lo cual sugiere que alguna explicación debería encontrarse por la relación de estos descriptores con otros atributos o por razones que deban buscarse directamente en la lectura de la crónica de estos tres primeros meses del año, si las operaciones de Data Mining no ponen la explicación a la vista en alguna etapa posterior. El estudio de la cronología del caso Napster muestra que éste tuvo su peak en marzo, lo cual puede estar relacionado con las altas frecuencia de "Digital" y "Derecho" para marzo, ya que el caso Napster se describió habitualmente como "Derecho-Música-Digital-Internet" (El gráfico 6.3.2d muestra lo ocurrido con Napster).
153
154
200107
200105 200106
200104
200102 200103
200101
200011 200012
200010
200009
200007 200008
200006
200107
200106
200105
200104
200103
200102
200101
200011
200010
200009
200008
200007
Grรกfico 6.3.2d: "Napster" por mes 14
12
10
8
6
4
2
0
Grรกfico 6.3.3a: Microsoft por mes
30
25
20
15
10
5
0
6.3.3. Implicados por períodos mensuales Al referirnos al caso de los juicios contra Napster, hemos entrado en el análisis de lo ocurrido - a través del tiempo - con los "Implicados". Aunque algunos casos particulares, como el ya citado, pueden ser útiles de investigar, consideraremos aquí solamente los de más alta frecuencia, como lo hemos hecho en el caso de los descriptores. En esta perspectiva, descubriremos que Microsoft - el Implicado más citado - fue especialmente objeto de noticias en marzo, mayo y junio de 2001, con cifras ampliamente superiores a las del año 2000 (Gráfico 6.3.3a). Se han juntado aquí noticias relativas tanto a los juicios que se le siguen en Estados Unidos y Europa cuanto al lanzamiento de nuevos productos y reacciones de expertos al respecto. El siguiente "Implicado" más frecuente era el conjunto de los "Fabricantes de software". En este caso, las frecuencias más altas se encuentran en enero y junio de 2001 (Gráfico 6.3.3b).
Gráfico 6.3.3b: "Fabricantes de software" por mes 25
20
15
10
5
200007 200008 200009 200010 200011 200012 200101 200102 200103 200104 200105 200106 200107
0
155
En el caso de "Sitio Web", que tiene la tercera mayor frecuencia, la curva evolutiva es fluctuante, pero muestra un alza importante en los últimos meses del estudio y a pesar de que el último, recordémoslo, se cubrió solo hasta el día 20 (Gráfico 6.3.3 c). Tanto en este caso como en el anterior, y considerando que el número total de noticias registradas en junio y julio 2001 estuvo en descenso (ver nº 6.2.1), se ha de concluir que se ha presentado una coyuntura muy especial en estos dos meses, que merecería también un estudio más profundo. Gráfico 6.3.3c: "Sitios Web" por mes 25
20
15
10
5
200107
200106
200105
200104
200103
200102
200101
200012
200011
200010
200008
0
6.3.4. Lugares y Descriptores Obtuvimos aquí 1.881 casos de coocurrencia para los 190 descriptores y 57 nombres de lugares, casos que se agruparon en 598 pares diferentes, con una frecuencia máxima de 162 para el descriptor Internet asociado a Estados Unidos. Todas las asociaciones con frecuencias iguales o superiores a 10 que enlistamos aquí se concentran en 5 países: Estados Unidos, Chile, España, Europa, Japón, además de la "ubicua" Internet, como lo hacía esperar la estadística de frecuencias geográficas netas. (No calculamos los porcentajes que, como ya lo hemos mostrado, son extremadamente bajos, además de no permitir comparación alguna con otros resultados).
156
Tabla 6.3.4: Coocurrencias entre Descriptores y Lugares Términos Internet & Estados Unidos Música & Estados Unidos Internet & Chile Estadística & Estados Unidos Internet & España Industria & Estados Unidos Internet & Internet Sistema Operativo & Estados Unidos Ética & Estados Unidos Software & Estados Unidos Sitio web & Estados Unidos Educación & Chile Telecomunicación & Chile Hardware & Estados Unidos Estadística & Chile Internet & Europa Memoria & Estados Unidos Informática & Estados Unidos Internet & Japón Sitio web & Chile Telecomunicación & Estados Unidos Televisión & Estados Unidos e-Libro & Estados Unidos Información & Estados Unidos Estadística & Internet Publicidad & Estados Unidos Educación & Estados Unidos Lenguaje & Estados Unidos Cine & Estados Unidos Computador & Estados Unidos
Frec. 162 74 52 45 38 33 29 27 26 22 20 17 17 16 15 14 12 12 12 12 12 12 12 11 11 11 10 10 10 10
Las irregularidades en la evolución de las frecuencias -que pueden indicar útiles umbrales para la visualización- se encuentran en las frecuencias 17, 12 y 7. Deberíamos haber utilizado la frecuencia 12 como límite de visualización pero, como se observa en la Tabla, en 10 aparece el descriptor "Educación", que nos permite cerrar una red que muestra un vínculo más entre Chile y Estados Unidos. Hemos ubicado y marcado especialmente, en el gráfico, los componentes que forman la red que enlaza Estados Unidos y Chile, compuesto de 5 descriptores (los que, por esta exclusiva razón, hemos puesto en letra cursiva). Nos parece que éste es uno de los resultados menos previsibles que nuestra DM puso en evidencia y serían pistas interesantes para un análisis de periodismo interpretativo.
157
Gráfico 6.3.4: Red de Descriptores y Lugares
Lenguaje Informática
Software
Hardware
Memoria
Sistema Operativo
Música
Industria
Estados Unidos
Etica
e-Libro
Publicidad Educación Sitio Web
Televisión Telecomunicación
Cine Computador Información
Estadística Chile
Internet Internet
Europa
España
Japón
6.3.5. Lugares y períodos mensuales Las 1.766 noticias formaron 270 pares diferentes al agruparse por meses y lugares (15 meses y 57 lugares). Estados Unidos ha predominado en nuestras noticias desde octubre del 2000, mientras Chile le siguió con más noticias en noviembre 2000, enero, marzo, mayo y junio 2001. Internet -como "Lugar"sólo aparece con la muy baja frecuencia 7 en algunos meses (fuera de la tabla aquí reproducida).
158
Tabla 6.3.5: Reparto geográfico mensual Términos Estados Unidos & Marzo 2001 Estados Unidos & Junio 2001 Estados Unidos & Mayo 2001 Estados Unidos & Enero 2001 Estados Unidos & Febrero 2001 Estados Unidos & Abril 2001 Estados Unidos & Julio 2001 Estados Unidos & Octubre 2000 Estados Unidos & Diciembre 2000 Estados Unidos & Noviembre 2000 Chile & Mayo 2001 Chile & Enero 2001 Chile & Junio 2001 Chile & Noviembre 2000 Chile & Marzo 2001 Estados Unidos & Septiembre 2000 Chile & Diciembre 2000 Estados Unidos & Julio 2000 Estados Unidos & Agosto 2000 España & Octubre 2000 España & Marzo 2001 Chile & Abril 2001 Estados Unidos & Junio 2000 España & Mayo 2001 Internet & Mayo 2001 España & Junio 2001 España & Febrero 2001 Chile & Julio 2001 Japón & Febrero 2001 Internet & Junio 2001 España & Noviembre 2000 Japón & Marzo 2001 Internacional & Mayo 2001 Europa & Abril 2001 Chile & Febrero 2001 Japón & Junio 2001 Europa & Mayo 2001 España & Enero 2001 España & Abril 2001 España & Julio 2001 Internet & Abril 2001
Frec. 94 85 81 79 76 75 51 48 46 42 34 31 26 23 23 22 22 18 17 17 17 17 16 16 15 14 13 13 13 13 12 12 12 11 11 11 10 10 10 10 10
En Estados Unidos, la mayor cantidad de noticias se registró en marzo y junio de 2001, mientras en Chile la frecuencia más alta corresponde a mayo y enero. El gráfico (construído a partir de la tabla completa) -en que se comparan los tres países con mayores frecuencias- muestra claramente la amplia diferencia entre ellos. Obviamente las noticias de España son menores debido a que no se 159
registran las noticias que se estiman demasiado "localistas", a diferencia de las de Chile, por ser el país sede de nuestra universidad. Nuevamente hay que observar aquí que se requeriría la información de varios años para ver en qué medida alguna estacionalidad puede estar influenciando los resultados. (Recordemos que nuestros tres primeros meses son poco representativos debido a que corresponden a la puesta en marcha de nuestra revista.) Gráfico 6.3.5: Evolución de la cantidad de noticias de Estados Unidos, Chile y España 100 EE.UU.
90 80 70 60 50 40
Chile
30 20 10
España 200107
200106
200105
200104
200103
200102
200101
200012
200011
200010
200009
200008
200007
200006
200005
0
6.3.6. Lugares y clases de Implicados Obtuvimos aquí un total de 1.692 coocurrencias, que se agrupan en 248 pares diferentes, asociando 57 Lugares con nuestras 16 clases de Implicados. La evolución de las frecuencias es irregular entre las 23 y 8, como se puede apreciar en la siguiente tabla, por lo cual el umbral de graficación puede situarse en cualquier punto entre estas cifras (Nos detuvimos en la frecuencia 9). 160
Tabla 6.3.6: Asociación entre Lugares y clases de Implicados Términos Estados Unidos & Empresas informáticas Estados Unidos & Empresas TI * Estados Unidos & Org.públicos Chile & Org.públicos Estados Unidos & Empresas ases./investig. Japón & Empresas informáticas España & Empresas TI Estados Unidos & MCM Internet & Empresas TI Chile & Asoc.empresas Estados Unidos & Personas Chile & Empresas TI Estados Unidos & Instit.enseñanza Europa & Org.internacionales Estados Unidos & Org.internacionales Internacional & Empresas informáticas Estados Unidos & Empresas telecomunic. España & Empresas informáticas Estados Unidos & Empresas comerciales Chile & Empresas informáticas Chile & Empresas telecomunic. Chile & Personas Internet & Empresas ases./investig. España & Instit.enseñanza Alemania & Empresas informáticas Internet & Empresas informáticas España & Empresas telecomunic. España & Org.públicos Chile & Instit.enseñanza Desconocido & Empresas informáticas Estados Unidos & Asoc.empresas España & MCM Estados Unidos & Empresas servicios Internet & Personas Bélgica & Org.internacionales Chile & Empresas ases./investig. Japón & Empresas telecomunic. * TI = Tecnologías de la Información
161
Frec. 288 114 85 73 68 55 35 33 30 26 25 24 23 23 21 18 17 17 16 16 16 16 14 13 13 13 12 11 11 11 10 10 9 9 8 8 8
Gráfico 6.3.6: Asociación entre Lugares y clases de Implicados
Asociac.de Empresas
Empresas TI
Personas Organismos Internacion.
Empresas Telecomunic.
Chile
Empresas de Servicios
Org.Públicos
Empresas comerciales
Instituciones Enseñanza
MCM Estados Unidos
Empresas ases./investig.
Empresas Informáticas Japón
Internet
Empresas ases./investig.
Internacional Alemania Empresas TI España
Los resultados son bastante semejantes a los obtenidos para las coocurrencias entre Lugares y Descriptores. Es interesante ver en este gráfico como se cierra la red que une a España con Estados Unidos y con Chile: aparecen dos subredes con elementos comunes, cosa que sería interesante estudiar y comentar más detenidamente en un análisis periodístico. Para mayor evidencia simplificamos el gráfico dejando solamente los elementos comunes:
162
Gráfico 6.3.6a: España, Chile y Estados Unidos Principales clases de Implicados comunes Empresas Telecomunic.
Chile
Org.Públicos Instituciones Enseñanza Empresas Informáticas
Estados Unidos
España
Empresas TI
El gráfico 6.3.6 muestra también las diferencias entre las clases de Implicados que aparecen en las noticias de cada país, al menos en lo que puedan interesar localmente en el caso de Chile e internacionalmente en el caso de los demás países o lugares. Es especialmente claro el caso de Estados Unidos, asociado principalmente con numerosas empresas informáticas y de otros tipos, mientras en el caso local de Chile el interés se centra mucho más en los Organismos Públicos (esencialmente iniciativas de gobierno) y se da proporcionalmente más importancia a las Personas e Instituciones de Enseñanza. Parece bastante claro que la diferencia no se debe, en este caso, exclusivamente a criterios selectivos del editor de la hiperrevista "TDC" sino efectivamente a coyunturas nacionales diferentes. El gráfico 6.3.6a pone estos hechos mejor en evidencia, siendo otra buena muestra de lo aportado por nuestra minería de datos. En la Tabla 6.3.6a hemos incluído España dada la situación especial puesta en evidencia por el Gráfico 6.3.6, pero no incluimos este país en el Gráfico 6.3.6b para visualizar mejor la diferencia comentada entre Estados Unidos, país desarrollador de tecnología, y Chile, país usuario de tecnología, que cuenta además con nuestro interés local. España aparece como un tercero, dependiente en gran parte de Estados Unidos a la vez que controlador de empresas chilenas y desarrollador de algunos servicios para todo el área hispanoamericano (lo cual afecta e interesa también a Chile). Este nuevo gráfico deja muy claro que, mientras Estados Unidos se destaca por la importancia de las Empresas Informáticas, Chile lo hace por el rol de los Organismos Públicos, lo cual corresponde a la importancia dada por el gobierno al tema de las nuevas tecnologías digitales en la política y los planes de desarrollo del país. 163
Tabla 6.3.6a: Clases de Implicados (Porcentajes comparados) % en % en USA CHILE Org.públicos 11,7 32,3 Asoc.empresas 1,4 11,5 Empresas TI * 15,6 10,6 Empresas informáticas 39,5 7,1 Empresas telecomunic. 2,3 7,1 Personas 3,4 7,1 Instit.enseñanza 3,2 4,9 Empr. ases./investig. 9,3 3,5 Empresas comerciales 2,2 3,1 MCM 4,5 2,7 Asoc.centros de estudios 0,0 2,2 Org.internacion. 2,9 2,2 Org.temporales 1,0 1,8 Empresas financieras 1,0 1,8 Asoc.personas 0,8 1,3 Empresas servicios 1,2 0,9 100,0 100,0 * Empresas de Tecnologías de la Información Clases
% en ESPAÑA 8,2 2,2 26,1 12,7 9,0 3,7 9,7 3,0 3,0 7,5 2,2 4,5 0,0 1,5 5,2 1,5 100,0
Gráfico 6.3.6b: Clases de Implicados en Chile vs. Estados Unidos 40,0 USA 35,0 CHILE 30,0 25,0 20,0 15,0 10,0 5,0
164
Personas
MCM
Empresas telecomunic. Empresas financieras Empresas comerciales
Empresas TI
Empresas servicios Empresas informáticas
Instit.enseñanza
Empr.
ases./investig.
Org.temporales
Org.públicos
Org.internacion.
Asoc.pesonas
Asoc.empresas
Asoc.centros de estudios
0,0
6.3.7. Fuentes y clases de Implicados ¿Existe algún indicio de que nuestras Fuentes discriminan las noticias en función de ciertos tipos de Implicados? Ésta es la pregunta que podríamos hacernos aquí, especialmente considerando que gran parte de nuestras fuentes son medios periodísticos no especializados pero que tienen una sección dedicada a la tecnología. Sin embargo, se debe tener en cuenta que nuestra publicación "TDC" realiza a su vez una selección y descarta las noticias que no corresponden al ámbito que pretende cubrir. Por lo tanto, los resultados están sesgados debido al criterio editorial de nuestra hiperrevista. A partir de la Tabla 6.3.7 hicimos un análisis visual ordenando de diversas maneras los datos de la Tabla. Para asegurar una mejor comparación, calculamos el porcentaje relativo ponderado de tipos de Implicados señalados para cada fuente en particular (sólo para fuentes apareciendo repetidamente en dicha Tabla), a partir de lo cual obtuvimos el gráfico 6.3.7 que pone en evidencia que la CNN, Mouse, Noticias.com y el Wall Street Journal arrojan porcentajes similares, con un "modo" relativo a las Empresas Informáticas, lo cual es claramente la expresión de la tendencia general de la información ya que este indicador corresponde a la frecuencia más alta para el total de las noticias (Ver Tabla 6.2.5). MTG tiene rangos muy próximos entre sí, lo cual no permite conclusión alguna, mientras las noticias recogidas de Wired se refieren más frecuentemente a Organismos públicos, lo cual puede ser un sesgo, pero probablemente de responsabilidad del editor de TDC (sabiendo que la proporción de noticias que se extraen de Wired es muy baja en comparación con las recibidas).
6.3.8. Descriptores y Fuentes Para los 190 descriptores y las 76 fuentes, hemos obtenido 1.835 asociaciones, repartidas en 757 pares diferentes. La cantidad de frecuencias idénticas es, en el presente caso, bastante irregular y sólo se observa un crecimiento rápido -sin quiebres- a partir de la frecuencia 7. Sin embargo, paramos en la frecuencia 10 por razones de legibilidad del gráfico. Podemos ver aquí que la revista Mouse (del diario "La Tercera de la Hora") ha sido referenciada en TDC esencialmente en relación a temas de Internet, de Música y Estadísticas. La CNN sólo aparece con alta frecuencia en relación a Internet. El análisis de la evolución cronológica de las fuentes muestra, por otra parte, un cambio en la CNN, disminuyendo fuertemente sus noticias sobre Tecnologías Digitales en el año 2001, lo cual puede explicar su aparente aislamiento temático en el gráfico 6.3.8.
165
Tabla 6.3.7: Asociación entre Fuentes y clases de Implicados Términos Mouse (La Tercera) & Empresas informáticas Noticias.com & Empresas informáticas Mouse (La Tercera) & Org.públicos CNN & Empresas informáticas El Mercurio & Empresas informáticas Mouse (La Tercera) & Empresas TI WallStreet Journal Interactivo & Empresas informáticas Noticias.com & Empresas TI Wired & Org.públicos Mouse (La Tercera) & Empresas ases./investig. Mouse (La Tercera) & Org.internacionales Noticias.com & Org.públicos I Actual & Empresas ases./investig. Wired & Empresas informáticas BPenet & Empresas informáticas MTG & Org.públicos WallStreet Journal Interactivo & Empresas TI CNN & Empresas TI MTG & Empresas informáticas Wired & Empresas TI I Actual & Empresas informáticas Noticias.com & Empresas ases./investig. Diario TI & Empresas informáticas El Mercurio & Empresas TI Mouse (La Tercera) & MCM Noticias.com & Empresas telecomunic. CNN & Org.públicos Mouse (La Tercera) & Asoc.empresas Mouse (La Tercera) & Personas Noticias.com & Empresas comerciales Wired & Personas Navegante.com & Empresas TI MTG & Empresas TI WallStreet Journal Interactivo & Empresas telecomunic. CNN & Personas Diario TI & Empresas ases./investig. I Actual & Empresas TI Mouse (La Tercera) & Empresas financieras MTG & Asoc.empresas Noticias.com & Org.internacionales Wired & MCM
166
Frec. 104 99 70 47 46 44 44 37 35 23 22 22 21 21 18 18 17 16 16 16 15 15 14 13 13 13 12 12 12 12 12 12 11 11 10 10 10 10 10 10 10
GrĂĄfico 6.3.7: Frecuencias de Clases de Implicados segĂşn Fuentes (% relativo) 90
80
70
60
50
40
30
20
10
0 CNN CNN CNN CNN Mouse Mouse Mouse Mouse Mouse Mouse Mouse Mouse Mouse MTG MTG MTG MTG Noticias.com Noticias.com Noticias.com Noticias.com Noticias.com Noticias.com Noticias.com WallStreet J. WallStreet J. WallStreet J. Wired Wired Wired Wired Wired
% relativo Tipos
167
Tabla 6.3.8: Asociación entre Descriptores y Fuentes Términos Internet & Mouse (La Tercera) Internet & CNN Internet & Noticias.com Estadística & Mouse (La Tercera) Internet & WallStreet Journal Interactivo Internet & Wired Internet & El Mercurio Música & Mouse (La Tercera) Internet & I Actual Música & Noticias.com Estadística & Noticias.com Internet & MTG Estadística & I Actual Internet & Diario TI Industria & Mouse (La Tercera) Sitio web & Mouse (La Tercera) Música & Wired Sistema Operativo & Mouse (La Tercera) Educación & Mouse (La Tercera) Industria & WallStreet Journal Interactivo Telecomunicación & Noticias.com Internet & BPenet Internet & Navegante.com Software & Mouse (La Tercera)
Frec. 87 44 41 24 24 24 22 20 20 18 16 16 15 14 13 13 12 12 11 11 11 10 10 10
Hemos hecho además el ejercicio de combinar estos datos con las coocurrencias internas de Descriptores (Ver nº 6.2.1), lo cual muestra que, en el actual gráfico, sólo "Sistema operativo" y "Telecomunicación" quedan aislados, mientras "Industria" se empareja con "Software" y tanto este último como los restantes se asocian con "Internet" (ver curvas punteadas del Gráfico 6.3.8b). Si analizamos de otra forma la tabla de todas las frecuencias de asociación entre Descriptores y Fuentes superiores a 1 - es decir en que los temas aparecieron más de una vez -, podremos observar que los medios en que hemos encontrado la mayor diversidad y repetición de temas son diez, partiendo por Mouse, Noticias.com (Intercom) y Wired (Tabla 6.3.8b).
168
Gráfico 6.3.8: Red de Descriptores y Fuentes Sistema Operativo
Educación Sitio Web
Software
Estadística
Telecomunicación
Mouse Música
Industria Wired
WSJI
Noticias.com
Internet
I Actual
CNN
El Mercurio Diario TI
Navegante MTG
BPenet
Gráfico 6.3.8b: Red acumulativa de interrelaciones (Fuentes y Descriptores entre sí) Sistema Operativo
Educación Sitio Web
Estadística
Software
Música
Industria Wired
WSJI
I Actual
Telecomunicación
Mouse
Internet
169
Noticias.com
Tabla 6.3.8b: Diversidad de temas en las Fuentes Fuentes Mouse Noticias.com Wired CNN El Mercurio MTG * WallStreet Journal Interactivo I Actual Navegante.com (El Mundo) Diario TI
Temas 48 38 26 25 21 18 18 11 10 9
* "MTG" cambió de nombre a "Metro Diario", momento a partir del cual dejamos de utilizarlo como fuente (siendo incompatible para nosotros su horario de distribución).
6.4. Asociaciones de tres atributos El último Gráfico presentado (6.3.8b) nos ha introducido en realidad en una nueva etapa de investigación: la de las relaciones tri- o multidimensionales (entre tres o más atributos o ejes del espacio de datos). Para el tratamiento de las tríadas, utilizamos un sistema semejante al utilizado para las "coocurrencias externas" entre dos atributos. Más adelante (ver nº 6.5) hablaremos brevemente del análisis multidimensional basado en otros procedimientos. No abordaremos aquí todas las combinaciones triádicas posibles (que son diez), sino las cuatro que nos partecieron más relevantes y más prometedoras. 6.4.1. Tríada Descriptor-Implicado-Lugar Partiremos considerando las asociaciones o coocurrencias entre Descriptores, Implicados y Lugares. Para optimizar el ordenamiento, colocamos primero el Lugar -que tiene el menor número de posibles valores diferentes, luego el Implicado y finalmente el Descriptor (donde hay mayor diversidad de posibles valores). Obtuvimos 4.668 tríadas, 1.274 de las cuales aparecieron más de una vez. En la Tabla 6.4.1 mostramos las frecuencias superiores a 17, por orden decreciente. Nos detenemos en este número por ser el primer posible umbral de visualización (y el único que define una tabla cuya longitud no exceda una página de este libro). 170
Tabla 6.4.1: Tríadas Lugar-Implicados-Descriptores Tríadas Estados Unidos + Microsoft + Software Estados Unidos + Microsoft + Internet Estados Unidos + Napster + Música Estados Unidos + Napster + Digital Estados Unidos + Napster + Internet Estados Unidos + Empresa de Investigación + Internet Estados Unidos + Microsoft + Sistema Operativo Estados Unidos + Sitio Web + Internet Estados Unidos + Napster + Copyright Estados Unidos + Fabricante de software + Software Estados Unidos + Microsoft + Seguridad Estados Unidos + Napster + Sitio web Estados Unidos + Sitio Web + Sitio web Estados Unidos + AOL Time Warner + Internet Estados Unidos + Tribunal + Derecho Estados Unidos + Fabricante de software + Internet Estados Unidos + Fabricante de hardware + Hardware
Frec 56 50 47 43 34 33 32 28 21 21 20 20 20 18 18 18 18
La primera observación es que, en este rango, solamente aparecen hechos ocurridos en Estados Unidos (el país que aparece con mayor frecuencia, según consta en nuestras estadísticas, ver nº 5.4.2) o, eventualmente, en dicho país y otro más, o situados a la vez en Internet, ya que se pueden registrar dos Lugares en el campo de datos correspondiente. Sabemos por otra parte (ver nº 6.2.4) que los Implicados más frecuentes son "Microsoft", "Fabricantes de Software", "Sitios Web" y "Empresas de Investigación", y los Descriptores más frecuentes (ver nº 6.2.3) "Internet" y "Digital". No es extraño, por lo tanto, volver a encontrarlos aquí. Pero se destacan algunas novedades, como la ausencia en las tríadas más frecuentes de temas tan frecuentes como "e-Comercio" o la baja aparición de "Derecho". Tampoco está aquí "Gobierno", que - en la estadística básica - aparece en total 72 veces (más que "Napster"). Para la visualización, optamos por el sistema de gráficos de tres columnas, que es sin duda el más adecuado para representar este tipo de vínculos. La principal ventaja de este tipo de gráfico es su legibilidad, ya que permite evitar numerosas repeticiones y pone fácilmente en evidencia los nodos (valores de atributos) más conectados. Su desventaja es que sólo permite trazar los vectores que unen dos de las tres series: se asume que los vectores que unen la primera con la tercera 171
columna son "absorbidos" o contenidos en los que unen la primera con la segunda y ésta con la tercera, pero no hay una correspondencia exacta, por lo cual se pierde cierto nivel de detalle. En el nº 6.4.3 mostraremos otro tipo de gráfico, que conserva las tres clases de vectores de asociación, pero al costo de un lectura más difícil (especialmente en una escala pequeña y sin colores, a diferencia de lo que ocurre en la pantalla del ordenador). Gráfico 6.4.1: Tríadas Lugar-Implicados-Descriptores Seguridad Microsoft
Software
Napster
Internet
Empresa de Investigación Estados Unidos
Música Digital
Sitio Web
Sistema Operativo
Fabricante de software
Copyright
AOL Time Warner
Sitio Web
Tribunal
Derecho
Fabricante de hardware
Hardware
El gráfico 6.4.1 pone en evidencia que existen tres puntos de concentración de nexos, aparte del lugar de ocurrencia de los hechos noticiosos: "Microsoft" y "Napster", como Implicados, además de "Internet" como Descriptor. Tanto este Gráfico como los que siguen nos confirman que Microsoft y Napster han sido los protagonistas más detacados de los meses considerados, ambos afectados por acciones en justicia, aunque Microsoft también genera otras noticias al anunciar nuevos productos y ser objeto de múltiples denuncias por fallas de seguridad o ataques de virus, lo cual aparece en las descriptores "Software" y "Seguridad". 6.4.2. Tríada Descriptor-Implicado-Fecha En este caso pudimos extraer 5.339 tríadas, de las cuales 1.460 aparecían más de una vez. La Tabla 6.4.2 recoge las que tuvieron una frecuencia superior a 8, uno de los posibles umbrales de visualización.
172
El Gráfico 6.4.2a muestra la red de relaciones que puede extraerse de dicha tabla. Vemos aquí una "decantación" de los gráficos 6.2.1 y 6.2.2 que presentaban las coocurrencias internas de Descriptores e Implicados. Tabla 6.4.2: Tríadas Fechas-Implicados-Descriptores Tríada 2001-07 + Sitio Web + Sitio web 2001-06 + Microsoft + Software 2001-05 + Microsoft + Software 2001-03 + Microsoft + Internet 2001-03 + Napster + Música 2001-03 + Napster + Digital 2000-11 + Sitio Web + Internet 2001-05 + Microsoft + Sistema Operativo 2001-05 + Sitio Web + Internet 2001-06 + Sitio Web + Internet 2001-05 + Sitio Web + Sitio web 2000-12 + Empresa de Investigación + Internet 2001-02 + Empresa de Investigación + Internet 2001-03 + Gobierno + Internet 2001-03 + Napster + Internet 2001-07 + Microsoft + Software 2001-01 + Empresa de e-comercio + e-Comercio 2001-03 + Napster + Copyright 2001-03 + Sitio Web + Internet 2001-04 + Napster + Música 2001-05 + Microsoft + Comercio 2001-06 + Sitio Web + Sitio web 2001-07 + Sitio Web + Internet 2001-07 + Fabricante de hardware + Digital
Frec. 22 18 15 14 13 13 12 12 12 12 11 10 10 10 10 10 9 9 9 9 9 9 9 9
Los Gráficos 6.4.2b y c muestran el cubo tridimensional con la ubicación de los puntos (pequeños cuadrados) correspondientes a este mismo grupo de tríadas tomando como coordenadas los valores de los tres atributos que las conforman (Hacen abstracción de las variaciones de frecuencia). El software "GVA" utilizado -del cual hablaremos más en detalle en el nº 6.5 - permite girar el cubo y enfocarlo desde múltiples ángulos. Presentamos aquí dos vistas del mismo, enfrentando alternativamente los dos ejes del plano horizontal. Se observan claramente las agrupaciones de Descriptores en la franja correspondiente a "Internet", "Software" y "Sistema Operativo" (Gráfico 6.4.2b en láminas a color) y de fechas a fines del 2000 y en julio 2001 (Gráfico 6.4.2c en láminas a color), mientras en ambos gráficos se ve (eje Y) cómo hay una mayor concentración de descriptores en el rango de los 400, en que están "Microsoft" y "Napster".
173
No presentamos este tipo de gráfico para las otras tríadas debido a que no hay suficiente diversidad de "Lugares", por lo cual los gráficos tridimensionales (difíciles de interpretar si no se pueden hacer girar, como en la pantalla del ordenador) no aportan prácticamente nada a los bidimensionales. Gráficos 6.4.2a: Tríadas Fechas-Implicados-Descriptores Copyright Música 2000-11
Napster Digital
2000-12 2001-01 2001-02
Sitio Web
Sitio Web
Empresa de Investigación
Internet
2001-03 Gobierno
Sistema Operativo
Microsoft
Comercio
Fabricante de hardware
Software
2001-04 2001-05 2001-06 2001-07
Empresa de e-comercio
E-comercio
6.4.3. Tríada Descriptor-Lugar-Fecha La extracción de esta tríada arrojó 2.467 casos, de los cuales 1.495 aparecieron más de una vez. Exponemos y graficamos las que arrojaron frecuencias superiores a 20. Dominan claramente aquí los hechos centrados en Estados Unidos y que podían describirse mediante el conjunto "Música-Digital-Internet", lo cual alude claramente, otra vez, al caso del juicio contra Napster y otros hechos correlacionados, como los acuerdos entre empresas discográficas para desarrollar sus propios sitios de distribución de música digital y la aparición de otros sitios que empezaron a facilitar el intercambio de música que Napster ya no podía satisfacer. De este modo, sumando la información que aparece así con la arrojada por etapas anteriores, vemos claramente la aparición de un "cluster", es decir de un subconjunto de informaciones fuertemente ligadas entre sí, lo cual es otro de 174
los productos esperados de la minería de datos. Por otra parte, se puede observar que podría haber ocurrido algo especial en marzo, que justifique la densidad de la tríada "2001-03 + España + Internet", la cual podría considerarse para otro estudio periodístico específico. Aprovecharemos el hecho de que ésta sea la Tabla con las mejores agrupaciones para mostrar otro tipo de gráfico frecuentemente usado - y generado en forma automática - en DataMining. Se trata de la "agrupación circular": se divide un círculo de acuerdo al número de atributos considerados (tres en nuestro caso) y cada fragmento de acuerdo al número de valores tomados por estos atributos, los cuales se anotan en la circunferencia. Luego se unen entre sí de acuerdo a los vínculos de asociación revelados por el cálculo. Apuntando sobre cada vector, se pueden leer sus características (qué valores une y con qué frecuencia) y se pueden seleccionar diversos colores para una mejor diferenciación tanto de los vectores como de los atributos. Aquí hemos utilizado líneas enteras y punteadas, así como diferentes estilos para los atributos. (Ver Gráfico 6.4.3b en láminas a color). Este tipo de gráfico permite incluir con mayor facilidad los vínculos que cierren las tríadas, mientras en el gráfico de columnas (que se ha de confeccionar manualmente) los terceros vectores cruzarían por sobre los términos de la columna central (razón por la cual no se incluyen). Tabla 6.4.3: Tríadas Fechas-Lugares-Descriptores Tríadas 2001-03 + EE.UU. + Internet 2001-01 + EE.UU. + Internet 2001-02 + EE.UU. + Internet 2000-12 + EE.UU. + Internet 2001-04 + EE.UU. + Internet 2001-04 + EE.UU. + Digital 2001-04 + EE.UU. + Música 2001-05 + EE.UU. + Internet 2001-06 + EE.UU. + Internet 2000-10 + EE.UU. + Internet 2000-11 + EE.UU. + Internet 2001-01 + EE.UU. + Digital 2001-01 + Chile + Internet 2001-03 + EE.UU. + e-Comercio 2001-06 + EE.UU. + Software 2001-06 + EE.UU. + Sistema Oper. 2001-07 + EE.UU. + Internet 2001-04 + EE.UU. + e-Comercio
Frec. 81 73 62 56 54 51 48 46 42 40 36 35 35 35 34 30 30 28
2001-05 + EE. UU. + Sitio web 2001-07 + EE.UU. + Digital 2000-11 + Chile + Internet 2001-01 + Chile + e-Comercio 2000-08 + EE.UU. + Internet 2001-03 + Estados UU. + Derecho 2001-06 + Chile + Internet 2001-03 + España + Internet 2001-05 + EE.UU. + Comercio 2001-07 + EE.UU. + Sitio web 2001-07 + EE.UU. + Software 2000-09 + EE.UU. + Internet 2000-12 + Chile + Internet 2001-03 + Chile + Telecomunicac. 2001-04 + EE.UU. + Economía 2001-03 + EE.UU. + Digital 2001-05 + EE.UU. + Software 2001-05 + Chile + Internet
175
Frec. 28 27 26 26 25 25 25 24 23 23 23 22 22 22 22 21 21 21
Gráfico 6.4.3: Tríadas Fechas-Lugares-Descriptores 2000-08
Hardware
2000-09
Economía
2000-10
Derecho
2000-11
Sitio Web
2000-12
Sistema Operativo
2001-01 2001-02
Estados Unidos
Digital Software
2001-03
Comercio
2001-04 2001-05
Música
E-comercio Chile
2001-06 España 2001-07
Internet Telecomunicación Tecnología
Gráfico 6.4.4: Tríadas Fechas-Lugares-Implicados 2000-10
Suecia
2000-11
Científico Napster
2000-12
Sitio Web
2001-01
Empresa de Investigación
2001-02 2001-03 2001-04
Estados Unidos
AOL Time Warner Microsoft
Internet Fabricante de hardware
2001-05 2001-06
Fabricante de software
2001-07
176
Gr谩ficos 6.4.2b y c: Proyecci贸n tridimensional 6.4.2b: Descriptores en plano frontal (Eje X) (Implicados en eje Y)
6.4.2c: Meses en plano frontal (Eje Z)
177
Gráfico 6.4.3b: Tríadas F-L-D (Forma circular) Chile
Estados Unidos
España Hardware
2000-08
Economía
2000-09
Derecho
2000-10
Sitio Web
2000-11
Sistema Operativo
2000-12
Música
2001-01
Digital
2001-02
Software 2001-03
Comercio
2001-04
E-comercio
2001-05
Internet
2001-06 2001-07
Telecomunicación Tecnología
Gráfico 6.5.2: Noticias ordenadas por descriptor, implicado y fuente
178
Grรกfico 6.5.1a: Cien noticias en cinco dimensiones
Grรกfico 6.5.1b: Visualizaciรณn separando casos extremos
179
Conjunto de Mandelbrot
Arriba: el contorno del conjunto completo. Abajo: ampliaci贸n de un fragmento de su per铆metro. Se puede ver claramente que en el centro del mismo vuelve a aparecer la figura del conjunto completo. Lo mismo ocurre con la ampliaci贸n de cualquiera de los aparentes "tent谩culos" que lo conforman.
180
6.4.4. Tríada Implicado-Lugar-Fecha Considerando ahora los vínculos entre Implicados, Lugares y Fechas, obtuvimos 1.839 tríadas, de las cuales 1.728 ocurren más de una vez. Seleccionamos las superiores a 18 por nuestro procedimiento habitual, transcribimos la tabla correspondiente y confeccionamos el gráfico de tres columnas. Tabla 6.4.4: Tríadas Fechas-Lugares-Implicados Tríadas 2001-03 + Estados Unidos + Napster 2001-05 + Estados Unidos + Microsoft 2001-06 + Estados Unidos + Microsoft 2001-03 + Estados Unidos + Microsoft 2001-07 + Estados Unidos + Fabricante de hardware 2001-01 + Estados Unidos + Fabricante de hardware 2001-07 + Estados Unidos + Microsoft 2001-05 + Estados Unidos + Sitio Web 2000-11 + Estados Unidos + Fabricante de hardware 2001-04 + Estados Unidos + Microsoft 2001-04 + Estados Unidos + Napster 2001-06 + Estados Unidos + Fabricante de hardware 2001-02 + Estados Unidos + Microsoft 2001-07 + Estados Unidos + Sitio Web 2001-05 + Estados Unidos + Napster 2001-07 + Internet + Sitio Web 2001-06 + Estados Unidos + Napster 2001-07 + Estados Unidos + Fabricante de software 2001-02 + Estados Unidos + Empresa de Investigación 2001-03 + Estados Unidos + Fabricante de software 2000-10 + Suecia + Científico 2000-11 + Estados Unidos + Microsoft 2001-01 + Estados Unidos + Microsoft 2001-02 + Estados Unidos + Napster 2001-06 + Estados Unidos + AOL Time Warner
Frec. 57 57 55 44 43 42 39 37 35 34 34 33 32 32 31 31 27 26 24 21 20 20 20 19 19
6 . 4 . 5 . Conclusión Tal como se puede observar, se produce cierta redundancia entre los diversos gráficos y, a medida que hemos avanzado, los aportes novedosos han ido en cierto modo disminuyendo o han confirmado hallazgos anteriores. Esto quiere decir que ya hemos puesto en evidencia los resultados más importantes. Proseguir con otras tríadas (quedan otras seis posibles combinaciones) no aporta ningún descubrimiento nuevo y por ello no las incluimos. Esto es algo que el analista debe examinar con cuidado y depende en gran parte del orden en que decide explorar las asociaciones. Creemos que, en nuestro caso, podríamos haber empezado por la tríada Descriptor-Implicado-Fecha que ha sido, a nuestro juicio, la más rica de explorar. El número de tríadas encontradas (5.339) ha sido el mayor de todos (corresponde al 65,7 % de
181
las tuplas de la tabla OLAP) al mismo tiempo que las frecuencias de repetición han sido las más bajas (la mayor era sólo de 22) y ambos datos podrían ser indicios de situaciones de interés. Al mismo tiempo, la tríada más frecuente, de todas las consideradas, ha aparecido 81 veces y corresponde a "2001-03 + Estados Unidos + Internet". He aquí otro dato específico que podría ser de mucho interés para extender la investigación más propiamente periodística: ¿Qué fue lo que hizo de marzo del 2001 un mes tan especial, en relación al tema "Internet", en Estados Unidos?
6.5. Análisis multidimensional Para esta etapa, utilizamos el software GVA: Generic Visualization Architecture, aplicación de propósito general en el campo de la minería de datos basada en visualización. Ha sido desarrollada por United Information Systems Inc. bajo el patrocinio de la Oficina norteamericana para la Política de Control de Drogas (Office of National Drug Control Policy). Su primer destino ha sido por lo tanto la investigación del crimen organizado y del lavado de dinero, pero ha sido puesta a disposición de toda la comunidad académica internacional y organismos sin fines de lucro para la libre investigación en todos los campos de la DataMining. Puede funcionar practicamente con cualquier sistema operativo por cuanto fue escrito en lenguaje Java1 . Aunque el manual no especifica exigencias mínimas de RAM ni tamaño máximo de la base de datos manejable, nos hemos encontrado con serias limitaciones que comentamos a continuación y nos obligaron a trabajar solamente con una muestra muy parcial para ilustrar algunas de las operaciones más avanzadas que facilita. 6.5.1. Demultiplicación combinatoria En el Tercer Capítulo hemos comentado entre otras cosas el problema que surge con la demultiplicación de los registros de datos al asegurar la combinatoria de las variables que interesan para el análisis (nº 3.4.2). Decíamos que, mientras más atributos se consideren y más valores diferentes puedan tomar dichos atributos, mayor será el efecto combinatorio ("fan out") y, consecuentemente la memoria y el tiempo de procesamiento requerido. Hemos de partir aquí construyendo una tabla especial según el modelo del Datawarehousing y del método OLAP ("OnLine Analytical Processing"), tabla que se aleja de la "tercera forma formal" y debe contener todas las combinaciones posibles de los valores de los atributos para cada entidad analizada. En nuestro caso, hemos de considerar los atributos y factores de demultiplicación que aparecen en la Tabla 6.5.1 y conducen a una estimación preliminar de la transformación de las 1.766 noticias en más de 10.000 "tuplas" o registros combinatorios de los datos que las describen.
1 Algunas funciones no operan si se utiliza el browser Explorer como interfaz, por cuanto Microsoft no respeta
todas las especificaciones del Java original.
182
Tabla 6.5.1: Estimación de "fan out" Atributos a incluir: Identificador de la Noticia Fecha Lugar Descriptores Implicados Fuentes Combinatoria * 1 noticia Combinatoria * 1766 not.
Casos posibles Promedio Máximo estimado 1 1 2 5 5 2 100 176.600
1 1 1 3 2 1 6 10.596
En realidad, construída nuestra tabla de tipo OLAP (solamente con los códigos numéricos correspondientes a los valores de los atributos señalados), las 1.766 noticias dieron origen a 8.127 tuplas (filas de datos) y no las 10.596 que habíamos estimado (Ver Tabla 6.5.1a, con la combinatoria correspondiente a las 5 primeras noticias). Tabla 6.5.1a: Tabla OLAP de 5 noticias Id.N. Descrip. Implic. Mes 1 54116 47 2000-05 1 54510 849 2000-05 1 54510 47 2000-05 1 54116 849 2000-05 3 52056 10 2000-05 3 52040 10 2000-05 4 53052 428 2000-05 4 53052 79 2000-05 4 53052 47 2000-05 4 53052 210 2000-05 4 53052 585 2000-05 5 60500 660 2000-05 5 54570 660 2000-05
Lugar Fuente 2 1 2 1 2 1 2 1 3 20 3 20 2 20 2 20 2 20 2 20 2 20 90 19 90 19
Sin embargo, nuestro software GVA no nos permitió cargar más de 500 tuplas, correspondientes a 190 noticias, siendo además imposible procesar a éstas considerando las 5 dimensiones2 . Limitándonos a las 100 primeras noticias, podemos demostrar de inmediato el efecto combinatorio mediante el Gráfico 6.5.1a (Láminas a color), que superpone en el plano las cinco dimensiones a las cuales podríamos aspirar a llegar, aunque solamente para esta mínima cantidad de noticias. Considérese también que utilizamos una pantalla a color (miles) de una resolución horizontal de 1024 pixeles. La imagen ha tenido por lo tanto que transformarse y reducirse para caber en estas páginas. El software procede en forma automática para buscar la configuración general más adecuada. El usuario puede además intervenir para hacer girar y estirar manualmente el gráfico. A pesar
2 Trabajamos con un Pentium III a 750Mgz, con 64 Mb de RAM. Tómese en cuenta que necesitábamos usar en
paralelo una aplicación de captura de imagen ya que GVA no permite guardar las imágenes en formatos traspasables a formatos de preimpresión.
183
de lo compacto del resultado aquí ilustrado en el Gráfico 6.5.1a3 (ver láminas a color), se puede observar que se produce un importante punto de confluencia hacia el extremo derecho. "Pinchando" en este punto, se obtiene - en otra ventana - la información correspondiente y se descubre de este modo que se encuentran allí, en realidad, dos noticias: la 15 y la 100, que transcribimos a continuación: "(15) 4-05-2000 - Alemania - Reporteros biónicos - Ingenieros de la unidad de investigación y desarrollo de Siemens (Alemania) predijeron que, de aquí al año 2010, es probable que los reporteros lleven implantes biónicos que transmitirán directamente las imágenes y los sonidos que perciban. Los sensores se insertarán en los nervios ópticos y auditivos, mientras la unidad de transmisión podrá estar injertada en los hombros. (Reuters)" "(100) 20-08-2000 - Noruega - Noruega crea completo sistema de educación "online" para adultos - El país escandinavo anunció la semana pasada la creación de The Competence Network, el primer sistema de educación para adultos íntegramente en internet. En el proyecto participan cincuenta organizaciones y ha sido promovido por las Federaciones de Comercio, Negocios e Industria del país. The Competence Network se compone de varios dominios por los que acceder a sistemas de educación y especialización desde los grados más básicos hasta el nivel universitario. El proyecto está especialmente dedicado a los adultos que por cualquier razón no hayan dispuesto de educación primaria. La Red supone un ahorro substancial en los gastos que el sistema educativo noruego, un país donde la educación a distancia es una cuestión básica por la dispersión de la población. (Noticias.com)."
También aparecen el descriptor 27010 (Biotecnología) y los Implicados 582 (Siemens) y 731 (Red de teleducación), según los datos que nos entrega el GVA. Salta a la vista que no parece haber conexión directa entre ambas noticias. Y como lo han mostrado las etapas anteriores de nuestra investigación ni este descriptor ni estos implicados aparecen entre los más frecuentes. Resulta obvio por lo tanto que esta área requiere un mayor análisis, primero visual y luego, quizás, numérico. Sin duda existen otras noticias, escondidas detrás de las identificadas (ya que existe superposición tridimensional), y se deben modificar algunos parámetros para obtener la separación adecuada. Hemos utilizado para ello la capacidad del software para reforzar las agrupaciones reales, alejando las más débiles, y, como se puede observar en los extremos del gráfico 6.5.1b (ver láminas a color), las noticias con escasas asociaciones se alejan progresivamente del resto (ocurriendo por un lado con las antes señaladas y - en el extremo opuesto - con otro par de noticias). Son, por lo tanto, una muestra de casos excepcionales y no de las tendencias centrales. Pero esto mismo, en algunos casos, puede ser un hallazgo de la mayor importancia. No lo podemos asegurar aquí, por cuanto debemos recordar que graficamos solamente las relaciones de las 100 primeras noticias. (Podemos sin embargo creer que esta conclusión es cierta, sobre la base del conocimiento que tenemos del cuerpo completo de contenidos.) Como lo señala la metodología de trabajo, queda así claramente demostrado que es importante proceder por pasos, yendo de menor a mayor efecto combinatorio, para evaluar - a la luz de los resultados de cada etapa - la conveniencia de combinar más atributos. Pero también ha de haber quedado claro que un acercamiento multidimensional completo puede arrojar resultados interesantes, sea al poner en evidencia agrupaciones especialmente "fuertes" o clusters (que, aquí, hemos descubierto en etapas anteriores), sea exhibiendo los "casos excepcionales", que pueden igualmente ser de muchísima importancia y significación. También queda demostrada la importancia de las etapas por las que hemos pasado anteriormente, especialmente de análisis uni- y bidimensional mediante una aplicación de uso más simple. Algunas "suites" de oficina incluyen hoy planillas de cálculo que tienen útiles 3 Las diferentes figuras de este gráfico -círculos, triángulos, etc.- corresponden cada una a un tipo determinado de
atributo. Hemos eliminado las "etiquestas" de identificación, que esconderían parte de la estructura general de interrelaciones que se observa aquí.
184
herramientas de visualización bi- y tridimensional, además de incluir o permitir la adición de comandos "macro" que permiten realizar en parte funciones y etapas básicas de minería de datos. Pero una investigación que quiera realmente extraer conocimiento nuevo escondido en una totalidad compleja requiere necesariamente de herramientas especiales como las que permiten extraer redes bi- y tridimensionales así como clusters . 6.5.2. Proyecciones tridimensionales En el apartado 6.4.2. hemos mostrado ya el cubo que puede ser utilizado en el GVA para situar las entidades de acuerdo a los valores de tres de sus atributos. El Gráfico 6.5.2 (ver láminas a color) muestra las 100 primeras noticias, ubicadas tridimensionalmente en función de los valores de sus Descriptores, Implicados y Fuentes. Solo mostramos los puntos correspondientes a cada una, mientras la aplicación también permite ver los vínculos (vectores) que las unen en función de sus atributos (pero que es practicamente imposible de traspasar a un medio impreso). Se puede observar muy claramente cómo la mayor parte de las noticias se agrupa en una misma "tajada" del cubo, en el rango de los Descriptores "50.000" (que corresponden al término genérico -o categoría- "Comunicación"), mientras se dispersan ampliamente sobre el eje de los Implicados. Veríamos igualmente, al girar el cubo, la dispersión que se produce en relación a las Fuentes, no visible en este gráfico debido a que las Fuentes corresponden al eje de la profundidad (Z) y se confunde en parte con la "altura" (Y) de los Implicados. Conocemos en gran parte estos datos, gracias a las etapas anteriores de análisis. Lo importante aquí es ver que, al hacer rotar el cubo, no aparece en ningún momento ninguna "mancha" en que se concentren grandes cantidades de entidades (noticias), fuera del área ya señalada de Descriptores. Trabajando con la totalidad de las noticias debería aparecer el cluster más definido que hemos encontrado antes ("Música-Digital-Internet" en Estados Unidos y en el segundo trimestre de 2001). La dispersión restante corresponde a nuestro entender a la típica diversidad de los hechos humanos - de sus actores y localización - reflejados en la información noticiosa. Así podemos formular la hipótesis de que - llegados al presente nivel de análisis (con gran agregación de datos) - lo que más podemos esperar y de lo que más podemos sacar partido es, como lo hemos visto en los gráficos de 5 dimensiones, de los "casos excepcionales". Éstos nos pueden señalar áreas de baja cobertura periodística, de baja "resonancia social" o - lo que sería más grave - de descuido en el manejo de la pauta editorial del medio de prensa. Al no disponer de la capacidad computacional necesaria para manipular en forma multidimensional la totalidad de nuestras noticias, no podemos desgraciadamente sacar más conclusiones y nuestra investigación ha de concluir aquí. Pero, teniendo en cuenta las otras manipulaciones que hemos realizado - y de las cuales no vale la pena dar cuenta aquí, ya que son variantes de lo ya expuesto - podemos asegurar que no aparecen nuevas informaciones relevantes que no estén ya en las etapas anteriores de análisis. Sólo nos faltaría, como señalado en los párrafos precedentes, encontrar más "casos excepcionales" o marginales. Si bien dichos casos están sugeridos ya en el análisis estadístico de los descriptores temáticos y de los implicados, existe cierta multiplicidad de casos únicos, los que sólo pueden ser calificados y seleccionados como "excepcionales" y dignos de mayor estudio cuando se tiene acceso a sus relaciones triádicas o multidimensionales. Por su parte las principales relaciones y el cluster descubiertos han sido expuestos y graficados en los análisis de las coocurrencias externas y triádicas.
185
Conclusión Hemos mostrado los principales tipos de gráficos con los cuales es posible trabajar, faltando solamente una buena ilustración multidimensional de clusters debido a una falta de poder computacional, de modo que el lector podrá - así lo esperamos - formarse una idea de los conocimientos que la metodología expuesta es capaz de extraer de una base de datos como la que hemos analizado. (Los resumimos en el siguiente capítulo). Los resultados expuestos son comunmente imposibles de obtener en sistemas de documentación periodística concebidos de otra manera y sin las herramientas aquí descritas. Los sistemas construídos del modo señalado y que se utilicen para desarrollar "hiperinformativos" (diarios o revistas en Web) permitirían además enlazar los acontecimientos que formen una secuencia, facilitando el conocimiento de los antecedentes y las consecuencias de cada uno, a medida que se desarrolla la Historia. Ligando además la base de datos noticiosa con otras bases de datos como las de biografías o de países (haciendo un "clic" sobre el nombre de un país se podría obtener una descripción de su geografía política o de su sistema de gobierno), se aseguraría que el lector de cualquier lugar del mundo sea capaz de colocar la noticia en su contexto y explicarse, en cualquier momento, lo que está pasando en un país muy alejado de su propio lugar de residencia. En un mundo de economía global, éste es un "valor de uso" que, sin duda, puede asegurar el éxito de una empresa periodística que esté al día con las últimas tendencias y posibilidades de la "Era de la Información" o, más aún, de la nueva "Era del Conocimiento".
186
7 CONCLUSION
7.1. Evaluación de la experiencia Empezaremos aquí resumiendo brevemente los principales hallazgos que produjo nuestra investigación. Sin duda los primeros - que proceden de la confección de las estadísticas iniciales - no presentan grandes sorpresas, pero al avanzar en los procedimientos y en la complejidad del análisis hemos visto aparecer otras informaciones que aportaron el conocimiento nuevo que estabamos buscando. Luego trataremos de adoptar una visión crítica y ponderar el valor de estos aportes en comparación con el esfuerzo que significa obtenerlos. 7.1.1. Principales hallazgos Conclusiones
Fuente
Basadas en Estadísticas iniciales 1. El mes de marzo 2001 ha sido especialmente abundante en información del área considerada. 2. Estados Unidos es sin lugar a dudas el lugar privilegiado en materia de Tecnologías Digitales. 3. No existe una constante en los hechos del sector noticioso aquí considerado. 4. El tema del "e-Comercio" tuvo un auge significativo durante el año 2001 5. La categoría de las "Empresas de informática" ha sido la que apareció con mayor frecuencia. 6. La fuente que ha aportado más información ha sido "Mouse", suplemento del diario nacional "La Tercera".
187
Estadística (5.4.1) Estadística (5.4.2) Estadística (5.4.3) Estadística (5.4.3) Estadística (5.4.5) Estadística (5.4.6)
7. Existe una relación estrechísima entre el lugar de ocurrencia del hecho noticioso y la temática del mismo. 8. Existe una relación estrecha entre Descriptores e Implicados. 9. Un nuevo procesamiento (como el realizado en la reagrupación de los "Implicados") puede arrojar una mejor información y una profundización del análisis recurriendo a la data mining. Visualización inicial 10. La visualización de datos muestra claramente la fuerte presencia de los temas relativos a Internet y otra concentración en relación a "Software", "Hardware" y "Redes", mientras se observa mayor irregularidad en la aparición de los otros temas.
Estadística (5.4.7) Estadística (5.4.7) Estadística (5.4.7)
Análisis visual (6.1.1)
Coocurrencias internas 11. Desde el estudio de las primeras coocurrencias, se puso Coocurrencias en evidencia la existencia de un "campo noticioso" internas especial, que concentra los hechos asociados a los juicios (6.2.1) que afectaron al sitio "Napster" y los acuerdos entre compañías discográficas para estructurar otros canales de distribución. 12. Microsoft aparece frecuentemente asociada a "Tribunal" Coocurrencias y se encuentra unida con Napster a través de dicho internas término, con lo cual se destacan a ambas empresas por (6.2.2) haber estado involucradas en los casos judiciales de mayor eco durante el período bajo estudio. 13. Reagrupados en clases, los Implicados de mayor Coocurrencias relevancia han sido las "Empresas Informáticas", las internas "Empresas TI" (de Tecnologías de la Información) y los (6.2.3) "Organismos públicos". Coocurrencias externas 14. "Internet" como tema (descriptor) y "Empresas Informáticas" como tipo de implicados aparecen como más centrales en las relaciones entre estos dos tipos de atributos. 15. Sorpende la ausencia de la clase de Implicados "Fabricantes de Software" en la serie de frecuencias más altas de coocurrencias entre Descriptores y Clases de Implicados.
188
Coocurrencias externas (6.3.1) Coocurrencias externas (6.3.1)
16. La importancia de "Internet" se destaca aún más en el Coocurrencias análisis cronológico, apareciendo un fuerte aumento en el externas mes de marzo de 2001. Los tres primeros meses de este (6.3.2) año arrojan también tasas muy altas de algunos otros temas, lo cual indica la conveniencia de un estudio posterior más detallado, sea con DM sea volviendo al contenido informativo. 17. Microsoft siguió siendo un importante foco de atención Coocurrencias después de marzo del 2001, especialmente en mayo y externas junio, aunque menos en relación al juicio que se le sigue, (binarias y como se ve confirmado por el análisis de tríadas. triádicas) (6.3.3 y 6.4.2) 18. Se ha presentado una coyuntura muy especial en los Coocurrencias meses de junio y julio 2001, en que se destaca "Sitio externas Web" como Implicado, lo cual merecería un estudio más (6.3.3) profundo. 19. No sorprende en absoluto que Estados Unidos sea el Coocurrencias lugar más frecuentemente asociado al tema "Internet". Sí externas es destacable que su interés por algunos otros temas (6.3.4) (Descriptores) sea compartido con Chile. 20. Considerando Lugares y clases de Implicados, se puede Coocurrencias observar que se cierra una red que une a España con externas Estados Unidos y con Chile, compuesta de dos subredes (6.3.6) con elementos comunes, cosa que sería interesante estudiar y comentar más detenidamente en un análisis periodístico. 21. Mientras Estados Unidos se destaca por la importancia Coocurrencias de las Empresas Informáticas, Chile lo hace por el rol de externas los Organismos Públicos, lo cual corresponde a la (6.3.6) importancia dada por el gobierno al tema de las nuevas tecnologías digitales en la política y los planes de desarrollo del país. 22. El análisis de la evolución cronológica de las fuentes Coocurrencias muestra un cambio en la CNN, disminuyendo externas fuertemente sus noticias sobre Tecnologías Digitales en el (6.3.8) año 2001. 23. Los medios en que hemos encontrado la mayor Coocurrencias diversidad y repetición de temas son principalmente externas Mouse, Noticias.com y Wired. (6.3.8) Tríadas 24. Existen tres puntos de concentración de asociaciones, aparte del lugar de ocurrencia de los hechos noticiosos (Estados Unidos): "Microsoft" y "Napster" como Implicados e "Internet" como Descriptor.
189
Tríadas (6.4.1)
25. El análisis de las tríadas Descriptor-Lugar-Fecha confirma la importancia del caso "Napster" pero lo amplía al conjunto descrito por "Música-Digital-Internet", en Estados Unidos y en el segundo trimestre de 2001, formándose un cluster. 26. Podría haber ocurrido algo especial en marzo, que justifique la densidad de la tríada "2001-03 + España + Internet", la cual podría considerarse para un estudio periodístico específico. 27. La tríada más frecuente, de todas las consideradas, ha aparecido 81 veces y corresponde a "2001-03 + Estados Unidos + Internet". Merecería también una investigación periodísticas para buscar su explicación.
Tríadas (6.4.3)
Tríadas (6.4.3) Tríadas (6.4.5)
Análisis multi-dimensional 28. El análisis multidimensional, a pesar de limitarse a cien Análisis multinoticias, puso en eviencia la existencia de noticias con dimensional características excepcionales. La aplicación a la totalidad (6.5) del cuerpo noticioso recogido podría poner más casos en evidencia, los que merecen sin duda una atención especial. Los "casos excepcionales" pueden señalar áreas de baja cobertura periodística, de baja "resonancia social" o de descuido en el manejo de la pauta editorial del medio de prensa. Como se puede observa en esta tabla, hemos encontrado reiteradas pruebas de la importante cobertura de prensa que tuvieron Microsoft y Napster. Como consecuencia de ello, la Revista TDC realizó un estudio en profundidad de ambos casos y confeccionó para cada uno un Dossier publicado en línea (ampliando, conforme al hallazgo 25, el caso Napster a la tecnología P2P de la cual ha sido un importante exponente y que ha conocido un importante auge). 7.1.2. Ventajas y limitaciones de la visualización El lector se habrá dado cuenta de la inmensa cantidad de cálculos realizados por el ordenador y de la enorme cantidad de datos que nos entregó en forma tabular, a pesar de que hemos incluido una mínima fracción de los mismos. Pero lo más importante es que se haya dado de cuenta de la ventaja de recurrir a las técnicas de visualización. El gráfico pone mucho mejor de manifiesto los múltiples vínculos que asocian los valores de los diversos atributos, o sea de la manera en que las noticias pueden relacionarse entre sí. La visualización, no sólo es útil para determinar áreas que requieren mayor profundización del análisis o ajustes en la secuencia y las etapas de reiteración propias de este tipo de estudio: permite además descubrir tanto agrupaciones muy peculiares (los clusters) como casos excepcionales, lo que - en 190
ambos casos - constituye un metaconocimiento de la mayor importancia. Ésta es una importante ventaja. Sin embargo, una gran cantidad de datos produce rápidamente una saturación del espacio visual disponible (habitualmente una pantalla de ordenador) y es indispensable recurrir a operaciones lógicas complementarias, tales como la fijación de umbrales y la eliminación de situaciones intermedias, para encontrar y exhibir las agrupaciones más fuertes o bien los casos marginales que pudieran ser indicadores de casos extraordinarios particularmente relevantes o indicadores de errores de procedimiento en la recopilación de la información que ingresa a la base de datos. Si bien estos procedimientos restrictivos forman parte de la metodología y llevan a obtener los nuevos conocimientos buscados, tienen generalmente el costo de ser muy difícilmente graficables en presentaciones bidimensionales. Es una de las razones por las cuales las "suites" de Data Mining incorporan facilidades asociadas a la gráfica tridimensional, como la rotación en pantalla, y las más avanzadas - incluso técnicas de realidad virtual, que permiten manipular directamente los componentes mediante el guante digital, visualizar el cubo mediante visión estereoscópica (con un visor especial) e incluso "penetrar" en él para mirarlo desde diversos ángulos desde su interior y no solamente desde el exterior. Este tipo de aplicación no se ha difundido aún en forma masiva, pero sin duda lo hará muy pronto debido a las enormes ventajas que supone para superar las actuales limitaciones de las proyecciones planas. 7.1.3. Las dificultades La minería de datos, como se habrá visto, no está al alcance de todos. No sólo se requiere cierta familiarización con los métodos estadísticos tradicionales, sino también - y sobre todo - con el análisis de sistemas y la gestión avanzada de bases de datos. También hemos descubierto la necesidad de poder intervenir en el traspaso de los datos desde una BD o un conjunto de tablas a otra tabla o conjunto de tablas y, para ello, nuestro conocimiento de lenguajes de programación (en este caso PHP y SQL) han sido fundamentales. Por esta razón es necesario insistir en que, en el trabajo periodístico, es esencial un trabajo de equipo, en que colaboren estrechamente periodistas (editores) y analistas de sistemas familiarizados con los métodos de Data Mining. También, como lo hemos recalcado, es indispensable que el Sistema Documental del medio de prensa tenga el formato adecuado. Si no es así y la empresa desea poder beneficiarse a futuro de los aportes de la DM y de los avances en este campo, será necesario pasar por una etapa de transformación del modelo de datos y traspaso de los contenidos de la BD, lo cual puede requerir la elaboración de un programa ad hoc de transferencia, involucrando costos adicionales. Pero estamos convencidos de que el resultado valdrá la pena y de que el futuro de la empresa podría depender de ello (Ver apartado 7.2).
191
Para referirnos más directamente a nuestra propia experiencia, podemos indicar que teníamos felizmente una larga experiencia en materia de análisis de coocurrencias en textos, graficación de redes y diseño de bases de datos (Ver Bibliografía). También dominábamos algunos lenguajes de programación, lo cual resultó esencial a la hora de preparar los datos. La dificultad más importante con la cual nos hemos encontrado fue al usar el software GVA para el análisis multidimensional, no sólo en razón de la aparente escasez de memoria RAM de nuestro PC, sino por la escasa documentación que acompaña el programa, ya que muchas funciones y cuadros de diálogo (especialmente de modificación de parámetros) no están documentados. Incluso la versión que obtuvimos en CD incluía funciones que aparecían como "en desarrollo" en el manual disponible en Internet (funciones que resultaron muy útiles). Sólo un estudio muy detallado de los ejemplos incluídos y múltiples pruebas con diferentes modelos de datos permitieron que, después de varios días de ensayo, aprendiendo de nuestros errores, lograramos por fin manejarlo lo suficiente como para poder extraer los ejemplos incluídos en este libro. En muchos casos, también, hemos preferido realizar muchos gráficos de redes a mano, especialmente para obtener una versión escalable que se ajustara al tamaño de la presente publicación. Pero ésto no es en sí una dificultad de la herramienta, sino un problema del medio de comunicación que estamos utilizando. La pantalla del ordenador permite cambiar la escala, mostrar y esconder parte de la información, manipular los colores, girar los objetos, etc. pero en una resolución que no es la más adecuada para la imprenta.
7.2. El futuro de la Data Mining en el Periodismo Aunque las aplicaciones de minería de datos han sido - hasta ahora - utilizadas con gran provecho en el campo de la industria, la economía y el comercio, como también en algunas investigaciones científicas, hemos de considerar que el Periodismo es uno de los sectores que maneja la más grande y más variada cantidad de información. Obviamente la DM no es una herramienta de utilidad para el reportero que está al acecho de las noticias que se generan día a día. Pero para el analista de un sector determinado, podría transformarse en una herramienta de la mayor utilidad para comprender lo que está ocurriendo y tratar de visualizar los posibles derroteros de una determinada secuencia de hechos o encontrar relaciones entre hechos aparentemente inconexos. Si el Servicio de Documentación de un medio de comunicación cuenta por lo tanto con una base de datos adecuadamente estructurada, una aplicación de Data Mining podría transformarse en una herramienta de primerísima importancia, como hemos pretendido demostrarlo aquí. En la investigación que hemos descrito, nos hemos concentrado en la búsqueda de patrones en un sólo dominio y en el área temática cubierta por un medio de prensa muy especializado. En un medio periodístico de cobertura más amplia, 192
que disponga de todo un sistema documental como el que también hemos propuesto, podría ampliarse la exploración no sólo a relaciones entre áreas temáticas más diversas sino a patrones inter-dominios, como por ejemplo "cruzando" datos noticiosos con datos biográficos de los personajes implicados, datos históricos o económicos de empresas, datos geo- o socio-políticos, etc. Los resultados podrían ser muchísimo más ricos que lo que hemos podido mostrar aquí, aunque también implicarían procesos más largos y más complejos. Pero la principal lección es ésta: se ha de disponer de un modelo de datos - y de un sistema documental - adecuado, de algunas herramientas bien escogidas y alguna persona capacitada para manejarlas. No dudamos de que el futuro del periodismo, y en particular del periodismo especializado, depende en gran parte de la capacidad de las empresas para integrar este tipo de herramientas. El lector de hoy, cada vez más culto, requiere también cada vez más visiones de conjunto y explicaciones profundas que sólo le pueden dar periodistas especializados, no sólo conocedores de las disciplinas involucradas (ciencias políticas, economía, antropología social, etc.) sino capaces de utilizar nuevas herramientas de investigación como las que hemos expuesto, sea en forma personal sea en equipo con analistas que dominen mejor dichos instrumentos. En la "Era de la Información" - o "Era del Conocimiento", como algunos empiezan a llamarla, a raíz del avance en métodos como los aquí expuestos - los intereses de los usuarios (ya no se habla de "lectores" o "televidentes") se definen como "valor de uso", y éste determina la aceptación del medio informativo. Dicho "valor de uso" es función del conocimiento que ya tiene el usuario y del que se le podrá agregar, más que de la información en sí, y depende así tanto del usuario como del emisor. El conocimiento nuevo que pueda adquirir un usuario depende de modo vital de su comprensión del contexto de la información. Para ello requiere de "información con valor agregado" (IVA) y ésta depende de la oferta, por parte del emisor, de relaciones entre múltiples informaciones. Así se constituye "Información con Valor de Uso" (IVU), la cual se compone de: • IVAp: Información con valor agregado por el periodista experto. • IVC: Información con valor cognitivo = información inicial + informaciones complementarias (obtenidas a través de los hipervínculos) + conocimientos previos del usuario. • IVCA: IVC ampliada gracias a aplicaciones informáticas avanzadas (Data Mining, Sistemas expertos, Inteligencia Artificial) Todo esto lleva a concebir el esquema 7.2 de valoración de la información. El acercamiento de las metodologías del trabajo científico-cognitivo y del quehacer periodístico es hoy una exigencia cada vez más importante, especialmente porque el público exige cada vez un mayor rigor en el trabajo informativo. Sin este rigor, el hombre con responsabilidades sociales (políticas, empresariales, profesionales, etc.) no se encuentra preparado para interpretar la 193
realidad y ajustar sus decisiones al contexto en que debe actuar. Esto hace indispensable que la prensa cuente con una base documental más sólida, mejor estructurada y de más fácil acceso, con todos los "enlaces" entre documentos que permitan a los nuevos usuarios comprender adecuadamente la información noticiosa. Por ello, la IVCA requiere el trabajo conjunto de equipos de profesionales altamente capacitados y con conocimientos multidisplinarios.
IVC IVU
VALOR CRECIENTE
Gráfico 7.2: El valor de la Información
IVCA
Ingeniería cognitiva
IVC (Informaciones HT)
IVAp (Periodismo interpretativo)
INFORMACION
(en bruto)
Periodismo/web
Periodismo clásico
DATOS
* HT significa en forma hipertextual. Para terminar El periodismo especializado del futuro se está transformando cada vez más en una suerte de "ingeniería del conocimiento" y su éxito dependerá también de la capacidad de los profesionales y de los medios periodísticos por ofrecer a sus clientes una información con real "valor agregado", el cual crece en forma proporcional a la cantidad y extensión de las relaciones entre los hechos relatados, siempre que dichas relaciones sean puestas en evidencia por quienes puedan tener acceso al "espacio informativo" completo y explorarlo debidamente. En ello los métodos matemáticos, particularmente los desarrollados por la "ingeniería de sistemas" tienen y seguirán teniendo sin duda una importancia fundamental, como también la tendrán los métodos generados por la investigación sobre Inteligencia Artificial. Comentamos en ANEXO el rol de los métodos matemáticos en las Ciencias Humanas y particularmente los que han permitido descubrir un orden en fenómenos que parecían anteriormente caóticos. La Data Mining es tributaria de estos avances y es conveniente que los periodistas y documentalistas tengan algunas nociones acerca de estas nuevas dimensiones de la investigación que, como se ha demostrado, enriquece el conocimiento en las áreas más diversas del conocimiento.
194
ANEXO Ciencias humanas y matemática
La lógica y la matemática han presidido a nuestro trabajo y tendrán un lugar cada vez más importante en el futuro de los medios periodísticos como lo sugiere nuestra alusión a la "ingeniería del conocimiento". Quizás pueda parecer extraño a quiénes han sido formado en una concepción más "literaria" del periodismo. Sin embargo no parecerá extraño a quiénes tengan formación en el campo de las ciencias humanas, ya que - en éstas - los métodos estadísticos han estado presente desde hace decenios. Pero, en el campo del periodismo, difícilmente pueden esperarse que aparezcan fenómenos que puedan ser agrupados y representados mediante "curvas normales" y, como lo hemos señalado, los métodos paramétricos son de poca utilidad. El surgimiento de las noticias, representaciones de acontecimientos de la naturaleza o de hechos producidos por el ser humano, no tiene nada de aleatorio ni tampoco ninguna regularidad, ya que todos responden a diversas y complejas conjunciones de causas. Sin embargo, bajo su apariencia caótica, existe un orden muy preciso que es el que algunos científicos, como David Bohm, han llamado "orden implicado". Lo que hace la Data Mining es tratar de encontrar factores que pongan el orden en evidencia o, en términos de Bohm: pasar del "orden implicado" al "orden explicado". El concepto de orden implicado, que desarrollaremos a modo de conclusión, para mostrar cómo los métodos matemáticos pueden ayudarnos a entender los fenómenos que son objeto de estudio de las ciencias humanas, es a su vez una ampliación de los conceptos de la "matemática del caos", área que la computación ha permitido desarrollar debido a su enorme poder de cálculo.
1. Matemática del caos y ciencias humanas 1.1. El orden en el caos El concepto de matemático de "caos" se aleja del concepto común especialmente porque tiende a mostrar que bajo la apariencia de caos existe, en muchos casos,
195
un cierto orden, que corresponde a la existencia de reglas que, si bien pueden ser muy simples, pueden generar un producto extraordinariamente complejo. Así, por ejemplo, si se miran de muy lejos los movimientos de una familia en un picnic parecerán caóticos, aunque corresponden a reglas de comportamiento comunes y propias de costumbres humanas. Sin embargo, cualquier humano que comparta nuestra cultura y se acerque lo suficiente para distinguir algunos objetos y comportamientos típicos interpretará correctamente lo que ocurre. Pero existen numerosas situaciones en que no conocemos las "reglas del juego" y los acontecimientos permanecen oscuros. Es lo que Mitchell Feigenbaum puso en evidencia al plantear que para entender cómo la mente humana entresaca algo del caos de la percepción, hay que entender de qué manera el desorden produce universalidad. Al comparar la evolución de diferentes funciones matemáticas que producen bifurcaciones llegó finalmente (1976) a una teoría y un procedimiento matemático aplicable en forma universal. Este trabajo llevó a realizar el 1º Congreso sobre "Ciencia del Caos" en Como, Italia (1977) y las pruebas matemáticas definitivas las produjo Oscar Lanford III en 1979. La base formal de estos conocimientos fue establecida por Edward Lorenz (meteorólogo del MIT) cuando publicó, en 1963, "Deterministic Nonperiodic Flow" sobre el comportamiento no-lineal de un sistema de 3 ecuaciones lineales correspondiente a un modelo simplificado de dinámica de fluídos. Este trabajo fue "redescubierto" en 1972 por James Yorke, quien lo difundió y lo analizó con Robert May, matemático, biólogo y ecólogo. Analizando matemáticamente el comportamiento de la ecuación - que May puso en evidencia - Yorke probó que cualquier sistema unidimensional (como el de la curva logística), si muestra en algún momento un período (bloque reiterado) regular de 3, mostrará a la vez ciclos regulares - aunque de extensión variable - y también ciclos caóticos. Así hizo el gran descubrimiento de que "sistemas sencillos hacen cosas complejas", el que dió a conocer en el artículo "Period Three Implies Chaos" (1975). Se descubrieron luego efectos similares en genética, economía, dinámica de fluídos, epidemiología y fisiología, los que resumió y publicó May en "Simple Mathematical Models" (Nature, 1976, p.467, citado por Lewin, pp.111-115). Benoit Mandelbrot encontró luego una estructura regular al comparar - en diferentes escalas - las evoluciones de los precios del algodón en todo el siglo XIX, como también en la evolución de las rentas (publicado en "The Fractal Geometry of Nature", 1977). Encontró aspectos parecidos en secuencias de errores en la transmisión computacional de datos, en las crecidas del Nilo, en la forma de las nubes y de las costas. En 1975 inventó el término "fractal", que se aplica a la representación geométrica de este tipo de fenómeno. En un fractal, las cuencas corresponden a atractores (funciones poderosas que parecen mantener un fenómeno dentro de ciertos límites, hasta que la suma de pequeños cambios es tal que su evolución se "libera" o, a la inversa, que conduce la suma de cambios a un estado aparentemente más estable). Los límites entre cuencas ponen en evidencia que la frontera entre "la calma y la catástrofe" es más complicada de
196
todo lo que se puede imaginar. (Ver Gráficos "Conjunto de Mandelbrot" en Láminas a color). Arnold Mandell, siquiatra, descubrió un comportamiento caótico en enzimas del cerebro. Sus trabajos apuntan a reconocer que el funcionamiento de la mente también tiene una estructura fractal tanto en su base fisiológica como en la estructura semántica. "Con el caos o sin él, los científicos cognoscitivos honestos no pueden establecer ya un modelo de la mente como una estructura estática. Reconocen una jerarquía de escalas, desde la neurona en adelante, que brinda la oportunidad al juego recíproco de macroescalas y microescalas, tan peculiar de la turbulencia fluida y de otros procesos dinámicos complejos." (Gleick, p.298)
John Hubbard, investigador de la Universidad de Cornell, demostró la existencia de una continuidad lineal de todos los elementos de un gráfico fractal, con infinita variedad (en una repetición sólo aparente a grandes rasgos). Y las investigaciones muestran que todos los fractales parecen terminar en el conjunto de Mandelbrot, confirmándose el principio de universalidad asociado a la matemática del caos (cfr. Gleick, p.236). 1.2. La frontera del caos Hacia 1980, Steven Wolfram descubrió que, aparte de los ahora conocidos tres estados "clásicos" de los sistemas dinámicos (estable, periódico y el nuevo "caótico") existe un cuarto estado, en el límite entre orden y caos. Tres años después, Chris Langton pudo mostrar que esta cuarta clase es la que exige el mayor volumen de cálculo y el manejo de la mayor cantidad de información. Ahí, en la zona de transición entre orden y caos, "se presiente que el tratamiento de la información constituye uno de los elementos importantes de la dinámica de un sistema". Norman Packard, que hacía investigaciones paralelas, dió a este cuarto estado el nombre de "frontera del caos". Investigó cómo el proceso evolutivo se encuentra en esta área y descubrió - con autómatas celulares y reglas que se modifican mediante un algoritmo genético - que las reglas de cambios internos se modifican solas en la dirección de una eficiencia máxima, siempre más cerca del límite del caos (Lewin, pp.56-60). Las leyes de los sistemas abiertos de alta complejidad (como lo son el Universo y también el sistema social) indican que esta situación - en la "frontera del caos" es pasajera y ha de conducir sea a una destrucción del sistema sea a un salto hacia un orden superior, donde una nueva complejidad será regulada por nuevas reglas de ordenamiento. Al mismo tiempo una serie de inventos de la época evolutiva anterior desaparecerán y otros, en una nueva relación, se profundizarán y extenderán para sostener el nuevo sistema ("salto cualitativo"). Así, los fenómenos sociales - y entre ellos los hechos que constituyen noticias se enmarcan sea en el "caos" (en el sentido antes definido) sea en la "frontera del
197
caos". En ambos casos existe un sistema regulatorio compuesto de factores (cuya cantidad e importancia es variable) que puede ser difícil descubrir sin el apoyo de métodos matemáticos. Esto significa y sin duda nadie lo negaría - que en toda acción humana existe cierto orden, pero que éste no siempre es visible. Aún más, puede ser muy difícil de descubrir. Esto tiene mucho que ver con el concepto de "orden implicado", que también surgió de la física y se aplica perfectamente a las ciencias humanas.
2. El concepto de "orden implicado" El concepto de orden implicado ha sido formulado por el físico David Bohm a principios de los años ochenta. "El orden implicado puede ilustrarse con la ayuda del siguiente experimento: consideremos dos cilindros de cristal concéntricos, el interior fijo y el exterior capaz de girar lentamente. Llenamos el espacio entre los cilindros con un líquido viscoso, como la glicerina. Cuando se le da vueltas al cilindro exterior, éste arrastra consigo casi a la misma velocidad al fluido que tiene al lado, mientras que el fluido más próximo al cilindro interior permanece prácticamente en reposo. Así, el fluido de diferentes partes se mueve en proporciones diferentes, y de esta manera, cualquier pequeño elemento de glicerina termina finalmente alargándose en un hilo largo y fino. Si ponemos en el líquido una gota de tinta insoluble, podremos seguir el movimiento de algún pequeño elemento, observando cómo la gota va siendo alargada en un hilillo que llega a hacerse tan fino que resulta invisible. A primera vista, uno tiende a pensar que la gota de tinta ha quedado totalmente mezclada en la glicerina, de modo que su orden inicial se ha perdido y es ahora aleatorio o caótico. Pero imaginemos que giramos ahora el cilindro exterior en la dirección contraria. Si el fluido es muy viscoso, como sucede con la glicerina, y no giramos el cilindro demasiado rápido, entonces el elemento del fluido volverá exactamente sobre sus pasos. En determinado momento, el elemento adquirirá nuevamente su forma original, y la gota de tinta parecerá haber surgido de la nada. (De hecho, se han llevado a cabo experimentos como éste, y el efecto resulta bastante espectacular.) Está claro que lo que se consideraba una pérdida de orden caótico o aleatorio era de hecho un orden escondido de grado alto, que se generó a partir de un orden inicial simple, el de la gota que sufría los efectos de la rotación del cilindro. De la misma manera, este orden escondido se transformó de nuevo en el orden original simple cuando se giró nuevamente el cilindro en sentido contrario. Hay una clara correspondencia entre este orden escondido y lo tratado en el capítulo anterior sobre cómo puede haber muchas veces un orden escondido en lo que parece ser azar o aleatoriedad." (Bohm y Peat, pp.193-194)
Para "desenvolver" la trama de los acontecimientos humanos y encontrar el "hilo conductor" se necesitaría dominar - hoy en un nivel practicamente inalcanzable amplios conocimientos conjuntos de historia, de economía, de sociología, de antropología, de psicología, etc. Así, los cientistas sociales ya no pueden prescindir de los métodos matemáticos más avanzados. Encontrar el orden implicado obliga a adoptar un enfoque que la ingeniería informática ha llamado "ingenieríareversa" , es decir tomar un producto y encontrar cómo ha sido fabricado1 , y la minería de datos es una forma de ingeniería reversa.
198
Bohm vió con claridad que todo conocimiento profundo supone hoy el descubrimiento de un orden implicado, como lo señala Peat: "Hasta aquí sólo se han discutido procesos materiales en términos de orden implicado. Pero el conocimiento tiene mucho más de orden implicado que la materia. Esto se trataba con cierto detalle en el libro de Bohm La totalidad y el orden implicado." (Bohm y Peat, p.207)
El pensamiento humano, en sí mismo, releva de un orden asociado al aparente funcionamiente caótico de millones de neuronas. También lo es la comunicación a través del lenguaje: "Para empezar, está claro que el pensamiento se encuentra definitivamente en el orden implicado. La palabra misma, implicado, que significa envuelto, sugiere que un pensamiento envuelve a otro y que un tren de pensamiento es de hecho un proceso en el que se va envolviendo una sucesión de implicaciones. Esto no es del todo diferente al proceso descrito por la función de Green2, o a lo que ocurre en un juego de vídeo. Además, pensamientos y sensaciones se envuelven mutuamente, y a su vez éstos dan lugar a disposiciones que se desenvuelven en acciones físicas y en más pensamientos y sentimientos. También el lenguaje es un orden envuelto. El significado está envuelto en la estructura del lenguaje, y se desenvuelve en pensamiento, sensación y todas las actividades que ya hemos tratado antes. En la comunicación, el significado se desenvuelve en la totalidad de la comunidad, y de la comunidad pasa a desenvolverse en cada persona. Así, existe una relación interna entre los seres humanos, y entre el individuo y la sociedad como un todo. La forma explicada de todo esto es la estructura de la sociedad, y la implicada es el contenido de la cultura, que se extiende al conocimiento de cada persona. Lo que por un lado son la sociedad y las formas explicadas de la cultura se envuelve de manera inseparable en lo que es por el otro lado el conocimiento de cada individuo social. Por ejemplo, las leyes, costumbres y limitaciones de la sociedad no operan de hecho como fuerzas externas, ajenas a la gente sobre la que actúan, sino que son la expresión de la naturaleza misma de esa gente y, a su vez, llevan consigo una contribución a esta naturaleza. Es evidente que el orden implicado del conocimiento opera en muchos niveles, que están relacionados entre ellos de la misma manera que lo están el orden implicado y el superimplicado del campo cuántico o del juego de computadora. Por ejemplo, al hablar de la razón en los capítulos anteriores se mostró cómo un nivel de pensamiento organiza el nivel siguiente. Esto puede seguir así hasta producir una estructura que puede desarrollarse infinitamente, con varios tipos de circuitos relativamente cerrados. Esto implica que el conocimiento se organiza gracias a un orden generativo cuya totalidad es, de muchas maneras, semejante a la totalidad de los órdenes generativo e implicado que organiza la materia." (Bohm y Peat, pp.207-208)
Ser de carne y hueso, material y espiritual, el hombre es tributario de la materia que lo constituye. Pero, como lo ha mostrado la física cuántica, la naturaleza de la materia es mucho más compleja de lo que se pensaba. Tiene su orden implicado en el cual grandes físicos, como Kapra y Bohm, y grandes fisiólogos, como el premio Nobel John Eccles, reconocen la importancia de su vertiente espiritual. Y, extrañamente, la matemática es la que mejor llega a representar tanto las variables básicas de la física como - al parecer - de lo específicamente humano.
199
No dudemos entonces en utilizar esta herramienta para investigar los fenómenos humanos, no sólo en economía sino también en historia o en la más cercana crónica que manejan los periodistas. 1 El concepto original de ingeniería reversa está ligado al análisis de aplicaciones
computacionales, siendo el objetivo descubrir el "programa fuente" a partir del producto final compilado (es decir utilizable por la máquina pero ya no legible por parte del ser humano). 2 Fórmula matemática vinculada con la matemática del caos.
200
GLOSARIO Algoritmo: conjunto de comandos formulados para solucionar un problema en un número limitados de pasos. ANSI: acrónimo de American National Standard Institute. Aplicación: Sinónimo de "programa" o software destinado a realizar una determinada tarea. API: acrónimo de "Application Programming Interface" o interfaz de una aplicación, que forma parte de su programa. ASCII: acrónimo de "American Standard for Computer Information Interchange"; se refiere a los códigos que corresponden a todos los signos y comandos que pueden ser enviados desde el teclado del ordenador, los que también son los conservados en los diferentes medios de almacenaje (disco duro, CD-ROM, diskete, etc.). Atributo: propiedad o característica de una entidad o referente cuyo valor se ingresa en una base de datos como información acerca de dicho referente Batch: modo de procesamiento de datos secuencial y no interactivo. BD: acrónimo de "Base de datos". Browser: "navegador" o visualizador de páginas web. CASE: acrónimo de "Computer aided software engineering": método de ingeniería con ayuda del computador (Se aplica, por ejemplo, a sistemas de ayuda a la gestión de empresas u organizaciones, como el diseño de bases de datos (SGBD) o de herramientas de ayuda a la toma de decisiones "DSS"). Cliente/servidor: sistema de relaciones -a través de una red- entre dos computadores que efectúan operaciones complementarias. El "servidor" es el que contiene los datos o las aplicaciones que soportan todo el sistema, mientras el "cliente" dispone de una aplicación más limitada que le permite la consulta y eventualmente el envío de datos o el uso de la aplicación. Clustering: en estadísticas indica una acción de reagrupación de datos en función de uno o varios criterios de clasificación o selección; en informática implica que dos o más tablas de una base de datos se guarden físicamente en forma adyacente para obtener un mejor rendimiento cuando se han de consultar simultáneamente. CPU: acrónimo de "Central Processing Unit", unidad central de proceso o procesador; es el corazón del computador. Cubo de datos: forma de acumulación de datos utilizada para consultas y análisis mdiante herramientas OLAP. Data marts: "mercados de datos", referido en primera instancia a un conjunto de datos construído de tal modo que facilite el acceso y uso por "usuarios finales", e.d. no expertos en estructuras de bases de datos. Data mining: "minería" o explotación de datos, conjunto de operaciones de diversos tipos que se pueden realizar para explorar relaciones, tendencias y proyecciones en conjuntos de datos de grandes dimensiones. 201
Data warehouse: "bodega" de datos; es el conjunto integrado de los datos no volátiles, almacenados históricamente, de que dispone una empresa, organizados para permitir consultas por un usuario final. DBMS: acrónimo de "Data Base Management System"; vea SGBD. DDL: acrónimo de "Data Definition Language" o lenguaje utilizado para definir una base de datos. Depósito de datos: Bodega de Datos más todo el conocimiento ligado a ésta o que pueda ser extraído mediante diversas técnicas. Diccionario de datos: conjunto de las definiciones o especificaciones de las categorías de datos y sus relaciones. DSS: acrónimo de "Decision Support System" o sistema de ayuda a la toma de deciciones. ECA: acrónimo de "Event - Condition - Action"; sistema de reglas que determinan cierta acción cuando un evento cumple una determinada condición. EDI: acrónimo de "Electronic Data Interchange"; estándar para el intercambio electrónico de información entre computadores, especialmente para efectuar operaciones comerciales. Espacio medial: entorno informativo que conecta a la gente con lugares y objetos reales o imaginarios. ETL: acrónimo de "Extraction, transformation and load". Las herramientas ETL están destinadas a facilitar al recolección de datos desde diferentes fuentes e ingresarlos en una nueva base de datos. Firewall: sistema que permite aislar de Internet todo o parte de los contenidos de un computador o de una red local, permitiendo sólo el acceso en casos calificados (controlados). GUI: acrónimo de "Graphic user interface", interfaz gráfica para el usuario. Hipermedio: Colección de palabras-claves, gráficos, imágenes, vídeos y sonidos vinculados en forma asociativa; usada para presentar información digital de tales maneras que un usuario las pueda explorar en forma interactiva. HTML: acrónimo de "HyperText Marking Language", lenguaje que define la forma de exhibición de los contenidos de una página web. HTTP: acrónimo de "HyperText Transfer Protocol", estándar de transmisión del contenido de páginas web. IA: acrónimo de Inteligencia Artificial. Indexación: técnica que permite optimizar el acceso a los registros en una base de datos. Integridad: propiedad de una base de datos que asegura la precisión y consistencia de la información que contiene. Intranet: sistema interconectado de las redes locales de ordenadores de una organización. Java: lenguaje de programación desarrollado por Sun Microsystems con la propiedad de poder ser utilizado en forma independiente del sistema operativo (UNIX, Mac OS, Windows u otro). Lista de autoridades: lista alfabética de términos cuya utilización se autoriza para describir referentes en un sistema documental (se entiende que no se pueden utilizar términos que no están en la lista). Llave: dato o combinación de datos utilizado para identificar o ubicar un registro en una BD. 202
Llave externa: identificador único utilizado para conectar una tabla de una BD relacional con otra, sin ser "llave primaria". Llave primaria: porción del inicio de cada registro de una BD que permite encontrar con rapidez dicho registro en un sistema indexado. Meta-datos: todos los datos y conocimientos que una organización posee acerca de la información que maneja, tanto en archivos (de ordenadores u otros) como en la memoria de las personas que en ella participan. Modelamiento de datos: actividad tendiente a definir la representación de la estructura de los datos bajo la forma de diagramas. OLAP: acrónimo de "Online Analytical Processing", tipo de aplicación que permite la manipulación multidimensional de los datos y su visualización mediante una interfaz gráfica. Programa: secuencia de instrucciones que indican al ordenador qué operaciones realizar. Protocolo: conjunto de reglas que determinan el comportamiento de las funciones propias de una comunicación digital. Realidad virtual: simulación que utiliza información para proveer experiencias multisensoriales; pueden ser creadas mediante generación computarizada de imágenes en el espacio medial. Registro: conjunto de los datos que representan a un mismo referente en una tabla de datos. SGBD: acrónimo de "sistema de gestión de base de datos". SQL: acrónimo de "Structured Query Language", lenguaje informático utilizado pata comunicar con sistemas de bases de datos. Tabla: Conjunto de datos en que cada ítem puede ser identificado en forma inambigüa mediante una llave. (A cada ítem corresponde un "registro" -fila o "tupla" de la tabla-). TCP/IP: acrónimo de "Transmission Control Protocol / Internet Protocol", protocolo de transmisión de datos en Internet. Tesauro o thesaurus: lista jerarquizada (y generalmente codificada) de términos organizados en clases y subclases, que se utilizan para describir referentes en un sistema documental. URL: acrónimo de "Uniform Resource Locator", dirección de un "recurso" en la WWW (normalmente un ordenador). VDA: acrónimo de "Visual Data Analysis" o análisis visual de datos; técnica basada en la transformación de datos numéricos en sistemas de coordenadas que permiten diversas formas de representación gráfica. WWW: acrónimo de "World Wide Web", parte de Internet dedicada a la transmisión de información de carácter multimedial (formato HTML). XML: acrónimo de "Extended Marking Language", lenguage de definición de datos compatible con el HTML y la WWW.
203
204
BIBLIOGRAFIA ANDREWS, K.: "Applying hypermedia research to the World Wide Web", Workshop on Hypermedia Research, Hypertext '96 Conference, Washington, 1996, http:www.iicm.edu/apphrweb ARDISSONO, L. - LESMO, L. & SESTERO, D.:"Updating the User Model on the Basis of the Recognition of the User's Plans", Paper, 4th International Conference on User Modeling (UM94), Hyannis, Cape Cod, Mass., Agosto 1994. BARROS, O.:"Manual de diseño lógico de sistemas de información administrativos", Santiago de Chile, Ed. Universitaria, 3º ed. 1987. BENDER, W. & MACNEIL, R.: "Design of electronic information", Paper, Cambridge (Mass.), MIT Media Laboratory, (http://www.media.mit.edu/), 1997(?) BETTETINI, G. y COLOMBO, F.: "Las nuevas tecnologías de la comunicación", Barcelona, Paidos, 1995. BIEBER, M., VITALI, F., ASHMAN, H., BALASUBRAMANIAN, V., OINAS-KUKKONEN, H.: "Fourth generation hypermedia: some missing links for the World Wide Web", International Journal of Human-Computer Studies, v. 47, 1997, pp.31-65. BOHM, D. & PEAT, D.: “Ciencia, orden y creatividad”, Barcelona, Kairos, 1988. BROWN, J. & alt.: "Visualization. Using Computer Graphics to Explore Data and Present Information", New York, John Wiley, 1995. BRUSILOVSKY, P. & BEAUMONT, I.: "Adaptive Hypertext and Hypermedia", Paper, 4th International Conference on User Modeling (UM94), Hyannis, Cape Cod (Mass.), Agosto 1994. CABIN, Ph.& col.: "La communication: état des savoirs", Auxerre, PUFSciences Humaines, 1998. CHESNAIS, P., MUCKLO M., SHEENA, J.: "The Fishwrap personalized news system", Paper, Cambridge (Mass.), MIT Media Laboratory, (http://www.media.mit.edu/) 1997(?). COLOMBO, F.: "Ultimas noticias sobre el periodismo", Barcelona, Anagrama, 1997. COLLE, R.: - "Para informar en la WWW", Centro de Estudios Mediales, Universidad Diego Portales, Santiago, 2001. - "Teoría del Caos, cognitivismo y semántica", Revista Latina de Comunicación Social, nº3, Marzo 1998. (www.ull.es/publicaciones/latina/) - "Análisis de contenido, mapas semánticos y Teoría del Caos", Ponencia presentada en el II Encuentro Internacional de Comunicación y Cultura, Holguín (Cuba), 1997.
205
- "Documentación periodística", Santiago, Pontificia Universidad Católica de Chile, 1992. -"Tecnologías de la Información", Santiago de Chile, Esc. de Periodismo PUC, 1989. COLLE, R., MUÑOZ, L. Y ROJAS, H.:"ANATEX", Software de Análisis de textos para Mac OS, Santiago de Chile, Pontificia Universidad Católica, 1987-88. COLLE, R., ROZAS, E. y ROMO, W.: "Prensa y moral familiar", (Informe final de un Proyecto de Análisis de Contenido), Santiago de Chile, Ed.Pontificia Universidad Católica, 1993. CORNEJO, C. & ARCEU, A.: "Mecanismos psicológicos de reducción de la complejidad del entorno", en Estudios Sociales 82, 1994, pp.141-158. DATE, C.J.: "Introduction to Data Base Systems", Addison-Wesley, 7ª ed. 2000. DAVIS, S. & BOTKIN, J.: "The coming of knowledge-based business", Harvard Business Review, Sept-October 1994, pp.165-170. DE PABLOS, J.M.:"El «periódico» en línea", en Unicarta, 1996, nº78, pp.5-12. DRETSKE, F.: "Conocimiento e información", Barcelona, Salvat (Bibl.Científica), 1989. EHRLICH, M.F. JOHNSON-LAIRD, P. & alt.: "Les modèles mentaux: Approche cognitive des représentations", Paris, Masson, 183p. ELMASRI, E. & NAVATHE, S: "Sistemas de bases de datos, Conceptos fundamentales", Addison-Wesley Iberoamericana, 1997. GAINES,B.R., SHAW, M.L.G.: "Knowledge acquisition, modelling and inference through the World Wide Web", International Journal of HumanComputer Studies, 1997, nº46, pp.729-759. GARDARIN, G. & VALDURIEZ, P.: "Bases de données relationnelles", Paris, Eyrolles, 1988. GILLENSON, M.: "Introducción a las bases de datos", México, McGraw Hill, 1988. GLEICK, J.: "Caos - La creación de una ciencia", Barcelona, Seix Barral, 1988. HORN, R.: "Visual Language - Global Communication for the 21st Century", Brainbridge Island (Wa), Macro VU, 1998. IKEDA, K.:"A social psychological approach to the networked reality", Tokyo, Department of Social Psychology, The University of Tokyo Hongo, 1994. KAMBA, T., SAKAGAMI, H. & KOSEKI, Y.: "Anatagonomy: a personalized newspaper on the World Wide Web", en Human-Computer Studies 1997, v.46 nº6, pp.789-803. KOHONEN,T.: "Self-Organizing Maps", Berlín, Springer, 3ª ed. 2001. KUDYBA, S. & HOPTROFF, R.: "Data Mining and Business Intelligence: A Guide to productivity", Idea Group Publishing, 2001. LANDOW, G.: - "The Rhetoric of Hypermedia: Some Rules for Authors", Journal of Computing in Higher Education, 1989, nº1, pp.173-198. " - "Hipertexto - La convergencia de la teoría crítica contemporánea y la tecnología", Barcelona, Paidos, 1995.
206
LASICA, J.D.:"Net Gain: How online news sites can strengthen therelationship of journalism with its resistive audience", American Journalism Review, 1996, vol.18, nº9, pp.20-33. LEVY, P.: "Les technologies de l'intelligence", Paris, La Découverte, 1990. LEWIN, R., "La complexité", Paris, Intereditions, 1994. LOPEZ H., A.: "La documentación, herramienta básica del periodista y del comunicador", en Ámbitos 5, Revista Andaluza de Comunicación, Universidad de Sevilla, 2º semestre de 2000, http://www.ull.es/publicaciones/latina/ ambitos/5/32angeles.htm MARCO, D.: "Meta Data Repository - A Full Lifecycle Guide", New York, Wiley, 2000. NORMAN, D. & DRAPER, S.: "User centered system design - New perspectives on human-computer interaction", Hillsdale (NJ), Lawrence Erlbaum Associates, 1986. NORMAN, D. & LINDSAY, P.: "Introducción a la psicología cognitiva", Madrid, Tecnos, 2º ed. 1983. PEREZ, V. & PINO, J.: "Estructuras de datos y organizaciones de archivos", Santiago de Chile, Ed. Universitaria, 6º ed.1990. POBLETE, P.: "Bases de Datos", Santiago de Chile, CIISA, 59p. SHNEIDERMAN, B.: "Designing information-abundant web sites: issues and recomendations", International Journal of Human-Computer Studies, 1997, nº47, pp.5-29. THURAISINGHAM, B.: "Data Mining: Technologies, Techniques, Tools and Trends", CRC Press, 1998. WEISS, S. & INDURKHYA, N.: "Predictive Data Mining", Morgan Kauffmann, 1997. WESTFAL, Ch. & BLAXTON, T.: "Data mining solutions", New York, Wiley, 1998.
Fuentes sobre Data Mining consultadas en Internet - David P. Bock: "Computer Graphics II" (http://woodall.ncsa.uiuc.edu/dbock/Class/csc232/LectureNotes.htm) - SRA: "Knowledge Discovery Solutions" (http://www.knowledgediscovery.com) - "Data Mining", IT Horizons, vol.2, n.2 (http://www.cambashi.com/dmrole.htm)
Software libre o de demostración en Internet - "ARMiner Project", año 2000, (http://www.cs.umb.edu/~laur/ARMiner/) - "CBA: Classification Based on Association", 1998, National University of Singapore (dm2@comp.nus.edu.sg) - "Cluster-Senses", 2000, (http://inf.tu-dresden.de/~dk17/cluster-senses/) 207
- "FDEP: a Program for Inducing Functional Dependencies from relations", 2000, (http://www.cs.bris.ac.uk/~flach/fdep) - "Generic Visualization Architecture (GVA)", United Information Systems, Inc. (hhtp://www.unitedis.com/gva) - "MCLUST/EMCLUST Model-Based Classification Software", 2001, (http://www.stat.washington.edu/fraley/mclust/soft.shtml) - "PolyAnalyst: Data Mining System", Megaputer Intelligence Inc. (http://www.megaputer.com) - "Rosetta. A Rough Set Toolkit for Analysis of Data", 2000, (http://www.idi.ntnu.no/~aleks/rosetta/) - "VisDB: A Visual data Mining and Database Exploration System", 1996, (http://www.dbs.informatik.uni-muenchen.de/dbs/projekt/visdb/visdb.html)
208
TABLA DE GRAFICOS 1.1: Depósito y mercado de datos...................................... 21 1.2: "Potencial de retorno" de los sistemas de datos................. 24 1.3: Ejemplo de estructura jerárquica: ANFP......................... 25 1.4: Ejemplo de estructura jerárquica en una empresa ............... 26 1.5: Relaciones en los dos tipos de estructuras....................... 28 1.6: Reordenamiento..................................................... 29 1.7: Relaciones entre Archivos de Vinos y de Consumidores ...... 30 1.8: Estructura de una BDOO........................................... 31 1.9: Operaciones relacionales básicas.................................. 33 2.1.3: Tipos y mallas de relaciones .................................... 37 2.2.1: Primera forma normal............................................ 39 2.2.2: Segunda forma normal........................................... 40 2.2.3: Tercera forma normal............................................ 41 2.2.4: Modelo canónico (ejemplo) ..................................... 41 2.3.2: Tablas asociadas en una BD normalizada (Ejemplo)......... 44 2.4.2: Unión de meta-datos compuestos .............................. 48 2.4.3: Intersección de meta-datos compuestos........................ 48 3.1: Niveles de exploración............................................. 60 3.2: Subestructura en una red........................................... 61 3.3: Tipos de meta-conocimiento....................................... 62 3.4: Situaciones de data mining......................................... 63 3.5: Etapas de trabajo.................................................... 65 3.6: Páginas de ingreso a un sitio web ludo-educativo .............. 72 3.7: Estadígrafo de dispersión con clusters ........................... 73 3.8: Arbol jerárquico..................................................... 73 3.9: Red auto-organizada................................................ 73 3.10: Paisaje de datos.................................................... 73 3.11: Mapa semántico construido sobre la base de un análisis de coocurrencias temáticas............................................ 79 4.1: Sistema documental periodístico.................................. 88 4.3: Estructura de la información periodística......................... 97 4.4: Selección de atributos .............................................. 99 5.1.1.a: Formulario de ingreso de noticia............................103 5.1.1.b: Pantalla de noticias de la revista "TDC"....................103 5.1.2a : Noticia acerca de errores de Microsoft......................104 5.1.2b : Noticia acerca del futuro de las "punto-com"..............105 5.2.1 : Noticias por mes de ocurrencia ...............................109 5.2.2: Lugares más frecuentes.........................................110 5.2.3: Descriptores temáticos más frecuentes........................111 5.2.4 : "Implicados" más frecuentes..................................113 5.2.5: Noticias por Fuentes más frecuentes..........................114 5.3.2 : Modelo normalizado de la BD de noticias ...................116 5.5.1: Frecuencias por fechas..........................................119
5.4.2: Lugares más frecuentes.........................................120 5.4.3: Descriptores temáticos más frecuentes........................123 5.4.4: "Implicados" más frecuentes...................................124 5.4.5: Agrupación de "Implicados" en clases........................125 5.4.6: Fuentes más frecuentes.........................................126 5.4.7: Predictibilidad mútua de 4 atributos...........................129 6.1.1a: 4000 descriptores aplicados...................................133 6.1.1b: Interpretación...................................................134 6.1.1c: Descriptores de "Comunicación".............................134 6.1.2: Implicados repartidos por clases...............................136 6.2.1: Red de relaciones entre Descriptores..........................139 6.2.1b: Red de relaciones entre Descriptores ........................140 6.2.1c: Distribución de cantidades de Frecuencias..................141 6.2.2: Red de relaciones entre Implicados............................143 6.2.3: Mapa de clases coocurrentes de "Implicados" ...............145 6.2.4: Red de relaciones entre Lugares...............................146 6.3.1: Descriptores e Implicados (por clases)........................149 6.3.1b: Descriptores y clases de Implicados con relaciones múltiples........................................................150 6.3.2a: Noticias acerca de Internet por mes..........................152 6.3.2b: Noticias "digitales" por mes..................................152 6.3.2c: Noticias de "e-Comercio" por mes...........................153 6.3.2d: "Napster" por mes.............................................154 6.3.3a: Microsoft por mes..............................................154 6.3.3b: "Fabricantes de software" por mes ..........................155 6.3.3c: "Sitios Web" por mes..........................................156 6.3.4: Red de Descriptores y Lugares ................................158 6.3.5: Evolución de la cantidad de noticias de Estados Unidos, Chile y España...................................................160 6.3.6: Asociación entre Lugares y clases de Implicados............162 6.3.6a: España, Chile y Estados Unidos: Principales clases de Implicados comunes...............................................163 6.3.6b: Clases de Implicados en Chile vs. Estados Unidos........164 6.3.7: Frecuencias de Clases de Implicados según Fuentes........167 6.3.8: Red de Descriptores y Fuentes.................................169 6.3.8b: Red acumulativa de interrelaciones ..........................169 6.4.1: Tríadas Lugar-Implicados-Descriptores ......................172 6.4.2a: Tríadas Fechas-Implicados-Descriptores....................174 6.4.2b y c: proyección tridimensional (a color)......................177 6.4.3: Tríadas Fechas-Lugares-Descriptores.........................176 6.4.3b: Tríadas F-L-D (Forma circular)..............................178 6.5.1a: Cien noticias en cinco dimensiones..........................179 6.5.1b: Visualización separando casos extremos....................179 6.5.2: Noticias ordenadas por descriptor, implicado y fuente (3D, color) ...................................................... 178 7.1: El valor de la Información ........................................194 Anexo: Conjunto de Mandelbrot.......................................180