METODOLOGÍA DEL PROYECTO REID Desarrollo de un sistema de recuperación para entornos de información dinámica: Tesauros de verbos, implementación del estándar ISO/ICE 13250:1999 José Antonio Moreiro González: jamore@bib.uc3m.es Juan Lloréns Morillo: llorens@ie.inf.uc3m.es Miguel Ángel Marzal García-Quismondo: mmarzal@bib.uc3m.es Jorge Morato Lara: jorge@ie.inf.uc3m.es Marina Vianello Osti: mvianell@bib.uc3m.es Pilar Beltrán Orenes: pbeltran@bib.uc3m.es Sonia Sánchez Cuadrado: ssanchec@ie.inf.uc3m.es David García Martul: dgmartul@bib.uc3m.es
Resumen Se presenta la metodología de un proyecto para la implementación del estándar de Topic Maps que aport e mejoras a los tesauros. La finalidad del trabajo es proponer una herramienta que contribuya positivamente a la indización, búsqueda y recuperación de la información. 1. OBJETIVOS DEL PROYECTO La propuesta del proyecto1 parte del estándar ISO/ICE 12350:2000 sobre Topic Maps2 para mejorar y adaptar los tesauros clásicos descritos en la norma ISO 2788 a internet. Los Topic Maps son un conjunto de documentos interrelacionados en un espacio multidimensional en el que los nodos son conceptos. Para Rath (2001) los Tesauros son una simplificación del esquema propuesto para los Topic Maps y por lo tanto, a efectos de este trabajo, suponen un punto de partida para nuevos recursos terminológicos. El objetivo es crear una clasificación de la categoría verbal que defina relaciones (association types) de Topic Maps y relaciones de tesauro propuestas por ISO 2788 para encarar en un futuro la creación automática de Topic Maps y de
1
Este trabajo ha sido realizado dentro del marco del Proyecto financiado por la CICYT (Comisión Interministerial de Ciencia y Tecnología), titulado “Desarrollo de un tesauro de verbos para entornos de información dinámica. Aplicación del estándar ISO/ICE: 13250:1999, del Plan General del Conocimiento. TIC 2000-2003. 2
El texto completo del estándar ISO/ICE 13250:2000 sobre Topic Maps se puede encontrar en la siguiente dirección http://www.infoloom.com/tmstands [consultado el 28 de febrero de 2002].
tesauros. Las mejoras se pueden englobar en dos categorías: o
Tipos de relaciones: se propone la incorporación de nuevos tipos de relaciones, basándonos en la categoría del verbo y en aquellos que aparecen en los documentos del corpus. Esta aproximación puede suponer la posibilidad de paliar automáticamente las deficiencias de la recuperación. Algunos de estos nuevos tipos de relaciones pueden estar vinculados a un dominio concreto y favorecer su identificación.
o
Tipos de descriptores: algunas categorías morfológicas han sido ignoradas sistemáticamente en los tesauros clásicos. El motivo era la preferencia de los sustantivos a otras categorías, dada su mayor semántica. En este proyecto, proponemos la incorporación de algunos de estos elementos, en concreto los verbos, como elementos de recuperación del tesauro.
Como marco de pruebas se creará una serie de módulos informáticos, que contribuyan en lo posible, a localizar de forma semi-automática estos elementos verbales y las relaciones que definen, tanto si son propuestas por el estándar de los Topic Maps como por el estándar del