M436

Page 1

METODOLOGÍA DEL PROYECTO REID Desarrollo de un sistema de recuperación para entornos de información dinámica: Tesauros de verbos, implementación del estándar ISO/ICE 13250:1999 José Antonio Moreiro González: jamore@bib.uc3m.es Juan Lloréns Morillo: llorens@ie.inf.uc3m.es Miguel Ángel Marzal García-Quismondo: mmarzal@bib.uc3m.es Jorge Morato Lara: jorge@ie.inf.uc3m.es Marina Vianello Osti: mvianell@bib.uc3m.es Pilar Beltrán Orenes: pbeltran@bib.uc3m.es Sonia Sánchez Cuadrado: ssanchec@ie.inf.uc3m.es David García Martul: dgmartul@bib.uc3m.es

Resumen Se presenta la metodología de un proyecto para la implementación del estándar de Topic Maps que aport e mejoras a los tesauros. La finalidad del trabajo es proponer una herramienta que contribuya positivamente a la indización, búsqueda y recuperación de la información. 1. OBJETIVOS DEL PROYECTO La propuesta del proyecto1 parte del estándar ISO/ICE 12350:2000 sobre Topic Maps2 para mejorar y adaptar los tesauros clásicos descritos en la norma ISO 2788 a internet. Los Topic Maps son un conjunto de documentos interrelacionados en un espacio multidimensional en el que los nodos son conceptos. Para Rath (2001) los Tesauros son una simplificación del esquema propuesto para los Topic Maps y por lo tanto, a efectos de este trabajo, suponen un punto de partida para nuevos recursos terminológicos. El objetivo es crear una clasificación de la categoría verbal que defina relaciones (association types) de Topic Maps y relaciones de tesauro propuestas por ISO 2788 para encarar en un futuro la creación automática de Topic Maps y de

1

Este trabajo ha sido realizado dentro del marco del Proyecto financiado por la CICYT (Comisión Interministerial de Ciencia y Tecnología), titulado “Desarrollo de un tesauro de verbos para entornos de información dinámica. Aplicación del estándar ISO/ICE: 13250:1999, del Plan General del Conocimiento. TIC 2000-2003. 2

El texto completo del estándar ISO/ICE 13250:2000 sobre Topic Maps se puede encontrar en la siguiente dirección http://www.infoloom.com/tmstands [consultado el 28 de febrero de 2002].

tesauros. Las mejoras se pueden englobar en dos categorías: o

Tipos de relaciones: se propone la incorporación de nuevos tipos de relaciones, basándonos en la categoría del verbo y en aquellos que aparecen en los documentos del corpus. Esta aproximación puede suponer la posibilidad de paliar automáticamente las deficiencias de la recuperación. Algunos de estos nuevos tipos de relaciones pueden estar vinculados a un dominio concreto y favorecer su identificación.

o

Tipos de descriptores: algunas categorías morfológicas han sido ignoradas sistemáticamente en los tesauros clásicos. El motivo era la preferencia de los sustantivos a otras categorías, dada su mayor semántica. En este proyecto, proponemos la incorporación de algunos de estos elementos, en concreto los verbos, como elementos de recuperación del tesauro.

Como marco de pruebas se creará una serie de módulos informáticos, que contribuyan en lo posible, a localizar de forma semi-automática estos elementos verbales y las relaciones que definen, tanto si son propuestas por el estándar de los Topic Maps como por el estándar del


tesauro clásico. El sistema informático que se describirá en los próximos apartados, será el encargado de analizar los documentos, de generar el vocabulario, de tratarlo y de gestionarlo. La finalidad es que se pueda emular una estructura de tesauro que incluya los elementos verbales necesarios que permitan generar relaciones entre verbos y conceptos. Por lo tanto, se realizarán dos tipos de estudios de verbos. Por una parte, relaciones que se generan entre conceptos sustantivos, y por otra, relaciones semánticas entre los verbos. Los resultados de las búsquedas de información serán diferentes a las que se pueden realizar con los actuales tesauros hasta el momento. Por último se propone un marco experimental que corrobore en su caso la utilidad en la recuperación de los elementos verbales a los tesauros. 2.

Identificación de relaciones útiles para un tesauro

Formas verbales que representan una relación tesaural.

2. Paralelamente, se hará un estudio de cuales son las consultas típicas de usuarios, para relacionar sus consultas con los distintos tipos de relaciones a representar. Es decir, que relaciones pueden responder a formulaciones del tipo: qué, quién, cómo, cuando, cuanto, dónde, cuál, etc. 3. Una vez localizadas las relaciones a representar en el tesauro, se procederá, a relacionar manualmente las relaciones con distintas estructuras verbales presentes en las frases de los documentos.

BD INICIAL

Figura 1: Proyecto Tesauro de verbos.

4. En posteriores etapas, esta fase se revisará hasta poder representar toda la semántica de los dominios seleccionados. Para ello, serán de utilidad los estudios de frecuencia terminológica y los resultados de los procesos de indización y clasificación. Es decir, en posteriores etapas se refinará el resultado de esta fase mediante un proceso semiautomático. En las siguientes secciones se van a presentar las etapas de la metodología del proyecto.

METODOLOGÍA DE IDENTIFICACIÓN DE RELACIONES Y FORMAS VERBALES 1. En un primer estadio, este paso se realizará de forma manual. Se procede a identificar las relaciones que pueden ser de utilidad para la creación de un tesauro ISO 2788, considerando su posible ampliación mediante propuestas de nuevas relaciones que se pueden encontrar en UML (ISO 19501-1), Topic Maps (ISO 132502000), Díaz(2001) y Tudhope (2001). No obstante se tendrán en cuenta las clasificaciones de verbos (Levin, 1993, Balmer, 1981, Vázquez, 2000) realizadas en los últimos años.

Estudio de consultas típicas por los usuario s

2.1. Selección del corpus. Para comenzar a identificar las relaciones verbales se selecciona un conjunto de documentos que representen un dominio. Se va a escoger un dominio específico, porque de este modo se disminuye la ambigüedad léxic a. •

Creación de un Corpus documental adecuado en formato electrónico. o

Se estudia un conjunto de documentos en castellano que represente de la manera más exhaustiva posible el vocabulario del dominio.

o

Se dará preferencia a aquellos documentos de un mismo dominio cuya redacción tenga un registro uniforme. Es decir, se preferirá los documentos redactados de una manera homogénea, que versen del mismo tema, dirigidos a un mismo público, y que procedan


de la misma época, para asegurar un vocabulario uniforme. Los documentos idóneos son aquellos que tengan información sobre el formato del texto mediante lenguaje de etiquetas o que hayan sido generados mediante procesadores de texto.

o

Validación del corpus documental. Una vez procesado el corpus se procederá a analizar el vocabulario generado incluyendo nuevos documentos que contribuyan a un completo reflejo de la terminología del dominio. Se trata de solucionar el vacío documental. Es decir, cuáles documentos deberían existir para completar el dominio.

o

2.2.Representación inicial del dominio

o

Introducir los términos de las clasificaciones verbales analizadas inicialmente.

o

Incorporar al vocabulario la lista de verbos que incluya las acepciones verbales existentes para las relaciones que posee un tesauro.

o

Los verbos deberán ser, en lo posible, independientes del dominio , pero pertenecientes a él.

2.2.2. Identificación de términos. Durante esta fase se van a identificar los términos que determinan el dominio concreto representado por los documentos de partida. Esta fase puede ser realizada mediante herramientas informáticas que reconozcan la información electrónica contenida en el corpus documental. La identificación de las diferentes palabras, se realizará a través de autómatas que mediante algoritmos, determinen las diferentes palabras y se le asigne una categoría gramatical.

2.2.1. Creación y Contenido inicial de la BD El modelo que se muestra en el documento sobre la base de datos, deberá ser capaz de contener toda la semántica, incluyendo la incorporación de la categoría verbal. Una base de datos referencial será más eficiente para logra una mayor velocidad y consumo más bajo de recursos en el proceso.

Corpus

Identificación de términos

Normalización

Incorporar el vocabulario y las reglas de partida a la base de datos: o

Reglas de normalización vocabulario.

o

Introducir el vocabulario de partida estándar. Las partículas que funcionan de unión, palabras vacías, listados de siglas, nombres propios, locuciones, etc. El vocabulario insertado deberá tener una categoría asociada que indique tanto su origen como su posterior procesamiento.

Base de Datos Generación de térmminos compuestos

de Filtrado Terminológico

Indización de términos por documento

Figura 2: Identificación de términos

2.2.2.1. Normalización. Es el módulo que se encarga de identificar las palabras que designan un mismo concepto y que por variantes flexivas aparentemente son diferentes, y asignarles una forma común que sea representativa del resto. Todos estos


términos serán guardados en una base de datos. A este proceso lo llamamos Normalización. Es decir, en primer lugar se compara cada variante flexionada con un vocabulario del mismo idioma y después se aplican una serie de reglas para la normalización de los términos. De igual modo, se analiza cada una de las formas verbales que aparecen en el documento, se determina su flexión y conjugación para normalizarlo, a una sola forma como podría ser el infinitivo o estructuras verbales más complejas. Básicamente, este módulo seguirá los siguientes pasos: -

Detectar todas las variantes flexionadas de cada término de entrada, en función de un conjunto de reglas de Normalización para el castellano.

-

Confrontar cada variante flexionada con un vocabulario del mismo idioma con vistas a identificar su categoría morfológica real.

-

Determinar la categoría mediante los estudios de frecuencia que contribuyan a designar el valor semántico de las palabras. Así, el valor semántico de un posible verbo, estructura verbal o sustantivo será mayor que el de una preposición o un artículo. Sin Normalización coches

: : coches

Con Normalización Entrada indización

Proceso indización

Resultado indización

coches

: : coche

Figura 2: Ejemplos de normalización.

Este proceso es similar a los tradicionales algoritmos de stemming como el de Lovins o el de Porter una revisión de ambos se puede encontrar en Frakes (1992), aunque adaptándolos al castellano.

2.2.2.1.1.

Generación de términos compuestos.

La Generación de términos compuestos a raíz de un análisis léxico será una herramienta capaz de recoger los términos compuestos que apareciesen en los documentos. No obstante esta herramienta será sometida a un estudio para evaluar la posibilidad de que sea capaz de diferenciar los distintos tipos de palabras compuestas. (Lang, 1992) con la finalidad de eliminar ambigüedad y determinar unidades de información (Kuramoto, 2002). Para la identificación de los términos compuestos se tomará como base las categorías terminológicas asignadas en la base de datos. El módulo de términos compuestos se encarga de forma continua de analizar la categoría y posteriormente la posición que ocupa en el documento. Mediante una serie de reglas y algoritmos basados de nuevo en autómatas finitos, se establece que determinadas secuencias pueden formar términos compuestos. Un proceso similar es utilizado para las estructuras verbales, las perífrasis verbales y verbos que marcan una relación con la preposición que le acompaña. 2.2.2.2. Filtrado terminológico. El filtrado terminológico es una herramienta que se encarga de realizar una selección de los términos, a los cuales se les atribuye mayor importancia en cuanto a carga semántica en un dominio concreto, es decir, los términos más útiles para la recuperación de información. El filtrado se va a llevar a cabo de acuerdo a criterios estadísticos, tipográficos y de localización. Por ese motivo, se prepara esta herramienta capaz de filtrar esos términos en función de la importancia para cada dominio. El filtrado en un primer momento está basado en las siguientes tareas: -

Cálculo del número de veces que aparece un mismo término normalizado en distintos documentos (frecuencia del término dentro del corpus).


-

En caso de estimarlo necesario se procederá a crear un segundo corpus documental, denominado background, que sirva para general un corpus léxico de referencia. La selección de este corpus deberá coincidir en época y lugar con el corpus del dominio, aunque a diferencia de éste deberá huir de una temática en particular. Se comparan los cálculos del término con los valores que serían esperables en un corpus del dominio general o procedente de otros dominios.

Se aplica la fórmula tf-ddf (frecuencia del término, frecuencia documental directa) tf*n/N*k, donde tf es la frecuencia del término (dividido por el término que aparece más frecuentemente en el documento) y n es el número de documentos con el término, N es el número de documentos analizados, y k es una variable que depende de la tipografía y lugar donde se ha encontrado el término (de acuerdo a una media de pesos según tipografía y localización). Aquellos términos cuya frecuencia relativa (una vez modificada al tener en cuenta su ubicación, formato, ...) sobrepase la frecuencia del dominio genérico serán tenidos en cuenta para el resto de procesos de recuperación del proyecto. Es decir, serán considerados, en principio, como los descriptores del dominio. Una vez terminada la fase automática de la aplicación, el experto en el dominio y/o el analista de dominios deberá efectuar una validación manual de estos términos con el fin de minimizar cuanto antes los posibles errores que la herramienta automática haya podido introducir. 2.2.2.3. Indización de documentos El proceso de indización referencia cada uno de estos descriptores con determinado documento y la posición dentro del mismo. Es decir, se trata en este estadio de una indización por extracción de los descriptores del documento. Es interesante destacar que, en este paso también se referencia aquellos términos que si bien no son descriptores, si son elementos válidos para crear relaciones en etapas posteriores. Existe una información adicional que pueden aportar los verbos en la

etapa de indización, y que influirá posteriormente en la relación definida por las características de los verbos de la frase. 2.2.2.4. Identificación de relaciones entre los términos del vocabulario Insertadas las relaciones en la base de datos, la herramienta localiza esas estructuras y les asigna una relación. Con esta información, los mapas conceptuales serán capaces de construirse de forma semi-automática. Básicamente, el método para construir las relaciones entre los elementos del tesauro está compuesto por las siguientes actividades: -

Identificación de los descriptores del vocabulario o unidades de información presentes en una oración del texto documental.

-

Identificación de los verbos que unen las unidades de información.

-

Analizar la semántica de las relaciones creadas, e indizar la estructura verbal que une los descriptores con la relación pertinente de tipo tesauro. Identificador de relaciones

T1

VB

T2

TIPO DE RELACIÓN

RT (procedencia) RT (equivalencia) La lava El HTLV-III

Proviene del Es equivalente a

volcán el virus HIV

Filtrado de relaciones Figura 3: Desarrollo del Topic Maps

Como ya se ha comentado previamente, se analizarán los resultados para un ajuste óptimo. En cualquier caso se deberá tener en cuenta que:


-

-

Se tratará de centrar en las relaciones que responden a preguntas del tipo qué, quién, cómo, cuando, dónde. También, en relaciones que resultan interesantes en recuperación documental (autoría, afiliación, etc). Además, se deberán localizar aquellas relaciones que deberán ser suprimidas, bien por tener diferencias de matiz mínimas, bien por no tener una estructura léxico-sintáctica que permita discer nir cual de las relaciones es la correcta.

2.2.2.5. Filtrado de relaciones basadas en estadísticas en ese dominio. A la hora de discriminar esas relaciones se tendrán en cuenta principios que eliminen inconsistencias como: -

Identificación de relaciones contradictorias entre conceptos.

-

Relaciones de generalización cíclicas.

Para ayudar a resolver estas inconsistencias el sistema realizará un filtrado de relaciones. Con este fin se calculan el número de relaciones y se valorará todas las relaciones que aparezcan a excepción de las inconsistentes. Las relaciones se podrán agrupar: -

Relaciones de diferentes documentos.

-

Relaciones en los mismos documentos.

No obstante la herramienta propondrá una relación propia de un dominio, cuando esa relación se repita en diferentes documentos del mismo ámbito. Se propondrá una relación genérica, en el caso en el que introduciendo documentos de dominios diferentes sea común a mas de un dominio. En el caso en el que una relación aparezca una sola vez , el sistema propondrá al usuario una validación de esa posible relación tanto para un dominio general como para un dominio más específico. 3. DESARROLLOS FUTUROS. Con la finalidad de probar la calidad del Topic Maps o del tesauro creado se procederá a comparar su capacidad de recuperación frente a un tesauro clásico de los documentos

previamente indizados que versen sobre un determinado tema

Para poder realizar una evaluación objetiva se introducirá en el sistema una batería de preguntas y consultas, que además se analizarán y comprobarán de forma manual, finalmente se cotejarán los resultados al expandir los términos mediante las relaciones de otro tesauro. BIBLIOGRAFÍA Balmer, Th. and Brennenstuhl, W. Speech Act Classification: A Study in the Lexical Analysis of English Speech Activity Verbs. Springer Verlag. Berlín, 1981. Díaz Rodríguez, S. I. Esquemas de representación de información basados en relaciones : aplicación a la generación automática de representaciones de dominios. Tesis doctoral, Director, Juan Lloréns Morillo. Universidad Carlos III de Madrid, Departamento de Informática. Leganés, 2001. Frakes W. B. and Baeza-Yates R. Information Retrieval. Data Structures and Algorithms. Prentice Hall PTR. New Jersey, 1992 ISO /IEC JTC 1/SC34 Information Technology - Document Description and Processing Languages. http://topicmaps.com/content/resources\iso132 50-1999-fcd.htm [consultado 29/03/2001] ISO 19501-1:(pending), UML [JTC1-SC7?] [UML 1.1:1997, Unified Modelling Language (UML), Object Management Group (OMG), http://www.omg.org/ [PDF en http://cgi.omg.org/cgi-bin/doc?ad/99-06-09 ISO. Guidelines for the establishment and development of monolingual thesauri: international standard ISO 2788, ISO. 2nd ed. 1986-11-15. [Geneve]: ISO, 1986. Kuramoto, H. Sintagmas Nominais: uma Nova Proposta para a Recuperação de Informação. DataGramaZero-Revista de Ciencia da Informação. V.3 n.1. 2002. http://www.dgz.org.br/actual/Art_03.htm [Consultado 20/03/2002]


Lang, M.F. Formación de palabras en español, Cátedra. Madrid, 1992 Levin, B. English verb classes and Alternations: a preliminary investigation. University of Chicago Press. Chicago, 1993. Rath, H.H.; Pepper, S. Chapter 1: Topic Maps at work http://www.topicmaps.com/content/resources [Consultado 29/03/2001] Tudhope, D; Alani, H. and Jones, C. Augmenting Thesaurus Relationships: Possibilities for Retrieval. In: Journal of Digital Information, vol. 1, issue 8. http://jodi.ucs.soton.ac.uk Vázquez, G.; Fernández, A. y Martí, M. A. Clasificación verbal: alternancias de la diátesis. Universitat de Lleida. Lleida, 2000.


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.