Una Taxonomía Dinámica basada en Conceptos para Recuperación de Información J. Lara, M.C. Pérez de Celis, D. Pinto Resumen— En este artículo exponemos una metodología para el desarrollo de un sistema de búsqueda y exploración de información, basada en descripciones textuales para la recuperación de imágenes, utilizando una taxonomía dinámica. Esta taxonomía se almacena en una base de datos relacional que se integra a un sistema que permite al usuario explorar y a la vez afinar su consulta mediante un árbol de navegación. Como parte de la metodología expuesta proponemos él uso de técnicas de recuperación de información para extraer un vocabulario controlado, el cual se estructura jerárquicamente con la ayuda de un tesauro para la generación automática de las facetas y posteriormente se realiza el indexado entre los objetos y la taxonomía facetada. En particular, hemos aplicado este modelo sobre una colección de obras de arte, cada una de las cuales asocia una imagen con una descripción textual en el idioma español. Los resultados experimentales muestran las ventajas de una aproximación de este estilo. Términos Relacionados — árboles de navegación, clasificación facetada, generación automática de taxonomías, recuperación de información, taxonomías dinámicas, taxonomías facetadas.
—————————— ——————————
1 INTRODUCCIÓN
E
n un sistema de exploración de información, tradicionalmente se utiliza una estrategia guiada con el objetivo de presentar al usuario diferentes opciones que le permitan plantear una determinada consulta (búsqueda) bajo parámetros preestablecidos o semi-flexibles. Una alternativa a los motores de búsqueda de este estilo ó clásicos, es la de permitir que el usuario pueda navegar a través de los contenidos. Este proceso de navegación requiere, sin embargo, que el usuario conozca la manera en que se encuentra organizada la información. Una solución práctica a este inconveniente es el uso de una taxonomía. Cabe señalar que la utilización de taxonomías requiere la organización de los contenidos en torno a un determinado dominio de conocimiento. Desde nuestro punto de vista, una taxonomía flexibiliza la recuperación de información sobre aspectos específicos, pero continúa siendo una forma aún rígida ya que
———————————————— J.Lara. Facultad de Ciencias de la Computación, B. Universidad Autónoma de Puebla. E-mail: jlara@cs.buap.mx MC. Pérez de Celis. Facultad de Ciencias de la Computación, B. Universidad Autónoma de Puebla.México. E-mail: cperezdecelis@cs.buap.mx D. Pinto. Facultad de Ciencias de la Computación, B. Universidad Autónoma de Puebla. México. E-mail: dpinto@cs.buap.mx
no proporciona la posibilidad de reestructurar las consultas del usuario a medida que avanza en la recuperación de resultados, de tal forma que pudiera vincular los objetos recuperados con otros dominios de conocimiento con los cuales los objetos pudieran estar relacionados. Una posible solución para que el usuario pueda ser guíado, interactue y afine su consulta es el uso de lo que se conoce como una taxonomía dinámica (faceted taxonomy, faceted search) [1], la cual permite estructurar y acceder la información en más de una dimensión. Esto beneficia al usuario ya que fácil e intuitivamente puede localizar y explorar la información mediante los diferentes enfoques proporcionados por la taxonomía. En este trabajo nos concentraremos en la metodología utilizada para construir la taxonomía que es la base para la implementación de un sistema de clasificación facetada, mediante el cual el usuario puede construir su mapa de conocimiento. En las secciones posteriores presentaremos algunos de los trabajos asociados con el diseño y construcción de taxonomías y su utilización en la Recuperación de Información (RI). Posteriormente discutiremos la metodología utilizada para la conformación de la
-1-
J. LARA ET AL: UNA TAXONOMÍA DINÁMICA BASADA EN CONCEPTOS PARA RECUPERACIÓN DE INFORMACIÓN
taxonomía, en particular en el caso considerado que es el de la recuperación de objetos basada en su descripción textual. Presentaremos los resultados obtenidos y finalmente en las conclusiones discutiremos la importancia de conceptualizar las operaciones que permiten la generación de taxonomías abiertas. 2 TRABAJOS RELACIONADOS En un sistema de recuperación de información en el cual se tiene una colección de objetos caracterizados por propiedades diversas, la relevancia de estas propiedades difiere dependiendo del tipo de usuario. De hecho, una solución para encontrar la información que se requiere bajo una característica particular de un conjunto de objetos consiste en preguntar a un experto sobre el tema. Dado que esto no es generalmente posible, normalmente se recurre al uso de taxonomías. La importancia actual de las taxonomías se fundamenta en la posibilidad de su uso como una tripleta (esquema de clasificación, interpretación semántica, mapa de conocimiento) en la organización y posterior recuperación de los objetos almacenados (posiblemente en una base de datos). Las taxonomías pueden organizarse bajo diferentes estructuras: listas, jerarquías, polijerarquías, matrices multidimensionales y facetas, entre otras. Particularmente las polijerarquías, las matrices multidimensionales y las facetas van ligadas a las posibilidades de pertenencia de los objetos considerados en más de una de las categoría, o bien que éstos pueden categorizarse de diversas maneras alternativas. El hecho de caracterizar tipos de objetos bajo diversas categorías o características está ligado al de poder inducir un modelo de metadatos ad-hoc al universo del discurso donde los objetos y las instancias de los mismos toman significado. Bajo la anterior premisa es entonces que las taxonomías facetadas pueden tomar ventaja de la forma en que se comportan los metadatos. Entendemos por modelo de metadatos la colección de información estructurada sobre algún tipo de objeto o parte de éste. Por ejemplo, el nombre (o título) de una pieza de arte, su autor, época, imagen, descripción textual (denotación), su interpretación (connotación) o su género, son cada uno un tipo de metadato que puede estar asociado a un objeto cultural. De este modo y de manera natural cada uno de los elementos del esquema de
-2-
metadatos puede incorporarse como un concepto de la taxonomía facetada y puede ser recuperable mediante un motor de búsqueda. En consecuencia, es posible acceder a una instancia de un objeto bajo cualquiera de las dimensiones en las que ésta fue clasificada. Si consideramos el ejemplo dado anteriormente, podríamos recuperar un objeto cultural por su género, connotación o denotación o bien navegar sobre las diferentes facetas ya que estas son ortogonales entre sí. Sacco [1], [2], [3] introduce el concepto de taxonomía dinámica y con este la noción de poder soportar la incorporación de facetas que en sí mismas requieren de una taxonomía independiente para su descripción. Dado que nuestro interés es la recuperación de imágenes, basándonos en su descripción textual, utilizaremos los fundamentos de las taxonomías dinámicas pero extendemos el dominio del modelado de datos establecido por Sacco [3], ya que incluimos objetos textuales dentro de los metadatos manejados. En la literatura podemos encontrar dos enfoques de interés para el tratamiento de objetos textuales. El primero de estos enfoques presupone la existencia de varios temas sobre los cuales se desea generar una taxonomía y de este modo los algoritmos desarrollados se encargan de extraer de los documentos los términos y conceptos vinculados a los temas en cuestión. En particular, el sistema MindMap [4] propone la generación de múltiples taxonomías para una colección cualquiera de documentos, cada una con un tema único. Estas múltiples taxonomías se visualizan en el sistema como una herramienta integrada, de tal modo que se obtiene un sistema que permite la organización de la información de manera múltiple y la pertenencia de cada documento en las diferentes taxonomías se obtiene mediante la similitud entre los documentos. Para este propósito se utiliza un sistema de coordenadas espaciales con el cual se determina su similitud por la proximidad entre las coordenadas de los diferentes documentos. Como ya indicamos, en este enfoque cada una de las múltiples taxonomías derivadas requiere, para iniciar el análisis de los documentos, un conjunto de términos clave asociados a los conceptos sobre los cuales se realizará la clasificación de los documentos de la colección objetivo. En contraste, el segundo enfoque se centra en determinar las facetas y definir su taxonomía a partir del análisis textual de los documentos de la colección, haciendo uso de las técnicas de RI para el análisis de textos.
IASK PROCEEDINGS
En particular, en [5] se presenta un algoritmo empleado por el proyecto Flamenco de la Universidad de Berkeley para la generación automática de facetas a partir de WordNet sobre corpus escrito en idioma Inglés. 3
NUESTRO ENFOQUE
Durante el desarrollo del sistema de información para la gestión de objetos culturales hemos implementado el modelo de metadatos propuesto por CCO [6]. Sin embargo, al extender este modelo con los metadatos de género, connotación y denotación fue necesaria la inclusión de una descripción textual como parte de las instancias de los objetos. Este hecho determina la necesidad de una metodología que permita generar la estructura taxonómica de las facetas sobre la cual se clasificarán los diferentes términos incluidos en la descripción textual de los objetos. Cabe señalar que esta metodología puede extenderse para cualquier corpus de documentos descriptivos sobre el cual se requiera realizar una taxonomía basada en su contenido. Nuestra propuesta consiste en utilizar técnicas y algoritmos empleados en RI para generar una clasificación facetada que permita asociar una misma instancia de un documento a las diferentes facetas que son generadas a partir de un tesauro vinculado con un vocabulario controlado. Este último a su vez extraído a partir del procesamiento de los diferentes textos de la colección objetivo. El proceso efectuado se describe en las secciones subsecuentes.
El término dinámico refleja la habilidad de la taxonomía para adaptarse a diferentes enfoques, perspectivas e intereses. Sacco [3] establece la siguiente regla de inferencia: Dos conceptos A y B están relacionados si y solo si existe un documento D el cual se encuentra clasificado tanto bajo A (o uno de sus descendientes) y bajo B (o uno de sus descendientes). En la Fig. 2 se muestra un conjunto de datos clasificados bajo dos facetas. En la Fig. 3 se puede apreciar el cambio que sufren las taxonomías de nuestras facetas al enfocar nuestra consulta sobre los conceptos B y H.
Fig. 2. Ejemplo del conjunto de datos {a,b,…,j} clasificados bajo dos facetas.
3.1 Aproximación por Taxonomía Dinámica La mayor diferencia entre una taxonomía convencional y una taxonomía dinámica es que las taxonomías convencionales son monodimensionales (un elemento es clasificado bajo uno y solo un concepto); en cambio las taxonomías dinámicas son multidimensionales (Ver Fig. 1).
Fig. 1 La multidimensionalidad en las taxonomías dinámicas
Fig. 3 Taxonomía reducida
4 CASO DE ESTUDIO El conjunto de datos de estudio consta de un total de 500 obras de Arte con descripciones en el idioma español [7], [8], de las cuales se utilizó un conjunto de entrenamiento constituido por 200 obras para realizar las pruebas. Para implementar la taxonomía dinámica utilizamos las siguientes tres facetas: género, connotación y denotación. El género se refiere a cada una de las distintas categorías o clases en que se pueden ordenar las obras según rasgos comunes de forma y de contenido. Por ejemplo, el retrato y el
-3-
J. LARA ET AL: UNA TAXONOMÍA DINÁMICA BASADA EN CONCEPTOS PARA RECUPERACIÓN DE INFORMACIÓN
autorretrato, paisajes, religión y mitología, etc. La connotación representa la interpretación que se le da a la obra; y finalmente la denotación indica los objetos, materiales, etc. que se encuentran en la obra. De estas tres facetas, solamente la faceta de género es definida por un usuario experto, mientras que las otras dos se obtienen de manera automática.
obtuvieron tanto Bigramas, Trigramas como 4-Gramas de la descripción textual de las obras de arte. 5.4 Obtención del Vocabulario Controlado El conjunto de unigramas truncados (stems) unido al conjunto de N-Gramas forma un vocabulario controlado inicial, el cual es refinado desechando los términos ambiguos y posteriormente, con ayuda de un tesauro, se estructuran dichos términos si y solo si aparecen en este tesauro. La Fig. 5 muestra una representación gráfica para el cálculo del vocabulario controlado.
Voc.Controlado Tesauro Stem' s NGramas (1)
Fig. 4. Un objeto artístico con su descripción textual
5 METODOLOGÍA A continuación se presentan los pasos que hemos llevado a cabo para generar el sistema de clasificación basado en taxonomías dinámicas. 5.1 Eliminación de palabras cerradas Un primer paso consiste en la eliminación de palabras cerradas (stopwords), ya que éstas no permiten discriminar atributos relevantes de los objetos. Existen varias listas de palabras cerradas en Español, entre las que podemos mencionar las siguientes: Snowball [9] (325 palabras) y Ranks NL [10] (178 palabras). 5.2 Stemmer
Fig. 5 Vocabulario Controlado
5.5 Incrementar el vocabulario Controlado Mediante algoritmos de agrupamiento (clustering) se buscan los términos que no fueron considerados para formar parte del vocabulario controlado con los conceptos restantes del tesauro. Posteriormente se agregan nuevos conceptos al vocabulario a través de un proceso supervisado, tal y como se muestra en la Fig. 6.
Para obtener la taxonomía dinámica, se necesita contar con un vocabulario controlado. En nuestro caso, aplicamos un truncador (stemmer) para el idioma Español basado en el algoritmo de Porter [12], el cuál permite decrementar el vocabulario controlado y aumentar la definición de cada concepto, lo que a la larga va a proporcionar un aumento en la exhaustividad (recall). 5.3 N-Gramas Con el objetivo de encontrar conceptos formados por más de una palabra, se
-4-
Fig. 6 Clustering para incrementar el vocabulario controlado
IASK PROCEEDINGS
5.6 Expansión de Conceptos En este punto se cuenta ya con un mejor vocabulario controlado, pero existe la posibilidad de incrementar la definición de cada concepto. Esto nos lleva a generar nuevamente clusters, pero esta vez entre el vocabulario controlado y los términos que no fueron contemplados (ver Fig. 7).
Fig. 8 Filtrado de frecuencia
5.11 Indexado
Fig. 7 Clustering para incrementar la definición de los conceptos.
Cada objeto artístico contiene una descripción textual. Dicha descripción contiene palabras o frases que se encuentran en el vocabulario controlado. En un principio, cuando aún no vinculamos jerárquicamente el vocabulario controlado en la taxonomía facetada, los índices no están relacionados entre sí.
5.7 Obtención de taxonomías El siguiente paso consiste en generar las taxonomías de los conceptos incluidos en el vocabulario controlado a partir de la jerarquía del tesauro. 5.8 Definición de Facetas Una vez que se tiene la estructura jerárquica de los conceptos contenidos en el vocabulario controlado, se debe supervisar en que faceta se colocarán. 5.9 Poda El proceso de poda a las taxonomías se realiza para evitar que el usuario generalice expandiendo nodos sin profundizar en su consulta.
Fig. 9 Indexado descriptivo
Una vez que ya se tienen las taxonomías, cada índice estará relacionado mediante un esquema jerárquico con otros índices, tal y como se muestra en la Fig. 10. Esta vinculación permite no solo indexar a la obra artística la información que contiene su descripción textual, pero además agregar la información jerárquica de su concepto (Ver Fig. 11).
5.10 Filtro de Frecuencia Si ordenamos el vocabulario controlado en base a su frecuencia, es posible eliminar los conceptos menos frecuentes, ya que éstos generalmente no se utilizarán para recuperar la información. Sin embargo, nuestra propuesta consiste en realizar este filtro sobre la taxonomía. Este proceso conlleva a una segunda poda sobre las taxonomías facetadas.
-5-
J. LARA ET AL: UNA TAXONOMÍA DINÁMICA BASADA EN CONCEPTOS PARA RECUPERACIÓN DE INFORMACIÓN
Para la extracción y obtención del vocabulario controlado usamos el lenguaje de programación AWK. Se utiliza MySQL para almacenar tanto los objetos artísticos como las taxonomías dinámicas, y para permitir la exploración de la información se desarrolló una aplicación en C# que implementa el concepto de árbol de navegación [1], [12].
Fig. 10 Vinculación entre conceptos
Fig. 12 Esquema ERE para un sistema de clasificación facetada
7 RESULTADOS
Fig. 11 Indexado conceptual
5.12 Implementación (Árbol Navegación) La exploración por parte del usuario se realiza mediante un árbol de navegación [12] o árbol taxonómico [1]. El árbol de navegación contiene nodos que permiten al usuario comenzar la búsqueda en una faceta y posteriormente cruzarla con otra, sucesivamente hasta encontrar el nivel de especificación deseado [12]. 6 DISEÑO E IMPLEMENTACIÓN Para modelar las taxonomías dinámicas se implementó el modelo Entidad Relación Extendido (ERE) que se muestra en la Fig. 12.
-6-
Mediante el procedimiento descrito anteriormente obtuvimos un vocabulario controlado de cerca de 500 conceptos que describen los 200 documentos. Cabe remarcar que las palabras cerradas eliminadas constituían el 50% del total de palabras. Mediante este procedimiento logramos vincular en promedio cada obra artística con 14 índices. 8 EVALUACIÓN Realizamos una comparación entre nuestro sistema de clasificación facetada y la función “FullText Search” implementada en MySQL de tipo búsqueda booleana para el conjunto de datos estudiado. Configuramos un conjunto de consultas supervisadas, tomando en cuenta dos criterios: la exhaustividad (recall) y la precisión. En la Fig. 13 se muestran los resultados obtenidos:
IASK PROCEEDINGS
REFERENCES [1]
[2]
[3]
[4] Fig. 13 Resultados de exhaustividad y precisión
Como se puede apreciar en la Fig. 13 el sistema de clasificación facetada nos proporciona significativamente una mayor exhaustividad en comparación a la búsqueda booleana, lo cual, pone en evidencia la ventaja de realizar una búsqueda conceptual en comparación a una búsqueda por términos (textual).
[5]
[6]
[7] [8] [9]
9 CONCLUSIONES Si bien las soluciones automáticas para la construcción de jerarquías (programas que analizan recursos digitales de un sitio web y extraen categorías o agrupaciones de recursos) no han ofrecido hasta el momento resultados satisfactorios en lo que respecta a la construcción de taxonomías [13], la metodología hasta ahora desarrollada para la obtención de facetas y la generación de taxonomías a partir del análisis de textos ha permitido obtener resultados esperanzadores. Actualmente estamos implementando otros algoritmos que permitirán, a partir de descripciones, generar interpretaciones y por ende incrementar la faceta de connotación ya antes mencionada. Se ha pensado también en hacer uso de un tesauro terminológico conceptual que ayude en esta tarea, así como proporcionar al usuario la facilidad de contar con taxonomías abiertas, lo cual permitiría que la taxonomía evolucione [14], es decir que refleje de este modo la evolución del universo del discurso y los cambios de las palabras y sus interpretaciones manteniendo así su actualidad.
[10] [11] [12]
[13]
[14]
G.M. Sacco, “Dynamic Taxonomies: A Model for Large Information Bases”. IEEE Transactions on Knowledge and Data Engineering 12, 2, pp. 468-479, May 2000. (IEEE Transactions ). G.M. Sacco, “DBworld Xtended: Semantic Dissemination of Information through Dynamic Taxonomies”, Proccedings of IK-KNOW’05, Graz, Austria, junio29-julio1 2005, Publicado en: Journal of Universal Computer Science, Springer-Verlag, pp 128-135. G.M. Sacco, “Some Research Results in Dynamic Taxonomy and Faceted Search Systems”. SIGIR'2006 Workshop on Faceted Search, August 2006 Seattle, WA, USA. Spangler, S. Kreulen, J.T. Lessler, J. “ MindMap: utilizing multiple taxonomies and visualization to understand a document collection”, . Proceedings of the 35th Annual Hawaii International Conference on System Sciences, 2002. HICSS. Pags. 1170-1179. E. Stoica and M. Hearst, “Demonstration: Using WordNet to Build Hierarchical Facet Categories”. The ACM SIGIR Workshop on Faceted Search, August, 2006 Categories for the Description of Works of Art (CDWA), editado por Murtha Baca and Patricia Harpring, http://www.getty.edu/research/conducting_research/standa rds/cdwa/index.htmll. 2009. El ABC del Arte del siglo XX, Primera edición en español 1999, Editorial Phaidon Press Limited. Masdearte.com, “Portal de arte contemporáneo”, http://www.masdearte.com/item_critica.cfm?id=315. 2009. Snowball, “Spanish stop word list”, http://snowball.tartarus.org/algorithms/spanish/stop.txt. 2009. Ranks NL, “Spanish stopwords”, http://www.ranks.nl/stopwords/spanish.html. 2009. Snowball, http://snowball.tartarus.org/. 2009. Y. Tzitzikas, A. Analyti, N. Spyratos and P. Constantopoulos, “An Algebra for Specifying Valid Compound Terms in Faceted Taxonomies”, Journal on Data and Knowledge Engineering (DKE), 62(1), 2007. M. Centelles, “Taxonomías para la categorización y la organización de la información en sitios web” [on line]. "Hipertext.net", núm. 3, 2005. <http://www.hipertext.net> [Consulta: 10/10/08]. ISSN 1695-5498. Patrick Lambe, “Orfanising Knowledge: Taxonomies, Knowledge and Organisational Effectiveness”, ISBN: 9781843342274, Chandos Publishing (Oxford) Limited. UK, 2007.
Jaime Lara Álvarez. Ingeniero en Sistemas Computacionales, Instituto Tecnológico de Celaya, Méx. 2002-2007. Actualmente es Estudiante de segundo año en la maestría de Ciencias de la computación en la Benemérita Universidad Autónoma de Puebla, Méx. María de la Concepción Pérez de Celis Herrero Doctora en Informática por la Universidad Pierre et Marie Curie de Paris, Francia y especialista en Gestión del Patrimonio Cultural. Actualmente es Profesor Investigador de la Facultad de Ciencias de la Computación, de la Universidad Autónoma de Puebla en México. David Eduardo Pinto Avendaño Doctor en Informática por la Universidad Politécnica de Valencia en España, cuenta con numerosas publicaciones en el área de recuperación de información y actualmente es Profesor Investigador de la Facultad de Ciencias de la Computación de la Benemérita Universidad Autónoma de Puebla en México.
-7-