BENEMÉRITA UNIVERSIDAD AUTÓNOMA DE PUEBLA FACULTAD DE CIENCIAS DE LA COMPUTACIÓN
UNA METODOLOGÍA PARA LA RECUPERACIÓN DE IMÁGENES POR CONTENIDO UTILIZANDO TAXONOMÍAS DINÁMICAS
Tesis presentada como requisito para obtener el título de Maestro en Ciencias de la Computación Presenta: Jaime Lara Alvarez Asesora: Dra. María de la Concepción Pérez de Celis Herrero
Noviembre 2009
Introducción
"-¿Quieres decirme, por favor, qué camino debo tomar para salir de aquí?-Eso depende mucho de a dónde quieres ir - respondió el Gato. -Poco me preocupa a dónde ir - dijo Alicia. -Entonces, poco importa el camino que tomes - replicó el Gato-" Alicia en el País de las Maravillas Lewis Carroll En un mundo global, donde la imagen es protagonista, es cada vez más frecuente la necesidad de analizar, describir, organizar y recuperar imágenes. Generalmente y aunada a la diversidad en la naturaleza de las imágenes, pues pueden provenir tanto de la medicina como de la astronomía o de las artes plásticas, éstas se encuentran agrupadas en acervos heterogéneos y en muchos casos multilingües. Supondremos entonces cuando hablemos de búsqueda y recuperación de imágenes que estas se encuentran organizadas en colecciones, las cuales deben ser procesadas y recuperadas estudiando una combinación óptima de enfoques visuales. En la actualidad podemos encontrar múltiples propuestas de indización y clasificación de imágenes, centradas mayoritariamente en la extracción de datos objetivos de las mismas: colores, formas, elementos identificativos tales como personas, objetos, animales, etc. originando así distintas posibilidades de recuperación: recuperación basada en texto, recuperación basada en contenido o recuperación basada en distintas combinaciones de texto y contenido. Particularmente, si reflexionamos en como un ser humano busca una imagen en específico en una colección, podemos afirmar que en la mayoría de los casos no lo hace por título, dimensiones, técnica de impresión o cualquier otro de los metadatos que pudieran describirla. Sin pretender generalizar podemos afirmar que esta selección se fundamenta en las características visuales que recuerda, de tal modo que la imagen seleccionada, sería aquella que se aproxima más al motivo que busca o bien que refleja mejor el contenido semántico de la imagen objetivo que se desea recuperar. En los últimos años se han propuesto varios sistemas prototipo que implementan búsqueda por contenido (retrieval by content) para las bases de datos de imágenes, abordando diferentes aspectos de la información contenida en las mismas, como son las texturas, similitud de formas y relaciones semánticas entre objetos de la imagen. Estos sistemas conocidos por las siglas CBIR (content-based image retrieval) traducido textualmente como “recuperación de imágenes basada en el contenido” no consideran el término contenido desde la interpretación semiótica1 de la imagen, donde existen dos niveles estructurales básicos en su enunciado: el nivel de la expresión y el nivel del contenido [32]. El nivel de la expresión se identifica con la forma de representación de los objetos en la imagen. Por su parte, el nivel del contenido o nivel icónico consiste en la percepción de 1
La semiótica se define como el estudio de los signos, su estructura y la relación entre el significante y el concepto de significado. Semiología. http://es.wikipedia.org/wiki/Semiología
elementos de la realidad en la imagen. Evidentemente, la separación entre ambos niveles sólo se justifica aquí para explicar los procedimientos analíticos que tienen los sistemas objeto de nuestra reflexión y así establecer qué entendemos cuando hablamos de sistemas de recuperación de imágenes basados en el contenido. Consideramos entonces, que el término “content-based” alude realmente a que lo contenido en una imagen es una serie de elementos morfológicos, a partir de los cuales el lector puede inferir un significado referente a su realidad, a su mundo visual y cultural. De esta forma tendría sentido hablar de una recuperación que está basada en el contenido, es decir, una recuperación detrás de la cual siempre se esconde un proceso de extracción automática de rasgos visuales, considerados éstos como el verdadero contenido de una imagen. Conforme a lo antes expuesto podemos afirmar, en general, que los sistemas CBIR existentes consideran esencialmente los elementos formales intrínsecos que caracterizan a una imagen: el nivel de la expresión, es decir, y como lo detallaremos en los capítulos subsecuentes, recuperan las imágenes a partir del nivel de abstracción más bajo (color, forma, textura, distribución espacial, posición, bordes, etc.). Sin embargo, otro de los objetivos de esta metodología, es también la recuperación de las imágenes de una colección, considerando para ello su componente semántico. Siendo este último, el principal reto que enfrenta la tecnología CBIR actualmente. La metodología que proponemos en este trabajo, considera entonces la recuperación de imágenes basadas en su contenido, en el sentido aquí establecido, para lo cual se plantear recuperar significados, partiendo de la extracción automática de los atributos visuales, a través del análisis de su descripción textual. Nuestra metodología deberá ofrecer a los usuarios la posibilidad de generar su consulta enfocada sobre conceptos, permitir la recuperación y/o exploración de un conjunto de objetos vinculados por el enfoque del usuario y por su clasificación conceptual. Esta metodología de exploración es especialmente conveniente para situaciones de búsqueda en las que los usuarios pueden concretar con suficiente detalle la necesidad de información (búsqueda de ítem conocido). Para realizar las pruebas y evaluación de la metodología propuesta se utiliza la descripción textual de las piezas de una colección de obras de arte. Para la resolución del problema se consideraron técnicas del área de Recuperación de Información (RI), con las cuales se diseñaron e implementaron los algoritmos que nos permitieron extraer los objetos contenidos en las imágenes. Cabe señalar que gran parte de las herramientas dedicadas a la Recuperación de Información, se fundamentan en la búsqueda sobre palabras clave. Este tipo de herramientas, sí bien de utilidad, no son del todo satisfactorias ya que limitan las posibilidades y la flexibilidad de las búsquedas. Las herramientas tradicionales de recuperación de información usualmente regresan una gran lista de documentos, y en la mayoría de las veces la lista es demasiado extensa, lo cual provoca un desaliento en el usuario y en ocasiones es motivo de que éste abandone su búsqueda. Cuando un usuario desconoce lo que está buscando, éste necesita explorar la información y requiere entonces, de un mecanismo que lo guíe, esto con el objetivo de enfocar la búsqueda hacia las características relevantes para él; este proceso debe de ser iterativo hasta que el número de alternativas sea lo suficientemente pequeño para permitirle al usuario realizar una comparación directa sobre los objetos de su interés. El sistema de exploración y de recuperación supone la interacción a tiempo real entre el usuario y el mecanismo de búsqueda de tal forma que se puedan afinar los resultados y redefinir los conceptos buscados.
Para soportar la estructura y la recuperación eficiente de las imágenes, y dada la complejidad en la mutiplicidad de las posibles interpretaciones a las que la imagen puede estar asociada, se decidió considerar taxonomías dinámicas construidas por facetas a las cuales se asocian las diferentes instancias de la colección de imágenes considerada. En los siguientes apartados de este documento hablaremos en el primer capítulo del estado del arte en la recuperación de imágenes por contenidos e introduciremos los elementos conceptuales y técnicos que consideramos para la aproximación de la solución aquí presentada. En el capítulo dos ampliamos y explicamos el universo del discurso en el que trabajamos: objetos artísticos de interés cultural y presentaremos el sistema de gestión de colecciones TESEO para el cual la metodología desarrollada en esta tesis se utilizará como motor de búsqueda. Los capítulos subsecuentes los dedicaremos a discutir las hipótesis, decisiones de implementación y prueba, y finalmente presentaremos nuestros resultados así como las posibilidades de trabajos futuros.