Hacia la construcción automática de grafos del conocimiento desde fuentes de datos heterogéneas
10.1 Introducción
10.2
Los grafos del conocimiento (Knowledge Graph, KG) se han popularizado en la industria desde que Google introdujo este término al describir su propio KG que opera detrás de su motor de búsqueda. Un KG es una base de conocimiento curada: colección de hechos; el cual incluye entidades que están relacionadas unas a otras a través de enlaces etiquetados y dirigidos (predicados). Tanto las entidades como los predicados están definidos típicamente en una ontología. Una ontología es una especificación explícita de una conceptualización (Gruber, 1993); en términos sencillos, es un modelo de datos que abstrae conceptos e interrelaciones de un dominio de conocimiento específico.
Tubería de artefactos de software para la construcción automática de KGs
Desde el año pasado, varias ontologías han sido publicadas en la literatura científica (principalmente en los campos de medicina, biología y sociología), las cuales modelan y definen diversos conceptos relacionados con la actual pandemia COVID‐19 desde diferentes perspectivas. Asimismo, algunos conjuntos de datos de estudios de COVID‐19 han sido publicados en diversos formatos. En un mundo ideal, sería beneficioso el crear de forma automática KGs a partir de estos conjuntos de datos asociados con ontologías específicas. Este artículo presenta una introducción a un proyecto sombrilla en curso que intenta resolver este problema, atacando una amplia variedad de retos técnicos con soluciones en tareas específicas.
24
Artículo
Una tubería de construcción para KGs (KG Construc‐ tion Pipeline, KGCP) es un conjunto integrado de artefactos de software que automatizan diversas tareas para construir KGs a partir de fuentes de datos específicas. Dependiendo del dominio y la naturaleza de los datos, un KGCP puede incluir diversas tareas para la extracción, limpieza, y preparación de los datos, seguido de la aplicación de diversas técnicas de procesamiento de lenguaje natural (Natural Language Processing , NLP) para el reconocimiento y enlazamiento de entidades identificadas y encontradas en los datos. En general, las técnicas de NLP son útiles cuando los datos son no estructurados como, por ejemplo, aquellos provenientes de documentos codificados en diversos formatos (PDF, DOCX, PPTX, etc.). El autor de este artículo está trabajando en varios proyectos de investigación relacionados que tienen como objetivo el desarrollo de un KGCP para fuentes de datos no estructuradas. A continuación, se presentará una pequeña introducción de algunos de estos componentes. Todos los recursos (código fuente, documentación relevante, arquitectura, demos, y ejemplos) de este KGCP pueden ser accedidos en el siguiente enlace: https://w3id.org/kgcp/. MEL (Metadata Extractor & Loader: Extractor y cargados de metadatos) (Rodríguez Méndez, 2021) es un artefacto de software que integra de forma liviana varias bibliotecas y paquetes para extraer los metadatos y el contenido textual de diversos archivos (más de 20 formatos diferentes). MEL realiza