Junio 16 Minería de textos, aprendizaje automático y procesamiento del lenguaje natural en entorno biosanitario.
Pag. 1/16
Minería de textos, aprendizaje automático y procesamiento del lenguaje natural en el entorno biosanitario. José A. García Gutiérrez, Coordinador provincial de Sistemas para Fujitsu Technology Solutions en Málaga, adscrito al contrato de soporte de centros de datos en el Servicio Andaluz de Salud. En los últimos años, los avances en ciencias biomédicas de la mano de nuevas disciplinas como la biología molecular o la ingeniería genética, unidos al crecimiento exponencial de la información médica disponible en línea y de los registros de historia del paciente existentes en formato digital, y la colaboración internacional y el acceso libre de buena parte de la producción científica, han hecho imprescindible el desarrollo de sistemas informáticos que permitan indexar y navegar a través de las distintas bases de datos de conocimiento científico (publicaciones, artículos, protocolos), documentos clínicos del historial del paciente (casos clínicos, episodios, tratamientos, evolución) y de los resultados obtenidos en ensayos, terapias, nuevos fármacos y sus vías terapéuticas. Este objetivo exige dos premisas imprescindibles: (1) Ser capaz de acceder y hacer accesible toda la documentación que ya existe y se genera cada día por los profesionales sanitarios. Y (2) poder estructurar toda esa información de forma que sea posible acceder a ella de forma conjunta, e integrada. Integrar sistemas significa conseguir que operen de forma conjunta y coordinada. Para ello, la homogeneidad entendida como la uniformidad de los datos intercambiados es una premisa imprescindible. Desde el punto de vista operativo la interoperabilidad favorece que la inversión se rentabilice, evitando duplicidad de datos, reduciendo esfuerzos en el acceso a ellos y compartiendo la información de manera que esta pueda estar disponible para ser interrogada desde una fachada común. La inteligencia no es el producto de la suma de conocimientos, sin embargo, la acumulación de conocimientos, si estos se encuentran adecuadamente indexados, y accesibles y, si estos, pueden ser interrogados de forma comparada es una fuente primordial para inferir como estos datos se relacionan y ser capaces de extraer reglas de comportamiento o modelos de la realidad que permitan extrapolar los resultados en decisiones. Este es el fundamento del aprendizaje automático cuyas técnicas operan sólidamente apoyadas en los métodos tradicionales de minería y explotación de datos.
1. INTRODUCCIÓN Sin que seamos conscientes de ello, nuestro celebro realiza cálculos asombrosos de forma bastante rutinaria cuya comprensión completa supone un reto para la neurociencia actual y que, aún distan en mucho en algunos aspectos de las capacidades que tiene hoy en día el procesamiento automatizado y el aprendizaje computacional. Cuando alguien nos tira una pelota en la playa, aunque no la esperemos ni estemos en estado de alerta, en cuestión de unas décimas de segundo nuestro subconsciente calcula su trayectoria en función a su posición actual, la dirección de su movimiento, y su aceleración, de forma, que sabemos de antemano si la pelota nos golpeará. Es más, en ese caso, nuestro celebro ordenará a nuestros brazos moverse para prevenir el golpe, inferirá la posición de la pelota en los próximos segundos, coordinará nuestras manos para que se sitúen en el lugar preciso para agarrarla, y forzara a nuestras piernas a consolidar la postura para contrarrestar el impulso. Claro que podríamos enseñar a un ordenador a realizar esos cálculos, las ecuaciones del movimiento parabólico acelerado son fáciles de automatizar y no suponen nada que no pudiese hacer cualquier persona con unos conocimientos básicos de programación y matemáticas, y algunos
minutos, pero consideremos lo que esto implica a nivel sensorial. Si quisiésemos replicar lo que hace nuestro celebro necesitaríamos ser capaces de reconocer el objeto cuyo movimiento debe ser detectado y distinguido del resto de movimientos simultáneos que ocurren en el entorno, y debemos identificar que ese objeto es una pelota entre los cientos de objetos redondos que podrían parecerse o confundirse con un balón. Una vez clasificado el objeto, tendríamos que ser capaces de asociar al objeto una serie de propiedades (basándonos en nuestra experiencia vital y del entorno), y en función a ellas, presuponer algunas variables muy importantes a la hora de determinar el movimiento como: su peso, tamaño, densidad, o elasticidad.
Ilustración 1. Diferentes tipos de manzanas donde puede verse la dificultad de encontrar rasgos descriptivos que diferencien al concepto "manzana" frente a, por ejemplo, otras frutas.
Una vez establecidos estos valores tenemos que tener la capacidad de referenciar espacialmente el
Junio 16 Minería de textos, aprendizaje automático y procesamiento del lenguaje natural en entorno biosanitario.
objeto utilizando operaciones de trigonometría basadas en la visión estereoscópica que en el caso biológico recogen los ojos y extrapolar esa posición y la secuencia de movimientos que determinan su velocidad, su aceleración, y la dirección de su movimiento a el entorno tridimensional que nos rodea. Finalmente, a partir de estas estimaciones debemos proyectar el movimiento a futuro de la pelota mediante sucesivas aproximaciones y coordinar nuestros músculos para posicionar correctamente nuestros pies y manos. Hay muchos aspectos, de lo que acabamos de mencionar que han sido abordados ya mediante diferentes técnicas de inteligencia artificial con gran éxito como: la visión artificial para el reconocimiento de objetos y formas, las técnicas de clustering para la obtención de patrones, las redes neuronales para el reconocimiento de objetos y formas o para la limpieza de datos con ruido, la lógica difusa para la inferencia de reglas de comportamiento, o los algoritmos de control inteligente que permiten a los modernos autómatas reaccionar a nuevos estímulos mostrando cierto grado de adaptabilidad a situaciones inesperadas. Sin embargo, el reto más importante y al que probablemente se estén dedicando mayores esfuerzos hoy día es el ser capaces de simular de forma algorítmica la capacidad de aprendizaje humano, de su aprendizaje y de su forma de interaccionar con el medio, de traducir esa interacción física en ideas mediante la abstracción y la formación conceptual de que disponen los seres vivos y de comunicarse con otros.
2. DE LA REALIDAD AL MODELO: LA FORMACION CONCEPTUAL. Los seres humanos y en menor medida otros animales superiores nacemos con la capacidad innata para simplificar el mundo que nos rodea mediante la formación conceptual. Un niño de pocos años es capaz de diferenciar un perro de juguete de un perro real y sin embargo entender de forma clara que el perro de juguete es una representación de un perro real y diferenciarlo a su vez de otro juguete, por ejemplo, un oso de peluche. Sin embargo, esta capacidad que damos por supuesta en el caso humano no es para nada trivial cuando intentamos crear un sistema automático capaz de esta distinción. ¿Qué diferencia a un oso de peluche de un juguete de un perro?, ambos tienen orejas, cuatro patas, tienen cola, pelo cubriendo todo el cuerpo, son mamíferos, ¿qué hace al perro un perro y que lo diferencia de un oso y como se proyectan esas características en un muñeco? La respuesta no es obvia ni fácil, pero es crucial si queremos ser capaces de dotar a un ordenador de la capacidad de comunicarse e interaccionar de forma natural con
Pag. 2/16
un ser humano, o de comprender y procesar información que recibe en lenguaje natural. Pero ese no es el único problema, la forma de comunicación humana es ambigua por naturaleza, no solo existen cientos de idiomas cada uno con su gramática y sintaxis particular, sino que dentro de un mismo idioma o incluso dentro de un área de conocimiento existen una multitud de formas diferentes de expresar o referirse a una misma idea. Diferentes personas pueden estar utilizando el mismo término para referirse a conceptos distintos (proteinuria como un trastorno renal o como el resultado de una prueba de laboratorio), o diferentes términos para el mismo concepto (mucoviscidosis, fibrosis quística, disfunción de la proteína RTFQ, mutación de la región 7q31 del cromosoma 7). Esta ambigüedad en los significados tiene consecuencias graves en la calidad de los sistemas de información. La información localizada puede ser inadecuada tanto por las pérdidas o la redundancia que ocasiona al consultar las bases de datos documentales como por la inexactitud de las traducciones de los términos en los diferentes idiomas. En otras palabras, se precisan sistemas que compartan el significado de los términos y no exclusivamente la normalización de la entrada/salida de los datos. Una estrategia adoptada para superar estas limitaciones es crear y utilizar ontologías computacionales.
2.1 PENSANDO EN CONCEPTOS La formación de conceptos y la forma en que utilizamos estos como base para crear conceptos más y más complejos conforme avanza nuestro aprendizaje (incluyendo conceptos abstractos, matemáticos o puramente teóricos) puede parecer fácil a personas que no están versadas en computación ya que tendemos a humanizar aquello que no entendemos y a atribuir cualidades humanas a máquinas o incluso a programas computacionales (realmente SIRI (1) y Cortana (1) no ayudan a ello). Supongamos que quisiésemos enseñar a un programa de ordenador que es una silla y como reconocerla; Si preguntásemos a cualquier persona por una definición de “silla” estoy seguro que la mayoría contestaría que una silla es un objeto con cuatro patas en el que puedes sentarte, y esta, nos podría parecer una definición correcta. Pero pensémoslo un segundo, ¿realmente sería suficiente para un computador?, la respuesta es que NO. Existen infinitos otros objetos que pudiesen tener cuatro patas, por ejemplo, una mesa, que nos podría servir para sentarnos, y, es más, un perro, o un andador también podrían casar con esa descripción si en nuestra ignorancia considerásemos a los seres vivos como cosas y fuéramos laxos con nuestra idea de sentarnos (considerando que anteriormente hubiésemos definido que es lo que es una “pata” y que
Junio 16 Minería de textos, aprendizaje automático y procesamiento del lenguaje natural en entorno biosanitario.
comprendiésemos la relación de pertenencia que existe entre los dos conceptos, pero obviemos eso ahora). Podríamos decir entonces que una silla es un objeto de madera compuesto por 4 patas y una superficie plana donde convergen las patas que sirve para sentarse. Pero, preguntemos de nuevo… ¿es esta simplificación aceptable? Lo cierto, es que la respuesta vuelve a ser un rotundo NO. Si intentásemos diferenciar, por ejemplo, fotos de objetos que no son sillas, de aquellos que sí lo son, encontraríamos que todas las sillas no tienen que ser de madera, ni que todas las sillas tienen por qué tener cuatro patas (obviando otros factores como: el tamaño, el color, la forma, el acabado, o incluso factores atribuibles a la representación que tenemos de la silla: ángulo de la fotografía, condiciones de luz, distancia al objeto, etc..). Consideremos ahora el ejemplo que se encuentra en la ilustración 1. ¿Cuándo estamos en el mercado y en la frutería vemos distintos tipos de manzanas, como sabemos realmente distinguirlas?, que nos hace reconocer una manzana incluso si se nos muestras en una variedad que nunca hemos visto y lo que es más importante, por qué estamos tan seguros de no confundir una con cualquier otra fruta a pesar de guardar estas muchas semejanzas en tamaño, color, forma, etc... En realidad, se trata de un proceso bastante más complejo de lo que parece y que tiene mucho que ver con la forma de pensar de los seres humanos. Estas limitaciones pueden tener graves implicaciones en el ámbito clínico, por ejemplo, cómo puede un proceso automático diferenciar entre conceptos simples pero parecidos, o que guardan relación de jerarquía o pertenencia (por ejemplo, corazón = órgano) o cómo podemos manejar y a la vez mantener computacionalmente tratables las relaciones entre conceptos complejos (por ejemplo, cardiopatía = enfermedad + músculo + corazón). Este problema es que tratarán de manejar las ontologías lógicas que veremos más adelante.
Ilustración 2. Diferentes ilustraciones representando todas ellas el concepto humano de "gato".
2.2 MECANISMOS LÓGICOS: DEDUCCIÓN E INFERENCIA La capacidad de cómputo del hardware y el software crece exponencialmente. Hoy en día tenemos en nuestro bolsillo, concretamente en
Pag. 3/16
nuestros modernos teléfonos móviles, más capacidad de cómputo que los ordenadores de la NASA que llevaron al hombre a la luna. A pesar de esto, cuando ejecutamos un programa antivirus en nuestro ordenador, este recibe decenas de nuevas firmas de virus diariamente desde los servidores de las grandes compañías de seguridad. Sin embargo, la capacidad de los programas antivirus, a pesar de las enormes inversiones que realizan las grandes empresas y los gobiernos de todo el planeta para securizar sus datos, de inutilizar variantes de virus conocidos es enormemente limitada.
Ilustración 3. Asociación de conceptos por similitud.
Por el contrario, el celebro humano tiene una gran capacidad para inferir conocimiento a partir de la experiencia. Puede que no hayamos visto jamás (al menos en persona) la mayoría de los animales que se muestran en la ilustración 3. A pesar de esto, si una persona del continente europeo piensa en una pantera, inmediatamente inferirá su comportamiento, movimientos, y características físicas, simplemente generando ese conocimiento a partir de su experiencia con otros animales con los que presenta cierto grado de similitud. Esta tarea, es sin embargo se muestra computacionalmente compleja, por ejemplo, si creamos un programa especializado en la detección o prevención del melanoma, este mismo sistema difícilmente podrá extrapolar su comprensión del melanoma para ayudarnos a diagnosticar un cáncer de origen mamario, por ejemplo. Esta afirmación es extensible al reconocimiento de lenguaje natural en el ámbito médico. Un mayor conocimiento de la terminología o la casuística que rodea a los canceres de piel y a la documentación médica que se genera en su diagnóstico, tratamiento y seguimiento a largo plazo no mejorará necesariamente la capacidad del mismo algoritmo en la clasificación y tratamiento de otro tipo de documentación clínica. Esto último solo será posible, si nuestro sistema de aprendizaje se fundamenta en un conocimiento, no solo léxico o terminológico, sino conceptual y semántico del contexto médico y el conocimiento que guía el diagnóstico. La realidad, sin embargo, hoy día, es que normalmente, el profesional se encuentra con sistemas de clasificación heterogéneos o con la necesidad de aplicar términos diferentes al interrogar a cada sistema de recuperación de información; por ejemplo, en el caso de precisar localizar historias clínicas de casos similares, datos de mortalidad en el Instituto Nacional de
Junio 16 Minería de textos, aprendizaje automático y procesamiento del lenguaje natural en entorno biosanitario.
Estadística y evidencias en MEDLINE, IME o PUBMED.
2.3 CONTEXTO Y SEMÁNTICA Como veremos más adelante, en Machine Learning se utilizan conjuntos de información y algoritmos especializados para entrenar a una aplicación. Una vez entrenada, cada vez que necesitemos analizar una nueva información dicha aplicación clasificará la nueva información a partir del entrenamiento recibido. Obviemos ahora mismo el tipo de algoritmo de entrenamiento que podemos estar utilizando como hacíamos mención anteriormente los métodos de inteligencia artificial nos van a ofrecer un modelo de referencia para un conjunto de datos, gracias al cual podamos clasificar una nueva información ofreciendo una predicción a partir de dicho modelo. Estos modelos se aplican tanto a datos numéricos como a conjuntos de palabras dentro de documentos de forma similar a como son aplicados actualmente, por ejemplo, por los grandes buscadores de Internet para determinar qué documentos son más relevantes para una búsqueda dada, o para reconocer la escritura o las formas en una fotografía. ¿Pero qué ocurre si el significado de un término, o el uso apropiado de un concepto o incluso la definición de dicho concepto varía dependiendo del contexto y de una larga lista de situaciones de partida? Pues bién, esto es lo que ocurre en la comunicación entre una persona y un computador y uno de los mayores problemas del tratamiento de lenguaje natural. Observemos la ilustración 2, todas las representaciones se corresponden con el concepto humano “gato” sin embargo nos estamos refiriendo con ellas a cosas muy distintas dependiendo del contexto y de la generalidad del término. No es lo mismo “un gato persa” que un “dibujo animado con forma de gato” o un “conjunto de líneas cuya representación conjunta recuerda a la forma de un gato”. En general podemos decir que el significado de un término dependerá del tipo de texto estudiado, el idioma en el que está escrito, e lugar donde se escribe, el propósito del texto, el destinatario del mismo, su nivel formativo, la especialidad científica, y en general de un gran número de valores que harán más difícil su tratamiento automático.
Pag. 4/16
partes y de analizar de forma simultánea distintos aspectos de una misma realidad, por ejemplo. De esta forma, el pensamiento abstracto permite discernir las propiedades comunes, planear y asumir simulacros, y pensar y actuar simbólicamente.
Ilustración 4. Diferentes tipos de abstracciones matemáticas
A través de un proceso inconsciente, una persona es capaz de pensar mediante abstracciones teóricas o matemáticas, postular hipótesis y preparar experiencias mentales para comprobarlas. El pensamiento abstracto presenta un carácter proposicional, que consiste en utilizar proposiciones verbales para expresar las hipótesis y razonamientos junto a los resultados que se obtienen. Cabe destacar que el lenguaje es el medio mediante el cual es posible pensar las representaciones de los objetos reales. El pensamiento abstracto se basa en esquemas formales, que son unidades del pensamiento a través de las cuales se representa el conocimiento. Los esquemas posibilitan la predicción y permiten que el sujeto se acomode a las demandas del medio y que integre la información nueva, pero dificultan enormemente la identificación de ideas y significados en un texto por un ordenador ya que deben ser detectados y asociadas correctamente ideas que pueden ser propias del autor o del propio texto y no extrapolables a otras circunstancias.
2.4 ABSTRACCIÓN Y METEMÁTICAS El pensamiento abstracto es fundamental en cualquier ser humano pues gracias a él tiene la capacidad para deducir, extrapolar lo aprendido a cualquier otra situación, comparar o sacar conclusiones. El pensamiento abstracto supone la capacidad de asumir un marco mental de forma voluntaria. Esto implica la posibilidad de cambiar, a voluntad, de una situación a otra, de descomponer el todo en
2.5 LA GENERALIZACIÓN Y LAS CAPACIDADES HUMANAS EN EL RECONOCIMIENTO DE FORMAS Y ESTRUCTURAS Si bien es relativamente sencillo el conseguir que un ordenador capte lo que le rodea (basta dotarle de una adecuada serie de sensores y/o transductores: células fotoeléctricas, micrófonos, ...), o clasifique palabras en un texto no lo es tanto el conseguir que sea capaz de interpretarlo y/o
Junio 16 Minería de textos, aprendizaje automático y procesamiento del lenguaje natural en entorno biosanitario.
reconocerlo. Con el desarrollo de la capacidad de abstracción, el celebro humano no solo desarrolla nuevos conceptos que no se corresponden ya directamente con la información que recibe por los sentidos, sino que se corresponde con información procesada que además relacionamos a distintos niveles de abstracción. La inteligencia del ser humano busca "significar" la información, agrupando y organizando cualquier señal recibida para que se parezca a algo ya conocido. La metodología intuitiva de agrupar y organizar estará determinada por la memoria y la voluntad. La memoria como parte de la experiencia acumulada a lo largo de la vida por los distintos canales de los sentidos, y la voluntad que define la intención, es decir, le imprime una acción significante de la información donde se verá aquello que se puede y se desea ver, se encasilla nuestro entorno en la capacidad de reconocimiento de los datos visibles de la información percibida y que son asociados a nuestro modelo cognitivo [Arnheim 1998].
Pag. 5/16
3. MODELOS Y ESTÁNDARES: SOBRE LOS LENGUAJES, COMUNICACIÓN E INTEROPERABILIDAD. La prestación de servicios sanitarios implica el mantenimiento de enormes sistemas de información de naturaleza heterogénea que necesitan integrarse en un único modelo lógico que permita a las profesionales sanitarios el acceso a las extensísimas bases de datos médicas de forma eficiente a la vez que se incorpora toda la información preexistente, el historial del paciente y el propio conocimiento médico para asistir al diagnóstico, tratamiento y seguimiento asistencial de los pacientes con las mayores garantías de éxito, a la vez que se maximiza el retorno a la inversión. La interoperabilidad pasa por hacer que cada uno de los sistemas de la institución esté comunicado con los demás, compartiendo la información y permitiendo implementar procesos globales sin importar el origen o la estructura de cada componente individual. En este contexto, los sistemas de clasificación, terminologías estandarizadas, las ontologías semánticas y las técnicas de minería de datos aplicadas a la clasificación e indexación automática de documentos son cruciales para la consecución de estos fines.
3.1. ESTANDARES INTEROPERATIVILIDAD.
DE
La interoperabilidad hace referencia a la comunicación entre diferentes tecnologías y aplicaciones de software para el intercambio y uso de datos en forma eficaz, precisa y sólida. Esto requiere del uso de estándares, es decir, de normas, regulaciones, guías o definiciones con especificaciones técnicas para hacer viable la gestión integrada de los sistemas de salud en todos los niveles. Ilustración 5. Un conjunto de líneas puede evocar recuerdos o imágenes.
Las estructuras referenciales permiten crear espacios o ventanas cognitivas de reconocimiento o asociación. Consideremos por un momento la imagen recogida en la ilustración 5. Formalmente lo que tenemos es un conjunto de trazos que se intersectan al azar y sin embargo nuestro celebro inmediatamente relaciona la imagen con conceptos y escenas que nos son familiares: un retrato, una escultura, una figura, un cuadro, una persona. Esta estructura de relaciones implica no solo nuestra capacidad asociativa sino también a la capacidad artística y creativa. Este ejemplo puede también extrapolarse a la comunicación escrita o hablada en cualquier idioma, plagada de metáforas, comparaciones, de juegos de palabras o simplificaciones, todas ellas estructuras, difícilmente reconocibles por un algoritmo automático.
3.1.1 SnomedCT SNOMED Clinical Terms es una colección procesable computacionalmete y organizada sistemáticamente de términos médicos proporcionando una codificación única, y un diccionario de términos, sinónimos y definiciones utilizados en documentación clínica y en los principales informes clínicos. Snomed CT es considerada como la terminología más completa, plurilingüe clínica de la salud en el mundo. El propósito principal de Snomed CT es codificar los significados que se utilizan en la información de salud y apoyar el registro clínico efectivo de los datos con el objetivo de mejorar la atención al paciente. Snomed CT proporciona la terminología general básica para los registros de salud electrónicos. El catálogo de términos tiene una amplia cobertura que incluye: hallazgos clínicos,
Junio 16 Minería de textos, aprendizaje automático y procesamiento del lenguaje natural en entorno biosanitario.
síntomas, diagnósticos clínicos, procedimientos, estructuras y sistemas corporales, organismos y otras etiologías, químico y sustancias, productos farmacéuticos, dispositivos y especímenes. SNOMED CT es mantenido y distribuido por una organización internacional de desarrollo de estándares sin fines de lucro, ubicada en Londres, Reino Unido. SNOMED International es el nombre con fines comerciales de la Organización Internacional para el Desarrollo de Estándares Terminológicos en Salud (IHTSDO), establecida en 2007. Actualmente es una de las ontologías médicas más utilizadas ya que agrupa a alrededor de 300,000 términos y está construida a partir del sistema Apelon basado en el lenguaje formal dirigido a la representación del conocimiento conocido como Description Logic.
3.1.2 CIE-9-MC La CIE-9-MC es la traducción oficial de ICD-9CM (International Classification of Diseases, Ninth Revision, Clinical Modification) que a su vez es una adaptación de la ICD-9 (International Classification of Diseases, Ninth Revision). La ICD-9-CM fue creada para facilitar la codificación de morbimortalidad en los hospitales. CIE-9-MC es un acrónimo de Clasificación Internacional de Enfermedades, Novena Revisión, Modificación Clínica. Se trata de una clasificación de enfermedades y procedimientos utilizada en la codificación de información clínica derivada de la asistencia sanitaria, principalmente en el entorno de hospitales y centros de atención médica especializada.
3.1.3 OpenEHR La fundación OpenEHR es una fundación sin ánimo de lucro que desarrolla su labor en I+D e implementación de estándares sanitarios con el aval de prestigiosos centros de investigación de más de 15 países pertenecientes a la Unión Europea. Las especificaciones de OpenEHR incluyen información y modelos de servicio para incluir la Historia clínica del paciente, los datos demográficos, procesos asistenciales, y arquetipos. OpenEHR expresa los arquetipos en un lenguaje propio llamado ADL (Archetype Object Languaje), actualmente OpenEHR no define la forma en la que se guardan los datos que se producen a partir de las instancias de los arquetipos y, por tanto, cada programador tiene que definir la forma en la que persiste los datos, lo que si define el estándar es un lenguaje de consulta llamado AQL (Archetype Query Languaje) que sirve para recuperar información almacenada en un sistema que siga el estándar.
Pag. 6/16
3.2. ONTOLOGIAS E INFERENCIA LOGICA. Una ontología es un recurso constituido por un conjunto de conceptos organizados por sus relaciones. Estos conceptos y las relaciones incluidas sirven para describir el conocimiento consensuado y aceptado de un área o dominio de interés para ser utilizado tanto por los humanos como por procesos automáticos. Este recurso permite que los sistemas de gestión clínica trabajen automáticamente a partir del significado de los signos lingüísticos (términos) y sus combinaciones. En la ilustración 6 se incluye una posible descripción del concepto “corazón”, en una ontología compartida entre dos sistemas de información.
3.2.1 OBO Muchas de las más notables ontologías relacionadas con las ciencias de la vida están agrupadas dentro de la organización OBO, acrónimo de The Open Biomedical Ontologies (http://www.obofoundry.org) entre las que destacan, Sequence Ontology (SO), Foundational Model of Anatomy, Human disease, Cell type, Mammalian Phenotype [Smith & Eppig 2012], Protein Ontology, Mouse Pathology, Systems Biology, y la Molecular Biology Ontology, conjuntamente con otras que formalizan la anatomía, la biología del desarrollo, los rasgos fenotípicos, las patologías y en general, el conocimiento sobre diversos organismos ampliamente estudiados.
3.2.2 Gene Ontology Los términos GO (que es el acrónimo de Gene Ontology), son un vocabulario controlado de anotaciones, revisado y organizado por expertos [Ashburner et al. 2000]. Aunque GO realmente tiene una estructura llamada de gráfico acíclico (Directed Acyclic Graph, DAG), más que jerarquía, ya que cada hijo (término más específico) puede tener varios padres (término más genérico). Se puede consultar el listado completo de anotaciones GO en la documentación del proyecto disponible en [Geneontology 2017], si bien, nos basta saber que éstas se agrupan en 3 clases diferentes: 1) Proceso biológico (PB): Los PBs implican generalmente transformaciones químicas o físicas que ocurren por la acción de un conjunto de funciones moleculares organizadas; es decir, el objeto que va a un PB sufre transformaciones que lo convierten en algo diferente. Los PBs pueden ser de un nivel más elevado o abstracto, como son el “crecimiento celular” o la “transducción de señales”, o de un nivel menor o más específico como son el “metabolismo de pirimidinas” o la “biosíntesis de AMPc”.
Junio 16 Minería de textos, aprendizaje automático y procesamiento del lenguaje natural en entorno biosanitario.
2) Función molecular (FM): Describe actividades que ocurren a nivel molecular; sus términos representan a las actividades y no a las entidades (moléculas o complejos moleculares) que llevan a cabo las acciones, sin especificar cuándo, dónde, o en qué contexto ocurren. Para evitar confusiones entre los nombres de los productos génicos y las FMs, muchos términos incorporan la palabra activity (actividad). 3) Componente celular (CC): Se refiere al espacio celular donde se encuentra el producto génico. Un componente celular puede ser una estructura anatómica, como el retículo endoplasmático, el núcleo celular, o una estructura molecular más simple formada por productos génicos, como un ribosoma o un dímero proteico. Las primeras son útiles para caracterizar la función proteica. Las segundas son usadas para estudiar grupos de proteínas que han aparecido relacionadas en un experimento ómico, ya que, por ejemplo, compartirían el mismo perfil de expresión. Y las terceras ayudan a conocer en qué compartimento celular funciona una proteína. Por otro lado, uno de los mayores potenciales que tienen los términos GO, es que cuando éstos son asignados a una proteína o gen, suelen ir acompañados de los llamados códigos de evidencia.
Pag. 7/16
el código de "inferidas por anotación electrónica" (IEA), que son asignadas por métodos bioinformáticos, aunque no han sido confirmadas aún en laboratorio.
3.2.3 CEN/ISO EN13606 La CEN/ISO EN13606 es una norma creada en el marco del Comité Europeo de Normalización que ha sido aprobada por la ISO como norma internacional que busca conseguir una interoperatibilidad semántica de los diferentes aplicativos y fuentes de información que conforman la historia clínica de un paciente conservando el significado clínico original que debe ser unívoco a la vez que garantiza la confidencialidad de la información manejada entre el facultativo y los pacientes. EN13606 sigue una arquitectura dual que busca mantener una separación clara entre información y conocimiento. La primera capa está estructurada conforme a un Modelo de Referencia que contiene las entidades básicas para representar cualquier información de la HCE. La segunda está basada en arquetipos, que son definiciones formales de conceptos clínicos, como pueden ser un informe de alta, medida de glucosa en sangre o la historia familiar, representados como combinaciones restringidas y estructuradas de las entidades del modelo de referencia.
4. MINERIA DE DATOS E INTERFACES ENTRE HUMANOS Y COMPUTADORAS.
Ilustración 6. Ejemplo de relaciones semánticas para el témino "corazón" (Romá-Ferri 2008).
Estos códigos de 3 letras asignan la procedencia de la anotación y por tanto sugieren la calidad de la misma, al igual que ocurría con las evidencias de la base de datos UniProt (www.uniprot.org). De este modo, si en un experimento determinado sólo queremos tener en cuenta anotaciones fiables, podremos usar “inferida desde experimento (EXP)" y similares. Aunque sólo un pequeño porcentaje de las anotaciones serán de este tipo, y por tanto la mayoría de las veces tendremos que quedarnos también con las anotaciones más abundantes en las bases de datos, las cuales tienen
Se pueden citar ejemplos de aplicación exitosa de la MD en prácticamente la totalidad de las áreas de la ingeniería o la investigación científica: Física, Ciencias de la Salud, Geología, Ciencias ambientales, Meteorología, Diseño de Materiales, Sociología, Astrofísica, Optimización de diseños, por citar algunos). Cada uno de estos campos genera ingentes cantidades de datos que, en muchos casos, tardan años en ser procesados. Consideremos que, en un experimento de expresión génica, realizado con células de un paciente, encontramos 51 genes expresados diferencialmente. Estos genes, sobreexpresados en el experimento, se espera que estén ligados directamente con la enfermedad que padece el sujeto de estudio. En un estudio real, podríamos considerar que entre estos genes se encontraban los siguientes: BOD1, A6NG73, KNTC1, TNR, MRE11A, NUP188, ATP7B, TBX1, CCAR1, CARS, RAD17, TACC1, ZNF480, RUNX1, CCNB3, MUS81, ARHGAP4, Q9NQB0, SPDYA, STRAP, CEP63, ADARB1, TINF2, RAD9A, PARP8, XAB2, CDC42, EXO1, LASS4, TMEM70, BAT1, MDC1, MAP3K1, HARS, BMP15, CHMP1B, ESRP1, CDK12, VPS11, COX15, AHSG, ATP2B2, MMGT1, ARPC1B, GPR133, C1ORF53, RBM26, LIPA, SPDYC, CEP164, FBXO5.
Junio 16 Minería de textos, aprendizaje automático y procesamiento del lenguaje natural en entorno biosanitario.
Gracias a las bases de datos existentes conteniendo información acerca de investigación biomédica, tomando algunos de estos genes al azar y documentándonos sobre su función, las proteínas que codifican, los ciclos bioquímicos en los que participan y si ejercen o no función regulatoria sobre los distintos procesos celulares, podríamos reunir sin mucho esfuerzo la siguiente información: -
-
-
-
-
-
-
-
ZNF480 está relacionada con los dedos de zinc que tienen un rol estructural en el ADN, estando relacionados por tanto con la regulación de la transcripción. TACC1 relacionada con la histona acetiltransferasa. Tiene un rol en la inhibición del ciclo celular. RAD17 está relacionada con proteínas esenciales en el crecimiento celular, el mantenimiento y estabilidad de los cromosomas. Tiene un rol en la reparación del daño del DNA. CARS está relacionada con los receptores de tirosina quinasa que es un ciclo celular implicado en el desarrollo de variados ciclos cancerosos. CCAR1 forma parte de un conjunto de genes implicados en el control de la proliferación celular y la apoptosis. TBX1 este gen está implicado en los procesos de desarrollo embrionario. Muchos canceres utilizan esta vía para la reprogramación celular. TNR forma parte de un conjunto de genes TNR1a, TNR11, TNR16, TNR1b…. vinculados a los receptores del factor de necrosis tumoral. Implicado en la mayoría de los ciclos de señalización celular alterados en el cáncer. También tiene relación con los procesos de apoptosis y los inflamatorios. MRE11 es un componente del complejo MRN que juega un papel fundamental en la reparación del ADN y en el mantenimiento de la integridad de los telómeros.
A la vista de todo ello, no nos costaría mucho concluir que la mayoría, sino todos, están estrechamente relacionados con las fases del ciclo celular, los errores en el ADN y los procesos de apoptosis y replicación celular. No cabe duda, que todos estos genes están relacionados de una forma u otra con diferentes alteraciones que pueden desembocar en cáncer. En una enfermedad como los distintos tipos de cáncer, el número de genes implicados en el desarrollo, crecimiento y migración de la enfermedad durante todas sus fases puede ascender a cientos, y cada día se descubren y se añaden más marcadores genéticos relacionados con la
Pag. 8/16
enfermedad. Sin darnos cuenta, en este pequeño ejercicio, hemos lidiado con dos de los mayores problemas que tratan de acotar las técnicas de minería de datos aplicadas al ámbito de la investigación sanitaria: (1) La alta dimensionalidad de los datos, y (2) La heterogeneidad de las fuentes de conocimiento en el área. Esta diversidad de formatos incluye, normalmente en un porcentaje importante, documentación clínica tradicional, pensada para ser entendida y procesada por humanos y aquella que esta pensada para ser leída de forma óptima por un proceso automático. En algunas ocasiones, puede ser el volumen mismo de los datos el que es inabarcable por las técnicas tradicionales y hace necesario recurrir a la inclusión de metainformación junto a los datos que permita realizar anotaciones sobre los mismos de forma que podamos indexar su contenido. Un ejemplo especialmente significativo por sus repercusiones lo encontramos en el proyecto ENCODE (acrónimo del inglés ENCyclopedia Of Dna Elements) un proyecto internacional para el análisis exhaustivo del genoma humano. Desde 2003, el Proyecto ENCODE intenta dilucidar los entresijos del ADN y crear un catálogo con todos los elementos funcionales que contiene el genoma, incluyendo las partes oscuras que no codifican genes, sino que alteran el comportamiento funcional del ADN. A día de hoy, ENCODE ha recolectado tantísima información que, si se imprimiesen sobre un mural, este mediría hasta 16 metros de alto y 30 kilómetros de largo, y que, en términos de capacidad, suman cerca de 20 TB (terabytes) de información en bruto que están disponibles públicamente en internet. Para ejemplificar la importancia del proyecto ENCODE baste decir que los datos aportados ya por ENCODE son suficientes para hacer pensar que los genes son más complejos de lo que se pensaba hasta ahora: en vez de la visión tradicional, según la cual un gen da lugar a uno o varios transcritos alternativos que codifican una proteína en sus varias isoformas, parece claro, a la luz de los datos, que una región genómica puede codificar distintos productos proteicos y además dar lugar a otros transcritos (no necesariamente codificantes de proteínas) en ambas cadenas. Todo esto ha llevado a replantear el concepto de gen, que en la era post-ENCODE se definiría como “la unión de las secuencias genómicas que codifican un conjunto coherente de productos funcionales, que son potencialmente solapantes” [Morales et al., 2013]. Es desde todo punto de vista imposible hacer aquí una enumeración completa de todas las aplicaciones que se pueden derivar del conocimiento de la secuencia genómica de organismos, pero no es difícil imaginar su impacto inmediato en campos como la salud humana (diagnóstico, tratamiento y prevención de enfermedades como el cáncer, terapia génica,
Junio 16 Minería de textos, aprendizaje automático y procesamiento del lenguaje natural en entorno biosanitario.
farmacogenética, etc...); la mejora genética animal y vegetal; los estudios filogenéticos, de base evolutiva o poblacionales; la genética forense; la detección de especies y patógenos; la genética medioambiental, y muchas más.
Pag. 9/16
no existe una única técnica para solucionarlo y posiblemente el abanico de técnicas que comprende el campo de la MD nos permita hacer visibles diferentes realidades de nuestro conjunto de datos (ver teorema NO FREE LUNCH). Según Aluja [Aluja, 2001], entre las técnicas más utilizadas en las labores de MD podemos encontrar:
Ilustración 7. Fragmento de secuenciación automática fluorescente obtenida en un secuenciador automático ABI 3130XL (Rodríguez-Tarduchy 2009).
El paper de [DE BRUIJN & Martin 2002], recoge algunos ejemplos de uso de minería datos sobre textos en el área de la biología molecular y la bioinfórmatica: -
-
-
Encontrar interacciones que ocurren proteína-proteína. Encontrar interacciones gen-proteina. Localizar la localización de proteínas subcelulares. Realizar anotación de proteínas y genes Descubrimiento de rutas bioquímicas. Completar búsquedas realizadas con BLAST (secuencias aminoacidicas y proteomas) o SL-SCOP (citaciones y búsqueda de publicaciones científicas) con evidencias. Descubrimiento de relaciones entre genes Agrupaciones bibliográficas Descubrimiento de relaciones ocultas entre, por ejemplo, enfermedades y medicación. Incorporación de textos médicos para soportar bases de datos de conocimiento.
4.1 PRINCIPALES TÉCNICAS MINERÍA DE DATOS
DE
Las técnicas de MD utilizan métodos para tratar la alta dimensionalidad de los datos conjuntamente a algoritmos pertenecientes al ámbito de la inteligencia artificial, así como habitualmente métodos matemáticos y estadísticos que juntos permiten poder realizar búsquedas de patrones, secuencias o comportamientos sistemáticos que pongan de manifiesto interrelaciones entre los datos o que sirvan para predecir comportamientos futuros [Caridad, 2001]. Estas técnicas son muy variadas, pues no todas son aplicables en cualquier conjunto de datos ni a todo procedimiento de extracción de información. En general, cualquiera que sea el problema a resolver, podemos decir que
Análisis Factoriales Descriptivos: abordan el problema de cómo analizar eficazmente la estructura de las interrelaciones (correlaciones) entre un gran número de variables con la definición de dimensiones subyacentes comunes, conocidas como factores. Utiliza las técnicas de análisis de componentes principales, análisis de correspondencias, análisis factorial. Permite analizar la estructura de los datos y proporcionan herramientas de visualización, las cuales permiten observar de mejor manera realidades multivariantes complejas y, por ende, manifestar las regularidades estadísticas. Análisis de la Cesta de la Compra (conocidas también como Market Basket Analysis): usualmente se usan reglas de asociación y de secuenciación donde se analizan los datos para descubrir reglas que identifiquen patrones o comportamientos utilizando algoritmos computacionalmente intensivos. Permite detectar qué productos se adquieren conjuntamente, permite incorporar variables técnicas que ayudan en la interpretación, como el día de la semana, localización, forma de pago. También puede aplicarse en contextos diferentes del de las grandes superficies, como las pautas de alimentación o los hábitos de salud, e incorporar el factor temporal. Técnicas de Agrupamiento (llamadas comúnmente de Clustering): son técnicas que parten de una medida de proximidad entre individuos y a partir de ahí, buscan los grupos de individuos más parecidos entre sí, según una serie de variables mesuradas. Algunos ejemplos de este grupo pueden ser el algoritmo de las k-medias o el algoritmo de clasificación jerárquica. Agrupan individuos o variables en clases que muestran un comportamiento homogéneo y, por lo tanto, permiten descubrir patrones de comportamiento. Series Temporales: corresponde a un conjunto de observaciones realizadas respecto a un variable en momentos equidistantes de tiempo. A partir estas series que recogen el comportamiento histórico, permite modelar las componentes básicas de la serie, tendencia, ciclo y estacionalidad y así poder hacer predicciones para el futuro. Redes Bayesianas: modelan un fenómeno mediante un conjunto de variables y las relaciones de dependencia entre ellas. Dado este modelo, se puede hacer inferencia bayesiana; es decir, estimar la probabilidad posterior de las variables no conocidas, en base a las variables conocidas; así, consiste en representar todos los posibles sucesos en que estamos interesados mediante un grafo de probabilidades condicionales de transición entre sucesos. Puede codificarse a partir del
Junio 16 Minería de textos, aprendizaje automático y procesamiento del lenguaje natural en entorno biosanitario.
conocimiento de un experto o puede ser inferido a partir de los datos. Permite establecer relaciones causales y efectuar predicciones. Modelos Lineales Generalizados: son modelos que permiten tratar diferentes tipos de variables de respuesta. Al mismo tiempo, los modelos estadísticos se enriquecen cada vez más y se hacen más flexibles y adaptativos, permitiendo abordar problemas cada vez más complejos. Previsión Local: la idea de base es que individuos parecidos tendrán comportamientos similares respecto de una cierta variable de respuesta. La técnica consiste en situar los individuos en un espacio euclídeo y hacer predicciones de su comportamiento a partir del comportamiento observado en sus vecinos. Redes Neuronales: inspiradas en el funcionamiento de la neurona biológica y en lo que conocemos del funcionamiento de la sinapsis humana, son generalizaciones de modelos estadísticos clásicos. Las RRNN son un paradigma de aprendizaje y procesamiento automático. Trata de un sistema de interconexión de neuronas que colaboran entre sí para producir un estímulo de salida. Su novedad radica en el aprendizaje secuencial, el hecho de utilizar transformaciones de las variables originales para la predicción y la no linealidad del modelo. Permite aprender en contextos difíciles, sin precisar la formulación de un modelo concreto. Su principal inconveniente es que para el usuario son una caja negra. Árboles de Decisión: son representaciones gráficas y analíticas de datos ya establecidos mediante una base de datos. Permiten obtener de forma visual las reglas de decisión bajo las cuales operan las variables y parámetros, a partir de datos históricos almacenados. Su principal ventaja es la facilidad de interpretación. Ayuda en la toma de decisiones, desde un punto de vista probabilístico, con el fin de obtener la opción que mejor convenga. Algoritmos Genéticos: Los algoritmos evolutivos son estrategias de optimización y búsqueda de soluciones que toman como inspiración la evolución en distintos sistemas biológicos. La idea fundamental de estos algoritmos es mantener un conjunto de individuos que representan una posible solución del problema. Estos individuos interactúan, tanto a nivel de individuo como a nivel de población y compiten, siguiendo el principio de selección natural por el cual sólo los mejor adaptados sobreviven al paso del tiempo. Esto redunda en una evolución hacia soluciones cada vez más aptas. Los algoritmos evolutivos son una familia de métodos de optimización, y como tal, tratan de hallar una tupla de valores (xi..., xn) tales que se minimice una determinada función F(xi, ..., xn). En un algoritmo evolutivo, tras parametrizar el problema en una serie de variables, (xi..., xn) se codifican en una población de cromosomas. Sobre esta población se aplican uno o varios operadores genéticos y se fuerza una presión selectiva (los operadores utilizados se aplicarán sobre estos cromosomas, o sobre poblaciones de ellos). Esta
Pag. 10/16
forma de funcionamiento les confiere su característica más destacable: un algoritmo evolutivo puede ser implementado con un escaso conocimiento del espacio de soluciones, o a lo sumo, con un conocimiento básico de éste, siempre que tengamos un modelo capaz de predecir el comportamiento que sería esperado de una propuesta a solución, pues el conocimiento es inferido conforme avanza la exploración. Esto los hace algoritmos robustos, por ser útil para cualquier problema de optimización, pero a la vez débiles, pues no están especializados en ningún problema concreto siendo los operadores genéticos empleados los que en gran parte confieren la especificabilidad al método empleado [GarcíaGutiérrez & Díaz,2014]. A pesar de no ser incluida explícitamente por Aluja [Aluja, 2001], la mayoría de la literatura, hoy en día, contiene la técnica de regresión dentro de las clasificaciones. Técnica de Regresión: es una técnica de tipo predictiva. Numerosos problemas pueden resolverse usando regresión lineal. La regresión lineal es la más utilizada para formar relaciones entre datos. Es una técnica rápida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse más de dos variables. Sin embargo, en la naturaleza, la mayoría de los problemas presentan relaciones no lineales, es decir los datos no muestran una dependencia lineal, por lo que es necesario usar técnicas de regresión no lineal para obtener resultados ajustados a la realidad de los comportamientos. También en ocasiones pueden aplicarse transformaciones a las variables para que un problema no lineal pueda convertirse a uno lineal. Los modelos lineales generalizados representan el fundamento teórico en que la regresión lineal puede aplicarse para modelar las categorías de las variables dependientes. Por otra parte, Caridad [Caridad, 2001] además incluye las siguientes técnicas: Lógica Difusa: permiten manejar datos en los cuales existe una transición suave entre categorías distintas (por ejemplo, sensibilidades a un fármaco), por lo que algunos datos pueden tener propiedades de varias clases diferentes, estando parcialmente en más de un grupo con un grado específico de pertenencia [Rojas et al., 2008]. Esta técnica es empleada por numerosos modelos y productos industriales para representar situaciones en las que los problemas de clasificación están afectados de incertidumbre. Según [Weiss & Indurkhya, 1998], los algoritmos de minería de datos se clasifican en dos grandes categorías: supervisados o predictivos, y no supervisados o de descubrimiento del conocimiento. También es usual el uso de sistemas expertos que permiten validar los resultados teóricos con aquellos obtenidos de forma empírica. Tradicionalmente, los sistemas expertos han sido usados para resolver procesos complejos, en los cuales hay muchos factores involucrados, y por tanto se necesita tener en cuenta una amplia base de datos históricos, sobre los que se intuye alguna
Junio 16 Minería de textos, aprendizaje automático y procesamiento del lenguaje natural en entorno biosanitario.
regla que permita la toma de decisiones rápida. Por lo que combinar las técnicas de minería de datos con sistemas expertos se ha convertido en una línea de investigación de gran auge hoy en día. Otra de las nuevas vías de investigación es el fuzzy mining, esto es, la utilización de las técnicas de minería de datos con objetos simbólicos, que representen más fidedignamente la incertidumbre que se tiene de los objetos que se estudian. Los algoritmos supervisados o predictivos pronostican el valor de un atributo de algún conjunto de datos, conocidos ya otros atributos. A partir de datos cuyo atributo se conoce se puede inducir una relación entre dicho atributo y otra serie de ellos (atributos). Esas relaciones sirven para realizar la predicción en datos donde el atributo es desconocido. Este proceso se conoce como aprendizaje supervisado y se desarrolla en dos fases: una primera fase de entrenamiento, donde se construye de un modelo usando un subconjunto de datos con atributo conocido, y otra fase de prueba, la cual consiste en evaluar el modelo sobre el resto de los datos [Moreno et al., 2001]. Por ejemplo, entre los algoritmos supervisados o predictivos podemos nombrar las técnicas de: árboles de decisión, inducción neuronal, regresión y series temporales. Existen otras ocasiones donde una aplicación no tiene el potencial necesario o no aporta suficiente información a priori, para dar una solución predictiva. En ese caso hay que recurrir a los métodos no supervisados o de descubrimiento del conocimiento que revelan patrones y tendencias en los datos actuales, sin utilizar datos históricos. Entre estos están: la detección de desviaciones, segmentación, agrupamiento (clustering), reglas de asociación y patrones secuenciales [Moreno et al., 2001].
Pag. 11/16
En el área de las ciencias de la salud, se utilizan para la detección precoz y prevención de enfermedades, para el análisis de marcadores genéticos, para prever la probabilidad de una respuesta satisfactoria a un tratamiento médico, como por ejemplo las reglas de asociación utilizadas en [Marchán et al., 2011] para determinar factores de riesgo epidemiológico de transmisión de enfermedades, para asistir al médico en el diagnóstico, por ejemplo detectar patrones anormales en los análisis bioquímicos o en las pruebas de imagen y diagnóstico digital. En el área farmacéutica para identificar nuevos fármacos, moléculas y tratamientos (diseño de moléculas y sustancias con acción farmacológica), e incluso en la investigación forense para la identificación de restos humanos [Medina et al., 2012]. Este campo de aplicación es de hecho tan grande y se hace tan necesaria la minería de datos (los problemas en investigación biomédica requieren a menudo de análisis multidimensional y computación de alto rendimiento) que ha dado lugar a una nueva rama ciencia, la bioinformática. Por ejemplo, para la identificación de secuencias de ADN, se requiere de un alto nivel computacional, estadístico, de programación matemática, y minería de datos para desarrollar una estrategia de búsqueda e identificación efectiva. Entre otras aplicaciones en esta área podemos nombrar [Khalid, 2010] la predicción de la estructura de proteínas, clasificación de genes, asistencia a la detección de diferentes tipos cáncer, modelos estadísticos para iteraciones entre proteínas, diagnóstico precoz de enfermedades, asistencia al tratamiento y seguimiento clínico, modelización de procesos bioquímicos, entre otros [Medina et al., 2012].
4.1.1 LA MINERIA DE DATOS EN CIENCIA BIOMÉDICA. Debido al gran y rápido crecimiento de las redes de interconexión de sistemas digitales y al incremento del ancho de banda que ha permitido enviar gran cantidad de datos entre distintos sistemas digitales, la Minería de Datos se encuentra ya presente en muchas áreas de la vida cotidiana y en el segmento industrial y tecnológico, donde constituye ya un caso de éxito. Prácticamente cualquier dispositivo que genere un flujo de información proveniente de sensores de cualquier naturaleza es una fuente potencial de datos, los cuales quedan ya almacenados digitalmente. Básicamente, si abordamos un problema sobre un dataset sobre el que existen datos históricos disponibles desde una o varias fuentes estamos ante un problema susceptible de ser tratado mediante técnicas de minería de datos, y la importancia de esta en su resolución será directamente proporcional a la complejidad del conjunto de datos analizado.
Ilustración 8. Porcentajes de estudios de PNL y su precisión por tipo de algoritmo y área de conocimiento entre los estudiados por [Ford et al. 2016]
Tal y como lo predijo Aluja [Aluja, 2001], el campo de actuación de la Minería de Datos no puede sino crecer. En particular debemos mencionar en estos momentos el análisis de datos en tiempo real mediante las diferentes redes interconectadas obtenidos en línea, dando lugar al Web Data Mining, donde las técnicas de MD se utilizan para analizar flujos de datos conforme
Junio 16 Minería de textos, aprendizaje automático y procesamiento del lenguaje natural en entorno biosanitario.
estos se producen. Recientemente [Aggarwal, 2015] expresa que el número de documentos indexados en la web alcanza el orden de los mil millones, siendo el número de documentos no visibles directamente aún mucho mayor. Sin duda la aparición y popularización de las aplicaciones de Web Semántica (contenido estructurado y contextualizado) supondrá una revolución en este ámbito en los próximos años.
4.2 RECONOCIMIENTO LENGUAJE NATURAL
DEL
Durante los últimos años, y como respuesta a la nueva realidad de los sistemas de información se han incrementado notablemente los recursos lingüísticos disponibles para el tratamiento de documentación clínica y de producción científica, diccionarios, tesauros, bases de datos léxicas y grandes bases de conocimiento biomédico, muchos de ellos de disponibilidad pública, facilitan la construcción de sistemas de procesamiento de lenguaje y les confieren mayores posibilidades y garantías de éxito. En el año 2012, [Charu & ChengXiang 2012] definían así los mayores problemas con los que a su juicio debe enfrentarse un algoritmo que trabaje sobre representación textual: “ - The dimensionality of the text representation is very large, but the underlying data is sparse. In other words, the lexicon from which the documents are drawn may be of the order of 105, but a given document may contain only a few hundred words. This problema is even more serious when the documents to be clustered are very short (e.g., when clustering sentences or tweets). -While the lexicon of a given corpus of documents may be large, the words are typically correlated with one another. This means that the number of concepts (or principal components) in the data is much smaller than the feature space. This necessitates the careful design of algorithms which can account for word correlations in the clustering process. - The number of words (or non-zero entries) in the different documents may vary widely. Therefore, it is very important to normalize the document representations appropriately during the clustering task. ” Por otra parte, los recursos digitales en el campo de la medicina son muchos y muy variados, además de constituir la principal fuente de información tanto durante la formación como durante el ejercicio de la profesión. Por citar un ejemplo, MEDLINE, la mayor base de datos de
Pag. 12/16
bibliografía biomédica, dispone de más de 16 millones de artículos, y más de 10.000 nuevos se añaden diariamente. Por este motivo, muchos trabajos recientes exploran el uso de técnicas de procesamiento de lenguaje natural aplicadas al dominio biomédico, en busca de mecanismos que faciliten la búsqueda, comprensión y utilización de esta ingente cantidad de información. El primer paso para la interconexión de las distintas fuentes de información es su normalización, etiquetado y tratamiento semántico que permita crear buenos resúmenes de su contenido que guíen la búsqueda. Encontrar los resúmenes relevantes en grandes colecciones de resúmenes indexados, como PubMed, es una tarea compleja. El motor de búsqueda que utiliza PubMed es el sistema Entrez [Entrez 2017], que desarrolla la búsqueda en dos etapas: en un primer momento localiza los términos clínicos en la consulta hecha por el usuario; posteriormente localiza los términos encontrados en todos los resúmenes a partir de un proceso de alineamiento de caracteres que no considera la semántica de la frase que se consulta. En consecuencia, si el proceso de recuperación de resúmenes de bases de datos se realiza solo a partir de palabras claves, los sinónimos quedarán fuera del análisis. Por otro lado, la base de datos PubMed organiza los resúmenes cronológicamente, no hay opciones para refinar los resultados de una búsqueda y existe una posibilidad muy elevada de encontrar resúmenes no relevantes. Por otro lado [Lewison & Paraje 2004] presentan un sistema de clasificación de artículos biomédicos de revistas. Dividen los textos de su corpus en tres clases: a) Clínica (el artículo está relacionado con un caso clínico de un paciente) b) Básica (el artículo está relacionado con la experimentación en ratones) y c) Otros (artículos de biomedicina de otro tipo diferente a las clases anteriores). Su metodología es la siguiente: obtienen los títulos de todos los documentos contenidos en las revistas, extraen la frecuencia de las palabras incluidas en los títulos de cada clase por separado, seleccionan las 100 palabras más frecuentes de cada clase y emplean esta información para crear un vector. Para realizar la clasificación, su algoritmo toma un nuevo documento, selecciona su título, detecta las palabras del título que coinciden con las palabras de los títulos de cada clase y toma la decisión de pertenencia a una clase teniendo en cuenta el mayor número de palabras que coinciden. El componente terminológico de las ontologías biomédicas es un recurso importante en los sistemas de procesamiento del lenguaje natural y en tareas de gestión del conocimiento, como la anotación o indexación de recursos, el acceso y la recuperación de información y el mapeo entre recursos diferentes [Spasic et al. 2005].
Junio 16 Minería de textos, aprendizaje automático y procesamiento del lenguaje natural en entorno biosanitario.
Pag. 13/16
4.2.1 UMLS El UMLS (Unified Medical Language System), desarrollado por la National Library of Medicine (NLM) de los Estados Unidos, es un sistema que garantiza referencias cruzadas entre más de treinta vocabularios y clasificaciones internacionales. UMLS presenta tres fuentes de conocimiento: el Meta-tesauro, el Léxico Especializado y la Red Semántica [US National Library of Medicine 2017].
Ilustración 9. Minería de textos como un proceso modular [DE BRUIJN & Martin 2002].
La ontología GO (ver sección 3.1.2) es una de las herramientas más utilizadas para la anotación funcional de genes. El Proyecto de Anotación basada en la Ontología de Genes (GOA, siglas del inglés Gene Ontology Annotation), dirigido por el Instituto Europeo de Bioinformática surge en el 2001 con el objetivo de utilizar los términos GO en la descripción funcional de los productos génicos dentro de UniProtKB [Barrell et al. 2009]. El desarrollo del GOA ha sido paralelo al crecimiento de anotaciones y secuencias disponibles en UniProtKB; actualmente con alrededor de 43 millones de proteínas que describen 32 millones de anotaciones [Camon et al. 2003]. GOA utiliza métodos manuales y electrónicos para asociar las entradas de UniProtKB con términos de GO y proporciona varios recursos para garantizar el acceso a estas anotaciones. Muchas BDs hacen uso de las anotaciones de GOA, como son UniProtKB, Ensembl y Entrez-Gene [Camon et al. 2003]. La minería de texto es en todo este proceso una herramienta esencial para realizar el mapeo correcto y la asignación de los términos a las categorías semánticas definidad por la ontología dentro del domino que se quiere describir. Cuanto más precisa sea la construcción ontológica y mejor se adapte la técnica de minería a la naturaleza del problema mejor será el rendimiento del sistema y menor el número de falsos positivos. Por ejemplo, GoPubMed [Doms & Schroeder 2005] introduce el concepto de navegación basada en ontologías. El sistema recupera los resúmenes relevantes utilizando Entrez y los estructura según la jerarquía que proporciona GO. GO-KDS [Smith & Cleary 2003] utiliza aprendizaje automático para encontrar los resúmenes relevantes, utilizando resúmenes que contienen términos de GO que se encuentran en bases de datos como SwissProt, GeneBank, FlyBase, etc. Otras propuestas similares son Ali-Baba, PubFinder y Chilibot. Los sistemas anteriores no utilizan la semántica de los resúmenes y las consultas en sus métodos de búsqueda.
El Meta-tesauro es una base de datos multilingüe y multipropósito que contiene información sobre conceptos biomédicos y relacionados con la salud, incluyendo sus diferentes nombres y sus relaciones. Está construido a partir de las versiones electrónicas de diferentes tesauros, clasificaciones y listas de términos controlados utilizados en el cuidado de pacientes, en la elaboración de estadísticas sobre salud, en el indexado y la catalogación de literatura biomédica y en la investigación clínica. El meta-tesauro está organizado por conceptos o significado. Su propósito es enlazar nombres alternativos y vistas de un mismo concepto, así como identificar relaciones útiles entre diferentes conceptos. Todos ellos están asignados al menos a un tipo de la red semántica. Muchas de las palabras y términos que aparecen en el meta-tesauro también aparecen en el léxico especializado. El Léxico Especializado, en lengua inglesa, contiene en su versión actual unos 108.000 informes léxicos y más de 186.000 cadenas de términos. Cada entrada presenta información sintáctica, morfológica y ortográfica. La información léxica incluye la categoría sintáctica, la variación de la inflexión (singular o plural para los sustantivos, conjugación de los verbos, comparativo y superlativo para los adjetivos y adverbios), y posibles patrones de complementación (objetos y otros argumentos que pueden acompañar a los verbos, nombre y adjetivos). El léxico distingue entre once categorías sintácticas: verbos, nombres, adjetivos, adverbios, auxiliares, modales, pronombres, preposiciones, conjunciones y determinantes. Los patrones básicos de la oración se determinan por el número y la naturaleza de los complementos que rigen los verbos. Se reconocen cinco tipos generales de complementación: intransitiva, transitiva, ditransitiva, de enlace y transitiva compleja. Las entradas verbales contemplan las formas del verbo, si son regulares o irregulares. En cuanto a los sustantivos, se recogen patrones de pluralización y de nominalización. La Red Semántica presenta 132 tipos semánticos, y garantiza una categorización consistente de todos los conceptos representados en el metatesauro. Los 53 enlaces entre los tipos semánticos establecen la
Junio 16 Minería de textos, aprendizaje automático y procesamiento del lenguaje natural en entorno biosanitario.
estructura de la red y representan las relaciones más importantes en el dominio biomédico. Se puede decir, por lo tanto, que los tipos semánticos son los nodos en la red y las relaciones entre ellos son los enlaces. El enlace principal es el “es un”, que establece la jerarquía entre los tipos de la red. Existe otro grupo de relaciones, agrupadas en cinco categorías principales: -
physically_related_to, spatially_related_to, temporally_related_to, functionally_related_to conceptually_related_to.
Además, los tipos semánticos se clasifican en seis agrupaciones básicas: organismos, estructuras anatómicas, funciones biológicas, productos químicos, eventos, objetos físicos y conceptos o ideas, y permiten la categorización semántica de un amplio abanico de terminología en múltiples dominios de especialidad.
5. CONSIDERACIONES FINALES. Hasta hace relativamente poco la realidad sanitaria y la investigación científica en general se movía en torno a enormes sistemas monolíticos apoyados por las grandes instituciones y empresas especializadas que a menudo utilizaban formatos y formas de estructurar la información propietarias o poco documentadas. Hoy día, gracias al desarrollo de tecnologías abiertas en el ámbito sanitario como los nuevos modelos de información (openEHR, ISO 13606, etc.), terminologías (SNOMED-CT, LOINC, CIE, etc.) así como estándares relacionados con la interoperabilidad semántica como sintáctica (XML, XSLT, JSON, HL7, DICOM, IHE, etc.), se abre un nuevo escenario donde la interconexión de datos abre nuevas oportunidades para los sistemas de inteligencia artificial aplicados al ámbito sanitario (soporte del diagnóstico, recomendadores clínicos, etiquetado automático, motores de inferencia lógica sobre documentación clínica, anotaciones de resultados, etc...). Las técnicas de minería de datos se utilizaban fundamentalmente en el tratamiento offline de grandes volúmenes de datos, bien para obtener información de valor a partir de los datos en bruto o para guiar algún proceso de soporte de decisiones. Con el incremento de la disponibilidad de los datos, y sobre todo de la mejora de las redes de telecomunicaciones ha sido posible la interconexión por primera vez de enormes bases de datos de contenido y naturaleza heterogénea lo que ha abierto nuevas perspectivas a la minería de datos que ahora es capaz de dar respuesta a sistemas de análisis de datos en tiempo real. La aparición de estándares y protocolos de interconexión de datos unido al desarrollo de la información taggeada y del contenido semántico (Ontologías, RDF, Web Semántica), al modelo de
Pag. 14/16
programación orientado a servicios (SOAP, REST, JAXRPC, WSDL, etc...) promete abrir a la minería de datos, conjuntamente con la madurez e implantación de las nuevas técnicas de aprendizaje automático, posibilidades de aplicación que hasta ahora no habían sido posible debido a su alto costo y complejidad computacional. Muchos sistemas que ahora se encuentran en situación embrionaria pasarán a formar parte de la normalidad clínica, desde tele asistencia, sistemas de cirugía remota, asistencia al diagnóstico, detección y prevención de enfermedades, seguimiento clínico, análisis de información de distintas fuentes e instituciones, interpretación del lenguaje natural, reconocimiento de escritura, control de tratamientos y ensayos clínicos, seguimiento de enfermedades a través de la historia familiar y clínica del paciente, entre otras. Las posibilidades son muchas y en este sentido el desarrollo de nuevas ontologías especializadas y el surgimiento de más específicas bases de datos especializadas, unidas al desarrollo de nuevas técnicas y formas de interacción hombre-máquina serán cruciales en el futuro cercano y provocarán sin ninguna duda mejoras sustanciales en la práctica clínica.
Referencias [Small & Medsker 2014] SMALL, Sharon Gower; MEDSKER, Larry. Review of information extraction technologies and applications. Neural computing and applications, 2014, vol. 25, no 3-4, p. 533-548. [Aluja et al. 2010] ALUJA BANET, Tomás. La minería de datos, entre la estadística y la inteligencia artificial. 2010. [Ford et al. 2016] FORD, Elizabeth, et al. Extracting information from the text of electronic medical records to improve case detection: a systematic review. Journal of the American Medical Informatics Association, 2016, vol. 23, no 5, p. 1007-1015. [De Brujin & Martin 2002] DE BRUIJN, Berry; MARTIN, Joel. Getting to the (c) ore of knowledge: mining biomedical literature. International journal of medical informatics, 2002, vol. 67, no 1, p. 7-18. [Charu & ChengXiang 2012] Charu C. Aggarwal and ChengXiang Zhai (Editors). Mining Text Data. Springer (Cap. 2.:Information Extraction from Text). [Cohen & Herh 2005] COHEN, Aaron M.; HERSH, Willia R. A survey of current work in biomedical text mining. Briefings in bioinformatics, 2005, vol. 6, no 1, p. 57-71.
Junio 16 Minería de textos, aprendizaje automático y procesamiento del lenguaje natural en entorno biosanitario.
[Romá-Ferri 2008] ROMÁ-FERRI, María Teresa; PALOMAR, Manuel. Análisis de terminologías de salud para su utilización como ontologías computacionales en los sistemas de información clínicos. Gaceta Sanitaria, 2008, vol. 22, no 5, p. 421-433. [Arnheim 1998] ARNHEIM, Rudolf. Gombrich on Art and Psychology. Journal of Aesthetic Education, 1998, vol. 32, no 2, p. 113. [Morales et al., 2013] Morales, J. J. S., Farfán, M. C.O., & Santiago, E.D. (2013). Proyecto ENCODE. Encuentros en la Biología, 6(144), 7577. [Rojas et al., 2008] Rojas Díaz Jerónimo, Chavarro Porras Julio Cesar, y Moreno Laverde Ricardo, 2008, “Técnicas de lógica difusa aplicadas a la minería de datos”, Scientia Et Technica, Vol. XIV, No. 40, pp. 1-6. [Viera et al. 2010] VIERA, Ivette Camayd, et al. Un acercamiento a la ontología de genes y sus aplicaciones. Centro Nacional de Genética Médica MINSAP, 2010, p. 1-25. [Garcia-Gutiérrez & Díaz,2014] Gutiérrez, J. A. G., Díaz, A. M. H. (2014). “Análisis e implementación de algoritmos evolutivos para la optimización de simulaciones en ingeniería civil”, Editorial Académica Española, Madrid, ISBN: 9783639537505. [Khalid, 2010] Khalid Raza, 2010, “Application of data mining in bioinformatics”, Indian Journal of Computer Science and Engineering, Vol. 1, No. 2, pp. 114-118. [US National Library of Medicine 2017] Unified Medical Language System (UMLS), http://www.nlm.nih.gov/research/umls consultado en Junio de 2017. [Marchán et al., 2011] Marchán Edgar, Salcedo Juan, Aza Teresa, Figuera Lourdes, Martínez de Pisón Francisco, y Guillén Pablo, 2011, “Reglas de asociación para determinar factores de riesgo epidemiológico de transmisión de la enfermedad de Chagas”, Revista Ciencia e Ingeniería. Edición Especial: Jornada de Modelado y Simulación, pp. 55-60. [Medina et al., 2012] Medina Walteros Jennifer, Garzón Urrego Fabrizzio, Tafurth Montoya Pablo, y Barbosa Suarez Juan, 2012, “Recopilación bioinformática”, Universidad Distrital Francisco José de Caldas. [Mitra & Acharya, 2003] Mitra Sushmita, y Acharya Tinku, 2003, “Data mining: multimedia, soft computing and bioinformatics”. John Wiley & Sons.
Pag. 15/16
[Ashburner et al. 2000] The Gene Ontology Consortium. Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Cherry JM, Davis AP, Dolinski K, Dwight SS, Eppig JT, Harris MA, Hill DP, Issel-Tarver L, Kasarskis A, Lewis S, Matese JC, Richardson JE, Ringwald M, Rubin GM, Sherlock G Nat Genet. Gene ontology: tool for the unification of biology. 2000 May; 25(1):25-9. [Gene ontology 2017] Códigos de evidencia GO, disponible en http://geneontology.org/page/guidego-evidence-codes, consultada en Junio de 2017. [Aggarwal & Reddy 2014] Aggarwal Charu C., y Reddy Chandan K., 2014, Data clustering: algorithms and applications. Chapman & Hall, CRC Press. [Aggarwal 2015] Aggarwal Charu C., 2015, “Data Mining: the textbook”, Springer International Publishing Switzerland. [Smith & Eppig 2012] Smith CL, Eppig JT The Mammalian Phenotype Ontology as a unifying standard for experimental and high-throughput phenotyping data. Mamm Genome. 2012 Oct; 23(9-10):653-68. [Entrez 2017] Entrez cross-database search page www.ncbi.nlm.nih.gov/Entrez, consultada en Junio de 2017. [Lewison & Paraje 2004] LEWISON, Grant; PARAJE, Guillermo. The classification of biomedical journals by research level. Scientometrics, 2004, vol. 60, no 2, p. 145-157. [Spasic et al. 2005] Spasic I, Ananiadou S, McNaught J, Kumar A. Text mining and ontologies in biomedicine: Making sense of raw text. Brief Bioinform 2005; 6: 239-251. [Barrell et al. 2009] Barrell D, Dimmer E, Huntley RP, Binns D, O'Donovan C, Apweiler R. The GOA database in 2009--an integrated Gene Ontology Annotation resource. Nucleic Acids Res 2009; 37: D396-403. [Camon et al. 2003] Camon E, Magrane M, Barrell D, Binns D, Fleischmann W, Kersey P, et al. The Gene Ontology Annotation (GOA) project: implementation of GO in SWISS-PROT, TrEMBL, and InterPro. Genome Res 2003; 13: 662-72. [Doms & Schroeder 2005] Doms A, Schroeder M. GoPubMed: exploring PubMed with the Gene Ontology. Nucleic Acids Res 2005; 33: W783-6. [Smith & Cleary 2003] Smith TC, Cleary JG. Automatically linking MEDLINE abstracts to the Gene Ontology. Proc of Bio-Ontologies Meeting 2003.
Junio 16 Minería de textos, aprendizaje automático y procesamiento del lenguaje natural en entorno biosanitario.
NOTAS (1) Los productos o marcas son citados únicamente con efectos académicos y son propiedad de sus respectivos autores estando sujetos al registro de propiedad intelectual oportuno.
Pag. 16/16