Minería de textos, aprendizaje automático y procesamiento del lenguaje en el entorno biosanitario.

Page 1

Junio 16 Minería de textos, aprendizaje automático y procesamiento del lenguaje natural en entorno biosanitario.

Pag. 1/16

Minería de textos, aprendizaje automático y procesamiento del lenguaje natural en el entorno biosanitario. José A. García Gutiérrez, Coordinador provincial de Sistemas para Fujitsu Technology Solutions en Málaga, adscrito al contrato de soporte de centros de datos en el Servicio Andaluz de Salud. En los últimos años, los avances en ciencias biomédicas de la mano de nuevas disciplinas como la biología molecular o la ingeniería genética, unidos al crecimiento exponencial de la información médica disponible en línea y de los registros de historia del paciente existentes en formato digital, y la colaboración internacional y el acceso libre de buena parte de la producción científica, han hecho imprescindible el desarrollo de sistemas informáticos que permitan indexar y navegar a través de las distintas bases de datos de conocimiento científico (publicaciones, artículos, protocolos), documentos clínicos del historial del paciente (casos clínicos, episodios, tratamientos, evolución) y de los resultados obtenidos en ensayos, terapias, nuevos fármacos y sus vías terapéuticas. Este objetivo exige dos premisas imprescindibles: (1) Ser capaz de acceder y hacer accesible toda la documentación que ya existe y se genera cada día por los profesionales sanitarios. Y (2) poder estructurar toda esa información de forma que sea posible acceder a ella de forma conjunta, e integrada. Integrar sistemas significa conseguir que operen de forma conjunta y coordinada. Para ello, la homogeneidad entendida como la uniformidad de los datos intercambiados es una premisa imprescindible. Desde el punto de vista operativo la interoperabilidad favorece que la inversión se rentabilice, evitando duplicidad de datos, reduciendo esfuerzos en el acceso a ellos y compartiendo la información de manera que esta pueda estar disponible para ser interrogada desde una fachada común. La inteligencia no es el producto de la suma de conocimientos, sin embargo, la acumulación de conocimientos, si estos se encuentran adecuadamente indexados, y accesibles y, si estos, pueden ser interrogados de forma comparada es una fuente primordial para inferir como estos datos se relacionan y ser capaces de extraer reglas de comportamiento o modelos de la realidad que permitan extrapolar los resultados en decisiones. Este es el fundamento del aprendizaje automático cuyas técnicas operan sólidamente apoyadas en los métodos tradicionales de minería y explotación de datos.

1. INTRODUCCIÓN Sin que seamos conscientes de ello, nuestro celebro realiza cálculos asombrosos de forma bastante rutinaria cuya comprensión completa supone un reto para la neurociencia actual y que, aún distan en mucho en algunos aspectos de las capacidades que tiene hoy en día el procesamiento automatizado y el aprendizaje computacional. Cuando alguien nos tira una pelota en la playa, aunque no la esperemos ni estemos en estado de alerta, en cuestión de unas décimas de segundo nuestro subconsciente calcula su trayectoria en función a su posición actual, la dirección de su movimiento, y su aceleración, de forma, que sabemos de antemano si la pelota nos golpeará. Es más, en ese caso, nuestro celebro ordenará a nuestros brazos moverse para prevenir el golpe, inferirá la posición de la pelota en los próximos segundos, coordinará nuestras manos para que se sitúen en el lugar preciso para agarrarla, y forzara a nuestras piernas a consolidar la postura para contrarrestar el impulso. Claro que podríamos enseñar a un ordenador a realizar esos cálculos, las ecuaciones del movimiento parabólico acelerado son fáciles de automatizar y no suponen nada que no pudiese hacer cualquier persona con unos conocimientos básicos de programación y matemáticas, y algunos

minutos, pero consideremos lo que esto implica a nivel sensorial. Si quisiésemos replicar lo que hace nuestro celebro necesitaríamos ser capaces de reconocer el objeto cuyo movimiento debe ser detectado y distinguido del resto de movimientos simultáneos que ocurren en el entorno, y debemos identificar que ese objeto es una pelota entre los cientos de objetos redondos que podrían parecerse o confundirse con un balón. Una vez clasificado el objeto, tendríamos que ser capaces de asociar al objeto una serie de propiedades (basándonos en nuestra experiencia vital y del entorno), y en función a ellas, presuponer algunas variables muy importantes a la hora de determinar el movimiento como: su peso, tamaño, densidad, o elasticidad.

Ilustración 1. Diferentes tipos de manzanas donde puede verse la dificultad de encontrar rasgos descriptivos que diferencien al concepto "manzana" frente a, por ejemplo, otras frutas.

Una vez establecidos estos valores tenemos que tener la capacidad de referenciar espacialmente el


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.