6 minute read
Medicina de precisión: datos y algoritmos que curan
Joaquín Dopazo
La paulatina digitalización de los sistemas de salud (1) junto con la adopción de nuevas tecnologías, entre las que se encuentran la genómica, la patología digital y más recientemente los biosensores y la telemedicina están generando datos de carácter clínico en cantidades masivas a un ritmo que nunca antes había sido conocido.
Advertisement
Una de las consecuencias de esta transformación es que los sistemas de salud se están convirtiendo en uno de los mayores generadores de datos de nuestra sociedad, pudiéndose ya hablar con toda propiedad del Big Data clínico. En este escenario, la capacidad de analizar datos biomédicos a la antigua usanza ha sido claramente sobrepasada por el volumen actual y la forma de interpretarlos necesita cada vez más de computación y software especializado (2). A su vez, este creciente volumen de datos puede ser usados para mejorar los procesos del sistema sanitario, y en general para generar nuevo conocimiento médico. De hecho, el crecimiento del volumen de datos en todos los sectores han hecho florecer numerosas aplicaciones de metodologías de inteligencia artificial (IA), especialmente en el campo de la salud (3). La AI está empezando a integrarse en distintos aspectos de la medicina, con la perspectiva de optimizar procesos, diagnósticos y tratamientos así como disminuir errores médicos (4).
El Big Data clínico, junto con las aplicaciones de la IA en biomedicina (5) y salud (6), pueden considerarse los principales pilares de la medicina de precisión, o medicina P4 (por Personalizada, Predictiva, Preventiva y Participativa) (7). Sin embargo, cuando se habla de medicina de precisión siempre se alude a la personalización de tratamientos o del diagnóstico, que correspondería al uso primario de la información genómica, olvidando otras muchas facetas que ofrece la generación de conocimiento mediante el uso secundario de estos datos, como son la predictiva, con posibilidad de predecir el curso de la enfermedad o necesidades de medicación, la preventiva, adelantándose a la enfermedad y permitiendo tomar medidas, y finalmente la participativa, en la que el propio paciente toma protagonismo en la gestión integral de su salud, usando información derivada de sus datos genómicos y clínicos para optimizar sus tratamientos (evitando efectos adversos o secundarios) y modificar sus hábitos de vida (alimenticios, de ejercicio, etc.) y proporcionando datos transversales de su salud (microbioma). La razón principal por la que 3 de las P de la medicina P4 no llegan al paciente está precisamente en las dificultades de procesamiento, manejo y almacenamiento del Big data clínico, especialmente el genómico, en las que la IA tiene mucho que aportar.
El aumento de la eficacia de la medicina de precisión es el resultado de la creciente generación de conocimiento debido al incremento en la producción de datos que provee un sustrato cada vez mayor para la investigación clínica. Estos datos que se generan para el manejo del paciente son lo que llamamos datos del mundo real (RWD, del inglés Real World Data) (8). Y a partir del RWD hablamos de evidencia del mundo real (RWE del inglés Real World Evidence), o evidencia obtenida a partir del análisis de RWD. El dato por excelencia para la medicina de precisión es el dato genómico, sin restar importancia a otros datos como la imagen médica, y cada vez más los dispositivos portátiles, siempre en el contexto que da la información clínica del paciente.
La Figura 1 muestra la producción, el flujo de datos y su uso (ideal) en un sistema de salud. Uso primario genera datos de secuenciación del paciente (enfermedades raras y otras de base genética, Figura2.1), de de biopsias de cáncer (Figura2.2), de patógenos (Figura 1.3), de microbiota (Figura 1.4), de patógenos ambientales (One Health) (Figura 1.5), así como otros tipos de datos como imagen médica (Figura 1.6), dispositivos portátiles (Figura 1.7), y clínica y uso del sistema de salud (Figura 1.8). Todos los datos producidos (Figura 1.9) acaba almacenados en un recurso centralizado (la Base Poblacional de Salud (9), en el Sistema de Salud Público Andaluz), donde su uso secundario para investigación clínica permite: el descubrimiento de pacientes para EECC y generación de nuevos datos (Figura 1.10), y el descubrimiento de nuevos biomarcadores en entornos de investigación de confianza (Figura 1.11), que pueden ser usados en medicina de precisión (Figura 1.12) para diagnóstico, pronostico, recomendación de tratamiento (Figura 1.13) , y en medicina preventiva (Figura 1.14).
La centralización de datos es clave para su manejo y posterior uso secundario. En este sentido, el Circuito de Vigilancia por Genómica de Andalucía (10) es un ejemplo de recogida de datos a nivel regional, secuenciación semi-centralizada y manejo de datos centralizada, que se realiza íntegramente dentro del sistema de salud. Este circuito ha conseguido secuenciar más de 35.000 genomas de SARS-CoV-2 y permitido una rápida reacción en el reciente brote de virus de la viruela del mono, cuyas muestras fueron secuenciadas y permitieron caracterizar el virus y su origen en cuestión de días. Recientemente ha incluido más virus (gripe, virus respiratorio sincitial, virus de la fiebre del Nilo (11)) y por su eficacia se ha tomado como modelo para el manejo de datos genómicos en Andalucía.
En el pasado, cuando el sistema de salud no estaba aún digitalizado, el proceso de generación del conocimiento biomédico era completamente externo a este, y los datos se producían ex profeso como parte de este proceso. Sin embargo, la digitalización del sistema de salud ha cambiado radicalmente el escenario y en estos momentos este se ha convertido en el mayor generador de datos biomédicos. Paradójicamente, el escenario actual de generación de conocimiento a partir de RWE corresponde a la época anterior a la digitalización de los hospitales y por tanto está absolutamente obsoleto. Por ejemplo, no tiene sentido que los centros de cálculo y los grandes recursos computacionales estén normalmente desvinculados del sistema hospitalario, en redes informáticas distintas, y pertenezcan a distintas administraciones, cuando es el sistema de salud el que hace una enorme inversión en la generación y custodia de los datos y además tiene la experiencia de sus profesionales sobre como extraer conocimiento biomédico de ellos.
La figura 2 esquematiza esta paradoja: extracción de datos para su análisis en el exterior, con los posibles riesgos para la privacidad, y potenciales resultados de interés para el sistema de salud -ej. predictores, sistemas de soporte a la decisión, etc.- que han de ser adquiridos por este, normalmente con un coste asociado. La parte derecha esquematiza el cambio de paradigma: el sistema de salud se dota de capacidad de computación y con su experiencia (junto con la experiencia analítica externa) realiza su propia investigación clínica, cuyos desarrollos son implementables sin coste en el sistema de salud, y en caso de ser comercializables, el ingreso resultante contribuiría al sostenimiento del sistema de salud.
Figura 1. Producción, el flujo de datos y su uso (ideal) en un sistema de salud (ver texto).
Figura 2. Izquierda: situación actual, en la que el sistema de salud es productor de datos y para su uso secundario se extraen anonimizados, se realiza el estudio por agentes externos (con la ayuda de clínicos muchas veces) y se genera conocimiento, que puede tener un coste de implementación en el sistema de salud. Derecha: cambio de paradigma del sistema de salud. Se dota al sistema de salud de capacidad de computación y el conocimiento se genera dentro, con la colaboración de agentes externos, y en caso de que ese conocimiento sea comercializable, contribuye la sostenibilidad del sistema de salud.
Andalucía también tiene mucho camino andado con respecto al uso secundario de datos. La Base Poblacional de Salud (BPS) (12), con información clínica detallada de más de 15 millones de pacientes, es el recurso más grande de España de estas características y probablemente está entre las mayores del mundo. Con esta idea de cambio de paradigma en el sistema de salud se ha promovido una experiencia piloto de entorno de investigación de confianza, en línea con experiencias de Trusted Research Environment (13) puesta en marcha por Genomics England, que consiste en un entorno computacional donde los datos biomédicos protegidos por la Regulación General de Protección de datos (RGPD) pueden ser estudiados dentro del sistema de salud, minimizando así los riesgos de perdida de datos o reidentificación de pacientes, etc. La Plataforma para la Generación segura de Conocimiento a partir del Big Data
Clínico de la BPS (iRWD) (14) es un entorno de investigación de confianza consistente en una infraestructura computacional localizada dentro de la red corporativa del Sistema de Salud Público Andaluz, En dicha infraestructura se han realizado ya varios proyectos financiados tanto por fondos competitivos como por empresas.
Bibliograf A
1. Informe sobre transformación digital en españa 2018 [Available from: https://salud-digital.es/wp-content/ uploads/2019/03/Informe-sobre-Transformacion-Digital-en-Salud.pdf].
2. Topol EJ. High-performance medicine: the convergence of human and artificial intelligence. Nature medicine. 2019;25(1):44.
3. Beam AL, Kohane IS. Big data and machine learning in health care. JAMA oncology. 2018;319(13):1317-8.
4. Rajkomar A, Dean J, Kohane I. Machine learning in medicine. New England Journal of Medicine. 2019;380(14):1347-58.
5. Wainberg M, Merico D, Delong A, Frey BJ. Deep learning in biomedicine. Nature biotechnology. 2018;36(9):829.
6. Miotto R, Wang F, Wang S, Jiang X, Dudley JT. Deep learning for healthcare: review, opportunities and challenges. Briefings in bioinformatics. 2017.
7. Hood L, Friend SH. Predictive, personalized, preven - tive, participatory (P4) cancer medicine. Nature reviews Clinical oncology. 2011;8(3):184-7.
8. Wikipedia. Real world data 2022 [Available from: https://en.wikipedia.org/wiki/Real_world_data].
9. Muñoyerro-Muñiz D, Goicoechea-Salazar J, García-León F, Laguna-Tellez A, Larrocha-Mata D, Cardero-Rivas M. Health record linkage: Andalusian health population database. Gaceta Sanitaria. 2019;34(2):105-13.
10. The Whole Genome Sequencing Surveillance Circuit of Andalusia 2020 [Available from: https://www.clinbioinfosspa.es/surveillance_circuit/].
11. Casimiro-Soriguer CS, Perez-Florido J, Fernandez-Rueda JL, Pedrosa-Corral I, Guillot-Sulay V, Lorusso N, et al. Phylogenetic Analysis of the 2020 West Nile Virus (WNV) Outbreak in Andalusia (Spain). Viruses. 2021;13(5):836.
12. Base Poblacional de Salud [Available from: https:// www.sspa.juntadeandalucia.es/servicioandaluzdesalud/profesionales/sistemas-de-informacion/base-poblacional-de-salud].
13. Trusted Research Environments [Available from: https://www.hdruk.org/access-to-health-data/trusted-research-environments/].
14. Plataforma de Medicina Computacional. IRWD. Plataforma para la generación segura de conocimiento biomédico a partir del big data clínico de la base poblacional de salud 2020 [Available from: https://www.clinbioinfosspa.es/projects/iRWD/indexEsp.html].