Conversación con José Antonio Seoane
Mientras repasaba tu biografía, una de las cuestiones que me ha llamado la atención es que aunque estudiaste Estudiaste Ingeniería Técnica de Sistemas, terminaste por adentrarte en el campo de la Biomedicina y en el análisis de datos. Me parece admirable esta versatilidad y quería entender si era un camino que tenía claro desde que comenzaste tus estudios o lo fuiste descubriendo.
Creo que fue gradual, realmente nunca tuve una vocación de dedicarme a un trabajo relacionado con la biomedicina. Siempre me gustó la informática y cuando estudiaba me fascinó el potencial de la inteligencia artificial. Durante la tesis comencé a colaborar con grupos de biomedicina, haciendo análisis de datos para ellos, pero pronto descubrí que si realmente quería profundizar, debía adquirir contexto sobre el problema biomédico. Por eso después de acabar la tesis me fuí a un laboratorio de epidemiología genética donde aprendí genética, genómica, etc.
Al acabar tus estudios universitarios estuviste haciendo un post-doctorado en Universidad en Bristol entre los años 2012-2014 en el que ya te adentraste en cuestiones relacionadas con el uso de datos en el campo médico ¿qué tipo de trabajo analítico y de modelización hiciste?
En Bristol tuve la oportunidad de trabajar con varios tipos de datos moleculares y comenzamos a buscar maneras de integrar esos datos para mejorar el rendimiento de predicción de casos de cáncer. En ese sentido desarrollamos un algoritmo de Multiple Kernel Learning (MKL), que integraba información de transcripción (ARN) y aberraciones de número de copias (modificaciones cromosómicas a nivel de ADN que implican un número diferente de copias de ADN que las dos copias normales) que nos permitía predecir el prognóstico de mujeres con cáncer de mama. Nuestra mayor contribución fue incorporar información biológica al modelo, codificando la información de entrada en kernels agrupados por pathways (conjunto de genes que interactúan entre sí). De esta manera no sólo mejoramos el rendimiento del modelo, sino que también podíamos saber cuales eran los pathways más relevantes.
También desarrollamos un algoritmo que combinaba CCA (canonical correlation analysis) con algoritmos genéticos que nos permitía buscar relaciones pleiotrópicas entre genes y fenotipos cardiovasculares (genes que están asociados con varios fenotipos distintos).
Para estos proyectos, me gustaría saber cómo gestionabais la ingesta de dato y qué infraestructura utilizabáis
Para el proyecto de MKL utilizamos un dataset compuesto por aproximadamente 2.000 ejemplos y dos tipos de datos moleculares, con unas 20.000 características cada uno. Toda la infraestructura era bastante ad-hoc, como suele ser en estos proyectos. Para el proyecto de CCA utilizamos un dataset de modificaciones genéticas de unas 4.500 mujeres con enfermedades cardiovasculares.
Y después te fuiste a Estados Unidos, tanto en la USC de Los Angeles como en Stanford ¿Qué proyectos desarrollaste?
Después de mi postdoc en Reino Unido me interesó mucho la investigación en cáncer, empezaron a publicarse muchos datasets de epigenética (ENCODE, ROADMAP, etc) y me surgió la oportunidad de irme a EEUU al grupo de Christina Curtis. Primero en USC en Los Angeles, pero al poco de llegar mi supervisora consiguió una posición en Stanford y nos fuimos al corazón de Silicon Valley. En Stanford pasé 4 años como Postdoc y 3 como Instructor. Durante esta etapa estuvimos desarrollando modelos de integración de datos, pero enfocándonos más en el problema biológico y menos en los modelos de análisis. El proyecto más importante que desarrollamos, que me financió la Fundación Susan G. Komen, fue investigar cuál era el rol de genes reguladores de la cromatina en la resistencia a una quimioterapia (antraciclina) en cáncer de mama. Para este proyecto integramos información clínica, información molecular y datos de líneas celulares usando grafos que representan la regulación de los genes reguladores de cromatina.
¿A qué te refieres cuando hablas de epigenética?
La información genética se almacena en el ADN en cada célula de nuestro cuerpo, sin embargo, no todas las células se comportan igual. La epigenética es lo que dicta cómo y cuándo el ADN se lee e interpreta en cada célula. Estas meta-instrucciones son muy dinámicas y se pueden modificar por factores ambientales. En el contexto del cáncer, las aberraciones epigenéticas tienen un rol muy importante, al ser mucho más dinámicas que las modificaciones en el ADN, por ejemplo en cómo las células tumorales evaden los mecanismos de control de las células normales o también en cómo se modifican para sobrevivir a un fármaco.
Y ya en mayo de 2021, inicias tu etapa en el VHIO (Vall d'Hebron Instituto de Oncología) en el área de Biología computacional. Por lo que entiendo, vuestro trabajo consiste en aplicar modelos de Machine Learning para biormarcadores e identificar qué pacientes van a responder mejor a qué fármacos. ¿Podrías detallarme un poco en qué consiste tu día a día? ¿Qué datasets tenéis y qué tipo de modelos usáis?
Una parte del trabajo sigue la línea de lo que hacíamos en Stanford, intentando exprimir los datos para formular o validar hipótesis biológicas, principalmente relacionadas con epigenética. Otra línea importante tiene más que ver con lo que comentas, de aplicar modelos de machine learning. Esta segunda línea incluye el desarrollo de modelos predictivos que nos permitan identificar qué pacientes se beneficiarán de algún fármaco en concreto. En el VHIO se llevan a cabo muchos estudios clínicos, en muchos de ellos tenemos información de mutaciones, de variaciones de número de copias y en menor medida transcriptómica. Los modelos que más usamos son modelos de kernel (tipo SVM o MKL), XGBoost y en transciptómica “nearest shrunken centroids”, que está bastante aceptado en la comunidad. Otra línea importante es la estratificación de pacientes, donde usamos modelos tipo non-linear matrix factorization o modelos integrativos tipo iCluster o MKL-KNN.
¿Y cuál es el principal reto de este tipo de proyectos?
Normalmente es el número de ejemplos. Aunque las tecnologías de secuenciación son cada vez más baratas, no es fácil conseguir muchos datos y estamos trabajando normalmente con números muy altos de variables. Otro problema importante son los sesgos introducidos por la extracción de las muestras, las plataformas de secuenciación, los algoritmos de procesado, etc. que hay que tener siempre en cuenta.
Tú y yo nos conocimos en la gala de la Fundación Fero, en la que te concedieron una beca. Explícame otra vez en qué consistía tu investigación, a ver si esta vez lo entiendo bien :)
Sí, estoy muy contento de haber recibido el apoyo de la Fundación Fero y GHD. El objetivo de este proyecto es entender los cambios epigenéticos que se producen cuando una paciente de cáncer de mama es tratada con terapia hormonal. Hemos descubierto que hay distintos patrones en cómo los tumores resisten estas terapias y creemos que estos patrones vienen fijados por factores epigenéticos antes del tratamiento. Si entendemos e identificamos esos patrones antes del tratamiento, podemos estratificar mejor a las pacientes, evaluar distintas opciones terapéuticas y distintos seguimientos. También creemos que estas diferencias epigenéticas tienen que ver con las metástasis que se producen muchos años después del tratamiento.
Aparte del campo en el que trabajas, en qué otras áreas de la Biomedicina crees que los modelos de Machine Learning y la Analítica Avanzada están aportando más valor. ¿Podrías darme algún ejemplo?
Creo que el deep learning está revolucionando todas las áreas de la biomedicina que tienen que ver con imagen (radiología, patología, dermatología, etc). En los últimos años hemos visto como redes de neuronas artificiales mejoran la precisión de radiólogos, patólogos o dermatólogos individuales, por lo que creo que estos sistemas serán de gran ayuda para estos profesionales.
Y si miramos a 5-10 años vista ¿qué grandes avances prevés en tu campo de investigación?
Probablemente las distintas -omicas (genómica, transcritómica, epigenómica, etc. ) estarán cada vez más presentes en la práctica clínica, lo que generará muchísimos datos y la necesidad de herramientas para interpretarlos y gestionarlos. Seguramente se normalizará el uso de test genéticos e informes tipo los de 23andme para conocer el background genético de cada paciente.
Y ya para cerrar la entrevista. ¿Qué crees que tenemos que hacer como sociedad para acabar con el cáncer?
Individualmente hay muchas cosas que podemos hacer para acabar con el cáncer o al menos reducir la incidencia. Existen muchos factores de riesgo que incrementan mucho las posibilidades de padecer un cáncer que podemos reducir (consumo de alimentos procesados, carne roja, alcohol, etc.) o evitar (sedentarismo, tabaco, exposición UV). Colectivamente existen también factores de riesgo relacionados con la polución en la que todos tenemos que arrimar el hombro para reducirlos. Por otro lado creo que es necesaria más inversión en investigación, tanto a nivel público como privado.