"Las bases de datos sintéticas aceleran la innovación y mejoran la privacidad de los pacientes"
Ferran Prados, investigador de la UOC en bioinformática aplicada al cerebro

Ferran Prados es un destacado investigador en el campo de la bioinformática aplicada al cerebro. Desde el NeuroADaS Lab de la Universitat Oberta de Catalunya (UOC), grupo de investigación tecnológica que trabaja para avanzar en el conocimiento del cerebro, ha liderado una investigación publicada en Nature sobre la generación de datos sintéticos para avanzar en la investigación sobre la fatiga crónica. Prados, profesor de los Estudios de Informática, Multimedia y Telecomunicación de la UOC, hablará de este proyecto, ganador del Premio Interdisciplinario de Investigación de la UOC, en un acto de la Semana del Cerebro, que tendrá lugar en la universidad el próximo 12 de marzo.
¿Cuál es el objetivo de vuestra investigación sobre datos sintéticos?
El objetivo principal es desarrollar métodos para generar datos sintéticos de salud. En el caso de nuestra investigación, son datos relacionados con test de calidad de vida para pacientes con fatiga crónica. Son test que requieren un tiempo considerable para ser completados, y a menudo los pacientes no pueden responderlos íntegramente a causa de su estado de salud. El hecho de que haya pocos datos para la investigación dificulta el desarrollo de nuevos tratamientos, biomarcadores y otros adelantos clínicos.
Para abordar este reto, los datos sintéticos pueden ser una solución valiosa. Mediante una red neuronal y a partir de test ya completados, es posible aprender los patrones de respuesta de los pacientes y generar respuestas sintéticas que sean estadísticamente coherentes con las reales. Esto permite enriquecer las bases de datos y mejorar la calidad de la investigación sin comprometer la privacidad de los pacientes.
Los resultados demuestran que es posible generar conjuntos de datos sintéticos que preservan la utilidad para la investigación y el análisis, a la vez que se garantiza la protección de datos sensibles de los individuos.
¿Qué beneficios aportan este tipo de datos a la investigación médica?
Nosotros no solo generamos bases de datos sintéticas, sino que las utilizamos para completar bases de datos reales con el objetivo de mejorar el tamaño de la muestra y, así, reforzar la validez de los estudios. Este enfoque permite optimizar los conjuntos de datos disponibles, especialmente en casos en que no hay suficiente información.
Las bases de datos sintéticas mejoran la privacidad, puesto que permiten compartir datos sin exponer información personal identificable. También facilitan un acceso más amplio a los datos, hecho que beneficia a los investigadores que, de otro modo, podrían encontrar restricciones a causa de las estrictas normativas sobre protección de datos. Además, contribuyen a acelerar la innovación, proporcionando conjuntos de datos para entrenar modelos de inteligencia artificial, incluso en situaciones en que los datos reales son escasos, como en el caso de las enfermedades poco conocidas o de difícil acceso.
¿Qué limitaciones tienen?
La calidad de los datos es fundamental, puesto que, si los datos reales utilizados para generar datos sintéticos son de baja calidad, los resultados pueden no ser fiables. Así, estos modelos pueden reproducir sesgos presentes en los datos originales, lo que puede perpetuar errores o desigualdades en la investigación. Finalmente, la regulación continúa siendo un reto. En algunos casos, el uso de datos sintéticos en estudios clínicos no está bien visto y requiere una validación adicional por parte de las autoridades competentes antes de poder ser utilizados en la práctica clínica.
Una aplicación interesante de los datos sintéticos es su capacidad de simular imágenes médicas.
En NeuroADaS Lab trabajamos en esta línea con imágenes generadas sintéticamente para simular estructuras como el nervio óptico, los dientes o las lesiones de esclerosis múltiple.
Este proceso se puede llevar a cabo mediante diferentes técnicas. Por un lado, nosotros usamos métodos bayesianos, es decir, que parten de etiquetas para generar datos sintéticos con una base física y morfológica sólida. Por el otro, se podrían utilizar redes generativas adversarias (GAN), que aprenden a partir de imágenes médicas reales y crean imágenes nuevas manteniendo las características esenciales. Estas imágenes sintéticas tienen un gran valor para el entrenamiento y la optimización de las redes neuronales, y permiten que sean más eficientes en tareas de segmentación y análisis de imágenes médicas.
¿Qué técnicas de inteligencia artificial utilizáis en esta investigación?
Hay diversas, entre ellas las redes generativas adversarias (GAN), que son modelos que constan de dos redes neuronales que compiten entre sí para generar datos sintéticos realistas. También utilizamos el llamado aprendizaje profundo (deep learning), que usa redes neuronales con múltiples capas para modelar patrones complejos en los datos. Y los modelos probabilísticos, aproximaciones que estiman la distribución de los datos para generar nuevos datos con características similares.
Además de las enfermedades neurológicas, ¿es posible usar estos modelos para otras patologías?
Sí, los modelos de generación de datos sintéticos se pueden aplicar a una amplia gama de patologías. Por ejemplo, al estudio de las enfermedades cardiovasculares, oncológicas e infecciosas, entre otros, para crear conjuntos de datos que ayuden a desarrollar nuevos tratamientos.
¿Cuáles dirías que son las herramientas tecnológicas que aportarán más adelantos al conocimiento del cerebro?
Las técnicas avanzadas de inteligencia artificial, el deep learning aplicado a la neuroimagen, la computación cuántica y la bioinformática serán clave en el futuro de la neurociencia. Además, tecnologías como la neuromodulación no invasiva, las interfaces cerebro-máquina y la conectómica (estudio de las conexiones del sistema nervioso) nos permitirán comprender mejor las redes neuronales y desarrollar nuevas estrategias para el tratamiento de enfermedades.
¿Crees que la bioinformática puede ser un punto de inflexión en el diagnóstico y el tratamiento de las enfermedades en un futuro?
Sin duda, y tiene el potencial de serlo en un futuro inmediato. La bioinformática combina las ciencias biológicas con técnicas computacionales para analizar e interpretar grandes volúmenes de datos biomédicos, y se ha vuelto fundamental en la investigación y la práctica médica actual.
En la UOC tenemos un equipo de investigadores altamente cualificados que trabajan en medicina de precisión desde diferentes perspectivas, con el objetivo de desarrollar soluciones innovadoras para avanzar en el diagnóstico y el tratamiento personalizado de varias patologías. Nuestra investigación se enfoca en mejorar la comprensión de las enfermedades y ofrecer estrategias terapéuticas adaptadas a cada paciente, aprovechando el potencial de la bioinformática y la inteligencia artificial.
También está transformando la manera de desarrollar nuevos fármacos.
Este es un ámbito clave, y en la UOC hay un grupo que hace investigación enfocada en este campo.
Las nuevas herramientas computacionales permiten identificar dianas terapéuticas, simular la eficacia de nuevos compuestos y optimizar el descubrimiento de medicamentos. Todo esto reduciendo costes y consiguiendo que los fármacos lleguen a los pacientes más pronto.
Además, no podemos olvidar el análisis genómico, que nos permite identificar mutaciones genéticas asociadas a varias enfermedades para, de este modo, poder detectarlas de manera precoz y personalizar el tratamiento al paciente.
¿En qué otros proyectos estáis trabajando que pueden tener un impacto en los pacientes?
Por un lado, trabajamos en un proyecto que busca mejorar la segmentación de lesiones en resonancias magnéticas de pacientes con esclerosis múltiple. Hemos desarrollado una técnica innovadora que genera datos sintéticos, simulando la evolución real de las lesiones ante cualquier contraste de imagen, y de este modo mejoramos el modelo.
Otro proyecto se centra en la segmentación del nervio óptico de pacientes con esclerosis múltiple, una estructura clave en el seguimiento de la enfermedad y que recientemente se ha incorporado como factor diagnóstico de la enfermedad. Estamos desarrollando soluciones para facilitar a los médicos la interpretación de la morfología y el estado de esta estructura.
Por otro lado, estamos analizando tanto con diferentes tipos de test como con herramientas de neuroimagen la capacidad protectora del bilingüismo para el cerebro.
¿Cuál de vuestras investigaciones está más cerca de integrarse en el sistema sanitario?
Incorporar herramientas de software en la práctica clínica no es fácil a causa de la regulación vigente actual. El proyecto de análisis de lesiones en pacientes de esclerosis múltiple se utilizará pronto en ensayos clínicos internacionales sobre esta enfermedad y ayudará a los investigadores a detectar y cuantificar las lesiones de manera más eficiente, mejorando el diagnóstico y personalizando los tratamientos a cada paciente.
Hablemos de la Semana del Cerebro. ¿Por qué crees que es importante un acontecimiento de este tipo?
Desde el NeuroADaS Lab vemos la Semana del Cerebro como una actividad clave de divulgación para acercar la neurociencia a la sociedad, concienciar sobre la importancia de la salud cerebral y divulgar los adelantos en investigación que estamos llevando a cabo. Con este acontecimiento promovemos el diálogo entre científicos, médicos y ciudadanos, esencial para mejorar la comprensión del público de los trastornos neurológicos y también para remarcar la necesidad de invertir en investigación para mejorar la calidad de vida de las personas afectadas.
Contacto de prensa
-
Anna Sánchez-Juárez