El pasado 21 de Diciembre, Cristóbal Colón-Ruiz defendió la tesis doctoral “Weakly supervised Deep Learning for Natural Language Processing”, dirigida por Isabel Segura-Bedmar, Profesora Titular del Departamento de Informática de la Universidad Carlos III de Madrid, miembro del grupo Hulat y vocal de la Sociedad IABIOMED.
En los últimos años, hemos sido testigos de un gran avance en las tareas de PLN gracias al uso de modelos de aprendizaje profundo, y en particular, de los modelos transformers. Sin embargo, como ocurría con el uso de los algoritmos clásicos de aprendizaje supervisado, los resultados de estos nuevos modelos en gran medida dependen de la cantidad y calidad de los corpora (colecciones de textos anotados para la tarea a resolver) utilizados para entrenar los modelos. La creación y anotación de estos recursos es muy costosa, lo que se traduce en una escasez en este tipo de datasets, suponiendo un cuello de botella para los enfoques supervisados. Por esta razón, el principal objetivo de la tesis ha sido investigar distintos métodos para resolver tareas de PLN en escenarios con pocos datos anotados. En concreto, estos métodos han sido evaluados en tareas como el análisis de sentimiento de comentarios sobre medicamentos y el reconocimiento de entidades (tales como fármacos, dosis, ruta y fuerza) en prescripciones médicas de historias clínicas. Los enfoques propuestas en la tesis abarcan desde el uso de enfoques semi-supervisados basados en el uso de redes generativas adversarias, así como el modelos generativos de lenguaje (tales como GPT-J) para la generación de nuevas textos sintéticos a partir de textos anotados. También, se ha evaluado el uso de corpus en tareas similares para ajustar los modelos propuestos. Esto ha demostrado que es posible transferir el conocimiento aprendido a partir de ese corpus, para resolver una tarea similar en otro tipo de textos. Los resultados obtenidos en la tesis son prometedores y demuestran que el uso de este tipo de técnicas pueden ayudar a paliar la escasez de datos anotados para resolver tareas de PLN. Aunque las tareas evaluadas están ligadas al dominio biomédicos, los enfoques estudiados podrían emplearse en cualquier otro tipo de textos.
La creciente disponibilidad de Historias Clínicas Electrónicas (HCE), así como de las reseñas electrónicas de pacientes, ha dado lugar a un gran volumen de documentos clínicos donde parte de la información está incluida de forma no estructurada dentro de textos. Debido al elevado coste en tiempo y recursos para extraer la información de los textos clínicos, se ha incrementado el interés en investigar y desarrollar técnicas de Procesamiento del Lenguaje Natural con el fin de automatizar el proceso y optimizar la investigación en nuevas soluciones y enfoques clínicos que mejoren los resultados con pacientes. No obstante, los documentos clínicos plantean retos añadidos frente a textos de carácter genérico debido a la diferencia de las características del lenguaje empleado, uso de acrónimos específicos y jergas no estandarizadas por parte de cada sistema o centro clínico. Además, la necesidad de anonimizar los textos, conlleva que el acceso a documentos clínicos sea limitado propiciando la escasez de corpus anotados.
La principal hipótesis de esta tesis doctoral es que el uso de mecanismos de aprendizaje por transferencia, enfoques semi supervisados y modelos del lenguaje generativos pre-entrenados puede mejorar el rendimiento de los modelos en escenarios con pocos datos anotados. Esto se puede conseguir transfiriendo el conocimiento aprendido de una tarea a otra, reduciendo la necesidad de grandes cantidades de datos anotados, y generando instancias o representaciones sintéticas que enriquezcan el conjunto de entrenamiento, mejorando la robustez y generalización de los modelos. En particular, el uso de algoritmos de Deep Learning que permiten adquirir conocimiento de tareas con características similares puede mitigar el problema del cuello de botella que supone la falta de corpus ricos anotados, mejorando así el aprendizaje de características relevantes para tareas específicas de Procesamiento del Lenguaje Natural.
La investigación desarrollada en esta tesis se centra principalmente en dos tareas en textos del dominio médico: la clasificación de reseñas de medicamentos y el reconocimiento de entidades (fármacos, dosis, fuerza, ruta, forma farmacológica) en prescripciones médicas a partir de datos de historias clínicas anonimizadas del la base de datos UK BioBank (https://www.ukbiobank.ac.uk/) del Reino Unido. El acceso al conjunto de datos ha sido posible gracias a la colaboración con el Birney Research Group (https://www.ebi.ac.uk/research-beta/birney/) del Instituto Europeo de Bioinformática (EMBL-EBI).
Respecto a la primera tarea, el dataset [1] (utilizado contiene un total de 215.063 revisiones de medicamentos obtenidos de la web drugs.com, que habían sido clasificados con un valor entero de 0 a 9, indicando el grado de satisfacción del paciente con el fármaco. Los creadores de este dataset agruparon las revisiones de medicamentos según tres niveles de polaridad según la calificación de la revisión: negativa (clase 0, calificación =4), neutral (clase 1, calificación en [5,6]) y positiva (clase 2; calificación>=7). La distribución de las clases indica que la clase más frecuente es la positiva (más de 142.000 revisiones), seguida de la clase negativa (alrededor de 53.000 instancias) , siendo la clase neutra la de menor número de instancias (aproximadamente 20.000 instancias). En la tesis se propone el uso de distintos modelos de Deep Learning como las redes convolucionales, las redes recurrentes y los modelos transformers. Los resultados muestran que los modelos pre-entrenados basados en transformadores superan a otros algoritmos de Deep Learning. También se propuso el estudio de un enfoque semi-supervisado basado en un red generativa adversaria (GAN), que consta de un generador y un discriminador. A partir de pequeñas muestras de datos anotados, el generador se encarga de generar nuevas instancias sintéticas con el objetivo de engañar al discriminador, cuyo objetivo es determinar si la instancia es real o ha sido generada por el generador. Además, de este enfoque basado en una red GAN, se estudió el uso de modelos generativos (en particular GPT-J) para generar nuevas instancias sintéticas. Los resultados sugieren que emplear datos no etiquetados en enfoques semi-supervisados o incluir instancias sintéticas de modelos generativos del lenguaje pre entrenados mejora el rendimiento de los modelos discriminativos ajustados en un escenario de pocos datos. No obstante, su rendimiento disminuye cuando hay datos de entrenamiento suficientes para aprender las características relevantes para la tarea.
En el caso de la segunda tarea, el reconocimiento de entidades en prescripciones médicas, se propuso el uso del modelo de lenguaje BioBERT extendido con una capa final con el algoritmo Conditional Random Field (CRF). Dicho modelo fue ajustado utilizando en primer lugar el dataset n2c2 de 2018 (https://n2c2.dbmi.hms.harvard.edu/publications/challenge/2018), y reajustado una segunda vez, utilizando una pequeño conjunto de prescripciones médicas del UK BioBank. El dataset n2c2 consiste en una colección de notas de alta de la Unidad de Cuidados Intensivos (UCI) con información detallada sobre los medicamentos utilizados en los tratamientos. El dataset incluye anotaciones de fármacos (más de 26.000 instancias), dosis (más de 6.000 instancias), forma de administración (casi 11.000 instancias), ruta (casi 10.000 instancias) y fuerza (más de 10.000 instancias). El dataset de UK BioBank fue anotado por expertos farmacéuticos con el mismo conjunto de entidades. Los resultados muestran que este enfoque obtiene mejores resultados que otros modelos como Med7 (https://github.com/kormilitzin/med7), ajustado sobre conjuntos de datos de notas clínicas y notas de alta. Esto puede deberse a la diferencia en las características del lenguaje utilizado en las prescripciones en comparación con las notas clínicas y a la heterogeneidad entre los diferentes conjuntos de datos. Al pre-ajustar el modelo primero sobre el dataset n2c2, el modelo es capaz de transferir el aprendizaje durante el ajuste de las prescripciones médicas de UK BioBank.
Otra de las contribuciones de la tesis ha sido el desarrollo de la herramienta PRESNER (https://github.com/ccolonruiz/PRESNER), capaz de extraer y mapear información de las prescripciones médicas en las historias clínicas. La herramienta ha sido diseñada para ayudar a los investigadores que necesitan obtener información de dichas prescripciones para ser utilizadas en estudios farmacogenéticos. En concreto, PRESNER es capaz de identificar medicamentos, su forma farmacológica, su ruta, dosis y fuerza, y obtener su clasificación ATC, así como distinguir entre medicamentos sistémicos y no sistémicos.
Cristobal realizó una estancia de 6 meses con el Birney Research Group (https://www.ebi.ac.uk/research-beta/birney/) del Instituto Europeo de Bioinformática (EMBL-EBI), por tanto la tesis tiene mención internacional. Ha sido propuesta para recibir la calificación de sobresaliente cumlaudem por unanimidad. La tesis se puede descargar desde el enlace
[1] Gräßer, F., Kallumadi, S., Malberg, H., & Zaunseder, S. (2018, April). Aspect-based sentiment analysis of drug reviews applying cross-domain and cross-data learning. In Proceedings of the 2018 International Conference on Digital Health (pp. 121-125). El dataset se puede descargar desde el siguiente enlace: https://archive.ics.uci.edu/dataset/462/drug+review+dataset+drugs+com