DeepEMR: Extracción de información clínica usando deep learning y técnicas de Big Data

Referencia

TIN2017-87548-C2-1-R

El objetivo es el desarrollo de un sistema para procesamiento del texto libre de las historias clínicas electrónicas (HCE) del Hospital Universitario Fundación de Alcorcón (HUFA) utilizando técnicas de procesamiento de lenguaje natural y métodos de deep learning. HUFA fue uno de los primeros hospitales de la Comunidad de Madrid en disponer de HCE, desde su apertura a finales de 1997. En la actualidad la Comunidad de Madrid tiene integradas más 5 millones de HCE de las que sólo se procesan los metadatos estructurados. El resto de la información, en formato no estructurado (texto libre), a día de hoy permanece sin ser poder ser explotada por procesos automáticos. El desarrollo de tecnología capaz de procesar y explotar información no estructurada en texto libre de la HCE en el contexto actual de big data, puede tener muchas aplicaciones tanto en la mejora de la práctica clínica (generación automática de resúmenes de episodios relacionados con un paciente, sistemas de ayuda a la decisión clínica para personalizar diagnósticos y tratamiento de enfermedades, alertas de enfermedades infecciosas, mejora de los sistemas de farmacovigilancia, etc.) como en investigación (semi-automatización de los estudios epidemiológicos, por ejemplo en la identificación de los cohortes de pacientes). En concreto, la realización de estudios epidemiológicos implica una ardua labor en la revisión manual de un elevado número de HCE, lo que a su vez conlleva un gran número de recursos humanos y una ingente cantidad de horas de trabajo. Por tanto es crucial promover el desarrollo de técnicas automáticas que permitan obtener información de forma más ágil, convirtiendo la información no estructurada en estructurada y procesable por algoritmos automáticos, y facilitando así la toma de decisiones estratégicas.
El objetivo del proyecto es el desarrollo de técnicas de PLN y método de deep learning para el análisis de la información no estructurada de la HCE, con el fin último del de reducir el coste, en tiempo y recursos, de los estudios epidemiológicos. El proyecto tiene dos centros participantes: (Subproyecto 1) Grupo LABDA de la UC3M que desarrollará el sistema automático para el procesamiento de la HCE y (Subproyeto 2) HUFA cuyo equipo está formado por especialistas de la unidad de Alergología, que serán los encargados de llevar a cabo un estudio epidemiológico a partir de los datos obtenidos de la HCE mediante al uso de PLN y métodos de deep learning. En concreto, el estudio epidemiológico tendrán como principal objetivo estudiar la prevalencia de la anafilaxia en la población definida como caso de uso de aplicación. Varios profesionales del servicio de informática de HUFA serán los encargados de anonimizar las HCE para garantizar la protección de datos de los pacientes.
Aunque el sistema será desarrollado sobre la HCE del HUFA, la tecnología que se pretende desarrollar en el proyecto solicitado, podría ser aplicada directamente a la HCE de cualquier otro hospital. Además, su adaptación al estudio epidemiológico de otras patologías distintas a la anafilaxia (cáncer de mama, ictus, etc) es relativamente sencilla ya que los enfoques (deep learning) que se quieren abordar durante el proyecto son independientes del problema a tratar.

Año