María González García (Líneas de investigación)

Durante los últimos años, el campo de la biomedicina ha experimentado un desarrollo vertiginoso. Las investigaciones generan grandes volúmenes de datos biomédicos experimentales y computacionales que van acompañados de un crecimiento exponencial de las publicaciones que los describen. Esta gran cantidad de publicaciones ha superado a la mayor parte de los profesionales del dominio biomédico debido a que no es posible mantenerse al día de todo lo publicado sobre, por ejemplo, dianas terapéuticas o reacciones adversos de fármacos. Este crecimiento continuo unido a la diversificación de la literatura biomédica requiere esfuerzos sistemáticos y automatizados que utilicen la información subyacente. En un futuro cercano, herramientas para extracción de conocimiento representarán un papel central en los sistemas biomédicos dado que la gran cantidad de conocimiento biomédico existente en los textos demanda métodos automáticos para poder recoger, mantener e interpretar este conocimiento. En particular, en el grupo trabajamos en la aplicación de técnicas de recuperación y extracción de información a textos biomédicos, especialmente en la detección de entidades biomédicas (como fármacos, genes, proteínas) y de asociaciones entre estas entidades (interacciones entre fármacos, dianas terapéuticas).

La Web es la herramienta principal para poder ejercer como ciudadanos en la Sociedad de la Información en la que estamos inmersos. A través de ella se accede a múltiples servicios y sin embargo, muchos de estos servicios no son accesibles a todas las personas. Las barreras de accesibilidad afectan en mayor grado a las personas con discapacidad, pero hay otros muchos grupos de usuarios en riesgo de exclusión. El uso equitativo de la Web es un derecho para todas las personas. A pesar de que en muchos países este derecho está regulado por ley, los datos indican que hay muchos sitios y aplicaciones web no accesibles. Existen importantes iniciativas, a distintos niveles, con el objetivo de que se diseñe una Web universal y accesible, pero se han detectado obstáculos en el camino para conseguirlo, que se revelan en este trabajo. Como propuesta de solución a esta situación, desde la perspectiva de la Ingeniería, se ha definido un soporte metodológico llamado AWA (Accessibility for Web Applications). AWA proporciona un espacio de trabajo para incluir el requisito de la accesibilidad en las organizaciones dedicadas al desarrollo web.

Frente a los clásicos Motores de Búsqueda que permiten acceder a documentos, los Sistemas de Búsqueda de Respuestas (SBR) permiten acceder de forma precisa a información concreta mediante preguntas formuladas en lenguaje natural por el usuario. Los SBR son capaces de responder de forma razonablemente precisa a preguntas sobre hechos concretos (¿Qué?,¿Quién?,¿Dónde?...) cuya respuesta se encuentra en un repositorio de información de temática abierta. Definiciones, opiniones, explicaciones o preguntas con restricciones temporales son los nuevos retos que se plantean a la tecnologia de SBR. De forma transversal, como en otros sistemas de información, otros retos son la multimodalidad, la necesidad de sistemas multilingües así como la adaptación al usuario y a tareas específicas. Nuestro grupo trabaja en SBR textual para el castellano y en el uso de técnicas multilingües que permitan abordar la construcción de SBR con recursos lingüisticos limitados, haciendo uso, por ejemplo de técnicas de Aprendizaje Automático por ejemplo para reconocimiento de entidades. En ese contexto, hemos participado en las distintas ediciones del CLEF formando parte del grupo MIRACLE.

La extracción de entidades nombradas (NERC por Named Entity Recognition and Classification) es una rama del área de la Extracción de Información, cuyo objetivo consiste en identificar unidades de información en el texto y clasificarlas en categorías previamente definidas, tales como personas, organizaciones, lugares, etc. 
Internet y las tecnologías de la Web 2.0 han propiciado una  explosión de la información disponible en diferentes modalidades y las técnicas de Extracción de Información son una de las alternativas para organizar y mejorar el acceso a este torrente de información. En los últimos años han aparecido varios servicios software comercial que permiten la extracción de palabras claves y de Entidades Nombradas (NE del inglés Named Entity). Estos servicios se han integrado en numerosas aplicaciones y es previsible que, con el avance del software como servicio, sirvan para mejorar las capacidades semánticas y de interoperabilidad de muchas más en un futuro próximo. 
En el grupo investigamos en algoritmos adaptables a distintos dominio e idiomas para reconocimiento de entidades utilizando técnicas de boostrapping cuando no se dispone de recursos específicos como diccionarios, analizadores, etc.      

Por otro lado, en la actualidad, muchas de las aplicaciones para el Procesamiento de Lenguaje Natural (PLN) que conocemos podrían obtener una mejora sustancial en su rendimiento si contemplaran el tratamiento de la dimensión temporal que tiene la información que manejan. Un claro ejemplo de esta afirmación se da en el campo de la Recuperación de Información (RI): los principales motores comerciales de búsqueda en Web no realizan un análisis explícito de la información temporal de los contenidos, o lo hacen de una manera superficial, desaprovechando la semántica subyacente y su potencial para implementar técnicas avanzadas de ordenación de información, selección y filtro de resultados, etc.
La información temporal permite localizar los eventos de un texto en una línea temporal obteniendo un orden cronológico. Una persona puede extraer de manera implícita todas las expresiones temporales de un texto y la relación que éstas establecen entre los eventos, interpretando el punto del tiempo al que se refiere dicha expresión. Sin embargo, cuando se trata de interpretar grandes cantidades de información nos enfrentamos a una tarea demasiado costosa para realizarla de manera manual. Si se trata de automatizar este proceso, es preciso dotar de conocimiento adicional a los sistemas que vayan a realizar el razonamiento.

Por ello, trabajamos en la definición, desarrollo y evaluación de una propuesta para el tratamiento automático de la información temporal que es habitualmente manejada por las aplicaciones de acceso a la información no estructurada. Asimismo, se busca investigar en mecanismos de representación de la semántica temporal de los documentos que tratan dichas aplicaciones, con el fin de mejorar la recuperación de la información relevante. Para su consecución se hace preciso el análisis tanto en el nivel de formulación de las necesidades de información que los usuarios plantean a este tipo de sistemas, como en el de extracción de la información que éstos proporcionan como respuesta. Dicha propuesta contará con capacidades adicionales de gestión temporal con respecto a los sistemas tradicionales de acceso a la información, proporcionando una nueva perspectiva de explotación del tiempo y salvando así algunos de los problemas existentes.