Lourdes Moreno (Líneas de investigación)

Durante los últimos años, la Tecnologías de Información y Comunicación (TIC) se han vuelto indispensables para el día a día. En el sector educativo, el uso de systemas de enseñanza a distancia (e-Learning) ha crecido exponencialmente, sobre todo gracias a Internet. En algunos casos, Sistemas Gestores de Contenidos de Aprendizaje (LCMS) o Entornos de Aprendizaje Virtuales (VLE) como Moodle, aTutor o dotLRN entre otros han sido usados para crear, reutilizar o rehacer contenidos y entornos virtuales para la interacción entre estudiantes (como foros de discusión, chats o conferencias web). Sinembargo, se ha detectado que hoy en día la mayoría de los LCMS y de los sistemas de enseñanza a distancia presentan barreras de accesibilidad y no son accesibles para todos los estudiantes. Por otro lado, servicios de subtitulado en tiempo real y de síntesis de voz están siendo utilizados dentro del aula para evitar barreras de comunicación entre estudiantes y profesor en la clase.

Durante los últimos años, el campo de la biomedicina ha experimentado un desarrollo vertiginoso. Las investigaciones generan grandes volúmenes de datos biomédicos experimentales y computacionales que van acompañados de un crecimiento exponencial de las publicaciones que los describen. Esta gran cantidad de publicaciones ha superado a la mayor parte de los profesionales del dominio biomédico debido a que no es posible mantenerse al día de todo lo publicado sobre, por ejemplo, dianas terapéuticas o reacciones adversos de fármacos. Este crecimiento continuo unido a la diversificación de la literatura biomédica requiere esfuerzos sistemáticos y automatizados que utilicen la información subyacente. En un futuro cercano, herramientas para extracción de conocimiento representarán un papel central en los sistemas biomédicos dado que la gran cantidad de conocimiento biomédico existente en los textos demanda métodos automáticos para poder recoger, mantener e interpretar este conocimiento. En particular, en el grupo trabajamos en la aplicación de técnicas de recuperación y extracción de información a textos biomédicos, especialmente en la detección de entidades biomédicas (como fármacos, genes, proteínas) y de asociaciones entre estas entidades (interacciones entre fármacos, dianas terapéuticas).

La Web es la herramienta principal para poder ejercer como ciudadanos en la Sociedad de la Información en la que estamos inmersos. A través de ella se accede a múltiples servicios y sin embargo, muchos de estos servicios no son accesibles a todas las personas. Las barreras de accesibilidad afectan en mayor grado a las personas con discapacidad, pero hay otros muchos grupos de usuarios en riesgo de exclusión. El uso equitativo de la Web es un derecho para todas las personas. A pesar de que en muchos países este derecho está regulado por ley, los datos indican que hay muchos sitios y aplicaciones web no accesibles. Existen importantes iniciativas, a distintos niveles, con el objetivo de que se diseñe una Web universal y accesible, pero se han detectado obstáculos en el camino para conseguirlo, que se revelan en este trabajo. Como propuesta de solución a esta situación, desde la perspectiva de la Ingeniería, se ha definido un soporte metodológico llamado AWA (Accessibility for Web Applications). AWA proporciona un espacio de trabajo para incluir el requisito de la accesibilidad en las organizaciones dedicadas al desarrollo web.

Es conocida la importancia de un buen diseño de las primeras fases de una metodología de desarrollo pues determinarán la potencia de gestión, la adaptabilidad frente cambios y la integración del sistema de información, por esta razón, nuestro interés está basado en el estudio de los modelos de datos conceptuales con el objetivo de poder integrar, validar y refinar esquemas conceptuales en distintos modelos. Y a su vez, presentar extensiones que faciliten esta labor y que completen la semántica de los mismos. Las restricciones de integridad garantizan que el contenido de la base de datos es conforme con las reglas establecidas para presentar el Universo del Discurso. La integridad de una base de datos significa la existencia de dos componentes importantes que son la exactitud (CORRECTNESS) y la completitud (COMPLETENESS). Es decir, que la integridad de base de datos garantiza que todos los datos son correctos (validos) y relevantes. Se considera que la tarea de garantizar estas dos componentes es dificil porque todavía no existe ningún modelo de datos que puede capturar la semántica completa de un UD que se requiere modelar. La falta de exactitud y completitud en la base de datos puede llevar a deducir hechos que no son reales. Por eso, la mayoría de las bases de datos necesiten apoyarse de distintos mecanismos automáticos para vigilar y garantizar el contenido de las mismas. Por último, también investigamos en los métodos, técnicas y tecnologías necesarios para acercar a los expertos de negocio al proceso de desarrollo de las reglas que rigen su comportamiento.

Frente a los clásicos Motores de Búsqueda que permiten acceder a documentos, los Sistemas de Búsqueda de Respuestas (SBR) permiten acceder de forma precisa a información concreta mediante preguntas formuladas en lenguaje natural por el usuario. Los SBR son capaces de responder de forma razonablemente precisa a preguntas sobre hechos concretos (¿Qué?,¿Quién?,¿Dónde?...) cuya respuesta se encuentra en un repositorio de información de temática abierta. Definiciones, opiniones, explicaciones o preguntas con restricciones temporales son los nuevos retos que se plantean a la tecnologia de SBR. De forma transversal, como en otros sistemas de información, otros retos son la multimodalidad, la necesidad de sistemas multilingües así como la adaptación al usuario y a tareas específicas. Nuestro grupo trabaja en SBR textual para el castellano y en el uso de técnicas multilingües que permitan abordar la construcción de SBR con recursos lingüisticos limitados, haciendo uso, por ejemplo de técnicas de Aprendizaje Automático por ejemplo para reconocimiento de entidades. En ese contexto, hemos participado en las distintas ediciones del CLEF formando parte del grupo MIRACLE.

La extracción de entidades nombradas (NERC por Named Entity Recognition and Classification) es una rama del área de la Extracción de Información, cuyo objetivo consiste en identificar unidades de información en el texto y clasificarlas en categorías previamente definidas, tales como personas, organizaciones, lugares, etc. 
Internet y las tecnologías de la Web 2.0 han propiciado una  explosión de la información disponible en diferentes modalidades y las técnicas de Extracción de Información son una de las alternativas para organizar y mejorar el acceso a este torrente de información. En los últimos años han aparecido varios servicios software comercial que permiten la extracción de palabras claves y de Entidades Nombradas (NE del inglés Named Entity). Estos servicios se han integrado en numerosas aplicaciones y es previsible que, con el avance del software como servicio, sirvan para mejorar las capacidades semánticas y de interoperabilidad de muchas más en un futuro próximo. 
En el grupo investigamos en algoritmos adaptables a distintos dominio e idiomas para reconocimiento de entidades utilizando técnicas de boostrapping cuando no se dispone de recursos específicos como diccionarios, analizadores, etc.      

Por otro lado, en la actualidad, muchas de las aplicaciones para el Procesamiento de Lenguaje Natural (PLN) que conocemos podrían obtener una mejora sustancial en su rendimiento si contemplaran el tratamiento de la dimensión temporal que tiene la información que manejan. Un claro ejemplo de esta afirmación se da en el campo de la Recuperación de Información (RI): los principales motores comerciales de búsqueda en Web no realizan un análisis explícito de la información temporal de los contenidos, o lo hacen de una manera superficial, desaprovechando la semántica subyacente y su potencial para implementar técnicas avanzadas de ordenación de información, selección y filtro de resultados, etc.
La información temporal permite localizar los eventos de un texto en una línea temporal obteniendo un orden cronológico. Una persona puede extraer de manera implícita todas las expresiones temporales de un texto y la relación que éstas establecen entre los eventos, interpretando el punto del tiempo al que se refiere dicha expresión. Sin embargo, cuando se trata de interpretar grandes cantidades de información nos enfrentamos a una tarea demasiado costosa para realizarla de manera manual. Si se trata de automatizar este proceso, es preciso dotar de conocimiento adicional a los sistemas que vayan a realizar el razonamiento.

Por ello, trabajamos en la definición, desarrollo y evaluación de una propuesta para el tratamiento automático de la información temporal que es habitualmente manejada por las aplicaciones de acceso a la información no estructurada. Asimismo, se busca investigar en mecanismos de representación de la semántica temporal de los documentos que tratan dichas aplicaciones, con el fin de mejorar la recuperación de la información relevante. Para su consecución se hace preciso el análisis tanto en el nivel de formulación de las necesidades de información que los usuarios plantean a este tipo de sistemas, como en el de extracción de la información que éstos proporcionan como respuesta. Dicha propuesta contará con capacidades adicionales de gestión temporal con respecto a los sistemas tradicionales de acceso a la información, proporcionando una nueva perspectiva de explotación del tiempo y salvando así algunos de los problemas existentes.