Julián Moreno Schneider (Proyectos)

TRENDMINER: Large-scale Cross-lingual Trend Mining of Real-time media streams

The recent massive growth in online media and the rise of user-authored content (e.g weblogs, Twitter, Facebook) has lead to challenges of how to access and interpret these strongly multilingual data, in a timely, efficient, and affordable manner. Scientifically, streaming online media pose new challenges, due to their shorter, noisier, and more colloquial nature. Moreover, they form a temporal stream strongly grounded in events and context. Consequently, existing language technologies fall short onaccuracy, scalability and portability. The goal of this project is to deliver. innovative, portable open-source real-time methods for cross-lingual mining and summarisation of large-scale stream media. TrendMiner will achieve this through an inter-disciplinary approach, combining deep linguistic methods from text processing, knowledge-based reasoning from web science, machine learning, economics, and political science. No expensive human annotated data will be required due to our use of time-series data (e.g. financial markets, political polls) as a proxy. A key novelty will be weakly supervised machine learning algorithms for automatic discovery of new trends and correlations. Scalability and affordability will be addressed through a cloud-based infrastructure for real-time text mining from stream media. Results will be validated in two high-profile case studies: financial decision support (with analysts, traders, regulators, and economists) and political analysis and monitoring (with politicians, economists, and political journalists). The techniques will be generic with many business applications: business intelligence, customer relations management, community support. The project will also benefit society and ordinary citizens by enabling enhanced access to government data archives, summarisation of online health information, and tracking of hot societal issues.

Referencia: FP7-ICT 287863
Financiación: European Commission
Tipo de proyecto: Público
Estado: Activo
Investigador principal: Paloma Martínez Fernández
Otros investigadores: Paloma Martínez Fernández, Lourdes Moreno, Isabel Segura Bedmar, Julián Moreno Schneider, María González García, María Herrero Zazo, Ricardo Revert Arenaz
Duración: 2013 - 2014
https://cordis.europa.eu/project/id/287863

MULTIMEDICA: Extracción de Información Multilingüe en Sanidad y su aplicación a documentación divulgativa y científica

El proyecto tiene como objetivo la definición y desarrollo de técnicas de extracción y búsqueda de información a partir de textos en el dominio biomédico, en particular, en dos líneas especiales: en primer lugar, el tratamiento de documentación científica en inglés sobre farmacología y en segundo lugar, el procesamiento de textos divulgativos sobre salud en idiomas como español y árabe. Estas técnicas de extracción incluyen el reconocimiento de entidades propias del dominio, aplicación de patrones y aprendizaje automático a la extracción de relaciones semánticas de interés, la integración de recursos léxicos específicos de sanidad (UMLS, SNOMED, etc.) para la mejora de aplicaciones. Por otro lado, la información extraída debe organizarse para su utilización en las herramientas de búsqueda e integración de información. Así, para mostrar la viabilidad de las técnicas propuestas se desarrollarán tres prototipos para búsqueda de información: el primero de ellos una aplicación orientada a farmacéuticos para extraer conocimiento sobre interacciones entre fármacos a partir de publicaciones científicas; el segundo prototipo será una herramienta orientada al público en general para buscar información sobre enfermedades y medicamentos; el tercero aplicará la extracción terminológica al corpus paralelo español-árabe para la enseñanza de la terminología en el dominio biomédico.

Referencia: TIN2010-20644-C03-01
Financiación: Plan Nacional de I+D, Ministerio de Ciencia e Innovación
Tipo de proyecto: publico
Estado: activo
Investigador principal: Paloma Martínez Fernández
Otros investigadores: Paloma Martínez Fernández, Lourdes Moreno, Elena Castro Galán, Ana M. Iglesias Maqueda, Isabel Segura Bedmar, María Teresa Vicente-Díez, José Luis Martínez Fernández, Julián Moreno Schneider, Daniel Sánchez Cisneros, María Herrero Zazo
Duración: 2011 - 2013
http://labda.inf.uc3m.es/multimedica/

BRAVO: Búsqueda de respuestas avanzada multimodal y multilingüe

El proyecto BRAVO está dedicado a investigar en tecnologías para mejora la búsqueda de respuestas tanto con entrada en texto como en voz y cuyo principal resultado es una plataforma para un sistema de búsqueda de respuestas modular que permita medir la mejora de distintas técnicas para clasificación de preguntas, extracción de respuestas, recuperación de pasajes, etc. Entre las técnicas desarrolladas en este proyecto se encuentra SPINDEL, un reconocedor de entidades independiente del idioma que aplica aprendizaje automático basado en boostraping.
En el marco del proyecto BRAVO, una de las áreas específicas en las que el equipo de UC3M en la actualidad es en la localización de principios activos de medicamentos e interacciones entre ellos en la literatura médica haciendo uso de UMLS, diccionarios y reglas USAN de denominación de fármacos. Como resultado de este trabajo se dispone de un corpus anotado automática con nombres de fármacos genéricos y otros conceptos biomédicos utilizando la herramienta DrugNer desarrollada en el grupo y manualmente revisado por un experto farmacológico. DrugNer combina información obtenida de UMLS, el programa MetaMap Transfer (MMTx) y las reglas de nomenclatura recomendadas por la Organización Mundial de la Salud (OMS) para identificar y clasificar sustancias farmacológicas

Referencia: TIN2007-67407-C03-01
Financiación:
Tipo de proyecto: publico
Estado: activo
Investigador principal: Paloma Martínez Fernández
Otros investigadores: Lourdes Moreno, Elena Castro Galán, Ana M. Iglesias Maqueda, César De Pablo Sánchez, Isabel Segura Bedmar, María Teresa Vicente-Díez, José Luis Martínez Fernández, Belén Ruiz-Mezcua, Julián Moreno Schneider, Mario Crespo
Duración: 2007 - 2010