María Herrero Zazo (Proyectos)

TRENDMINER: Large-scale Cross-lingual Trend Mining of Real-time media streams

The recent massive growth in online media and the rise of user-authored content (e.g weblogs, Twitter, Facebook) has lead to challenges of how to access and interpret these strongly multilingual data, in a timely, efficient, and affordable manner. Scientifically, streaming online media pose new challenges, due to their shorter, noisier, and more colloquial nature. Moreover, they form a temporal stream strongly grounded in events and context. Consequently, existing language technologies fall short onaccuracy, scalability and portability. The goal of this project is to deliver. innovative, portable open-source real-time methods for cross-lingual mining and summarisation of large-scale stream media. TrendMiner will achieve this through an inter-disciplinary approach, combining deep linguistic methods from text processing, knowledge-based reasoning from web science, machine learning, economics, and political science. No expensive human annotated data will be required due to our use of time-series data (e.g. financial markets, political polls) as a proxy. A key novelty will be weakly supervised machine learning algorithms for automatic discovery of new trends and correlations. Scalability and affordability will be addressed through a cloud-based infrastructure for real-time text mining from stream media. Results will be validated in two high-profile case studies: financial decision support (with analysts, traders, regulators, and economists) and political analysis and monitoring (with politicians, economists, and political journalists). The techniques will be generic with many business applications: business intelligence, customer relations management, community support. The project will also benefit society and ordinary citizens by enabling enhanced access to government data archives, summarisation of online health information, and tracking of hot societal issues.

Referencia: FP7-ICT 287863
Financiación: European Commission
Tipo de proyecto: Público
Estado: Activo
Investigador principal: Paloma Martínez Fernández
Otros investigadores: Paloma Martínez Fernández, Lourdes Moreno, Isabel Segura Bedmar, Julián Moreno Schneider, María González García, María Herrero Zazo, Ricardo Revert Arenaz
Duración: 2013 - 2014
https://cordis.europa.eu/project/id/287863

MA2VICMR: Mejorando el acceso, el análisis y la visibilidad de la información y los contenidos multilingües y multimedia en red para la Comunidad de Madrid

El Consorcio MAVIR es una red de investigación co-financiada por la Comunidad de Madrid y el Fondo Social Europeo bajo los programas de I+D en TIC MA2VICMR (2010-2013) y MAVIR (2006-2009) formada por un equipo multidisciplinar de científicos, técnicos, lingüistas y documentalistas para desarrollar un esfuerzo integrador en las áreas de investigación, formación y transferencia de tecnología.

El núcleo del consorcio está formado por siete grupos de investigación de universidades y centros de la Comunidad de Madrid que, desde un perspectiva pluridisciplinar, se complementan en varias dimensiones: mundo académico vs. mundo profesional, investigación vs. oferta de servicios, generación de recursos vs. aplicaciones:
Laboratorio de Cibermetría (CybermetricsLab-CSIC)
Human Language Technologies & Information Retrieval (HLT&IR-UAM)
Laboratorio de Bases de Datos Avanzadas (LABDA-UC3M)
Grupo de Sistemas Inteligentes (GSI-UEM)
Natural Language Processing and Information Retrieval Group (NLP&IR-UNED)
Tecnologías de Audio, Habla y Lenguaje Natural en Sistemas Inteligentes (THALES-UPM)
Grupo de Algorítmica aplicada a la Visión Artificial y la Biometría (GAVAB-URJC)

Referencia: S2009/TIC-1542
Financiación: Programas de I+D de la Comunidad de Madrid y FSE
Tipo de proyecto: publico
Estado: activo
Investigador principal: Paloma Martínez Fernández
Otros investigadores: Paloma Martínez Fernández, María González García, María Herrero Zazo
Duración: 2010 - 2013
http://www.mavir.net

MULTIMEDICA: Extracción de Información Multilingüe en Sanidad y su aplicación a documentación divulgativa y científica

El proyecto tiene como objetivo la definición y desarrollo de técnicas de extracción y búsqueda de información a partir de textos en el dominio biomédico, en particular, en dos líneas especiales: en primer lugar, el tratamiento de documentación científica en inglés sobre farmacología y en segundo lugar, el procesamiento de textos divulgativos sobre salud en idiomas como español y árabe. Estas técnicas de extracción incluyen el reconocimiento de entidades propias del dominio, aplicación de patrones y aprendizaje automático a la extracción de relaciones semánticas de interés, la integración de recursos léxicos específicos de sanidad (UMLS, SNOMED, etc.) para la mejora de aplicaciones. Por otro lado, la información extraída debe organizarse para su utilización en las herramientas de búsqueda e integración de información. Así, para mostrar la viabilidad de las técnicas propuestas se desarrollarán tres prototipos para búsqueda de información: el primero de ellos una aplicación orientada a farmacéuticos para extraer conocimiento sobre interacciones entre fármacos a partir de publicaciones científicas; el segundo prototipo será una herramienta orientada al público en general para buscar información sobre enfermedades y medicamentos; el tercero aplicará la extracción terminológica al corpus paralelo español-árabe para la enseñanza de la terminología en el dominio biomédico.

Referencia: TIN2010-20644-C03-01
Financiación: Plan Nacional de I+D, Ministerio de Ciencia e Innovación
Tipo de proyecto: publico
Estado: activo
Investigador principal: Paloma Martínez Fernández
Otros investigadores: Paloma Martínez Fernández, Lourdes Moreno, Elena Castro Galán, Ana M. Iglesias Maqueda, Isabel Segura Bedmar, María Teresa Vicente-Díez, José Luis Martínez Fernández, Julián Moreno Schneider, Daniel Sánchez Cisneros, María Herrero Zazo
Duración: 2011 - 2013
http://labda.inf.uc3m.es/multimedica/

BUSCAMEDIA: Hacia una adaptación semántica de medios digitales multired-multiterminal

BUSCAMEDIA es un proyecto que trata la investigación en múltiples líneas paralelas para la consecución de un verdadero buscador multimedia semántico, basado en una ontología multilingüe, multidominio y multimedia revolucionaria definida en el proyecto que permita adaptarse dinámicamente a cualquier red, terminal, contexto y usuario, ya sea profesional o simplemente un usuario que quiera compartir sus fotos, vídeos o blog con su red social. El grupo de Bases de Datos Avanzadas es OPI de la empresa DAEDALUS y nuestro papel en el paquetes de trabajo PT5:Búsqueda semántica con interacción en lenguaje natural y en concreto en las tareas 5.1:Sistemas de búsqueda basados en lenguaje natural y 5.2: Interpretación de consultas multilingües por voz. BUSCAMEDIA cuenta con un consorcio con amplia experiencia y con una contrastada trayectoria en la investigación a realizar, compuesta por grandes empresas, PYMES y OPIs. En BUSCAMEDIA participan empresas líderes en su sector como: ATOS, ACTIVA MULTIMÈDIA, GFI, INDRA, DAEDALUS, FRACTALIA, BMAT, ISID, ISOCO, CCMA y BILBOMÁTICA, con la colaboración de los organismos públicos de investigación: UPM, ROBOTIKER, UPF, UC3M, UNED, UPC, FUNDACIÓN MEDIA BARCELONA UPF y Fundación CTIC.

Referencia: CEN-20091026
Financiación: DAEDALUS S.A dentro del SUBPROGRAMA DE APOYO A CONSORCIOS ESTRATÉGICOS NACIONALES DE INVESTIGACIÓN TÉCNICA (CENIT-E), CEN-20091026
Tipo de proyecto: Público
Estado: Activo
Investigador principal: Paloma Martínez Fernández
Otros investigadores: Paloma Martínez Fernández, Dolores Cuadra Fernández, Lourdes Moreno, Elena Castro Galán, Ana M. Iglesias Maqueda, Francisco Javier Calle Gómez, Harith Al-Jumaily, César De Pablo Sánchez, Isabel Segura Bedmar, María Teresa Vicente-Díez, David del Valle Agudo, José Luis Martínez Fernández, Jesica Rivero Espinosa, Daniel Sánchez Cisneros, María González García, María Herrero Zazo
Duración: 2009 - 2012
http://www.cenitbuscamedia.es

MAVIR: Mejorando el acceso y la visibilidad de la información multilingüe en la red para la Comunidad de Madrid

El Consorcio MAVIR es una red de investigación co-financiada por la Comunidad de Madrid dentro del IV Plan Regional de Investigación Científica e Innovación Tecnológica (IV PRICIT) y formada por un equipo multidisciplinar de científicos, técnicos, lingüistas y documentalistas para desarrollar un esfuerzo integrador en las áreas de investigación, formación y transferencia de tecnología.
Las líneas de investigación que desarrollan los integrantes de MAVIR son tecnologías del lenguaje humano y comunicación científica a traves de la web. La red temática propuesta incluye 25 doctores organizados en 6 grupos de investigación (UNED, UAM, UC3M, UEM, UPM y CINDOC) de la CM que desde una perspectiva pluridisciplinar se complementan en varias dimensiones: académica vs. profesional, investigación vs. servicios, generación de recursos vs. aplicaciones. Además hay otros 6 grupos de investigación nacionales e internacionales asociados al proyecto así como, entre otras, las siguientes entidades colaboradoras: RAE, Instituto Cervantes, Hospital de Fuenlabrada, Agencia EFE y DAEDALUS

Referencia: S-505/TIC/0267
Financiación: IV Plan Regional de Investigación Científica e Innovación Tecnológica (IV PRICIT), Comunidad de Madrid
Tipo de proyecto: publico
Estado: terminado
Investigador principal: Paloma Martínez Fernández
Otros investigadores: Paloma Martínez Fernández, Dolores Cuadra Fernández, Lourdes Moreno, Elena Castro Galán, Ana M. Iglesias Maqueda, Francisco Javier Calle Gómez, Harith Al-Jumaily, César De Pablo Sánchez, Isabel Segura Bedmar, María Teresa Vicente-Díez, David del Valle Agudo, Jesica Rivero Espinosa, Doaa Samy, Mario Crespo, Daniel Sánchez Cisneros, María Herrero Zazo
Duración: 2006 - 2009
http://www.mavir.net