Laboratorio de Lingüística Informática

Búsqueda de Respuestas Avanzada Multimodal y Multilingüe: Recursos Lingüísticos

Financiado por CICYT
Proyecto TIN2007-67407-C03-02
Octubre de 2007 a septiembre de 2010

El proyecto que se plantea tiene como objetivo conseguir una plataforma de búsqueda de respuestas multimodal (por texto y por voz) y multilingüe que integra componentes desarrollados por los distintos grupos participantes en el proyecto. Como hipótesis de partida se tiene que es posible mejorar la búsqueda de respuestas de los sistemas actuales trabajando en los módulos que componen la arquitectura de un sistema de este tipo, principalmente en los módulos de RI multilingüe, la mejora en la construcción de índices y en los tiempos de acceso a la información, en la extracción y ordenación de respuestas así como de análisis de preguntas. Al menos se tratará información en web, recursos enciclopédicos y noticias. Para ello es fundamental el trabajo de los lingüistas para generar y/o ajustar recursos adecuados así como el esfuerzo en la integración de recursos tanto léxicos como de software.

Además, se busca aplicar las técnicas y métodos con los que se trabaja en los grupos de investigación a otras tareas como extracción de ontologías y de información, tratamiento de Entidades con Nombre e interacción por voz , explorando formas de adaptar estas tareas a nuevos dominios y lenguas.

Objetivos del proyecto

Las tareas centrales del proyecto BRAVO dentro del LLI-UAM son:

Construcción de nuevos recursos multilingües para árabe, español y japonés.
Preparación y anotación de un corpus oral de preguntas en castellano.
Definición de un modelo para clasificación de preguntas.
Incorporar recursos lingüísticos que permitan un mejor tratamiento de la lengua oral espontánea con el fin de ajustar un reconocedor de voz para formulación de preguntas.

Resultados

Investigadores

Responsable: Antonio Moreno Sandoval
Informático: José María Guirao Miras
Otros profesores:
- Théophile Ambadiang
- Mohamed El-Madkouri
- Chieko Kimura
- Paula Gonzalo Gómez
Otros investigadores:
- Manuel Alcántara
- Doaa Samy
- Ana González Ledesma
- Marta Garrote Salazar

Publicaciones

2011

MORENO-SCHNEIDER, J., GARROTE-SALAZAR, M., MARTÍNEZ, P. y MARTÍNEZ FERNANDEZ, J.L. "Some experiments in evaluating ASR systems applied to multimedia retrieval", en Detyniecki, M., García-Serrano, A.and Nürnberger, A. (Eds.), Adaptive Multimedia Retrieval. Understanding Media and Adapting to the User. 7th International Workshop, AMR 2009, Madrid, Spain, September 24-25, 2009, Revised Selected Papers, Springer-Verlag, Lecture Notes in Computer Science, 6535, ISBN: 978-3-642-184, Páginas: 12-23.

2010

CAMPILLOS LLANOS, L., GOZALO GÓMEZ, P., GUIRAO MIRAS, J. Mª, MORENO SANDOVAL, A. Español oral en contexto. Vol. 1. Textos de español oral. Material de ELE basado en corpus. Comprensión auditiva. Madrid: Servicio de publicaciones de la Universidad Autónoma de Madrid. 2010. ISBN 978-84-8344-181-7.
GARROTE, M., MORENO SANDOVAL, A."Chiede. A spontaneous child language corpus of spanish". En Moneglia y Panunzi (eds.): Bootstrapping Information from Corpora in a Cross-Linguistic Perspective. Firenze University Press, pp. 121-140. ISBN 978-88-8453-518-4.
GARROTE, M. Los corpus de habla infantil. Metodología y análisis. Servicio de publicaciones de la Universidad Autónoma de Madrid. ISBN 978-84-8344-187-9.
VICENTE-DÍEZ, M., DE PABLO, C., MARTÍNEZ, P., MORENO-SCHNEIDER, J. y GARROTE-SALAZAR, M. "Are Passages Enough? The MIRACLE Team Participation in QA@CLEF2009", en Peters, C., Di Nunzio, G.M., Kurimo, M., Mandl, Th., Mostefa, D., Penas, A. y Roda, G. (Eds.), Multilingual Information Access Evaluation I - Text Retrieval Experiments. Springer-Velarg, ISBN: 978-3-642-157, Volumen: 6241, Páginas: 281-288.

2009

ALCÁNTARA PLA , M. y DECLERCK, T. Proceedings of the EACL 2009 Workshop on Semantic Representation of Spoken Language; Atenas: ACL, 2009.
CAMPILLOS, L. y ALCÁNTARA, M. "Speech Disfluencies in Formal Context. Analysis Based on Spontaneous Speech Corpora", en Corpus Linguistics Conference, Liverpool. 2009
GONZÁLEZ LEDESMA, A. Los marcadores del discurso en el corpus C-ORAL-ROM: anotación pragmática, estrategias computacinales de etiquetado y aplicaciones a otros campos. 2009. Universidad Autónoma de Madrid.
MORENO SANDOVAL, A. y GUIRAO MIRAS, J.M. "Frecuencia y distintividad en el uso lingüístico: casos tomados de la lematización verbal de corpus de distintos registros", en Actas del I Congreso Internacional de Lingüística de Corpus (CILC-09), Universidad de Murcia, 2009.

2008

ALCÁNTARA PLÁ, M."El análisis lingüístico en la transcripción automática de la lengua hablada, el Proyecto COAST"
en Actas del VIII Congreso de Lingüística General: El valor de la diversidad [meta]lingüística, Madrid. AÑO: 2008
CAMPILLOS, L.. "Las expresiones causales en el corpus de habla espontánea C-ORAL-ROM". En Actas del 8ª Congreso de Lingüística General, Universidad Autónoma de Madrid, 25-28 de junio. AÑO: 2008
DE PABLO SÁNCHEZ, C., MARTÍNEZ FERNÁNDEZ, J.L., GONZÁLEZ LEDESMA, A., SAMY, D., MARTÍNEZ, P., MORENO, A. y ALJUMAILY, H. "Combining Wikipedia and newswire text for Question Answering in Spanish" Carol Peters, Valentin Jijkoun, Thomas Mandl, Henning Müller, Douglas W. Oard, Anselmo Peñas, Vivien Petras, Diana Santos (Eds.): Advances in Multilingual and Multimodal Information Retrieval, 8th Workshop of the Cross-Language Evaluation Forum, CLEF 2007, Budapest, Hungary, September 19-21, 2007, Revised Selected Papers. Lecture Notes in Computer Science 5152 Springer 2008, ISBN 978-3-540-85759-4 Páginas: 352-355.
GARROTE, M., GUIRAO, J.M. y MORENO, A.. "Extracción de unidades distintivas en adultos y niños de un corpus de lengua oral espontánea". En Actas del 8ª Congreso de Lingüística General, Universidad Autónoma de Madrid, 25-28 de junio. AÑO: 2008
GONZÁLEZ LEDESMA, A. y SAMY, D.. "Marcadores discursivos en árabe y español: un estudio computacional basado en corpus paralelos con anotación pragmática". En Actas del 8ª Congreso de Lingüística General, Universidad Autónoma de Madrid, 25-28 de junio. AÑO: 2008
GOZALO, P.. "Reflexiones sobre el futuro. Los datos del español no nativo". En Actas del 8ª Congreso de Lingüística General, Universidad Autónoma de Madrid, 25-28 de junio. AÑO: 2008
MORENO SANDOVAL, A., T. TOLEDANO, D., DE LA TORRE, R., GARROTE, M. Y GUIRAO, J.M.. "Developing a Phonemic and Syllabic Frequency Inventory for Spontaneous Spoken Castilian Spanish and their Comparison to Text-Based Inventories". En Proceedings of LREC 2008,Marrakech, 28-30 de mayo. AÑO: 2008
SAMY, D. y GONZÁLEZ LEDESMA, A.. "Pragmatic Annotation of Discourse Markers in a Multilingual Parallel Corpus (Arabic- Spanish-English)". En Proceedings of LREC 2008,Marrakech, 28-30 de mayo. AÑO: 2008
SEGURA BEDMAR, I., MARTÍNEZ, P. y SAMY, D. "Detección de fármacos genéricos en textos biomédicos" Marzo, 2008, Revista Española para el procesamiento del lenguaje natural (SEPLN), ISSN: 1135-5948, Páginas: 27-34.
SEGURA BEDMAR, I., MARTÍNEZ, P. y SAMY, D. "A preliminary approach to recognize generic drug names by combining UMLS resources and USAN naming conventions" Ohio, USA, June, 2008, Proceedings of the Workshop on Current Trends in Biomedical Natural Language Processing (BioNLP), Association for Computational Linguistics, ISBN: 978-1-932432-, Páginas: 100-101.
VICENTE DÍEZ, M., SAMY, D. y MARTÍNEZ, P. "An empirical approach to a preliminary successful identification and resolution of temporal expressions in Spanish news corpora" Proceedings of the Sixth International Language Resources and Evaluation Conference (LREC'08), Marrakech, Morocco, May, 2008, European Language Resources Association (ELRA), ISBN: 2-9517408-4-0, Páginas: 2153-2158.
SEGURA BEDMAR, I., SAMY, D., MARTÍNEZ FERNÁNDEZ, J.L. y MARTÍNEZ, P. "Detecting Semantic Relations between Nominals using Support Vector Machines and Linguistic-Based Rules", Portugal, November, 2007, On the Move to Meaningful Internet Systems 2007: OTM 2007 Workshops, Springer Berlin / Heidelberg, ISBN: 978-3-540-768, ISSN: 0302-9743, Páginas: 1267-1273.