Laboratorio de Lingüística Informática

Recursos de Ingeniería Lingüística Aplicados a la Recuperación de Información Multilingüe

Financiado por CICYT
Proyecto TIN2004-07588-C03-02
Diciembre de 2004 a diciembre de 2007

RILARIM es un subproyecto dentro del proyecto coordinado RIMMEL: Recuperación de Información Multilingüe y Multimedia y su Evaluación, subvencionado por el Ministerio de Educación y Ciencia (TIN2004-07588-C03), desde el 13 de diciembre de 2004 a 12 de diciembre de 2007, cuyo investigador principal es José Miguel Goñi Menoyo, del Departamento de Matemática Aplicada a las Tecnologías de la Información (ETSI de Telecomunicación, UPM).

OBJETIVOS DEL PROYECTO

Los objetivos centrales del proyecto RILARIM han sido:

Desarrollo de recursos lingüísticos multilingües en formato electrónico para su empleo en sistemas de procesamiento del lenguaje natural, tanto para entrenamiento como para evaluación de aplicaciones de tecnología lingüística.
Proporcionar el conocimiento lingüístico necesario a las aplicaciones desarrolladas por los grupos del proyecto coordinado.

Ambas líneas de trabajo están en consonancia con la investigación desarrollada por el Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (LLI-UAM) desde hace más de 15 años.

RESULTADOS

Una mejora del analizador morfosintáctico del español, con desambiguación y adaptación al etiquetado de corpus orales.
Un transcriptor fonológico y silabificador del español.
Un corpus de habla espontánea infantil del español, anotado fonológica y morfosintácticamente.Anotación semántica eventiva parcial del corpus C-ORAL-ROM.
Un corpus paralelo árabe-español-inglés.
Un corpus paralelo hindi-español (prototipo).
Un corpus de habla espontánea del japonés (prototipo).
Un prototipo de analizador morfosintáctico del árabe.
Un corpus de noticias de español, anotado parcialmente.

RECURSOS LINGÜÍSTICOS

CHIEDE. Corpus de Habla Infantil Espontánea del Español.
Corpus Árabe-Español.
Corpus de Japonés.
Corpus Español-Hindi.
C-ORAL-ROM ELE.

INVESTIGADORES

Responsable: Antonio Moreno Sandoval
Informático: José María Guirao Miras
Otros profesores:
- Francisco Marcos Marín
- Mohamed El-Madkouri
Otros investigadores:
- Chieko Kimura
- Manuel Alcántara Pla
- Doaa Samy
- Ana González Ledesma
- Prem Prakash
- Marta Garrote Salazar
- Raúl de la Torre

PUBLICACIONES MÁS RELEVANTES

MORENO, A. y URRESTI, J."El proyecto C-ORAL-ROM y su aplicación a la enseñanza de español" en Oralia, volumen 8, 2006.
ALCÁNTARA PLÁ, M. Introducción al análisis de estructuras lingüísticas en corpus. Aproximación semántica. Madrid: Servicio de Publicaciones de la Universidad Autónoma de Madrid (ISBN: 987-84-8344-069-8), 2007.
GUIRAO, J.M., A. MORENO SANDOVAL, GONZÁLEZ LEDESMA, A., DE LA MADRID, A., ALCÁNTARA, M."Relating linguistic units to socio-contextual information in a spontaneous speech corpus of Spanish", en Wilson, Archer, y Rayson (eds.): Corpus linguistics around the world. Amsterdam: Rodopi, 2006. pp. 101-114.
MORENO, A. y GUIRAO, J.M.: "Morpho-syntactic Tagging of the Spanish C-ORAL-ROM Corpus: Methodology, Tools and Evaluation", en Kawaguchi, Zaima y Takagaki (eds.) Spoken Language Corpus and Linguistic Informatics. Amsterdam: John Benjamins, 2006. pp. 199-218. Publicado también en Linguistics Informatics VI, Tokio, Tokyo University of Foreing Studies.

TESIS DOCTORALES

Manuel Alcántara Plá"Anotación y recuperación de información semántica eventiva en corpus". Universidad Autónoma de Madrid. Julio de 2005.
Doaa Ahmed Samy "Recursos bilingües de ingeniería lingüística para el procesamiento de español y árabe". Universidad Autónoma de Madrid. Diciembre de 2005.
Marta Garrote Salazar "CHIEDE: corpus de habla infantil espontánea del español". Universidad Autónoma de Madrid. Febrero de 2008.

Trabajos de investigación para la obtención del DEA

Prem Prakash"Recursos bilingües de ingeniería lingüística: español-hindí". Universidad Autónoma de Madrid. Febrero de 2005.
Francisco Javier López Calvo"Evaluación y análisis de errores de un etiquetador morfológico automático para el español oral". Universidad Autónoma de Madrid. Septiembre de 2005.
Leonardo Campillos Llanos"Adaptación del corpus C-ORAL-ROM a la enseñanza de español para extranjeros". Universidad Autónoma de Madrid. Septiembre de 2006.
Ana Valverde Mateos"Diseño e implementación de una ontología de términos jurídicos". Universidad Autónoma de Madrid. Septiembre de 2007.
María Cristina Tovar Pérez"El español en la prensa escrita: estudio empírico a partir de un corpus de noticias de la Agencia EFE". Universidad Autónoma de Madrid. Septiembre de 2007.
Chieko Kimura"Corpus de habla espontánea japonesa y su aplicación a la enseñanza del japonés". Universidad Autónoma de Madrid. Marzo de 2008.