Recursos de Ingeniería Lingüística Aplicados a la Recuperación de Información Multilingüe
Financiado por CICYT
Proyecto TIN2004-07588-C03-02
Diciembre de 2004 a diciembre de 2007
RILARIM es un subproyecto dentro del proyecto coordinado RIMMEL: Recuperación
de Información Multilingüe y Multimedia y su Evaluación, subvencionado por el
Ministerio de Educación y Ciencia (TIN2004-07588-C03), desde el 13 de diciembre
de 2004 a 12 de diciembre de 2007, cuyo investigador principal es José Miguel
Goñi Menoyo, del Departamento de Matemática Aplicada a las Tecnologías de la
Información (ETSI de Telecomunicación, UPM).
OBJETIVOS DEL PROYECTO
Los objetivos centrales del proyecto RILARIM
han sido:
- Desarrollo de recursos lingüísticos multilingües en
formato electrónico para su empleo en sistemas de procesamiento del lenguaje
natural, tanto para entrenamiento como para evaluación de aplicaciones de
tecnología lingüística.
- Proporcionar el conocimiento lingüístico necesario a
las aplicaciones desarrolladas por los grupos del proyecto coordinado.
Ambas líneas de trabajo están en consonancia con la
investigación desarrollada por el Laboratorio de Lingüística Informática de la
Universidad Autónoma de Madrid (LLI-UAM) desde hace más de 15 años.
RESULTADOS
- Una mejora del analizador morfosintáctico del español, con desambiguación
y adaptación al etiquetado de corpus orales.
- Un transcriptor fonológico y silabificador del español.
- Un corpus de habla espontánea infantil del español, anotado fonológica y
morfosintácticamente.Anotación semántica eventiva parcial del corpus
C-ORAL-ROM.
- Un corpus paralelo árabe-español-inglés.
- Un corpus paralelo hindi-español (prototipo).
- Un corpus de habla espontánea del japonés (prototipo).
- Un prototipo de analizador morfosintáctico del árabe.
- Un corpus de noticias de español, anotado parcialmente.
RECURSOS LINGÜÍSTICOS
- CHIEDE. Corpus de Habla Infantil Espontánea del Español.
- Corpus Árabe-Español.
- Corpus de Japonés.
- Corpus Español-Hindi.
- C-ORAL-ROM ELE.
INVESTIGADORES
- Responsable: Antonio Moreno
Sandoval
- Informático: José
María Guirao Miras
- Otros profesores:
- Francisco Marcos Marín
- Mohamed El-Madkouri
- Otros investigadores:
- Chieko Kimura
- Manuel Alcántara Pla
- Doaa Samy
- Ana González Ledesma
- Prem Prakash
- Marta Garrote Salazar
- Raúl de la Torre
PUBLICACIONES MÁS RELEVANTES
- MORENO, A. y URRESTI, J."El proyecto C-ORAL-ROM y su aplicación
a la enseñanza de español" en Oralia, volumen 8, 2006.
- ALCÁNTARA PLÁ, M. Introducción al análisis de estructuras
lingüísticas en corpus. Aproximación semántica. Madrid: Servicio de
Publicaciones de la Universidad Autónoma de Madrid (ISBN: 987-84-8344-069-8),
2007.
- GUIRAO, J.M., A. MORENO SANDOVAL, GONZÁLEZ LEDESMA, A., DE LA MADRID,
A., ALCÁNTARA, M."Relating linguistic units to socio-contextual
information in a spontaneous speech corpus of Spanish", en Wilson, Archer, y
Rayson (eds.): Corpus linguistics around the world. Amsterdam: Rodopi,
2006. pp. 101-114.
- MORENO, A. y GUIRAO, J.M.: "Morpho-syntactic Tagging of the
Spanish C-ORAL-ROM Corpus: Methodology, Tools and Evaluation", en Kawaguchi,
Zaima y Takagaki (eds.) Spoken Language Corpus and Linguistic
Informatics. Amsterdam: John Benjamins, 2006. pp. 199-218. Publicado
también en Linguistics Informatics VI, Tokio, Tokyo University of
Foreing Studies.
TESIS DOCTORALES
- Manuel Alcántara Plá"Anotación y recuperación de información
semántica eventiva en corpus". Universidad Autónoma de Madrid. Julio de 2005.
- Doaa Ahmed Samy "Recursos bilingües de ingeniería lingüística
para el procesamiento de español y árabe". Universidad Autónoma de Madrid.
Diciembre de 2005.
- Marta Garrote Salazar "CHIEDE: corpus de habla infantil
espontánea del español". Universidad Autónoma de Madrid. Febrero de 2008.
Trabajos de investigación para la
obtención del DEA
- Prem Prakash"Recursos bilingües de ingeniería lingüística:
español-hindí". Universidad Autónoma de Madrid. Febrero de 2005.
- Francisco Javier López Calvo"Evaluación y análisis de errores
de un etiquetador morfológico automático para el español oral". Universidad
Autónoma de Madrid. Septiembre de 2005.
- Leonardo Campillos Llanos"Adaptación del corpus C-ORAL-ROM a la
enseñanza de español para extranjeros". Universidad Autónoma de Madrid.
Septiembre de 2006.
- Ana Valverde Mateos"Diseño e implementación de una ontología de
términos jurídicos". Universidad Autónoma de Madrid. Septiembre de 2007.
- María Cristina Tovar Pérez"El español en la prensa escrita:
estudio empírico a partir de un corpus de noticias de la Agencia EFE".
Universidad Autónoma de Madrid. Septiembre de 2007.
- Chieko Kimura"Corpus de habla espontánea japonesa y su
aplicación a la enseñanza del japonés". Universidad Autónoma de Madrid. Marzo
de 2008.