RILARIM, linguistic engineering resources applied to multilingual information retrieval
Funded by CICYT
Project TIN2004-07588-C03-02
December 2004 to December 2007
RILARIM is a subproject within the coordinated project RIMMEL: multilingual and multimedia information retrieval and its evaluation, subsidized by
the Ministry of Education and Science (TIN2004-07588-C03), from December, 13rd 2004 to December, 12nd 2007, in which the Principal Investigator is José Miguel
Goñi Menoyo, from the Department of Mathematics Applied to Information Technologies (ETSI of Telecommunication, UPM).
PROJECT AIMS
The main aims of RILARIM
were:
- Developing multilingual linguistic resources in electronic format to use them for training and evaluating NLP processing systems.
- Providing the applications developed by the other groups with the neccesary linguistic knowledge.
Both research lines are in keeping with the work developed by the Laboratorio de Lingüística Informática at the
Universidad Autónoma de Madrid (LLI-UAM) for more than fifteen years.
RESULTS
- Improvement of the Spanish morphosyntactic tagger, including disambiguation and adaptation to spoken corpora.
- A phonological transcriptor and a syllabification unit for Spanish.
- A spontaneous child language corpus of Spanish, phonological and morphologically annotated.
- Partial semantic annotation of events in the corpus C-ORAL-ROM.
- A parallel Arabic-Spanish-English corpus.
- A parallel Hindi-Spanish corpus (prototype).
- A spoken Japanese corpus (prototype).
- A prototyppe of Arabic morphosyntactic tagger.
- A Spanish news corpus, partially annotated.
LINGUISTIC RESOURCES
- CHIEDE. A spontaneous child language corpus of Spanish.
- Arabic-Spanish corpus.
- Japanese corpus.
- Spannish-Hindi corpus.
- C-ORAL-ROM ELE.
RESEARCHERS
- Principal investigator: Antonio Moreno
Sandoval
- Computer specialist: José
María Guirao Miras
- Professors:
- Francisco Marcos Marín
- Mohamed El-Madkouri
- Researchers:
- Chieko Kimura
- Manuel Alcántara Pla
- Doaa Samy
- Ana González Ledesma
- Prem Prakash
- Marta Garrote Salazar
- Raúl de la Torre
SELECTED PUBLICATIONS
- MORENO, A. y URRESTI, J."El proyecto C-ORAL-ROM y su aplicación
a la enseñanza de español" en Oralia, volumen 8, 2006.
- ALCÁNTARA PLÁ, M. Introducción al análisis de estructuras
lingüísticas en corpus. Aproximación semántica. Madrid: Servicio de
Publicaciones de la Universidad Autónoma de Madrid (ISBN: 987-84-8344-069-8),
2007.
- GUIRAO, J.M., A. MORENO SANDOVAL, GONZÁLEZ LEDESMA, A., DE LA MADRID,
A., ALCÁNTARA, M."Relating linguistic units to socio-contextual
information in a spontaneous speech corpus of Spanish", en Wilson, Archer, y
Rayson (eds.): Corpus linguistics around the world. Amsterdam: Rodopi,
2006. pp. 101-114.
- MORENO, A. y GUIRAO, J.M.: "Morpho-syntactic Tagging of the
Spanish C-ORAL-ROM Corpus: Methodology, Tools and Evaluation", en Kawaguchi,
Zaima y Takagaki (eds.) Spoken Language Corpus and Linguistic
Informatics. Amsterdam: John Benjamins, 2006. pp. 199-218. Publicado
también en Linguistics Informatics VI, Tokio, Tokyo University of
Foreing Studies.
DISSERTATIONS
- Manuel Alcántara Plá"Anotación y recuperación de información
semántica eventiva en corpus". Universidad Autónoma de Madrid. Julio de 2005.
- Doaa Ahmed Samy "Recursos bilingües de ingeniería lingüística
para el procesamiento de español y árabe". Universidad Autónoma de Madrid.
Diciembre de 2005.
- Marta Garrote Salazar "CHIEDE: corpus de habla infantil
espontánea del español". Universidad Autónoma de Madrid. Febrero de 2008.
DEA Research works
- Prem Prakash"Recursos bilingües de ingeniería lingüística:
español-hindí". Universidad Autónoma de Madrid. Febrero de 2005.
- Francisco Javier López Calvo"Evaluación y análisis de errores
de un etiquetador morfológico automático para el español oral". Universidad
Autónoma de Madrid. Septiembre de 2005.
- Leonardo Campillos Llanos"Adaptación del corpus C-ORAL-ROM a la
enseñanza de español para extranjeros". Universidad Autónoma de Madrid.
Septiembre de 2006.
- Ana Valverde Mateos"Diseño e implementación de una ontología de
términos jurídicos". Universidad Autónoma de Madrid. Septiembre de 2007.
- María Cristina Tovar Pérez"El español en la prensa escrita:
estudio empírico a partir de un corpus de noticias de la Agencia EFE".
Universidad Autónoma de Madrid. Septiembre de 2007.
- Chieko Kimura"Corpus de habla espontánea japonesa y su
aplicación a la enseñanza del japonés". Universidad Autónoma de Madrid. Marzo
de 2008.