Laboratorio de Lingüística Informática

RILARIM, linguistic engineering resources applied to multilingual information retrieval

Funded by CICYT
Project TIN2004-07588-C03-02
December 2004 to December 2007

RILARIM is a subproject within the coordinated project RIMMEL: multilingual and multimedia information retrieval and its evaluation, subsidized by the Ministry of Education and Science (TIN2004-07588-C03), from December, 13rd 2004 to December, 12nd 2007, in which the Principal Investigator is José Miguel Goñi Menoyo, from the Department of Mathematics Applied to Information Technologies (ETSI of Telecommunication, UPM).

PROJECT AIMS

The main aims of RILARIM were:

Developing multilingual linguistic resources in electronic format to use them for training and evaluating NLP processing systems.
Providing the applications developed by the other groups with the neccesary linguistic knowledge.

Both research lines are in keeping with the work developed by the Laboratorio de Lingüística Informática at the Universidad Autónoma de Madrid (LLI-UAM) for more than fifteen years.

RESULTS

Improvement of the Spanish morphosyntactic tagger, including disambiguation and adaptation to spoken corpora.
A phonological transcriptor and a syllabification unit for Spanish.
A spontaneous child language corpus of Spanish, phonological and morphologically annotated.
Partial semantic annotation of events in the corpus C-ORAL-ROM.
A parallel Arabic-Spanish-English corpus.
A parallel Hindi-Spanish corpus (prototype).
A spoken Japanese corpus (prototype).
A prototyppe of Arabic morphosyntactic tagger.
A Spanish news corpus, partially annotated.

LINGUISTIC RESOURCES

CHIEDE. A spontaneous child language corpus of Spanish.
Arabic-Spanish corpus.
Japanese corpus.
Spannish-Hindi corpus.
C-ORAL-ROM ELE.

RESEARCHERS

Principal investigator: Antonio Moreno Sandoval
Computer specialist: José María Guirao Miras
Professors:
- Francisco Marcos Marín
- Mohamed El-Madkouri
Researchers:
- Chieko Kimura
- Manuel Alcántara Pla
- Doaa Samy
- Ana González Ledesma
- Prem Prakash
- Marta Garrote Salazar
- Raúl de la Torre

SELECTED PUBLICATIONS

MORENO, A. y URRESTI, J."El proyecto C-ORAL-ROM y su aplicación a la enseñanza de español" en Oralia, volumen 8, 2006.
ALCÁNTARA PLÁ, M. Introducción al análisis de estructuras lingüísticas en corpus. Aproximación semántica. Madrid: Servicio de Publicaciones de la Universidad Autónoma de Madrid (ISBN: 987-84-8344-069-8), 2007.
GUIRAO, J.M., A. MORENO SANDOVAL, GONZÁLEZ LEDESMA, A., DE LA MADRID, A., ALCÁNTARA, M."Relating linguistic units to socio-contextual information in a spontaneous speech corpus of Spanish", en Wilson, Archer, y Rayson (eds.): Corpus linguistics around the world. Amsterdam: Rodopi, 2006. pp. 101-114.
MORENO, A. y GUIRAO, J.M.: "Morpho-syntactic Tagging of the Spanish C-ORAL-ROM Corpus: Methodology, Tools and Evaluation", en Kawaguchi, Zaima y Takagaki (eds.) Spoken Language Corpus and Linguistic Informatics. Amsterdam: John Benjamins, 2006. pp. 199-218. Publicado también en Linguistics Informatics VI, Tokio, Tokyo University of Foreing Studies.

DISSERTATIONS

Manuel Alcántara Plá"Anotación y recuperación de información semántica eventiva en corpus". Universidad Autónoma de Madrid. Julio de 2005.
Doaa Ahmed Samy "Recursos bilingües de ingeniería lingüística para el procesamiento de español y árabe". Universidad Autónoma de Madrid. Diciembre de 2005.
Marta Garrote Salazar "CHIEDE: corpus de habla infantil espontánea del español". Universidad Autónoma de Madrid. Febrero de 2008.

DEA Research works

Prem Prakash"Recursos bilingües de ingeniería lingüística: español-hindí". Universidad Autónoma de Madrid. Febrero de 2005.
Francisco Javier López Calvo"Evaluación y análisis de errores de un etiquetador morfológico automático para el español oral". Universidad Autónoma de Madrid. Septiembre de 2005.
Leonardo Campillos Llanos"Adaptación del corpus C-ORAL-ROM a la enseñanza de español para extranjeros". Universidad Autónoma de Madrid. Septiembre de 2006.
Ana Valverde Mateos"Diseño e implementación de una ontología de términos jurídicos". Universidad Autónoma de Madrid. Septiembre de 2007.
María Cristina Tovar Pérez"El español en la prensa escrita: estudio empírico a partir de un corpus de noticias de la Agencia EFE". Universidad Autónoma de Madrid. Septiembre de 2007.
Chieko Kimura"Corpus de habla espontánea japonesa y su aplicación a la enseñanza del japonés". Universidad Autónoma de Madrid. Marzo de 2008.