Main

Laboratorio de Lingüística Informática



Investigación



Mi línea de investigación básica es el desarrollo de gramáticas y diccionarios computacionales para el español. Como "escritor de gramáticas" he participado en distintos proyectos: Eurotra, LanguageAccess y PROTEUS. Desde diciembre de 1997 dirijo un proyecto de corpus anotado sintácticamente del español  (UAM Spanish Treebank), con financiación parcial de la Universidad de Nueva York.

En la parte teórica, estoy trabajando desde 1988 en formalismos de unificación. El trabajo más importante en este campo es mi tesis doctoral: Un modelo computacional basado en la unificación para el análisis y generación de la morfología del español. Como resultado de este trabajo se empezó una colaboración entre el grupo ARIES de la E.T.S.I. de Telecomunicación de la Univ. Politécnica de Madrid que ha dado como fruto distintos recursos léxicos sobre el español. Del 2000 al 2002 realizamos un proyecto coordinado financiado por la CICYT: ACORDEON (Aplicaciones Cooperativas de Recuperación de Información). A finales del 2001 apareció en la librerías mi libro: Gramáticas de unificación y rasgos, publicado por Visor/Antonio Machado Libros.

Otras líneas de investigación teórica son la morfología (especialmente cuestiones de morfosintaxis del español, con su tratamiento computacional) y metodología en Lingüística (modelos simbólicos y estadísticos, tratamiento de excepciones, evaluación de teorías).

A raíz de una Acción Integrada (1994-1995) con la Univ. de Augsburgo (Alemania) sobre "La reutilización de diccionario de americanismos para la elaboración de una base de datos léxica del español de América" me he interesado por la codificación de textos (especialmente lexicográficos) en formato digital. He trabajado en la elaboración de criterios para evaluar diccionarios impresos y también he impartido cursos sobre terminología y lexicografía computacionales.

Otras de las líneas de investigación es la recuperacion de información: desde enero de 2000 hasta diciembre de 2002 he dirigido el proyecto ACORDEON

La creación de recursos lingüísticos sigue siendo otra de las líneas de investigación principales. Recientemente he sido el investigador responsable del equipo español del proyecto europeo C-ORAL-ROM (página local del proyecto). Este proyecto oficialmente ha acabado en mayo de 2004, pero seguimos trabajando en la mejora de los recursos.

El corpus está disponible en dos versiones:


En mayo de 2005 salió al mercado la versión en formato libro + DVD publicada por John Benjamins.

Está disponible para investigación y desarrollo comercial a través de la European Linguistic Distribution Agency (ELDA).

En enero de 2005 empezamos un nuevo proyecto sobre recuperación de información multilingue: RILARIM (Recursos de Ingenieria Linguistica Aplicados a la Recupercion de Informacion Multilingue), subproyecto dentro del proyecto coordinado RIMMEL (Subvencionado por el Ministerio de Educación y Ciencia, TIN2004-07588-C03-02. 13 de diciembre de 2004 a 12 de diciembre de 2007. Investigador principal: Antonio Moreno Sandoval). 

En enero de 2006, junto con otros 5 grupos de la Comunidad de Madrid, comenzamos el programa MAVIR (Mejorando el acceso y la visibilidad de la información multilingüe en red. Soy el responsable del grupo PLN@UAM, en el que también participa como miembro destacado Enrique Alfonseca.

Desde finales de 2007 estamos implicados en un nuevo proyecto con nuestros socios de la UC3M y de la UPM: BRAVO (Búsqueda de Respuestas Avanzada Multimodal y Multilingüe, subvencionado por el MEC). Nosotros nos encargamos de la elaboración de recursos lingüísticos en tres lenguas, español, árabe y japonés.




Main Main