Laboratorio de Lingüística Informática
(MLAP-93/20)
SUMARIO DEL PROYECTO
Este proyecto propone la creación de un conjunto de herramientas y recursos para la Lingüística de Corpus Multilingüe.
HERRAMIENTAS
Un modelo de base de datos para el almacenamiento de corpus multilingües paralelos anotados y alineados basado en el modelo desarrollado bajo el proyecto ET10-63.
Un paquete gratuito de alineamiento estadístico a nivel de oración.
Un software de recuperación textual y búsqueda en corpus.
Un PoS tagger para el español.
RECURSOS
Un subcorpus paralelo trilingüe de un millón de palabras del corpus ITU, anotado morfosintácticamente y alineado a nivel de oración (POS tagging corregido manualmente).
Recursos léxicos mono- y multilingües (lexicón, bancos terminológicos).
PARTICIPANTES
Socios
Subcontratos
IBM-Francia
ETSI Telecomunicación, UPM, España