Laboratorio de Lingüística Informática

Corpus Resources And Terminology ExtRaction

(MLAP-93/20)

SUMARIO DEL PROYECTO

Este proyecto propone la creación de un conjunto de herramientas y recursos para la Lingüística de Corpus Multilingüe.

HERRAMIENTAS

Un modelo de base de datos para el almacenamiento de corpus multilingües paralelos anotados y alineados basado en el modelo desarrollado bajo el proyecto ET10-63.

Un paquete gratuito de alineamiento estadístico a nivel de oración.

Un software de recuperación textual y búsqueda en corpus.

Un PoS tagger para el español.

RECURSOS

Un subcorpus paralelo trilingüe de un millón de palabras del corpus ITU, anotado morfosintácticamente y alineado a nivel de oración (POS tagging corregido manualmente).

Recursos léxicos mono- y multilingües (lexicón, bancos terminológicos).

PARTICIPANTES

Socios

Lancaster University

Computers, Communications and Visions

Universidad Autónoma de Madrid

Subcontratos

IBM-Francia
ETSI Telecomunicación, UPM, España