Laboratorio de Lingüística Informática
El trabajo desarrollado en el LLI en lengua árabe se basa en tres recursos lingüísticos:
El corpus está formado por textos de la ONU en los que se han anotado las name-entities.
El tamaño de los lexicones del analizador se muestra en la siguiente tabla:
Los nombres incluyen sustantivos, adjetivos, pronombres, nombres adverbiales y cuantificadores. Las partículas son preposiciones, conjunciones, interjecciones y adverbiales. Los verbos incluyen tres subcategorías: presente, pasado e imperativo.
Tras la participación en el Cross-Language Evaluation Forum (CLEF), se creó una base de datos acústica de preguntas en varias lenguas, como español, árabe y thai, dirigida principalmente al entrenamiento de reconocedores de voz.