Main

Laboratorio de Lingüística Informática

C-ORAL-ROM

C-ORAL-ROM es un corpus multilingüe de lengua espontánea en las cuatro lenguas romance principales: francés, italiano, portugués y español. El proyecto fue financiado por la UE bajo el V Framework Programme (IST-2000-26228) y el consorcio está formado por nueve socios coordinados por la Universidad de Florencia. La característica más significativa de C-ORAL-ROM es su espontaneidad: los textos se han grabado en su contexto real y sin guión. Cada subcorpus consta de 300.000 palabras con la misma distribución textual para asegurar la comparabilidad y la representatividad. El recurso se presenta en varios formatos: una transcripción ortográfica, una versión etiquetada en XML y el alineamiento de sonido y texto. Además, se proporcionan una anotación lingüística parcial de los textos y programas para manejar los recursos y los estudios cuantitativos.

CONSULTA ONLINE

CÓMO ADQUIRIR EL PRODUCTO

El corpus está disponible en dos versiones:

  1. Formato libro+DVD publicado por John Benjamins


  2. Para I+D a través de ELDA.

DATOS ESENCIALES

MUESTRA DEL CORPUS

C-ORAL-ROM ELE

PUBLICACIONES MÁS RELEVANTES


REFERENCIA PRINCIPAL

OTRAS PUBLICACIONES