Main

Laboratorio de Lingüística Informática

Tabla comparativa de los corpus del LLI-UAM


CORLEC
C-ORAL-ROM
CHIEDE
CORPUS ÁRABE-ESPAÑOL
CORPUS MAVIR
C-ORAL-CHINA
C-ORAL-JAPÓN



Fecha de compilación
1990-92
2001-04
2008
2005
2006-08
2010-11
2010-11

Tipo de corpus
Oral
Oral
Oral
Escrito
Oral
Oral
Oral

Lenguas
Español
Español, portugués, itaiano, francés
Español
Español, árabe, inglés
Español, inglés
Chino
Japonés

Número de palabras
1.100.000
312.000 en cada lengua
60.000
4.000 en cada lengua
103.000
140.000 caracteres
235.000 caracteres

Tipo de grabación
Analógica
Digital
Digital
Digital
Digital
Digital
Niveles de anotación
Fenómenos propios de la lengua oral
Prosódica y morfológica. Parcialmente semántica y pragmática
Prosódica, morfológica y fonológica
Estructural (parrafos, oraciones y tokens), categorial y parcialmente pragmática
Prosódica
Prosódica
Prosódica
Alineamiento texto-sonido
No
Autorización por escrito de participantes
No
No necesaria
Validación
No
Sí, interna y externa
Sí, interna
Sí, interna
Sí, interna
Sí, interna
Motor de búsqueda
No
No
No
Guías de uso
No
No
Transcripción fonológica
No
No
No
No
Pinyin
No



Main Main