Main

Laboratorio de Lingüística Informática

Corpus Oral de Español como Lengua Extranjera

Corpus Oral de Español como Lengua Extranjera

ACCESO AL CORPUS EN LÍNEA (Usar firefox preferiblemente)

El Corpus Oral de Español como Lengua Extranjera reúne 40 entrevistas con estudiantes de español de más de 9 lenguas maternas diferentes.

Los aprendices tenían casi todos entre 18 y 26 años, y estaban matriculados en cursos de español de niveles A2 y B1 (Marco Común Europeo de Referencia).

El corpus consta de 55.567 palabras* (contando solo las intervenciones de los alumnos) y un total de 13 horas y 36 minutos de grabación.

Asimismo, se recogieron 4 grabaciones con hablantes nativos (grupo de control), que suman un total de 9389 palabras* y 1 hora y 22 minutos de grabación (véase tabla inferior).

Cada grabación está sincronizada con la transcripción ortográfica (a nivel de enunciado). Los archivos incluyen la transcripción y los metadatos con información sociolingüística (p. ej. origen del hablante o nivel educativo) y datos acerca de sus estudios de español (p. ej. nivel, tiempo, lugar y contexto de aprendizaje).

Las transcripciones también incluyen etiquetas de errores que se han empleado para el análisis de errores de la producción oral.

Además, las transcripciones han sido anotadas morfológicamente mediante el analizador GRAMPAL (Moreno y Guirao, 2006), con el fin de realizar el análisis de la producción y de uso de categorías.

*Esta cifra corresponde al recuento en bruto considerando como palabra a cada elemento entre dos espacios en blanco; así, una unidad léxica como es decir contaría como 2 palabras.

  Archivo Sexo L1 Nivel Duración
(mm : ss)
Duración
grupo L1
Nº de
turnos
Lenguas
romances
PORMA2 H Portugués A2 25:10 1:26:52 524
PORWA2_1 M Portugués A2 20:09 328
PORWA2_2 M Portugués (brasileño) A2 19:51 462
PORWB1 M Portugués (brasileño) B1 21:42 496
ITAMA2 H Italiano A2 20:45 1:13:25 540
ITAWA2 M Italiano A2 13:09 304
ITAMB1 H Italiano B1 23:16 436
ITAWB1 M Italiano B1 16:15 280
FREMA2 H Francés A2 24:08 1:23:17 584
FREWA2 M Francés A2 20:31 250
FREMB1 H Francés B1 21:56 566
FREWB1 M Francés B1 16:46 522

Lenguas
germánicas

ENGWA2 M Inglés A2 15:04 1:20:39 348
ENGMB1 H Inglés B1 18:44 436
ENGWB1_1 M Inglés B1 18:02 347
ENGWB1_2 M Inglés B1 28:49 733
DUTMA2 H Neerlandés A2 18:19 1:16:46 454
DUTWA2_1 M Neerlandés A2 17:33 180
DUTWA2_2 M Neerlandés A2 23:05 582
DUTWB1 M Neerlandés B1 17:49 370
GERMA2 H Alemán A2 18:23 1:13:24 306
GERWA2 M Alemán A2 19:45 526
GERWB1_1 M Alemán B1 15:35 284
GERWB1_2 M Alemán B1 19:41 336

Lenguas
eslavas

POLMA2_1 H Polaco A2 22:20 1:32:25 510
POLMA2_2 H Polaco A2 30:28 656
POLMB1 H Polaco B1 26:46 443
POLWB1 M Polaco B1 12:51 268

Lenguas
sino-tibetanas

CHIWA2_1 M Chino A2 18:48 1:17:27 478
CHIWA2_2 M Chino A2 18:45 450
CHIMB1 H Chino B1 18:56 425
CHIWB1 M Chino B1 20:58 449

Lenguas
de Japón

JAPWA2 M Japonés A2 28:52 1:32:41 552
JAPWB1_1 M Japonés B1 16:28 466
JAPWB1_2 M Japonés B1 20:59 498
JAPWB1_3 M Japonés B1  26:22 679

Otras
lenguas

FINWA2 M Finés A2 20:27 1:19:05 544
HUNWA2 M Húngaro A2 21:28 164
KORWB1 M Coreano B1 21:14 462
TURWB1 M Turco B1 15:56 288

Español
(grupo de control)

SPAM_1 H Español - 18:57 1:22:29 401
SPAM_2 H Español - 26:47 626
SPAW_2 M Español - 16:49 307
SPAW_2 M Español - 19:56 333

PUBLICACIONES MÁS RELEVANTES