Laboratorio de Lingüística Informática
CONSULTAR CORPUS ONLINE (Usar firefox preferiblemente)
El corpus CORAF (Corpus ORal de Aprendientes de Francés) es un corpus de aprendientes hispanófonos de francés como lengua extranjera (FLE) en contexto educativo o guiado, es decir, cuyos participantes se encuentran inmersos en el estudio de la lengua en diferentes sistemas educativos.
Nuestro corpus nació con la intención de servir de base para la realización de una tesis doctoral que pretendía arrojar luz sobre los diferentes errores presentes en la expresión oral habitual de los alumnos que pueblan nuestras aulas. Sin embargo, sus fines, claramente pedagógicos, van más allá, y con él se pretende:
De forma más precisa, podemos comentar que el corpus CORAF es un corpus oral monolingüe de aprendientes de francés como lengua extranjera y de lengua materna española, que recoge 30 muestras de habla espontánea de 34 participantes (30 aprendientes y 4 entrevistadores). CORAF contiene un total de 61.092 palabras, de las que 33.915 corresponden a la producción de aprendientes, y una duración de más de siete horas de grabación.
Además, encontramos participantes para cada nivel expuesto en el Marco Común Europeo de Referencia para las Lenguas (en concreto, A1, A2, B1, B2, C1 y C2), inscritos en tres escuelas oficiales de idiomas de Castilla-La Mancha y en la Facultad de Letras de la Universidad de Castilla-La Mancha (UCLM), aunque no todos originarios de la región.
De forma gráfica, podemos resumir la estructura y la composición de nuestro corpus a partir de la siguiente tabla:
NIVEL MCER | DURACIÓN TOTAL | DURACIÓN MEDIA | Nº ENTREVISTAS Y SEXO (Hombre o Mujer) | PALABRAS TOTALES | PALABRAS APRENDIENTE |
A1 | 1:00:24 | 12' 05" | 5 (2H/3M) | 6989 | 2506 |
A2 | 1:05:22 | 13' 04" | 5 (3H/2M) | 8503 | 4110 |
B1 | 1:14:19 | 14' 52" | 5 (1H/4M) | 9699 | 4908 |
B2 | 1:19:46 | 15' 57" | 5 (2H/3M) | 11279 | 6858 |
C1 | 1:20:28 | 16' 06" | 5 (2H/3M) | 12365 | 7867 |
C2 | 1:22:04 | 16' 25" | 5 (2H/3M) | 12257 | 7666 |
TOTAL | 7:22:23 | 14' 45" | 30 (12H/18M) | 61092 | 33915 |
CORAF nos ofrece así 30 grabaciones sincronizadas con su correspondiente transcripción ortográfica (a nivel de enunciado). Los archivos incluyen también la transcripción y los metadatos de cada entrevista con información sociolingüística (p. ej. origen del hablante, sexo, edad, lugar de origen o nivel educativo) y datos acerca de sus estudios de francés (p. ej. nivel, tiempo, lugar, estancias en país francófono y contexto de aprendizaje).
Las transcripciones se han realizado siguiendo las pautas establecidas por el Laboratorio de Lingüística Informática de la UAM para corpus de aprendientes, y dado su fin, han sido ampliadas también con etiquetas de errores para el análisis de errores de la producción oral.
Asimismo, CORAF incluye otra novedad: la inserción de etiquetas que muestran palabras, expresiones y fenómenos propios de la lengua oral (marcados con la etiqueta @oral y {%oral}, que nos ayudan también a entender el nivel de expresión de los alumnos. Un mayor número de muestras de oralidades suele estar relacionado con una mayor maestría en la interacción oral.El corpus CORAF cuenta, finalmente, con las siguientes especificidades:
FICHERO | NIVEL MCER | DURACIÓN | TOTAL PALABRAS | PALABRAS APRENDIZ | PALABRAS ENTREVISTADOR | TURNOS | Nº FENÓMENOS ORALES |
A1M01 | A1 | 0:10:44 | 1371 | 445 | 926 | 189 | 0 |
A1M02 | A1 | 0:12:03 | 1639 | 288 | 1351 | 212 | 1 |
A1W01 | A1 | 0:13:27 | 1196 | 429 | 767 | 162 | 0 |
A1W02 | A1 | 0:12:54 | 1528 | 741 | 787 | 214 | 0 |
A1W03 | A1 | 0:11:16 | 1255 | 603 | 652 | 162 | 3 |
A1 | 1:00:24 | 8503 | 4110 | 4393 | 939 | 4 | |
A2M01 | A2 | 00:12:49 | 1648 | 605 | 1043 | 266 | 2 |
A2M02 | A2 | 00:13:43 | 2189 | 1180 | 1009 | 257 | 37 |
A2M03 | A2 | 00:10:18 | 1460 | 485 | 975 | 215 | 1 |
A2W01 | A2 | 00:13:54 | 1444 | 846 | 598 | 212 | 1 |
A2W02 | A2 | 00:14:38 | 1762 | 994 | 768 | 361 | 2 |
A2 | 1:05:22 | 8503 | 4110 | 4393 | 1311 | 43 | |
B1M01 | B1 | 00:12:57 | 1688 | 749 | 939 | 175 | 6 |
B1W01 | B1 | 00:15:23 | 2062 | 1011 | 1051 | 319 | 2 |
B1W02 | B1 | 00:17:08 | 2173 | 1111 | 1062 | 363 | 12 |
B1W03 | B1 | 00:14:54 | 2262 | 1026 | 1236 | 313 | 27 |
B1W04 | B1 | 00:13:57 | 1514 | 1011 | 503 | 135 | 1 |
B1 | 1:14:19 | 9699 | 4908 | 4791 | 1305 | 48 | |
B2M01 | B2 | 00:18:59 | 2695 | 1676 | 1019 | 263 | 46 |
B2M02 | B2 | 00:15:07 | 1794 | 1081 | 713 | 215 | 1 |
B2W01 | B2 | 00:12:57 | 1975 | 904 | 1071 | 160 | 14 |
B2W02 | B2 | 00:16:56 | 2392 | 1780 | 612 | 126 | 24 |
B2W03 | B2 | 00:15:47 | 2423 | 1417 | 1006 | 262 | 14 |
B2 | 1:19:46 | 11279 | 6858 | 4421 | 1026 | 99 | |
C1M01 | C1 | 00:16:59 | 2416 | 1464 | 952 | 298 | 11 |
C1M02 | C1 | 00:13:24 | 1845 | 1095 | 750 | 228 | 47 |
C1W01 | C1 | 00:17:35 | 2841 | 1825 | 1016 | 325 | 23 |
C1W02 | C1 | 00:14:11 | 2694 | 1875 | 819 | 179 | 76 |
C1W03 | C1 | 00:18:19 | 2569 | 1608 | 961 | 309 | 16 |
C1 | 1:20:28 | 12365 | 7867 | 4498 | 1339 | 173 | |
C2M01 | C2 | 00:14:16 | 1750 | 1162 | 588 | 189 | 5 |
C2M02 | C2 | 00:15:54 | 2348 | 1518 | 830 | 330 | 23 |
C2W01 | C2 | 00:20:00 | 2762 | 1756 | 1006 | 390 | 26 |
C2W02 | C2 | 00:14:40 | 2564 | 1487 | 1077 | 287 | 24 |
C2W03 | C2 | 00:17:14 | 2833 | 1743 | 1090 | 207 | 50 |
C2 | 1:22:04 | 12257 | 7666 | 4591 | 1403 | 128 | |
TOTAL | 7:22:23 | 61092 | 33915 | 27177 | 7323 | 495 |
PUBLICACIONES MÁS RELEVANTES