Main

Laboratorio de Lingüística Informática

C-ORAL-ROM: Datos esenciales

Longitud del texto

En la sección informal:

En la sección informal, la longitud del texto se define según las siguientes reglas:

Recuento de palabras

El recuento general de C-Oral-Rom (Moneglia y Cresti, 2005) segmenta las palabras por los espacios en blanco (así, "por ejemplo" constaría de dos palabras). Sin embargo, el recuento que se ofrece en esta web considera la palabra como "unidad léxica", independientemente de si está formada por una sola palabra o si es una locución, fórmula o multipalabra. En este caso, "por ejemplo" y "es decir" se cuentan como una única palabra. De esta forma, el número de palabras que aquí ofrecemos es necesariamente menor. A efectos de realizar estudios cuantitativos y comparativos entre C-Oral-Rom y otros corpus, es preciso tener en cuenta el modo como se ha realizado el recuento de palabras en cada banco de datos, de manera que los recuentos puedan ser comparables.

Diseño del corpus

La matriz del diseño del corpus ha sido aproximada en la recogida de cada lengua, como se muestra en la siguiente tabla:

Requisitos
Italiano
Francés
Español
Portugués
Sección
Contexto
Dominio
Palabras
Palabras
Palabras
Palabras
Palabras
INFORMAL
150000
155048
140341
169625
167059
Familiar-privado
124500
128696
113287
131734
134511
Monólogo
42000
45213
42436
42718
45939
Diálogo-Conversación
82500
83483
70851
89016
88572
Público
25500
26352
27054
37891
32548
Monólogo
6000
6051
6521
6182
7693
Diálogo-Conversación
19500
20301
20533
31709
24855
FORMAL
150000
156544
129618
165846
152483
Contexto natural
[ver la lista abajo]
65000
68324
47862
72573
66151
Medios de comunicación
[ver la lista abajo]
60000
61638
54176
62809
62018
Teléfono
[ver la lista abajo]
25000
26582
27580
30464
24314
TOTAL
300000
311592
269959
335471
319542


Calidad acústica

El proyecto C-ORAL-ROM está orientado hacia la recogida de corpus en un ambiente natural, a pesar del hecho de que esto provoca necesariamente una disminución de la calidad acústica del recurso. Además, C-ORAL-ROM ha explotado, en el marco de un nuevo trabajo multilingüe, los ricos contenidos de archivos recopilados durante años de investigación en lengua oral; por lo tanto, la calidad acústica y las condiciones de grabación de las fuentes son variables.

Los requisitos para el formato acústico y los aparatos de grabación son los siguientes:

Los archivos de habla de la base de datos acústica se definen en una escala de calidad (grabación, volumen, solapamiento de voz y ruido). La escala de calidad se extiende desde el nivel más alto de claridad de la señal de voz hasta los niveles más bajos de calidad acústica.

  1. Grabaciones digitales con DAT o minidisk y micrófonos unidireccionales o grabaciones analógicas de alta calidad.

  2. Grabaciones digitales con respuesta de micrófono más pobre o grabaciones analógicas con:

    • Buena respuesta de micrófono
    • Bajo ruido de fondo
    • Bajo porcentaje de enunciados solapados
    • Cálculo de la F0 posible en la mayoría de los archivos


  3. Grabaciones analógicas de baja calidad con:

    • Respuesta de micrófono pobre
    • Ruido de fondo
    • Porcetaje medio de enunciados solapados
    • Cálculo de la F0 posible en muchas partes de los archivos

La calidad se evalúa espectrográficamente. Las seciones en las que el análisis de la F0 no es significante se excluyen del muestreo. La calidad acústica de cada grabación y los datos más relevantes sobre las condiciones de grabacióm se incluyen siempre en los metadatos de cada texto.


Archivos de habla y etiquetas

Para cada sesión de grabación de habla espontánea, se incluye lo siguiente en las carpetas del corpus multimedia.

  1. Archivos de habla: archivos .WAV descomprimidos (Windows PCM: 22,050 hz; 16 bit).
  2. Transcripciones en formaro CHAT, enriquecidas con la anotación de rupturas prosódicas terminales y no terminalesy la información sobre el alineamiento, en archivos TXT.
  3. Los archivos de alineamiento sonido-texto: archivos XML en formato WIN PITCH CORPUS.
  4. DTD del formato de alineamiento WinPitchCorpus.

Los archivos de habla y de transcripción están en correspondencia de uno a uno. A continuación se presenta la tabla general del corpus multimedia C-ORAL-ROM:

archivos wav
GB
Duración
Enunciados
Palabras en archivos txt
Francés
206
3,77
26.21.43
19546
256271
Italiano
204
5,19
36.16.10
40402
311592
Portugués
152
4,43
29.43.42
38855
317920
Español
210
4,56
31.06.00
35588
335471

Para cada sesión, se porporcionan también los siguientes archivos:

  1. La transcripción de cada sesión en formato CHAT en archivos .TXT (sin la información de alineamiento).
  2. La trasncripción de C-ORAL-ROM para cada sesión en archivos .XML.
  3. DTD para el formato C-ORAL-ROM .XML.
  4. Metadatos en formato CHAT.
  5. Metadatos en formato IMDI.
  6. La transcripción de C-ORAL-ROM de cada sesión con anotación de categorías y lemas para cada forma en archivos .TXT.
  7. Etiquetario adoptado en archivos .TXT.
  8. Listas de frecuencias de lemas y formas en archivos .TXT.
  9. Medidas de los valores linguisticos grabados en cada tetxo: en los archivos Excel "measurements_language.xls".
  10. Diagramas que presentan la tendencia observada en relación a los parámetros de variación textual estándar a lo largo de los nodos estructurales del corpus, en el archivo Excel "Multilingual graphics.xls".

Características del corpus español

TABLA C-ORAL-ROM
Informal
Tipo Sub-tipo Código Palabras Tiempo (s) Enunciados Turnos dialógicos
familiar/privado conversación efamcv01.xml 1656 555 335 232
familiar/privado conversación efamcv02.xml 1554 434 257 139
familiar/privado conversación efamcv03.xml 1588 495 395 268
familiar/privado conversación efamcv04.xml 1572 475 227 124
familiar/privado conversación efamcv05.xml 1528 409 257 145
familiar/privado conversación efamcv06.xml 1496 381 224 135
familiar/privado conversación efamcv07.xml 1593 370 263 185
familiar/privado conversación efamcv08.xml 1636 482 308 197
familiar/privado conversación efamcv09.xml 1542 497 298 182
familiar/privado conversación efamcv10.xml 1568 384 242 117
familiar/privado conversación efamcv11.xml 1553 458 237 143
familiar/privado conversación efamcv12.xml 1555 385 212 130
familiar/privado conversación efamcv13.xml 1549 501 248 162
familiar/privado conversación efamcv14.xml 1568 389 277 182
familiar/privado conversación efamcv15.xml 1537 424 223 156
familiar/privado diálogo efamdl01.xml 1534 391 241 141
familiar/privado diálogo efamdl02.xml 1548 350 241 147
familiar/privado diálogo efamdl03.xml 1589 428 241 138
familiar/privado diálogo efamdl04.xml 1509 478 196 116
familiar/privado diálogo efamdl05.xml 1592 519 224 112
familiar/privado diálogo efamdl06.xml 1563 500 335 214
familiar/privado diálogo efamdl07.xml 1551 550 244 87
familiar/privado diálogo efamdl08.xml 1531 394 230 93
familiar/privado diálogo efamdl09.xml 1556 438 204 95
familiar/privado diálogo efamdl10.xml 1570 397 206 99
familiar/privado diálogo efamdl11.xml 1507 475 290 149
familiar/privado diálogo efamdl12.xml 1539 519 344 153
familiar/privado diálogo efamdl13.xml 1556 435 217 128
familiar/privado diálogo efamdl14.xml 1537 564 287 162
familiar/privado diálogo efamdl15.xml 1548 488 145 65
familiar/privado diálogo efamdl16.xml 1432 455 178 84
familiar/privado diálogo efamdl17.xml 1535 472 228 83
familiar/privado diálogo efamdl18.xml 1570 376 168 85
familiar/privado diálogo efamdl19.xml 1523 383 195 110
familiar/privado diálogo efamdl20.xml 1538 481 299 164
familiar/privado diálogo efamdl21.xml 1574 506 284 176
familiar/privado diálogo efamdl22.xml 1574 344 225 158
familiar/privado diálogo efamdl23.xml 806 262 133 74
familiar/privado diálogo efamdl24.xml 1498 449 232 143
familiar/privado diálogo efamdl25.xml 1585 449 252 139
familiar/privado diálogo efamdl26.xml 1564 590 272 174
familiar/privado diálogo efamdl27.xml 1565 604 269 157
familiar/privado diálogo efamdl28.xml 1502 443 229 127
familiar/privado diálogo efamdl29.xml 1553 435 173 94
familiar/privado diálogo efamdl30.xml 1642 462 243 81
familiar/privado diálogo efamdl31.xml 1536 342 166 96
familiar/privado diálogo efamdl32.xml 1522 416 210 151
familiar/privado diálogo efamdl33.xml 1621 431 294 226
familiar/privado diálogo efamdl34.xml 1484 400 173 122
familiar/privado diálogo efamdl35.xml 1531 453 315 169
familiar/privado diálogo efamdl36.xml 936 287 96 41
familiar/privado diálogo efamdl37.xml 1517 350 245 149
familiar/privado diálogo efamdl38.xml 1525 596 224 139
familiar/privado diálogo efamdl39.xml 1525 447 264 151
familiar/privado diálogo efamdl40.xml 1556 358 256 163
familiar/privado diálogo efamdl41.xml 1534 446 289 178
familiar/privado diálogo efamdl42.xml 1562 501 242 116
familiar/privado monólogo efammn01.xml 4597 2021 490 1
familiar/privado monólogo efammn02.xml 4523 1336 315 35
familiar/privado monólogo efammn03.xml 4571 1418 440 1
familiar/privado monólogo efammn04.xml 4512 1383 231 1
familiar/privado monólogo efammn05.xml 3133 1352 401 13
familiar/privado monólogo efammn06.xml 3196 1490 288 1
familiar/privado monólogo efammn07.xml 4495 1528 276 1
familiar/privado monólogo efammn08.xml 4567 1453 350 1
familiar/privado monólogo efammn09.xml 3049 1332 51 2
familiar/privado monólogo efammn10.xml 4586 1630 293 1
público conversación epubcv01.xml 1670 700 406 221
público conversación epubcv02.xml 1544 451 309 198
público diálogo epubdl01.xml 1616 602 210 116
público diálogo epubdl02.xml 1529 466 151 91
público diálogo epubdl03.xml 1547 496 149 81
público diálogo epubdl04.xml 1499 431 192 140
público diálogo epubdl05.xml 1580 473 256 150
público diálogo epubdl06.xml 1530 493 249 143
público diálogo epubdl07.xml 1555 534 216 133
público diálogo epubdl08.xml 1471 470 186 94
público diálogo epubdl09.xml 1523 534 167 106
público diálogo epubdl10.xml 1553 399 342 234
público diálogo epubdl11.xml 1522 390 168 112
público diálogo epubdl12.xml 1559 524 245 193
público diálogo epubdl13.xml 1551 486 210 175
público diálogo epubdl14.xml 1477 450 278 150
público diálogo epubdl15.xml 1550 511 185 91
público diálogo epubdl16.xml 1538 873 321 159
público diálogo epubdl17.xml 1537 480 177 122
público diálogo epubdl18.xml 1584 362 188 131
público monólogo epubmn01.xml 1522 831 179 1
público monólogo epubmn02.xml 4489 1700 110 1
Formal-Contexto natural
Tipo Sub-tipo Código Palabras Tiempo (s) Enunciados Turnos dialógicos
negocios diálogo enatbu01.xml 3005 954 353 243
negocios diálogo enatbu02.xml 3056 1040 185 91
negocios monólogo enatbu03.xml 2973 1407 71 1
conferencia monólogo enatco01.xml 2995 1291 156 1
conferencia monólogo enatco02.xml 3014 1255 105 1
conferencia monólogo enatco03.xml 3135 2135 114 1
conferencia monólogo enatco04.xml 3131 1121 136 1
legal conversación enatla01.xml 3160 1013 239 106
legal monólogo enatla02.xml 3043 1006 106 1
debate político conversación enatpd01.xml 2964 997 125 22
debate político conversación enatpd02.xml 3091 989 151 15
explicación profesional monólogo enatpe01.xml 2996 1042 181 1
explicación profesional conversación enatpe02.xml 3095 815 234 102
explicación profesional conversación enatpe03.xml 2866 981 268 165
explicación profesional monólogo enatpe04.xml 3106 1009 150 1
sermón monólogo enatpr01.xml 985 419 69 3
sermón monólogo enatpr02.xml 1579 553 62 1
sermón monólogo enatpr03.xml 1706 994 92 1
sermón monólogo enatpr04.xml 306 164 21 1
sermón monólogo enatpr05.xml 600 349 78 1
sermón monólogo enatpr06.xml 1648 939 127 1
discurso público monólogo enatps01.xml 2993 1145 128 2
discurso público conversación enatps02.xml 3124 1035 100 13
docencia diálogo enatte01.xml 3124 1082 180 57
docencia conversación enatte02.xml 3061 812 310 132
docencia monólogo enatte03.xml 3108 1275 163 11
docencia monólogo enatte04.xml 3060 1409 239 11
Formal-Media
Género Código Palabras Tiempo (s) Enunciados Turnos dialógicos
entrevistas emedin01.xml 1509 504 108 25
entrevistas emedin02.xml 1536 505 74 20
entrevistas emedin03.xml 1590 492 50 21
entrevistas emedin04.xml 1478 448 88 31
entrevistas emedin05.xml 1527 449 111 39
meteo emedmt01.xml 518 152 34 1
meteo emedmt02.xml 519 161 21 1
meteo emedmt03.xml 554 178 27 1
noticias emednw01.xml 1596 483 67 12
noticias emednw02.xml 1637 512 72 15
noticias emednw03.xml 1546 473 70 8
noticias emednw04.xml 1555 458 76 22
noticias emednw04_1.xml 831 244 34 9
noticias emednw04_2.xml 732 213 42 13
noticias emednw05.xml 1535 437 81 25
noticias emednw05_1.xml 1535 437 73 22
noticias emednw05_2.xml 1535 437 8 3
noticias emednw06.xml 1611 554 68 19
noticias emednw06_1.xml 1611 554 37 8
noticias emednw06_2.xml 1611 554 31 11
reportajes emedrp01.xml 1491 503 132 61
reportajes emedrp01_1.xml 1491 503 107 52
reportajes emedrp01_2.xml 1491 503 27 9
reportajes emedrp02.xml 1558 641 164 47
reportajes emedrp02_1.xml 1558 641 30 8
reportajes emedrp02_2.xml 1558 641 57 11
reportajes emedrp02_3.xml 1558 641 18 14
reportajes emedrp02_4.xml 1558 641 59 14
reportajes emedrp03.xml 1520 626 80 14
reportajes emedrp03_1.xml 1520 626 41 7
reportajes emedrp03_2.xml 1520 626 41 7
reportajes emedrp04.xml 1526 606 118 37
reportajes emedrp04_1.xml 1526 606 55 13
reportajes emedrp04_2.xml 1526 606 14 8
reportajes emedrp04_3.xml 1526 606 22 9
reportajes emedrp04_4.xml 1526 606 27 7
reportajes emedrp05.xml 1512 573 79 21
reportajes emedrp05_1.xml 1512 573 42 11
reportajes emedrp05_2.xml 1512 573 37 10
reportajes emedrp06.xml 1548 704 101 23
reportajes emedrp06_1.xml 1548 704 42 8
reportajes emedrp06_2.xml 1548 704 57 15
reportajes emedrp07.xml 1557 576 91 21
prensa científica emedsc01.xml 1516 527 104 53
prensa científica emedsc02.xml 1492 529 124 71
prensa científica emedsc03.xml 1578 549 176 102
prensa científica emedsc04.xml 1522 572 103 26
deportes emedsp01.xml 1540 803 93 1
deportes emedsp02.xml 1537 375 202 111
deportes emedsp03.xml 1557 403 133 70
deportes emedsp04.xml 1587 484 155 79
deportes emedsp05.xml 1581 638 105 34
deportes emedsp06.xml 1528 466 154 76
programa de entrevistas emedts01.xml 1516 399 133 99
programa de entrevistas emedts02.xml 1499 458 101 65
programa de entrevistas emedts03.xml 1523 524 75 26
programa de entrevistas emedts04.xml 1549 515 69 8
programa de entrevistas emedts05.xml 1484 535 236 158
programa de entrevistas emedts06.xml 1489 588 95 43
programa de entrevistas emedts07.xml 1534 475 153 73
programa de entrevistas emedts08.xml 1555 572 183 95
programa de entrevistas emedts09.xml 1599 471 87 45
programa de entrevistas emedts10.xml 1567 541 183 99
programa de entrevistas emedts11.xml 1527 638 140 93
Formal-Teléfono
Género Código Palabras Tiempo (s) Enunciados Turnos dialógicos
teléfono etelef01.xml 1175 368 269 154
teléfono etelef02.xml 1135 333 216 152
teléfono etelef03.xml 719 231 178 119
teléfono etelef04.xml 73 22 30 17
teléfono etelef05.xml 89 26 24 22
teléfono etelef06.xml 1539 394 255 180
teléfono etelef07.xml 328 119 91 58
teléfono etelef08.xml 5376 1721 941 567
teléfono etelef09.xml 1759 509 441 272
teléfono etelef10.xml 2048 577 407 261
teléfono etelef11.xml 519 148 96 71