Laboratorio de Lingüística Informática
Longitud del texto
En la sección informal:
En la sección informal, la longitud del texto se define según las siguientes reglas:
Recuento de palabras
El recuento general de C-Oral-Rom (Moneglia y Cresti, 2005) segmenta las palabras por los espacios en blanco (así, "por ejemplo" constaría de dos palabras). Sin embargo, el recuento que se ofrece en esta web considera la palabra como "unidad léxica", independientemente de si está formada por una sola palabra o si es una locución, fórmula o multipalabra. En este caso, "por ejemplo" y "es decir" se cuentan como una única palabra. De esta forma, el número de palabras que aquí ofrecemos es necesariamente menor. A efectos de realizar estudios cuantitativos y comparativos entre C-Oral-Rom y otros corpus, es preciso tener en cuenta el modo como se ha realizado el recuento de palabras en cada banco de datos, de manera que los recuentos puedan ser comparables.
Diseño del corpus
La matriz del diseño del corpus ha sido aproximada en la recogida de cada lengua, como se muestra en la siguiente tabla:
Calidad acústica
El proyecto C-ORAL-ROM está orientado hacia la recogida de corpus en un ambiente natural, a pesar del hecho de que esto provoca necesariamente una disminución de la calidad acústica del recurso. Además, C-ORAL-ROM ha explotado, en el marco de un nuevo trabajo multilingüe, los ricos contenidos de archivos recopilados durante años de investigación en lengua oral; por lo tanto, la calidad acústica y las condiciones de grabación de las fuentes son variables.
Los requisitos para el formato acústico y los aparatos de grabación son los siguientes:
Los archivos de habla de la base de datos acústica se definen en una escala de calidad (grabación, volumen, solapamiento de voz y ruido). La escala de calidad se extiende desde el nivel más alto de claridad de la señal de voz hasta los niveles más bajos de calidad acústica.
La calidad se evalúa espectrográficamente. Las seciones en las que el análisis de la F0 no es significante se excluyen del muestreo. La calidad acústica de cada grabación y los datos más relevantes sobre las condiciones de grabacióm se incluyen siempre en los metadatos de cada texto.
Archivos de habla y etiquetas
Para cada sesión de grabación de habla espontánea, se incluye lo siguiente en las carpetas del corpus multimedia.
Los archivos de habla y de transcripción están en correspondencia de uno a uno. A continuación se presenta la tabla general del corpus multimedia C-ORAL-ROM:
Para cada sesión, se porporcionan también los siguientes archivos:
Características del corpus español
Informal | |||||||
Tipo | Sub-tipo | Código | Palabras | Tiempo (s) | Enunciados | Turnos dialógicos | |
familiar/privado | conversación | efamcv01.xml | 1656 | 555 | 335 | 232 | |
familiar/privado | conversación | efamcv02.xml | 1554 | 434 | 257 | 139 | |
familiar/privado | conversación | efamcv03.xml | 1588 | 495 | 395 | 268 | |
familiar/privado | conversación | efamcv04.xml | 1572 | 475 | 227 | 124 | |
familiar/privado | conversación | efamcv05.xml | 1528 | 409 | 257 | 145 | |
familiar/privado | conversación | efamcv06.xml | 1496 | 381 | 224 | 135 | |
familiar/privado | conversación | efamcv07.xml | 1593 | 370 | 263 | 185 | |
familiar/privado | conversación | efamcv08.xml | 1636 | 482 | 308 | 197 | |
familiar/privado | conversación | efamcv09.xml | 1542 | 497 | 298 | 182 | |
familiar/privado | conversación | efamcv10.xml | 1568 | 384 | 242 | 117 | |
familiar/privado | conversación | efamcv11.xml | 1553 | 458 | 237 | 143 | |
familiar/privado | conversación | efamcv12.xml | 1555 | 385 | 212 | 130 | |
familiar/privado | conversación | efamcv13.xml | 1549 | 501 | 248 | 162 | |
familiar/privado | conversación | efamcv14.xml | 1568 | 389 | 277 | 182 | |
familiar/privado | conversación | efamcv15.xml | 1537 | 424 | 223 | 156 | |
familiar/privado | diálogo | efamdl01.xml | 1534 | 391 | 241 | 141 | |
familiar/privado | diálogo | efamdl02.xml | 1548 | 350 | 241 | 147 | |
familiar/privado | diálogo | efamdl03.xml | 1589 | 428 | 241 | 138 | |
familiar/privado | diálogo | efamdl04.xml | 1509 | 478 | 196 | 116 | |
familiar/privado | diálogo | efamdl05.xml | 1592 | 519 | 224 | 112 | |
familiar/privado | diálogo | efamdl06.xml | 1563 | 500 | 335 | 214 | |
familiar/privado | diálogo | efamdl07.xml | 1551 | 550 | 244 | 87 | |
familiar/privado | diálogo | efamdl08.xml | 1531 | 394 | 230 | 93 | |
familiar/privado | diálogo | efamdl09.xml | 1556 | 438 | 204 | 95 | |
familiar/privado | diálogo | efamdl10.xml | 1570 | 397 | 206 | 99 | |
familiar/privado | diálogo | efamdl11.xml | 1507 | 475 | 290 | 149 | |
familiar/privado | diálogo | efamdl12.xml | 1539 | 519 | 344 | 153 | |
familiar/privado | diálogo | efamdl13.xml | 1556 | 435 | 217 | 128 | |
familiar/privado | diálogo | efamdl14.xml | 1537 | 564 | 287 | 162 | |
familiar/privado | diálogo | efamdl15.xml | 1548 | 488 | 145 | 65 | |
familiar/privado | diálogo | efamdl16.xml | 1432 | 455 | 178 | 84 | |
familiar/privado | diálogo | efamdl17.xml | 1535 | 472 | 228 | 83 | |
familiar/privado | diálogo | efamdl18.xml | 1570 | 376 | 168 | 85 | |
familiar/privado | diálogo | efamdl19.xml | 1523 | 383 | 195 | 110 | |
familiar/privado | diálogo | efamdl20.xml | 1538 | 481 | 299 | 164 | |
familiar/privado | diálogo | efamdl21.xml | 1574 | 506 | 284 | 176 | |
familiar/privado | diálogo | efamdl22.xml | 1574 | 344 | 225 | 158 | |
familiar/privado | diálogo | efamdl23.xml | 806 | 262 | 133 | 74 | |
familiar/privado | diálogo | efamdl24.xml | 1498 | 449 | 232 | 143 | |
familiar/privado | diálogo | efamdl25.xml | 1585 | 449 | 252 | 139 | |
familiar/privado | diálogo | efamdl26.xml | 1564 | 590 | 272 | 174 | |
familiar/privado | diálogo | efamdl27.xml | 1565 | 604 | 269 | 157 | |
familiar/privado | diálogo | efamdl28.xml | 1502 | 443 | 229 | 127 | |
familiar/privado | diálogo | efamdl29.xml | 1553 | 435 | 173 | 94 | |
familiar/privado | diálogo | efamdl30.xml | 1642 | 462 | 243 | 81 | |
familiar/privado | diálogo | efamdl31.xml | 1536 | 342 | 166 | 96 | |
familiar/privado | diálogo | efamdl32.xml | 1522 | 416 | 210 | 151 | |
familiar/privado | diálogo | efamdl33.xml | 1621 | 431 | 294 | 226 | |
familiar/privado | diálogo | efamdl34.xml | 1484 | 400 | 173 | 122 | |
familiar/privado | diálogo | efamdl35.xml | 1531 | 453 | 315 | 169 | |
familiar/privado | diálogo | efamdl36.xml | 936 | 287 | 96 | 41 | |
familiar/privado | diálogo | efamdl37.xml | 1517 | 350 | 245 | 149 | |
familiar/privado | diálogo | efamdl38.xml | 1525 | 596 | 224 | 139 | |
familiar/privado | diálogo | efamdl39.xml | 1525 | 447 | 264 | 151 | |
familiar/privado | diálogo | efamdl40.xml | 1556 | 358 | 256 | 163 | |
familiar/privado | diálogo | efamdl41.xml | 1534 | 446 | 289 | 178 | |
familiar/privado | diálogo | efamdl42.xml | 1562 | 501 | 242 | 116 | |
familiar/privado | monólogo | efammn01.xml | 4597 | 2021 | 490 | 1 | |
familiar/privado | monólogo | efammn02.xml | 4523 | 1336 | 315 | 35 | |
familiar/privado | monólogo | efammn03.xml | 4571 | 1418 | 440 | 1 | |
familiar/privado | monólogo | efammn04.xml | 4512 | 1383 | 231 | 1 | |
familiar/privado | monólogo | efammn05.xml | 3133 | 1352 | 401 | 13 | |
familiar/privado | monólogo | efammn06.xml | 3196 | 1490 | 288 | 1 | |
familiar/privado | monólogo | efammn07.xml | 4495 | 1528 | 276 | 1 | |
familiar/privado | monólogo | efammn08.xml | 4567 | 1453 | 350 | 1 | |
familiar/privado | monólogo | efammn09.xml | 3049 | 1332 | 51 | 2 | |
familiar/privado | monólogo | efammn10.xml | 4586 | 1630 | 293 | 1 | |
público | conversación | epubcv01.xml | 1670 | 700 | 406 | 221 | |
público | conversación | epubcv02.xml | 1544 | 451 | 309 | 198 | |
público | diálogo | epubdl01.xml | 1616 | 602 | 210 | 116 | |
público | diálogo | epubdl02.xml | 1529 | 466 | 151 | 91 | |
público | diálogo | epubdl03.xml | 1547 | 496 | 149 | 81 | |
público | diálogo | epubdl04.xml | 1499 | 431 | 192 | 140 | |
público | diálogo | epubdl05.xml | 1580 | 473 | 256 | 150 | |
público | diálogo | epubdl06.xml | 1530 | 493 | 249 | 143 | |
público | diálogo | epubdl07.xml | 1555 | 534 | 216 | 133 | |
público | diálogo | epubdl08.xml | 1471 | 470 | 186 | 94 | |
público | diálogo | epubdl09.xml | 1523 | 534 | 167 | 106 | |
público | diálogo | epubdl10.xml | 1553 | 399 | 342 | 234 | |
público | diálogo | epubdl11.xml | 1522 | 390 | 168 | 112 | |
público | diálogo | epubdl12.xml | 1559 | 524 | 245 | 193 | |
público | diálogo | epubdl13.xml | 1551 | 486 | 210 | 175 | |
público | diálogo | epubdl14.xml | 1477 | 450 | 278 | 150 | |
público | diálogo | epubdl15.xml | 1550 | 511 | 185 | 91 | |
público | diálogo | epubdl16.xml | 1538 | 873 | 321 | 159 | |
público | diálogo | epubdl17.xml | 1537 | 480 | 177 | 122 | |
público | diálogo | epubdl18.xml | 1584 | 362 | 188 | 131 | |
público | monólogo | epubmn01.xml | 1522 | 831 | 179 | 1 | |
público | monólogo | epubmn02.xml | 4489 | 1700 | 110 | 1 | |
Formal-Contexto natural | |||||||
Tipo | Sub-tipo | Código | Palabras | Tiempo (s) | Enunciados | Turnos dialógicos | |
negocios | diálogo | enatbu01.xml | 3005 | 954 | 353 | 243 | |
negocios | diálogo | enatbu02.xml | 3056 | 1040 | 185 | 91 | |
negocios | monólogo | enatbu03.xml | 2973 | 1407 | 71 | 1 | |
conferencia | monólogo | enatco01.xml | 2995 | 1291 | 156 | 1 | |
conferencia | monólogo | enatco02.xml | 3014 | 1255 | 105 | 1 | |
conferencia | monólogo | enatco03.xml | 3135 | 2135 | 114 | 1 | |
conferencia | monólogo | enatco04.xml | 3131 | 1121 | 136 | 1 | |
legal | conversación | enatla01.xml | 3160 | 1013 | 239 | 106 | |
legal | monólogo | enatla02.xml | 3043 | 1006 | 106 | 1 | |
debate político | conversación | enatpd01.xml | 2964 | 997 | 125 | 22 | |
debate político | conversación | enatpd02.xml | 3091 | 989 | 151 | 15 | |
explicación profesional | monólogo | enatpe01.xml | 2996 | 1042 | 181 | 1 | |
explicación profesional | conversación | enatpe02.xml | 3095 | 815 | 234 | 102 | |
explicación profesional | conversación | enatpe03.xml | 2866 | 981 | 268 | 165 | |
explicación profesional | monólogo | enatpe04.xml | 3106 | 1009 | 150 | 1 | |
sermón | monólogo | enatpr01.xml | 985 | 419 | 69 | 3 | |
sermón | monólogo | enatpr02.xml | 1579 | 553 | 62 | 1 | |
sermón | monólogo | enatpr03.xml | 1706 | 994 | 92 | 1 | |
sermón | monólogo | enatpr04.xml | 306 | 164 | 21 | 1 | |
sermón | monólogo | enatpr05.xml | 600 | 349 | 78 | 1 | |
sermón | monólogo | enatpr06.xml | 1648 | 939 | 127 | 1 | |
discurso público | monólogo | enatps01.xml | 2993 | 1145 | 128 | 2 | |
discurso público | conversación | enatps02.xml | 3124 | 1035 | 100 | 13 | |
docencia | diálogo | enatte01.xml | 3124 | 1082 | 180 | 57 | |
docencia | conversación | enatte02.xml | 3061 | 812 | 310 | 132 | |
docencia | monólogo | enatte03.xml | 3108 | 1275 | 163 | 11 | |
docencia | monólogo | enatte04.xml | 3060 | 1409 | 239 | 11 | |
Formal-Media | |||||||
Género | Código | Palabras | Tiempo (s) | Enunciados | Turnos dialógicos | ||
entrevistas | emedin01.xml | 1509 | 504 | 108 | 25 | ||
entrevistas | emedin02.xml | 1536 | 505 | 74 | 20 | ||
entrevistas | emedin03.xml | 1590 | 492 | 50 | 21 | ||
entrevistas | emedin04.xml | 1478 | 448 | 88 | 31 | ||
entrevistas | emedin05.xml | 1527 | 449 | 111 | 39 | ||
meteo | emedmt01.xml | 518 | 152 | 34 | 1 | ||
meteo | emedmt02.xml | 519 | 161 | 21 | 1 | ||
meteo | emedmt03.xml | 554 | 178 | 27 | 1 | ||
noticias | emednw01.xml | 1596 | 483 | 67 | 12 | ||
noticias | emednw02.xml | 1637 | 512 | 72 | 15 | ||
noticias | emednw03.xml | 1546 | 473 | 70 | 8 | ||
noticias | emednw04.xml | 1555 | 458 | 76 | 22 | ||
noticias | emednw04_1.xml | 831 | 244 | 34 | 9 | ||
noticias | emednw04_2.xml | 732 | 213 | 42 | 13 | ||
noticias | emednw05.xml | 1535 | 437 | 81 | 25 | ||
noticias | emednw05_1.xml | 1535 | 437 | 73 | 22 | ||
noticias | emednw05_2.xml | 1535 | 437 | 8 | 3 | ||
noticias | emednw06.xml | 1611 | 554 | 68 | 19 | ||
noticias | emednw06_1.xml | 1611 | 554 | 37 | 8 | ||
noticias | emednw06_2.xml | 1611 | 554 | 31 | 11 | ||
reportajes | emedrp01.xml | 1491 | 503 | 132 | 61 | ||
reportajes | emedrp01_1.xml | 1491 | 503 | 107 | 52 | ||
reportajes | emedrp01_2.xml | 1491 | 503 | 27 | 9 | ||
reportajes | emedrp02.xml | 1558 | 641 | 164 | 47 | ||
reportajes | emedrp02_1.xml | 1558 | 641 | 30 | 8 | ||
reportajes | emedrp02_2.xml | 1558 | 641 | 57 | 11 | ||
reportajes | emedrp02_3.xml | 1558 | 641 | 18 | 14 | ||
reportajes | emedrp02_4.xml | 1558 | 641 | 59 | 14 | ||
reportajes | emedrp03.xml | 1520 | 626 | 80 | 14 | ||
reportajes | emedrp03_1.xml | 1520 | 626 | 41 | 7 | ||
reportajes | emedrp03_2.xml | 1520 | 626 | 41 | 7 | ||
reportajes | emedrp04.xml | 1526 | 606 | 118 | 37 | ||
reportajes | emedrp04_1.xml | 1526 | 606 | 55 | 13 | ||
reportajes | emedrp04_2.xml | 1526 | 606 | 14 | 8 | ||
reportajes | emedrp04_3.xml | 1526 | 606 | 22 | 9 | ||
reportajes | emedrp04_4.xml | 1526 | 606 | 27 | 7 | ||
reportajes | emedrp05.xml | 1512 | 573 | 79 | 21 | ||
reportajes | emedrp05_1.xml | 1512 | 573 | 42 | 11 | ||
reportajes | emedrp05_2.xml | 1512 | 573 | 37 | 10 | ||
reportajes | emedrp06.xml | 1548 | 704 | 101 | 23 | ||
reportajes | emedrp06_1.xml | 1548 | 704 | 42 | 8 | ||
reportajes | emedrp06_2.xml | 1548 | 704 | 57 | 15 | ||
reportajes | emedrp07.xml | 1557 | 576 | 91 | 21 | ||
prensa científica | emedsc01.xml | 1516 | 527 | 104 | 53 | ||
prensa científica | emedsc02.xml | 1492 | 529 | 124 | 71 | ||
prensa científica | emedsc03.xml | 1578 | 549 | 176 | 102 | ||
prensa científica | emedsc04.xml | 1522 | 572 | 103 | 26 | ||
deportes | emedsp01.xml | 1540 | 803 | 93 | 1 | ||
deportes | emedsp02.xml | 1537 | 375 | 202 | 111 | ||
deportes | emedsp03.xml | 1557 | 403 | 133 | 70 | ||
deportes | emedsp04.xml | 1587 | 484 | 155 | 79 | ||
deportes | emedsp05.xml | 1581 | 638 | 105 | 34 | ||
deportes | emedsp06.xml | 1528 | 466 | 154 | 76 | ||
programa de entrevistas | emedts01.xml | 1516 | 399 | 133 | 99 | ||
programa de entrevistas | emedts02.xml | 1499 | 458 | 101 | 65 | ||
programa de entrevistas | emedts03.xml | 1523 | 524 | 75 | 26 | ||
programa de entrevistas | emedts04.xml | 1549 | 515 | 69 | 8 | ||
programa de entrevistas | emedts05.xml | 1484 | 535 | 236 | 158 | ||
programa de entrevistas | emedts06.xml | 1489 | 588 | 95 | 43 | ||
programa de entrevistas | emedts07.xml | 1534 | 475 | 153 | 73 | ||
programa de entrevistas | emedts08.xml | 1555 | 572 | 183 | 95 | ||
programa de entrevistas | emedts09.xml | 1599 | 471 | 87 | 45 | ||
programa de entrevistas | emedts10.xml | 1567 | 541 | 183 | 99 | ||
programa de entrevistas | emedts11.xml | 1527 | 638 | 140 | 93 | ||
Formal-Teléfono | |||||||
Género | Código | Palabras | Tiempo (s) | Enunciados | Turnos dialógicos | ||
teléfono | etelef01.xml | 1175 | 368 | 269 | 154 | ||
teléfono | etelef02.xml | 1135 | 333 | 216 | 152 | ||
teléfono | etelef03.xml | 719 | 231 | 178 | 119 | ||
teléfono | etelef04.xml | 73 | 22 | 30 | 17 | ||
teléfono | etelef05.xml | 89 | 26 | 24 | 22 | ||
teléfono | etelef06.xml | 1539 | 394 | 255 | 180 | ||
teléfono | etelef07.xml | 328 | 119 | 91 | 58 | ||
teléfono | etelef08.xml | 5376 | 1721 | 941 | 567 | ||
teléfono | etelef09.xml | 1759 | 509 | 441 | 272 | ||
teléfono | etelef10.xml | 2048 | 577 | 407 | 261 | ||
teléfono | etelef11.xml | 519 | 148 | 96 | 71 |