Laboratorio de Lingüística Informática
El Corpus de Habla Infantil Espontánea del Español, CHIEDE, está formado por aproximadamente un tercio de habla infantil y dos tercios de habla adulta. Su principal característica es la espontaneidad de las interacciones en él recogidas: los textos son grabaciones de situaciones comunicativas en su contexto natural. La principal característica de CHIEDE es la espontaneidad de sus interacciones: los textos son grabaciones de situaciones comunicativas en su contexto natural.
Nuestro corpus presenta un diseño final formado por dos tipos de interacciones: conversaciones colectivas espontáneas, grabadas en las "asambleas" diarias que se realizaban en cada clase y entrevistas personales hechas por un adulto a un único niño, donde la conversación pierde espontaneidad ya que está guiada por preguntas.
CHIEDE consta de 58.163 palabras, distribuidas en 30 textos, con un total de 7 horas y 53 minutos de grabación y 59 participantes menores. Cada grabación está alineada con su correspondiente transcripción ortográfica, en la que se incluye una cabecera con los metadatos o información sociolingüística y contextual. Además de los archivos de audio y texto, se incluyen otros dos tipos de archivos adicionales: aquellos en los que se ha realizado la transcripción fonológica automática y aquellos en los que el texto aparece en formato XML con la anotación morfosintáctica. Los archivos se identifican con un nombre en el que se recoge la edad del participante o participantes menores de edad.
FICHERO | MINUTOS | TURNOS | ENUNCIADOS | PALABRAS |
A3-01 | 36'11'' | 751 | 1.154 | 3.877 |
A3-02 | 23'38'' | 459 | 761 | 3.024 |
A4-01 | 31'37'' | 537 | 942 | 4.284 |
A4-02 | 26'44'' | 530 | 879 | 3.700 |
A5-01 | 37'10'' | 1.108 | 1.502 | 5.657 |
A5-02 | 47'40'' | 1.352 | 1.853 | 6.838 |
ADI4 | 10'21'' | 297 | 398 | 857 |
ADR3 | 06'26'' | 146 | 233 | 1.057 |
AIT4 | 15'03'' | 251 | 397 | 1.527 |
ANG4 | 09'58'' | 188 | 291 | 1.210 |
BRU3 | 19'32'' | 404 | 662 | 2.147 |
CAL5 | 11'05'' | 199 | 330 | 1.046 |
CAR5 | 07'56'' | 151 | 254 | 911 |
CLA3 | 13'16'' | 238 | 381 | 1.470 |
DAI5 | 08'09'' | 217 | 345 | 1.154 |
ELE3 | 10'14'' | 171 | 273 | 876 |
INE5 | 08'36'' | 153 | 232 | 1.093 |
JAV3 | 13'47'' | 204 | 321 | 1.180 |
JOM4 | 13'16'' | 231 | 405 | 1.607 |
JOR4 | 13'39'' | 351 | 481 | 2.061 |
MAI4 | 10'36'' | 194 | 331 | 1.236 |
MAR4 | 12'17'' | 223 | 329 | 940 |
MJO4 | 13'36'' | 215 | 318 | 1.362 |
NAT3 | 14'34'' | 234 | 410 | 1.410 |
RAU5 | 12'15'' | 216 | 407 | 1.630 |
ROD3 | 11'30'' | 274 | 392 | 1.288 |
SEL3 | 11'43'' | 217 | 322 | 1.366 |
SOL5 | 10'00'' | 157 | 250 | 1.247 |
TAL4 | 08'59'' | 206 | 321 | 964 |
VIC5 | 08'03'' | 168 | 270 | 1.144 |
TOTAL | 473'11'' | 10.042 | 15.444 | 58.163 |
CORPUS ONLINE (Usar firefox preferiblemente)
PUBLICACIONES MÁS RELEVANTES