C-ORAL-ROM
C-ORAL-ROM is a multilingual corpus of spoken romance languages: French, Italian, Portuguese and Spanish. The project was funded by the EU within the V Framework Programme (IST-2000-26228) and the consortium comprises nine partners coordinated by the University of Florence. The most significant feature of C-ORAL-ROM is the spontaneity of texts: they were recorded in real context and without a script. Each subcorpus is made up of 300.000 words, with the same textual distribution to guarantee comparability and representativity. The resource is presented in different formats: an orthographic transcription, an XML tagged version and the text-sound alignment. Also, it is provided partial linguistic annotation of texts and programs to handle the corpus.
CONSULT ONLINE
HOW TO OBTAIN THE PRODUCT
The corpus is available in two formats:
- Book+DVD published by John Benjamins
- For I+D through ELDA.
ESSENTIAL DATA
CORPUS SAMPLE
C-ORAL-ROM ELE
SELECTED PUBLICATIONS
MAIN REFERENCE
- MORENO, A., DE LA MADRID, G., ALCÁNTARA, M., GONZÁLEZ, A. y DE LA TORRE, R.
"The Spanish Corpus". En: Cresti y Moneglia (eds.). C-ORAL-ROM Integrated Reference Corpora for Spoken Romance Languages. Amsterdam: John Benjamins, 2005. p. 135-161.
OTHER PUBLICATIONS
- MORENO, A. & GUIRAO, J. M. "Tagging a spontaneous speech corpus of Spanish". En: Proceedings of the International Conference on Recent Advances in Natural Language Processing.). Borovets, Bulgaria, 2003. p. 292-296.
- CRESTI, E.; BACELAR, F.; MORENO, A.; VERONIS, J.; MARTIN, PH. y CHOUKRI, K."The C-ORAL-ROM CORPUS: A Multilingual Resource of Spontaneous Speech for Romance Languages.". En: IV International Conference on Language Resources and Evaluation (LREC2004).Publicación en actas, 2004.
- GONZÁLEZ , A.; DE LA MADRID, G.; ALCÁNTARA, M.; DE LA TORRE , R. y MORENO., A."Orality and Difficulties in the Transcription of Spoken Corpora". En: IIV International Conference on Language Resources and Evaluation (LREC2004).Publicación en actas, 2004.
- GUIRAO, J.M. y MORENO, A."A "toolbox" for tagging the Spanish C-ORAL-ROM corpus." En: IV International Conference on Language Resources and Evaluation (LREC2004).Publicación en actas, 2004.
- MORENO, A. y ALCÁNTARA, M."Aspectos prácticos, tecnológicos y legales en la construcción de corpus de habla espontánea: la experiencia del proyecto C-ORAL-ROM.". En: Simposio de la Sociedad Española de Lingüística. Publiación resumen en actas, 2004.
- MORENO, A. y GUIRAO, J.M."Spanish C-ORAL-ROM corpus and its application to teaching." En: TALC-6. Publicación, resumen en actas, 2004.
- MORENO SANDOVAL, A. Y URRESTI, J. "El Proyecto C-ORAL-ROM y su aplicación a la enseñanza del español". En: Oralia. Análisis del discurso oral. Madrid: Arco Libros, 2005. p. 81-104.
- MORENO SANDOVAL, A. Y GUIRAO, J. M. "Morpho-syntactic Tagging of the Spanish C-ORAL-ROM corpus: methodology, tools and evaluation". En: Spoken Language Corpus and Linguistic Informatics. Amsterdam: John Benjamins, 2006.
- GUIRAO, J. M., et al. "Relating linguistic units to socio-contextual information in a spontaneous speech corpus of Spanish". En: Corpus Linguistics Across the World. Amsterdam: Rodopi,2006.
- MORENO SANDOVAL, A."Los corpus orales del LLI-UAM: Primera generación y segunda generación". La musa digital, Nº 7.
- CAMPILLOS, L., GOZALO, P. y MORENO SANDOVAL, A. "El corpus C ORAL ROM en la enseñanza de ELE". En: Balmaseda Maestu, E. (ed.): Actas del XVII congreso internacional de ASELE (Asociación para la enseñanza del español como lengua extranjera): Las destrezas orales en la enseñanza del español. Logroño. 27-30 de septiembre de 2006. Logroño: Servicio de Publicaciones de la Universidad de La Rioja, 2007.
- GONZÁLEZ-LEDESMA, A."Pragmatext, Annotating the Spanish C-ORAL-ROM Corpus with Pragmatic Knowledge". En: Proceedings of 4th Corpus Linguistics Conference. University of Birmingham, 27-30 July 2007.
- GONZÁLEZ-LEDESMA, A. "Reformulación y atenuación: los operadores de modalización o sea y bueno en el corpus oral del español C-ORAL-ROM". En: Nicolás, Carlota. Ricerche sul Corpus del parlato romanzo C-ORAL-ROM. Studi linguistici e applicazioni didattiche per l'insegnamento di L2. Firenze: Firenze University Press, 2007