C-ORAL-ROM
C-ORAL-ROM es un corpus multilingüe de lengua espontánea en las cuatro lenguas romance principales: francés, italiano, portugués y español. El proyecto fue financiado por la UE bajo el V Framework Programme (IST-2000-26228) y el consorcio está formado por nueve socios coordinados por la Universidad de Florencia. La característica más significativa de C-ORAL-ROM es su espontaneidad: los textos se han grabado en su contexto real y sin guión. Cada subcorpus consta de 300.000 palabras con la misma distribución textual para asegurar la comparabilidad y la representatividad. El recurso se presenta en varios formatos: una transcripción ortográfica, una versión etiquetada en XML y el alineamiento de sonido y texto. Además, se proporcionan una anotación lingüística parcial de los textos y programas para manejar los recursos y los estudios cuantitativos.
CONSULTA ONLINE
CÓMO ADQUIRIR EL PRODUCTO
El corpus está disponible en dos versiones:
- Formato libro+DVD publicado por John Benjamins
- Para I+D a través de ELDA.
DATOS ESENCIALES
MUESTRA DEL CORPUS
C-ORAL-ROM ELE
PUBLICACIONES MÁS RELEVANTES
REFERENCIA PRINCIPAL
- MORENO, A., DE LA MADRID, G., ALCÁNTARA, M., GONZÁLEZ, A. y DE LA TORRE, R.
"The Spanish Corpus". En: Cresti y Moneglia (eds.). C-ORAL-ROM Integrated Reference Corpora for Spoken Romance Languages. Amsterdam: John Benjamins, 2005. p. 135-161.
OTRAS PUBLICACIONES
- MORENO, A. & GUIRAO, J. M. "Tagging a spontaneous speech corpus of Spanish". En: Proceedings of the International Conference on Recent Advances in Natural Language Processing.). Borovets, Bulgaria, 2003. p. 292-296.
- CRESTI, E.; BACELAR, F.; MORENO, A.; VERONIS, J.; MARTIN, PH. y CHOUKRI, K."The C-ORAL-ROM CORPUS: A Multilingual Resource of Spontaneous Speech for Romance Languages.". En: IV International Conference on Language Resources and Evaluation (LREC2004).Publicación en actas, 2004.
- GONZÁLEZ , A.; DE LA MADRID, G.; ALCÁNTARA, M.; DE LA TORRE , R. y MORENO., A."Orality and Difficulties in the Transcription of Spoken Corpora". En: IIV International Conference on Language Resources and Evaluation (LREC2004).Publicación en actas, 2004.
- GUIRAO, J.M. y MORENO, A."A "toolbox" for tagging the Spanish C-ORAL-ROM corpus." En: IV International Conference on Language Resources and Evaluation (LREC2004).Publicación en actas, 2004.
- MORENO, A. y ALCÁNTARA, M."Aspectos prácticos, tecnológicos y legales en la construcción de corpus de habla espontánea: la experiencia del proyecto C-ORAL-ROM.". En: Simposio de la Sociedad Española de Lingüística. Publiación resumen en actas, 2004.
- MORENO, A. y GUIRAO, J.M."Spanish C-ORAL-ROM corpus and its application to teaching." En: TALC-6. Publicación, resumen en actas, 2004.
- MORENO SANDOVAL, A. Y URRESTI, J. "El Proyecto C-ORAL-ROM y su aplicación a la enseñanza del español". En: Oralia. Análisis del discurso oral. Madrid: Arco Libros, 2005. p. 81-104.
- MORENO SANDOVAL, A. Y GUIRAO, J. M. "Morpho-syntactic Tagging of the Spanish C-ORAL-ROM corpus: methodology, tools and evaluation". En: Spoken Language Corpus and Linguistic Informatics. Amsterdam: John Benjamins, 2006.
- GUIRAO, J. M., et al. "Relating linguistic units to socio-contextual information in a spontaneous speech corpus of Spanish". En: Corpus Linguistics Across the World. Amsterdam: Rodopi,2006.
- MORENO SANDOVAL, A."Los corpus orales del LLI-UAM: Primera generación y segunda generación". La musa digital, Nº 7.
- CAMPILLOS, L., GOZALO, P. y MORENO SANDOVAL, A. "El corpus C ORAL ROM en la enseñanza de ELE". En: Balmaseda Maestu, E. (ed.): Actas del XVII congreso internacional de ASELE (Asociación para la enseñanza del español como lengua extranjera): Las destrezas orales en la enseñanza del español. Logroño. 27-30 de septiembre de 2006. Logroño: Servicio de Publicaciones de la Universidad de La Rioja, 2007.
- GONZÁLEZ-LEDESMA, A."Pragmatext, Annotating the Spanish C-ORAL-ROM Corpus with Pragmatic Knowledge". En: Proceedings of 4th Corpus Linguistics Conference. University of Birmingham, 27-30 July 2007.
- GONZÁLEZ-LEDESMA, A. "Reformulación y atenuación: los operadores de modalización o sea y bueno en el corpus oral del español C-ORAL-ROM". En: Nicolás, Carlota. Ricerche sul Corpus del parlato romanzo C-ORAL-ROM. Studi linguistici e applicazioni didattiche per l'insegnamento di L2. Firenze: Firenze University Press, 2007