Laboratorio de Lingüística Informática
El corpus MAVIR es una colección de grabaciones de sonido y vídeo con sus correspondientes transcripciones de habla oral, procesadas informáticamente. Su elaboración se dirige a la investigación en procesamiento de lenguaje natural y tecnologías de habla.
Las grabaciones proceden de las conferencias y charlas especializadas sobre tecnologías de la lengua celebradas en el marco del consorcio MAVIR (Mejorando el Acceso y Visibilidad de la Información multilingüe en Red para la Comunidad de Madrid). MAVIR es una red de investigación co-financiada por la Comunidad de Madrid dentro del IV Plan Regional de Investigación Científica Innovación Tecnológica (IV PRICIT) y formada por un equipo multidisciplinar de científicos, técnicos, lingüistas y documentalistas. El consorcio está formado por los siguientes grupos de investigación de Madrid:
A las personas grabadas en el corpus MAVIR se les pidió permiso por escrito, y firmaron su consentimiento para las grabaciones.
Consta de cuatro grabaciones de habla oral espontánea (sonido y vídeo) en español y en inglés, que se realizaron durante las I jornadas MAVIR, celebradas en Madrid el 16-17 de noviembre de 2006.
Las conferencias y mesas redondas son las siguientes:
La recogida del corpus fue dirigida por Antonio Moreno Sandoval, y fue diseñado, transcrito, revisado y procesado informáticamente en el Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid por las siguientes personas:
Consta de cinco grabaciones de habla oral espontánea (sonido y vídeo) en español y en inglés, que se realizaron durante las II jornadas MAVIR, celebradas en el auditorio del edificio B de la Universidad Europea de Madrid los días 15 y 16 de noviembre de 2007.
Las conferencias y mesas redondas grabadas son las siguientes:
La recogida del corpus fue dirigida por Antonio Moreno Sandoval, y fue diseñado, transcrito y procesado informáticamente en el Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid por las siguientes personas:
Transcripción:
Revisión:
Consta de cinco grabaciones de habla oral espontánea (sonido y vídeo) en español y en inglés, que se realizaron durante las III jornadas MAVIR, celebradas en el Centro de Ciencias Humanas y Sociales (CSIC) de Madrid, los días 27 y 28 de noviembre de 2008.
Las conferencias y mesas redondas grabadas son las siguientes:
La recogida del corpus fue dirigida por Antonio Moreno Sandoval, y fue diseñado, transcrito y procesado informáticamente en el Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid por las siguientes personas:
Transcripción
Revisión:
Los datos sobre las grabaciones y las transcripciones realizadas hasta el momento se ofrecen en la siguiente tabla:
Archivo | Título | Duración | Nº palabras* | Lengua |
mavir01 | Challenges for Information Extraction | 1h 07' 39" | 9113 | Inglés |
mavir02 | Proceso de innovación de tecnologías de acceso a la información: ¿Cómo llegar al mercado? | 1h 14' 32" | 13422 | Español |
mavir03 | España y los buscadores: un mercado potencial | 38' 11" | 6681 | Español |
mavir04 | Aplicaciones en dominios médico y cultural | 57’ 22" | 9310 | Español |
mavir05 | On-demand Information Extraction | 36' 08" | 4461 | Inglés |
mavir06 | Buscador General Panhispánico | 29' 09" | 4332 | Español |
mavir07 | Tecnología de la Web Semántica | 21' 47" | 3831 | Español |
mavir08 | Premio MAVIR 2007 | 18' 55" | 3356 | Español |
mavir09 | Buenas prácticas en presencia web para grupos de investigación | 1h 10' 03" | 11179 | Español |
mavir10 | Multimedia Retrieval and Evaluation | 1h 27' 24" | 15659 | Inglés |
mavir11 | Premio MAVIR 2008 | 20' 20" | 3130 | Español |
mavir12 | Beyond Text-based Multimedia Retrieval | 1h 7' 40" | 11168 | Español |
mavir13 | Buscando cangrejos en Flickr | 43' 38 | 7837 | Español |
TOTAL | 10h 38' 48" | 103479 |
*El recuento del número de palabras se ha realizado provisionalmente considerando como palabra cada conjunto de caracteres separadas por un espacio en blanco; de esta manera, "o sea" o "es decir" serían consideradas cada una como dos palabras, aunque lingüísticamente tendrían que contarse como una locución o palabra múltiple.
El consorcio que distribuye el corpus reconoce que los derechos de copia (copyright) de los contenidos de cada conferencia pertenecen a los respectivos conferenciantes.
Todos los derechos, incluyendo los derechos de copia (copyright), son propiedad de las instituciones que participan en el consorcio MAVIR.
El corpus se puede usar con objetivos de investigación no comerciales y no lucrativos, sin realizar cambios, y reconociendo su uso corpus en todas las publicaciones que aporten resultados producidos con la ayuda del corpus MAVIR.