Main

Laboratorio de Lingüística Informática

Logo MAVIR

Corpus MAVIR

El corpus MAVIR es una colección de grabaciones de sonido y vídeo con sus correspondientes transcripciones de habla oral, procesadas informáticamente. Su elaboración se dirige a la investigación en procesamiento de lenguaje natural y tecnologías de habla.


Consulta del corpus MAVIR Consulta del corpus MAVIR

Las grabaciones proceden de las conferencias y charlas especializadas sobre tecnologías de la lengua celebradas en el marco del consorcio MAVIR (Mejorando el Acceso y Visibilidad de la Información multilingüe en Red para la Comunidad de Madrid). MAVIR es una red de investigación co-financiada por la Comunidad de Madrid dentro del IV Plan Regional de Investigación Científica Innovación Tecnológica (IV PRICIT) y formada por un equipo multidisciplinar de científicos, técnicos, lingüistas y documentalistas. El consorcio está formado por los siguientes grupos de investigación de Madrid:

A las personas grabadas en el corpus MAVIR se les pidió permiso por escrito, y firmaron su consentimiento para las grabaciones.


Corpus MAVIR 2006

Consta de cuatro grabaciones de habla oral espontánea (sonido y vídeo) en español y en inglés, que se realizaron durante las I jornadas MAVIR, celebradas en Madrid el 16-17 de noviembre de 2006.

Las conferencias y mesas redondas son las siguientes:

La recogida del corpus fue dirigida por Antonio Moreno Sandoval, y fue diseñado, transcrito, revisado y procesado informáticamente en el Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid por las siguientes personas:


Corpus MAVIR 2007

Consta de cinco grabaciones de habla oral espontánea (sonido y vídeo) en español y en inglés, que se realizaron durante las II jornadas MAVIR, celebradas en el auditorio del edificio B de la Universidad Europea de Madrid los días 15 y 16 de noviembre de 2007.

Las conferencias y mesas redondas grabadas son las siguientes:

La recogida del corpus fue dirigida por Antonio Moreno Sandoval, y fue diseñado, transcrito y procesado informáticamente en el Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid por las siguientes personas:

Transcripción:

Revisión:


Corpus MAVIR 2008

Consta de cinco grabaciones de habla oral espontánea (sonido y vídeo) en español y en inglés, que se realizaron durante las III jornadas MAVIR, celebradas en el Centro de Ciencias Humanas y Sociales (CSIC) de Madrid, los días 27 y 28 de noviembre de 2008.

Las conferencias y mesas redondas grabadas son las siguientes:

La recogida del corpus fue dirigida por Antonio Moreno Sandoval, y fue diseñado, transcrito y procesado informáticamente en el Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid por las siguientes personas:

Transcripción

Revisión:


Los datos sobre las grabaciones y las transcripciones realizadas hasta el momento se ofrecen en la siguiente tabla:

Archivo Título Duración Nº palabras* Lengua
mavir01 Challenges for Information Extraction 1h 07' 39" 9113 Inglés
mavir02 Proceso de innovación de tecnologías de acceso a la información: ¿Cómo llegar al mercado? 1h 14' 32" 13422 Español
mavir03 España y los buscadores: un mercado potencial 38' 11" 6681 Español
mavir04 Aplicaciones en dominios médico y cultural 57’ 22" 9310 Español
mavir05 On-demand Information Extraction 36' 08" 4461 Inglés
mavir06 Buscador General Panhispánico 29' 09" 4332 Español
mavir07 Tecnología de la Web Semántica 21' 47" 3831 Español
mavir08 Premio MAVIR 2007 18' 55" 3356 Español
mavir09 Buenas prácticas en presencia web para grupos de investigación 1h 10' 03" 11179 Español
mavir10 Multimedia Retrieval and Evaluation 1h 27' 24" 15659 Inglés
mavir11 Premio MAVIR 2008 20' 20" 3130 Español
mavir12 Beyond Text-based Multimedia Retrieval 1h 7' 40" 11168 Español
mavir13 Buscando cangrejos en Flickr 43' 38 7837 Español
TOTAL 10h 38' 48" 103479  

*El recuento del número de palabras se ha realizado provisionalmente considerando como palabra cada conjunto de caracteres separadas por un espacio en blanco; de esta manera, "o sea" o "es decir" serían consideradas cada una como dos palabras, aunque lingüísticamente tendrían que contarse como una locución o palabra múltiple.


El consorcio que distribuye el corpus reconoce que los derechos de copia (copyright) de los contenidos de cada conferencia pertenecen a los respectivos conferenciantes.

Todos los derechos, incluyendo los derechos de copia (copyright), son propiedad de las instituciones que participan en el consorcio MAVIR.

El corpus se puede usar con objetivos de investigación no comerciales y no lucrativos, sin realizar cambios, y reconociendo su uso corpus en todas las publicaciones que aporten resultados producidos con la ayuda del corpus MAVIR.





Main Main