Laboratorio de Lingüística Informática

RECURSOS LINGUÍSTICOS

CORPUS

HERRAMIENTAS Y MODELOS

SERVICIOS

Desarrollo de Corpus Orales y Escritos

La metodología de elaboración de corpus es un proceso sistematizado desarrollado por el Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid, España.

Se ofrece a través de la firma de un acuerdo entre el cliente y el LLI. El trabajo incluye todas las etapas del desarrollo desde el diseño del corpus, la captura de los datos y el posterior análisis, anotación y enriquecimiento de la colección.

 

Diseño preliminar teniendo en cuenta las características socio-lingüísticas (edad, sexo, datos demográficos, origen lingüístico, educación, etc.) y el contexto comunicativo (esta información puede modificarse en función de los objetivos del estudio y el diseño puede adaptarse a las variables a considerar)

Recolección de datos (grabaciones, capturas de video, edición)

Transcripción ortográfica (indicando tanto la variante normativa como la enunciación real)

Anotación prosódica, marcas de pausa, alargamientos vocálicos, solapamientos, interrupciones, entonación, etc.

Alineamiento de unidades de texto-sonido en enunciados

Anotación morfológica semi-automática
 (información morfológica y lemas)

Anotación fonológica automática

ACTAS

8º Congreso de Lingüística General

I Jornadas en Humanidades Digitales:

  • Paul Rayson (Lancaster University, CLARIN Ambassador): Linking digital humanities with NLP and corpus linguistics

  • Antonio Moreno Sandoval (LLI-UAM): Herramientas digitales para literatura: el diccionario de lemas y formas del Quijote.

  • Alicia González (Universität Hamburg): Digital humanities for classical arabic: applications for historians and philologists.