RECURSOS LINGUÍSTICOS
CORPUS
HERRAMIENTAS Y MODELOS
SERVICIOS
Desarrollo de Corpus Orales y Escritos
La metodología de elaboración de corpus es un proceso sistematizado desarrollado por el Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid, España.
Se ofrece a través de la firma de un acuerdo entre el cliente y el LLI. El trabajo incluye todas las etapas del desarrollo desde el diseño del corpus, la captura de los datos y el posterior análisis, anotación y enriquecimiento de la colección.
Diseño preliminar teniendo en cuenta las características socio-lingüísticas (edad, sexo, datos demográficos, origen lingüístico, educación, etc.) y el contexto comunicativo (esta información puede modificarse en función de los objetivos del estudio y el diseño puede adaptarse a las variables a considerar)
Recolección de datos (grabaciones, capturas de video, edición)
Transcripción ortográfica (indicando tanto la variante normativa como la enunciación real)
Anotación prosódica, marcas de pausa, alargamientos vocálicos, solapamientos, interrupciones, entonación, etc.
Alineamiento de unidades de texto-sonido en enunciados
Anotación morfológica semi-automática (información morfológica y lemas)
Anotación fonológica automática
ACTAS
8º Congreso de Lingüística General
I Jornadas en Humanidades Digitales:
• Paul Rayson (Lancaster University, CLARIN Ambassador): Linking digital humanities with NLP and corpus linguistics
• Antonio Moreno Sandoval (LLI-UAM): Herramientas digitales para literatura: el diccionario de lemas y formas del Quijote.
• Alicia González (Universität Hamburg): Digital humanities for classical arabic: applications for historians and philologists.