Información – Laboratorio de Lingüística Informática

ANTECEDENTES

El Laboratorio de Lingüística Informática (LLI) es un grupo de investigación reconocido por la Universidad Autónoma de Madrid (UAM)

La historia del Laboratorio de Lingüística Informática se inició en el Centro de Investigación UAM-IBM, poco después de la incorporación a la UAM de Francisco Marcos Marín como Catedrático de Lingüística General, en 1981. En los años ochenta los trabajos realizados tuvieron un doble objetivo: por un lado la colaboración con IBM, en proyectos de carácter inmediato, como correctores ortográficos, léxicos, desarrollo de instrumentos para los nuevos ordenadores personales.

Por otra parte, se iniciaron los trabajos para la aplicación de los ordenadores a la Filología, sobre todo en el terreno de las ediciones unificadas y críticas. Este segundo trabajo daría lugar más adelante a programas de edición crítica electrónica, como UNITE y a proyectos mucho más amplios, como ADMYTE, el Archivo Digital de Manuscritos y Textos Electrónicos.

El trabajo iniciado en el Centro Científico UAM-IBM se extendió al centro similar de IBM en Heidelberg, gracias a la beca concedida por la Alexander von Humboldt Stiftung a Francisco Marcos Marín. Entre 1985 y 1987 se preparó la primera gran aplicación de los programas informáticos a la edición de textos, con su aplicación al Libro de Alexandre. Las actividades realizadas entre Madrid y Alemania pusieron al grupo en contacto con otros grupos europeos que se iniciaban en actividades lingüísticas e informáticas, especialmente con el grupo que iniciaba el proyecto EUROTRA, de traducción por ordenador, patrocinado por la entonces Comisión Europea.

Si bien es cierto que hay que buscar en el Centro Científico UAM-IBM el origen del Laboratorio, su concreción como tal no llegó hasta Eurotra. Junto a investigadores que habían trabajado en el Centro, como Antonio Moreno Sandoval, se incorporaron otros, como Fernando Sánchez León y Flora Ramírez Bustamante, que han sido los ejes de la actividad desarrollada desde entonces.

A principios de los 90, a la actividad de Eurotra se sumó la de los archivos digitales patrocinada por la Sociedad Estatal del Quinto Centenario. Esto explica la bifurcación que se aprecia en la actividad del Laboratorio y sus proyectos, la orientación filológico-textual, por un lado, y la lingüística de corpus, por otro. Entre ambos extremos se tienden numerosos puentes, sin descuidar proyecciones hacia nuevas posibilidades.

Por ello el Laboratorio es un centro de permanente inquietud, siempre abierto a colaboraciones y a consorcios, que ocupa un lugar propio en el conjunto de las relaciones de Informática y Lengua en España y el mundo hispano-hablante.

Desde el año 2000, el LLI se ha especializado en la compilación de corpus: corpus paralelos (árabe-español-inglés), de habla espontánea (C-ORAL-ROM), de habla infantil (CHIEDE), corpus multimodales (MAVIR), de aprendices de lenguas extranjeras (Corpus Oral de Español como Lengua Extranjera y Corpus Oral de Aprendientes de Francés) y corpus de lenguaje especializado (MultiMedica). También se han creado diversos recursos lingüísticos como bases de datos acústicas, aplicaciones de corpus para la enseñanza de lenguas (Textos de español oral, UAM Ediciones, 2010), diccionarios electrónicos (de japonés-inglés-español, y de preposiciones del francés), y un analizador morfológico de verbos del árabe (JABALÍN).

El LLI mantiene una fluida colaboración con diferentes investigadores y profesores de los Departamentos de Ingeniería Informática e Ingeniería de Telecomunicación en el campus de Cantoblanco. Desde diciembre de 2009, el LLI colabora con el Instituto de Ingeniería del Conocimiento, institución privada de I+D+i sin ánimo de lucro, sita en el campus de la UAM.

LÍNEAS DE INVESTIGACIÓN

Compilación de corpus orales y escritos, multilingües y multimodales

Bases de datos acústicas

Anotación lingüística en todos los niveles: fonológico, morfológico, sintáctico, semántico y pragmático

Treebanks

Extracción de información

Diccionarios electrónicos

Traducción automática

Herramientas para manejo de corpus lingüísticos (orales y escritos) (actuales y diacrónicos)

Herramientas informáticas para estudios lingüísticos y/o filológicos

Gramáticas computacionales

Terminología

TESIS DOCTORALES EN CURSO

Doctorando
Yanco Amor Torterolo Orta

Título provisional
Knowledge Graphs y Retrieval-Augmented Generation (RAG) para agentes conversacionales literarios

Directores
Antonio Moreno Sandoval
Ana María García Serrano

Doctorando
Sofía Micaela Roseti

Título provisional
Galdós y la IA generativa: buscador de respuestas semántico

Directores
Antonio Moreno Sandoval
Tomás Albaladejo Mayordomo

Doctorando
Blanca Carbajo Coronado

Título provisional
Tratamiento computacional de las relaciones de causa-efecto en español con técnicas de aprendizaje automático

Director
Antonio Moreno Sandoval

TESIS DOCTORALES FINALIZADAS

Doctorando
Xioahan Zhang

Título
Análisis de los tiempos verbales del español empleados por estudiantes chinos mediante técnicas de Lingüística de Corpus

Defendida en julio de 2022

Directores
Antonio Moreno Sandoval
Paula Gozalo Gómez

Doctorando
Nuria Aldama

Título
Disambiguating Spanish se constructions with machine learning techniques

Defendida el 10 de diciembre de 2021

Director
Antonio Moreno Sandoval

Doctorando
Patricia Elhazaz Walsh

Título
Análisis de la fluidez lectora y la interlengua oral en un corpus de aprendices de inglés como lengua extranjera

Defendida el 29 de enero de 2021

Directores
Leonardo Campillos Llanos
Daniel Bolaños Alonso

Doctorando
Yuanyi Liu

Título
Diccionario de terminología médica español-chino basado en corpus

Defendida el 4 de septiembre de 2018

Director
Antonio Moreno Sandoval

Doctorando
Marta Vacas Matos

Título
Diseño y compilación de un corpus multimodal de análisis pragmático para la aplicación a la enseñanza de español L2/LE

Defendida el 9 de septiembre de 2017

Directores
Antonio Moreno Sandoval
Paula Gozalo Gómez

Doctorando
Carlos Herrero Zorita

Título
Modality in spoken Spanish and Japanese: a corpus-based study and automatic annotation

Defendida el 11 de mayo de 2017

Director
Antonio Moreno Sandoval

Doctorando
Emi Takamori

Título
Análisis de usos de partículas japonesas basado en corpus de estudiantes españoles

Defendida el 18 de junio de 2014

Director
Antonio Moreno Sandoval

Doctorando
Alicia González Martínez

Título
A computational model of modern standard arabic verbal morphology based on generation

Defendida el 29 de enero de 2013

Director
Antonio Moreno Sandoval

Doctorando
Leonardo Campillos Llanos

Título
La expresión oral en español lengua extranjera: interlengua y análisis de errores basado en corpus

Defendida el 17 de diciembre de 2012

Directores
Antonio Moreno Sandoval
Paula Gozalo Gómez

Doctorando
Ana Valverde Mateos

Título
Análisis de errores de aprendientes de francés lengua extranjera (FLE) basado en corpus orales

Defendida el 4 de junio de 2012

Directores
Antonio Moreno Sandoval
Concepción Sanz Miguel (UCLM)

Doctorando
Yang Dong

Título
Compilación de un corpus de habla espontánea de chino putonghua para la aplicación en la enseñanza como lengua segunda a hispanohablantes

Defendida en 2011

Director
Antonio Moreno Sandoval

Doctorando
Ana González Ledesma

Título
Los marcadores del discurso en el corpus C-ORAL-ROM: anotación pragmática, estrategias computacinales de etiquetado y aplicaciones a otros campos

Defendida en 2010

Director
Antonio Moreno Sandoval

Doctorando
Marta Garrote Salazar

Título
CHIEDE: corpus de habla infantil espontánea del español

Defendida en 2008

Director
Antonio Moreno Sandoval

Doctorando
Doaa Ahmed Samy

Título
Recursos bilingües de Ingeniería Lingüística para el procesamiento del español y árabe

Defendida en 2005

Director
Antonio Moreno Sandoval

Doctorando
Manuel Alcántara Pla

Título
Anotación y recuperación de información semántica eventiva en corpus

Defendida en 2005

Director
Antonio Moreno Sandoval

FORMA DE CONTACTO

Persona de contacto
Antonio Moreno Sandoval

Teléfono
(+34) 91 497 52 50 / (+34) 91 497 87 07

Departamento de Lingüística, Lenguas Modernas, Lógica y Filosofía de la Ciencia
Facultad de Filosofía y Letras – Universidad Autónoma de Madrid

Campus de Cantoblanco, Carretera de Colmenar, km. 16, 28049 Madrid