ANTECEDENTES
El Laboratorio de Lingüística Informática (LLI) es un grupo de investigación reconocido por la Universidad Autónoma de Madrid (UAM)
La historia del Laboratorio de Lingüística Informática se inició en el Centro de Investigación UAM-IBM, poco después de la incorporación a la UAM de Francisco Marcos Marín como Catedrático de Lingüística General, en 1981. En los años ochenta los trabajos realizados tuvieron un doble objetivo: por un lado la colaboración con IBM, en proyectos de carácter inmediato, como correctores ortográficos, léxicos, desarrollo de instrumentos para los nuevos ordenadores personales.
Por otra parte, se iniciaron los trabajos para la aplicación de los ordenadores a la Filología, sobre todo en el terreno de las ediciones unificadas y críticas. Este segundo trabajo daría lugar más adelante a programas de edición crítica electrónica, como UNITE y a proyectos mucho más amplios, como ADMYTE, el Archivo Digital de Manuscritos y Textos Electrónicos.
El trabajo iniciado en el Centro Científico UAM-IBM se extendió al centro similar de IBM en Heidelberg, gracias a la beca concedida por la Alexander von Humboldt Stiftung a Francisco Marcos Marín. Entre 1985 y 1987 se preparó la primera gran aplicación de los programas informáticos a la edición de textos, con su aplicación al Libro de Alexandre. Las actividades realizadas entre Madrid y Alemania pusieron al grupo en contacto con otros grupos europeos que se iniciaban en actividades lingüísticas e informáticas, especialmente con el grupo que iniciaba el proyecto EUROTRA, de traducción por ordenador, patrocinado por la entonces Comisión Europea.
Si bien es cierto que hay que buscar en el Centro Científico UAM-IBM el origen del Laboratorio, su concreción como tal no llegó hasta Eurotra. Junto a investigadores que habían trabajado en el Centro, como Antonio Moreno Sandoval, se incorporaron otros, como Fernando Sánchez León y Flora Ramírez Bustamante, que han sido los ejes de la actividad desarrollada desde entonces.
A principios de los 90, a la actividad de Eurotra se sumó la de los archivos digitales patrocinada por la Sociedad Estatal del Quinto Centenario. Esto explica la bifurcación que se aprecia en la actividad del Laboratorio y sus proyectos, la orientación filológico-textual, por un lado, y la lingüística de corpus, por otro. Entre ambos extremos se tienden numerosos puentes, sin descuidar proyecciones hacia nuevas posibilidades.
Por ello el Laboratorio es un centro de permanente inquietud, siempre abierto a colaboraciones y a consorcios, que ocupa un lugar propio en el conjunto de las relaciones de Informática y Lengua en España y el mundo hispano-hablante.
Desde el año 2000, el LLI se ha especializado en la compilación de corpus: corpus paralelos (árabe-español-inglés), de habla espontánea (C-ORAL-ROM), de habla infantil (CHIEDE), corpus multimodales (MAVIR), de aprendices de lenguas extranjeras (Corpus Oral de Español como Lengua Extranjera y Corpus Oral de Aprendientes de Francés) y corpus de lenguaje especializado (MultiMedica). También se han creado diversos recursos lingüísticos como bases de datos acústicas, aplicaciones de corpus para la enseñanza de lenguas (Textos de español oral, UAM Ediciones, 2010), diccionarios electrónicos (de japonés-inglés-español, y de preposiciones del francés), y un analizador morfológico de verbos del árabe (JABALÍN).
El LLI mantiene una fluida colaboración con diferentes investigadores y profesores de los Departamentos de Ingeniería Informática e Ingeniería de Telecomunicación en el campus de Cantoblanco. Desde diciembre de 2009, el LLI colabora con el Instituto de Ingeniería del Conocimiento, institución privada de I+D+i sin ánimo de lucro, sita en el campus de la UAM.
LÍNEAS DE INVESTIGACIÓN
Compilación de corpus orales y escritos, multilingües y multimodales
Bases de datos acústicas
Anotación lingüística en todos los niveles: fonológico, morfológico, sintáctico, semántico y pragmático
Diccionarios electrónicos
Traducción automática
Herramientas para manejo de corpus lingüísticos (orales y escritos) (actuales y diacrónicos)
Herramientas informáticas para estudios lingüísticos y/o filológicos
Gramáticas computacionales
Terminología
TESIS DOCTORALES FINALIZADAS
Doctorando
Xioahan Zhang
Título
Análisis de los tiempos verbales del español empleados por estudiantes chinos mediante técnicas de Lingüística de Corpus
Defendida en julio de 2022
Directores
Antonio Moreno Sandoval
Paula Gozalo Gómez
Doctorando
Nuria Aldama
Título
Disambiguating Spanish se constructions with machine learning techniques
Defendida el 10 de diciembre de 2021
Director
Antonio Moreno Sandoval
Doctorando
Patricia Elhazaz Walsh
Título
Análisis de la fluidez lectora y la interlengua oral en un corpus de aprendices de inglés como lengua extranjera
Defendida el 29 de enero de 2021
Directores
Leonardo Campillos Llanos
Daniel Bolaños Alonso
Doctorando
Yuanyi Liu
Título
Diccionario de terminología médica español-chino basado en corpus
Defendida el 4 de septiembre de 2018
Director
Antonio Moreno Sandoval
Doctorando
Marta Vacas Matos
Título
Diseño y compilación de un corpus multimodal de análisis pragmático para la aplicación a la enseñanza de español L2/LE
Defendida el 9 de septiembre de 2017
Directores
Antonio Moreno Sandoval
Paula Gozalo Gómez
Doctorando
Carlos Herrero Zorita
Título
Modality in spoken Spanish and Japanese: a corpus-based study and automatic annotation
Defendida el 11 de mayo de 2017
Director
Antonio Moreno Sandoval
Doctorando
Emi Takamori
Título
Análisis de usos de partículas japonesas basado en corpus de estudiantes españoles
Defendida el 18 de junio de 2014
Director
Antonio Moreno Sandoval
Doctorando
Alicia González Martínez
Título
A computational model of modern standard arabic verbal morphology based on generation
Defendida el 29 de enero de 2013
Director
Antonio Moreno Sandoval
Doctorando
Leonardo Campillos Llanos
Título
La expresión oral en español lengua extranjera: interlengua y análisis de errores basado en corpus
Defendida el 17 de diciembre de 2012
Directores
Antonio Moreno Sandoval
Paula Gozalo Gómez
Doctorando
Ana Valverde Mateos
Título
Análisis de errores de aprendientes de francés lengua extranjera (FLE) basado en corpus orales
Defendida el 4 de junio de 2012
Directores
Antonio Moreno Sandoval
Concepción Sanz Miguel (UCLM)
Doctorando
Yang Dong
Título
Compilación de un corpus de habla espontánea de chino putonghua para la aplicación en la enseñanza como lengua segunda a hispanohablantes
Defendida en 2011
Director
Antonio Moreno Sandoval
Doctorando
Ana González Ledesma
Título
Los marcadores del discurso en el corpus C-ORAL-ROM: anotación pragmática, estrategias computacinales de etiquetado y aplicaciones a otros campos
Defendida en 2010
Director
Antonio Moreno Sandoval
Doctorando
Marta Garrote Salazar
Título
CHIEDE: corpus de habla infantil espontánea del español
Defendida en 2008
Director
Antonio Moreno Sandoval
Doctorando
Doaa Ahmed Samy
Título
Recursos bilingües de Ingeniería Lingüística para el procesamiento del español y árabe
Defendida en 2005
Director
Antonio Moreno Sandoval
Doctorando
Manuel Alcántara Pla
Título
Anotación y recuperación de información semántica eventiva en corpus
Defendida en 2005
Director
Antonio Moreno Sandoval
TESIS DOCTORALES EN CURSO
Doctorando
Blanca Carbajo Coronado
Título provisional
Tratamiento computacional de las relaciones de causa-efecto en español con técnicas de aprendizaje automático
Director
Antonio Moreno Sandoval
FORMA DE CONTACTO
Persona de contacto
Antonio Moreno Sandoval
Teléfono
(+34) 91 497 52 50 / (+34) 91 497 87 07
Departamento de Lingüística, Lenguas Modernas, Lógica y Filosofía de la Ciencia
Facultad de Filosofía y Letras – Universidad Autónoma de Madrid
Campus de Cantoblanco, Carretera de Colmenar, km. 16, 28049 Madrid