Análisis lingüísticos sobre el español basado en recursos en formato electrónico
Financiado por UAM y Banco Santander
Duración: del 1 de julio de 2013 al 31 de diciembre de 2014
Responsable español: Antonio Moreno Sandoval (UAM)
Responsable japonés: Hiroto Ueda (University of Tokyo), Toshihiro Takagaki (Tokyo University of Foreign Studies), Antonio Ruiz Tinoco (Sophia University)
El proyecto supone la colaboración del Laboratorio de Lingüística Informática (LLI) con tres equipos de investigación japoneses de Tokio University of Foreign Studies (TUFS), University of Tokyo y Sophia University para la reutilización de recursos lingüísticos electrónicos desarrollados previamente por los distintos equipos. El objetivo central es la integración de corpus para desarrollar estudios lingüísticos sobre el español.
Recursos compartidos
- Corpus de español desarrollados por el grupo LLI-UAM, TUFS, Sophia y Tokyo.
- Programas de anotación morfosintáctica (GRAMPAL, del LLI-UAM).
- LETRAS-WEB
- NUMEROS-WEB
Herramienta desarrolla por Hiroto Ueda (Universidad de Tokio) para la consulta avanzada en textos. Permite, entre otros, la búsqueda de patrones lingüísticos y de palabras, recuentos por frecuencia y funciones de concordancia y palabra clave en contexto (Key Word in Context, KWIC).
Objetivos del proyecto
- Reunir y reutilizar los corpus y etiquetadores de los diferentes equipos, para hacer investigaciones conjuntas sobre la estructura del español.
- Desarrollar conjuntamente herramientas de análisis (etiquetadores morfológicos).
- Compartición de materiales didácticos y experiencias entre los investigadores de los distintos equipos.
- Publicación conjunta de las investigaciones realizadas.
Todo ello redundará en una mejora de las relaciones institucionales y docentes entre las diferentes universidades implicadas, todas ellas de excelencia dentro del contexto nacional e internacional. A este respecto hay que señalar que ya existe un convenio entre TUFS y UAM para el intercambio de profesores y estudiantes.
Metodología
- Diseño de la integración de los recursos existentes: análisis de los requisitos y costes de la integración de los corpus dentro de una plataforma informática para consulta general.
- Adaptación de los recursos existentes al formato para la plataforma informática de consulta.
- Integración de los recursos informáticos: el programa GRAMPAL (Laboratorio de Lingüística Informática) y el programa LETRAS (desarrollado por el profesor Hiroto Ueda, University of Tokyo).
- Indexación de los corpus dentro de la base de datos para la consulta.
- Desarrollo de la página web de consulta, basada en la metodología del LLI.
- Análisis lingüísticos con los recursos integrados (ej. listas de frecuencias o análisis de patrones sintácticos).
Investigadores
España:
- UAM: Laboratorio de Lingüística Informática
- Antonio Moreno-Sandoval (Investigador principal)
- Leonardo Campillos Llanos (Contratado postdoctoral)
- Carlos Herrero Zorita (Estudiante de doctorado)
- Paula Gozalo Gómez (>Profesora de español para extranjeros en el Servicio de Idiomas)
- Théophile Ambadiang (Profesor titular)
Japón:
- University of Tokyo
- Hiroto Ueda (Catedrático)
- Tokyo University of Foreing Studies
- Toshihiro Takagaki (Catedrático)
- Ryo Tsutahara (Estudiante de doctorado)
- Sophia University
- Antonio Ruiz Tinoco (Catedrático)
Publicaciones