Main

Laboratorio de Lingüística Informática

FinT-Esp: Finantial text analytics in Spanish: Tools and language resources.

Financiado por MINECO 2017
Proyectos de I+D+I del Programa Estatal de Investigación, Desarrollo e Innovación Orientada a los Retos de la Sociedad.
Fechas: 01 Enero de 2018 hasta 31 Diciembre 2020

El análisis automático del contenido de textos es lo que se denomina Text Analytics (Moreno & Redondo 2016). Tiene un campo de aplicación muy amplio, desde el análisis de comentarios en las redes sociales hasta extracción de información de textos legales, médicos o financieros. El reto para estos sistemas es entender el contenido de las emisiones lingüísticas y mostrar la información relevante.

Para conseguir los objetivos se emplean diferentes técnicas, desde métodos estadísticos (data mining) hasta procedimientos basados en reglas. Nuestra aproximación se basa en el método clásico de la Lingüística Computacional: mediante reglas y lexicones específicos del dominio, anotamos la información relevante en los textos no estructurados, para posteriormente analizarla cualitativa y cuantitavamente con herramientas de lingüística de corpus (Lyneal y Wmatrix).

Esta propuesta integra la experiencia de dos equipos reconocidos internacionalmente, el Laboratorio de Lingüística Informática de la UAM (LLI-UAM) y el University Centre for Computer Corpus Research on Language (UCREL) de la U. de Lancaster.

Durante más de dos décadas estos equipos han desarrollado de manera independiente programas y corpus para el tratamiento de texto. El principal objetivo de esta propuesta es integrar el español dentro de las herramientas desarrolladas por UCREL, para utilizarlas en el análisis de textos financieros, en concreto, de los informes financieros anuales de las empresas. Con ese objetivo, se recopilará un corpus de textos financieros en español, procedentes de los informes anuales, que será anotado con una nueva versión del Semantic Tagger de UCREL.

Los temas del proyecto y sus resultados se enmarcan plenamente dentro del Reto 7 "Economía y sociedad digitales", por cuanto que ayudan a procesar y entender contenidos financieros en formato digital. Las tecnologías lingüísticas están incluidas dentro de un plan estratégico de la Agenda Digital para España. Los resultados son de interés para su transferencia industrial, a través de aplicaciones informáticas y servicios desarrollados y comercializados por entidades de investigación como el Instituto de Ingeniería del Conocimiento, localizada dentro del campus de la UAM, en la que colaboran dos de los integrantes de equipo.


Página de la consulta



Publicaciones

Moreno-Sandoval, A., Gisbert, A., Haya, P.A., Guerrero, M. y Montoro, H.: "Tone Analysis in Spanish Financial Reporting Narratives." In Proceedings of the Second Financial Narrative Processing Workshop (FNP 2019). NoDaLiDa, Turku, Finlandia, 30 Sept 2019, pp. 42-50

Moreno-Sandoval, A., Gisbert, A. y Montoro, H. "FinT-esp: a corpus of financial reports in Spanish. " Presentado en CILC-2019, Valencia. Aparecerá en la ed. Comares.

Moreno-Sandoval, A.: "Possibility and necessity in financial narrative: a study of modal adverbs in Spanish. " Presentado en el XI Congreso Internacional de Lingüistica de Corpus (CILC-2019), Valencia. Publicada en Actas.

Moreno-Sandoval, A.: "Some discursive aspects of financial narrative in Spanish: modality, lexical distinctiveness and sentiment analysis " Ponencia plenaria en 3rd International Conferenceon Corpus Analysis in Academic Discourse 2019 (CAAD'19).




Main Main