Laboratorio de Lingüística Informática
FinT-Esp: Financial text analytics in Spanish: Tools and language resources.Financiado por MINECO 2017
|
El análisis automático del contenido de textos es lo que se denomina Text Analytics (Moreno & Redondo 2016).
Tiene un campo de aplicación muy amplio, desde el análisis de comentarios en las redes sociales hasta extracción de información de textos legales, médicos o financieros. El reto para estos sistemas es entender el contenido de las emisiones lingüísticas y mostrar la información relevante.
Para conseguir los objetivos se emplean diferentes técnicas, desde métodos estadísticos (data mining) hasta procedimientos basados en reglas.
Nuestra aproximación se basa en el método clásico de la Lingüística Computacional: mediante reglas y lexicones específicos del dominio, anotamos la información relevante en los textos no estructurados, para posteriormente analizarla cualitativa y cuantitavamente con herramientas de lingüística de corpus (Lyneal y Wmatrix).
Esta propuesta integra la experiencia de dos equipos reconocidos internacionalmente, el Laboratorio de Lingüística Informática de la UAM (LLI-UAM) y el University Centre for Computer Corpus Research on Language (UCREL) de la U. de Lancaster.
Durante más de dos décadas estos equipos han desarrollado de manera independiente programas y corpus para el tratamiento de texto. El principal objetivo de esta propuesta es integrar el español dentro de las herramientas desarrolladas por UCREL, para utilizarlas en el análisis de textos financieros, en concreto, de los informes financieros anuales de las empresas. Con ese objetivo, se recopilará un corpus de textos financieros en español,
procedentes de los informes anuales, que será anotado con una nueva versión del Semantic Tagger de UCREL.
Los temas del proyecto y sus resultados se enmarcan plenamente dentro del Reto 7 "Economía y sociedad digitales", por cuanto que ayudan a procesar y entender contenidos financieros en formato digital. Las tecnologías lingüísticas están incluidas dentro de un plan estratégico de la Agenda Digital para España.
Los resultados son de interés para su transferencia industrial, a través de aplicaciones informáticas y servicios desarrollados y comercializados por entidades de investigación como el Instituto de Ingeniería del Conocimiento, localizada dentro del campus de la UAM, en la que colaboran dos de los integrantes de equipo.
El procesamiento de narrativa financiera (Financial Narrative Processing o FNP) es la rama de PLN aplicada al dominio económico-financiero que incluye todos los sistemas que procesan y analizan grandes cantidades de datos financieros textuales y numéricos con el fin de extraerlos, resumirlos o analizarlos mediante enfoques automáticos y asistidos por ordenador.
Este proyecto busca reunir un equipo internacional multidisciplinar (lingüistas, informáticos, economistas) con dos objetivos principales:
El proyecto integra la experiencia de dos equipos reconocidos internacionalmente, el Laboratorio de Lingüística Informática de la UAM (LLI-UAM) y el University Centre for Computer Corpus Research on Language (UCREL) de la U. de Lancaster.
Equipo de investigación:
Equipo de trabajo:
Primero se llevó a cabo el proceso de compilación:
Terminado el proceso se obtuvieron dos corpus:
Fase 2: Herramientas desarrolladas
La primera tarea puramente informática consistió en la integración o adaptación de las herramientas desarrolladas previamente por los equipos de la UAM y Lancaster:
En segundo lugar, los informáticos del proyecto, Guirao y Jiménez, han desarrollado dos herramientas:
Fase 3: Estudios lingüísticos
El equipo cuenta con expertos en finanzas (Ana Gisbert) y en traducción especializada en el dominio financiero (Chelo Vargas). Por ello, uno de los objetivos era aprovechar el corpus y las herramientas para realizar estudios de amplia base, con metodología de Lingüística de Corpus. Los trabajos se centran en cuatro temas:
Fase 4: Experimentos con técnicas de aprendizaje automático
Se han aplicado diferentes técnicas de PLN a FinT-esp:
Para las dos primeras tareas se ha adoptado una estrategia clásica basada en léxico y reglas. Para las otras tres tareas se han aplicado técnicas de aprendizaje automático a partir de una anotación manual.
Resultados de los experimentos:
Moreno-Sandoval, A., Gisbert, A., Haya, P.A., Guerrero, M. y Montoro, H.: "Tone Analysis in Spanish Financial Reporting Narratives." In Proceedings of the Second Financial Narrative Processing Workshop (FNP 2019). NoDaLiDa, Turku, Finlandia, 30 Sept 2019, pp. 42-50
Moreno-Sandoval, A., Gisbert, A. y Montoro, H. "FinT-esp: a corpus of financial reports in Spanish. " Presentado en CILC-2019, Valencia. Aparecerá en la ed. Comares.
Vargas-Sierra, C. y A. Moreno-Sandoval (2021): "War and Health Metaphors in Financial Discourse: The case of “Letter to Shareholders” in Annual Reports. En Mateo-Martínez, J y Francisco Yus (eds.): On the Use of Metaphors in Specialized Discourse, Berna, Peter Lang, pp. 41-71.
Financial Narrative Processing in Spanish (en prensa).
Tirant lo Blanch. Publicación a partir de septiembre de 2021.
Capítulos:
1. “Financial narratives” (A. Gisbert)
2. “State of the Art in FNP” (M. El-Haj et al.)
3. “Anglicisms in a Financial Corpus: exploiting resources for terminological retrieval and
Analysis” (C. Vargas y B. Carbajo)
4. “Discourse Markers in Financial Narrative: The Case of the Annual reports and Letters to
Shareholders” (A. García-Toro y A. Moreno-Sandoval).
5. “Machine Learning models for classifying Spanish Beaters and Non-Beaters Financial
Reports” (El-Haj, Moreno-Sandoval y Jiménez-Millán).
6. “Tools for processing FinT-esp resources” (Moreno Sandoval, Guirao y Jiménez Millán).
Moreno-Sandoval, A.: "Possibility and necessity in financial narrative: a study of modal adverbs in Spanish. " Presentado en el XI Congreso Internacional de Lingüistica de Corpus (CILC-2019), Valencia. Publicada en Actas.
Moreno-Sandoval, A.: "Some discursive aspects of financial narrative in Spanish: modality, lexical distinctiveness and sentiment analysis " Ponencia plenaria en 3rd International Conferenceon Corpus Analysis in Academic Discourse 2019 (CAAD'19).
Moreno-Sandoval, A., Gisbert, A. y Montoro, H (2019): "Compiling a corpus of financial reports in Spanish". En Actas del XI Congreso Internacional de Lingüística de Corpus (CILC 2019), Valencia.
Carbajo-Coronado, B., Vargas-Sierra C., y Moreno-Sandoval, A. (2021): “Reconocimiento de términos financieros nuevos en un corpus de informes corporativos”. En Actas de AESLA 2021, Coruña.
García-Toro, A. (2021): “Marcadores discursivos en la argumentación de los informes de empresas con pérdidas y ganancias”. En EntreTextos 2021, Alicante.