Main

Laboratorio de Lingüística Informática

FinT-Esp: Financial text analytics in Spanish: Tools and language resources.

Financiado por MINECO 2017
Proyectos de I+D+I del Programa Estatal de Investigación, Desarrollo e Innovación Orientada a los Retos de la Sociedad.
Fechas: 01 Enero de 2018 hasta 31 Junio 2021

El análisis automático del contenido de textos es lo que se denomina Text Analytics (Moreno & Redondo 2016). Tiene un campo de aplicación muy amplio, desde el análisis de comentarios en las redes sociales hasta extracción de información de textos legales, médicos o financieros. El reto para estos sistemas es entender el contenido de las emisiones lingüísticas y mostrar la información relevante.

Para conseguir los objetivos se emplean diferentes técnicas, desde métodos estadísticos (data mining) hasta procedimientos basados en reglas. Nuestra aproximación se basa en el método clásico de la Lingüística Computacional: mediante reglas y lexicones específicos del dominio, anotamos la información relevante en los textos no estructurados, para posteriormente analizarla cualitativa y cuantitavamente con herramientas de lingüística de corpus (Lyneal y Wmatrix).

Esta propuesta integra la experiencia de dos equipos reconocidos internacionalmente, el Laboratorio de Lingüística Informática de la UAM (LLI-UAM) y el University Centre for Computer Corpus Research on Language (UCREL) de la U. de Lancaster.

Durante más de dos décadas estos equipos han desarrollado de manera independiente programas y corpus para el tratamiento de texto. El principal objetivo de esta propuesta es integrar el español dentro de las herramientas desarrolladas por UCREL, para utilizarlas en el análisis de textos financieros, en concreto, de los informes financieros anuales de las empresas. Con ese objetivo, se recopilará un corpus de textos financieros en español, procedentes de los informes anuales, que será anotado con una nueva versión del Semantic Tagger de UCREL.

Los temas del proyecto y sus resultados se enmarcan plenamente dentro del Reto 7 "Economía y sociedad digitales", por cuanto que ayudan a procesar y entender contenidos financieros en formato digital. Las tecnologías lingüísticas están incluidas dentro de un plan estratégico de la Agenda Digital para España. Los resultados son de interés para su transferencia industrial, a través de aplicaciones informáticas y servicios desarrollados y comercializados por entidades de investigación como el Instituto de Ingeniería del Conocimiento, localizada dentro del campus de la UAM, en la que colaboran dos de los integrantes de equipo.

El procesamiento de narrativa financiera (Financial Narrative Processing o FNP) es la rama de PLN aplicada al dominio económico-financiero que incluye todos los sistemas que procesan y analizan grandes cantidades de datos financieros textuales y numéricos con el fin de extraerlos, resumirlos o analizarlos mediante enfoques automáticos y asistidos por ordenador.

Este proyecto busca reunir un equipo internacional multidisciplinar (lingüistas, informáticos, economistas) con dos objetivos principales:

El proyecto integra la experiencia de dos equipos reconocidos internacionalmente, el Laboratorio de Lingüística Informática de la UAM (LLI-UAM) y el University Centre for Computer Corpus Research on Language (UCREL) de la U. de Lancaster.


Equipo de investigación:

Equipo de trabajo:

Fases del proyecto

Fase 1: creación del corpus FinT-esp

Primero se llevó a cabo el proceso de compilación:


  • Descarga de más de 500 informes de las páginas web de las empresas del IBEX, de manera manual.
  • Adaptación de los informes españoles a la herramienta CFIE (desarrollado por El-Haj et al.) utilizando índices con palabras clave que permiten detectar la estructura de los documentos. Debido a su variabilidad, solo 388 informes pudieron ser convertidos a txt.
  • Limpieza de los textos convertidos: se realizaron scripts en Python para limpiar, normalizar y extraer las secciones, ya que no funcionaron los de CFIE.
  • Transcripción a mano de las secciones “Cartas a los inversores” de los textos no convertidos para obtener una muestra completa y representativa.

  • Terminado el proceso se obtuvieron dos corpus:


  • Informes anuales: compuesto por 388 documentos, 23 millones de palabras y 2 millones de oraciones.
  • Cartas de los CEOs a los accionistas: 397 documentos, 500 000 palabras y 16800 oraciones.
  • Fase 2: Herramientas desarrolladas

    La primera tarea puramente informática consistió en la integración o adaptación de las herramientas desarrolladas previamente por los equipos de la UAM y Lancaster:

  • Adaptación del CFIE a los informes financieros en español, con resultados parciales debido a la diferencia entre las estructuras narrativas de Reino Unido y España.
  • Integración de Grampal (LLI-UAM) en la herramienta WMatrix (Lancaster). También se ha comenzado con la adaptación de una nueva versión de Grampal dentro del entorno Stanza (Stanford).
  • Integración de Grampal en USAS (Lancaster), el etiquetador semántico del equipo UCREL. Se ha creado un lexicón semántico específico para el dominio financiero en español.

  • En segundo lugar, los informáticos del proyecto, Guirao y Jiménez, han desarrollado dos herramientas:

  • Un sistema de consulta a los dos corpus FinT-esp (http://leptis.lllf.uam.es/financiero/consulta). Está inspirado en la versión de MultiMedica y permite, además de la consulta independiente a los dos corpus, la búsqueda por términos financieros seleccionados y un prototipo de extractor automático de términos financieros.
  • WikiCorporaComposer ( http://akira.lllf.uam.es:9090), herramienta inspirada en el programa BooTCat de Marco Baroni. Sirve para crear un corpus ad-hoc para un tema o propósito específico (traducción, lexicografía, terminología) a partir de artículos de la Wikipedia en español y en inglés.

  • Fase 3: Estudios lingüísticos

    El equipo cuenta con expertos en finanzas (Ana Gisbert) y en traducción especializada en el dominio financiero (Chelo Vargas). Por ello, uno de los objetivos era aprovechar el corpus y las herramientas para realizar estudios de amplia base, con metodología de Lingüística de Corpus. Los trabajos se centran en cuatro temas:

  • Posibilidad y necesidad en narrativa financiera, mediante el uso de adverbios en -mente
  • El uso de metáforas en los informes financieros
  • La extracción de neologismos y nuevos términos financieros a partir del corpus
  • El uso de los marcadores discursivos en la argumentación de las Cartas a los accionistas.
  • Fase 4: Experimentos con técnicas de aprendizaje automático

    Se han aplicado diferentes técnicas de PLN a FinT-esp:

  • Análisis de opinión en las Cartas a los accionistas
  • Anotación semántica con USAS al dominio financiero en español
  • Clasificación automática de empresas con ganancias y pérdidas a partir de sus informes
  • Extractor automático de términos financieros
  • Reconocedor automático de Marcadores Discursivos
  • Para las dos primeras tareas se ha adoptado una estrategia clásica basada en léxico y reglas. Para las otras tres tareas se han aplicado técnicas de aprendizaje automático a partir de una anotación manual.

    Resultados de los experimentos:

  • Procesar semánticamente las Cartas de los presidentes a los accionistas es una tarea compleja y difícil, tanto para los expertos humanos como para los sistemas de Inteligencia Artificial por los motivos siguientes:
  • Hay muchos menos ejemplos de empresas con pérdidas que con ganancias (distribución 15 / 85).
  • Los discursos de las empresas con pérdidas son muy parecidos a los de las empresas con ganancias, ya que los directivos saben cómo enmascarar las malas noticias para que nos les afecte a la credibilidad y solvencia de las empresas que dirigen.
  • Los extractores automáticos de términos y marcadores discursivos funcionan con un nivel muy alto de acierto, empleando técnicas de aprendizaje automático supervisado. A partir de la anotación manual por lingüistas de estas unidades, usamos redes neuronales profundas basadas en Transformers que nos dan unos resultados preliminares superiores al 90% de acierto. Esto nos ha permitido tener un prototipo de reconocimiento (similar a un NER) para el dominio financiero, que explotaremos en el siguiente proyecto.

  • Página de la consulta



    Diseminación



    Publicaciones

    Moreno-Sandoval, A., Gisbert, A., Haya, P.A., Guerrero, M. y Montoro, H.: "Tone Analysis in Spanish Financial Reporting Narratives." In Proceedings of the Second Financial Narrative Processing Workshop (FNP 2019). NoDaLiDa, Turku, Finlandia, 30 Sept 2019, pp. 42-50

    Moreno-Sandoval, A., Gisbert, A. y Montoro, H. "FinT-esp: a corpus of financial reports in Spanish. " Presentado en CILC-2019, Valencia. Aparecerá en la ed. Comares.

    Vargas-Sierra, C. y A. Moreno-Sandoval (2021): "War and Health Metaphors in Financial Discourse: The case of “Letter to Shareholders” in Annual Reports. En Mateo-Martínez, J y Francisco Yus (eds.): On the Use of Metaphors in Specialized Discourse, Berna, Peter Lang, pp. 41-71.

    Financial Narrative Processing in Spanish (en prensa). Tirant lo Blanch. Publicación a partir de septiembre de 2021.
    Capítulos:
    1. “Financial narratives” (A. Gisbert)
    2. “State of the Art in FNP” (M. El-Haj et al.)
    3. “Anglicisms in a Financial Corpus: exploiting resources for terminological retrieval and Analysis” (C. Vargas y B. Carbajo)
    4. “Discourse Markers in Financial Narrative: The Case of the Annual reports and Letters to Shareholders” (A. García-Toro y A. Moreno-Sandoval).
    5. “Machine Learning models for classifying Spanish Beaters and Non-Beaters Financial Reports” (El-Haj, Moreno-Sandoval y Jiménez-Millán).
    6. “Tools for processing FinT-esp resources” (Moreno Sandoval, Guirao y Jiménez Millán).

    Congresos

    Moreno-Sandoval, A.: "Possibility and necessity in financial narrative: a study of modal adverbs in Spanish. " Presentado en el XI Congreso Internacional de Lingüistica de Corpus (CILC-2019), Valencia. Publicada en Actas.

    Moreno-Sandoval, A.: "Some discursive aspects of financial narrative in Spanish: modality, lexical distinctiveness and sentiment analysis " Ponencia plenaria en 3rd International Conferenceon Corpus Analysis in Academic Discourse 2019 (CAAD'19).

    Moreno-Sandoval, A., Gisbert, A. y Montoro, H (2019): "Compiling a corpus of financial reports in Spanish". En Actas del XI Congreso Internacional de Lingüística de Corpus (CILC 2019), Valencia.

    Carbajo-Coronado, B., Vargas-Sierra C., y Moreno-Sandoval, A. (2021): “Reconocimiento de términos financieros nuevos en un corpus de informes corporativos”. En Actas de AESLA 2021, Coruña.

    García-Toro, A. (2021): “Marcadores discursivos en la argumentación de los informes de empresas con pérdidas y ganancias”. En EntreTextos 2021, Alicante.

    Main


    Main Main