![]()
Natural Language Processing for MEDical TERMinology
(Procesamiento del lenguaje natural para terminología médica)
Proyecto financiado por InterTalentum UAM, Marie Skłodowska-Curie COFUND, (2019-2021) en la Universidad Autónoma de Madrid
Objetivos
El proyecto NLPMedTerm tiene como objetivo aportar a la comunidad investigadora recursos para el procesamiento del lenguaje natural (PLN) en el dominio médico en español.
Paquete de trabajo 1: se ha recogido un lexicón de términos médicos en español, enriquecido con identificadores únicos de concepto (Concept Unique Identifiers, CUIs), tipos semánticos (Semantic Types) y grupos semánticos (Semantic Groups) extraídos del Unified Medical Language System© (UMLS©). → Entregable 1
![]()
Se incluye información lingüística de los términos y la categoría morfológica (Part-of-Speech). Se considera la variación morfológica y derivacional de los términos (p. ej., abdomen / abdominal), y la equivalencia entre raíces y afijos sinónimos (p. ej., cardio- / cardiaco-).Paquete de trabajo 2: se ha anotado un corpus de textos médicos con entidades médicas, como recurso experimental. El corpus se utilizará para entrenar modelos de aprendizaje automático (machine-learning) que incorporen enfoques de última generación basados en redes neuronales. Los textos se distribuyen con fines académicos y de investigación. → Entregable 2
![]()
En este paquete de trabajo, también se han obtenido word embeddings de dominio médico → Entregable 3Colaboradores del paquete de trabajo 2:
- Dr. Adrián Capllonch Carrión, Complejo Asistencial Benito Menni, Ciempozuelos, Madrid, España
- Dra. Ana Valverde Mateos, Unidad de Terminología Médica, Real Academia Nacional de Medicina de España
Con la financión de la Cátedra de Lingüística Computacional (Instituto de Ingeniería del Conocimiento)El proyecto favorece la continuidad en futuros proyectos para la mejora del indexado de repositorios de artículos biomédicos, o el desarrollo de lexicográficos que consideren diferentes variedades de español.
Entregables
Entregable 1: Léxico Médico para el Español (Medical Lexicon for Spanish, MedLexSp), lexicón unificado de términos médicos en español con información lingüística y semántica.
Descarga una muestra del léxico (incluyendo términos relacionados con COVID-19)
![]()
MedLexSp se distribuye gratuitamente con fines educativos o de investigación.
Para obtener una copia, por favor, lea y firme el acuerdo de licencia (en inglés o español), y envíelo a la dirección de correo indicada más abajo.
Si utiliza MedLexSp en su aplicación o en sus experimentos, por favor, cite el recurso de la siguiente manera:
L. Campillos-Llanos (2019) First Steps towards Building a Medical Lexicon for Spanish with Linguistic and Semantic Information. Proc. of BioNLP 2019, August 1st, 2019, Florence, Italy.
@inproceedings{campillos-bionlp2019,
title = {First Steps towards Building a Medical Lexicon for Spanish with Linguistic and Semantic Information},
author = {Campillos-Llanos, Leonardo},
booktitle = {Proc. of BioNLP 2019},
location = {Florence, Italy},
year = 2019,
month = August 1st,
}
Entregable 2: Corpus CT-EBM-SP (Clinical Trials for Evidence-Based-Medicine in Spanish, corpus de 'Ensayos clínicos para la Medicina Basada en la Evidencia en español').
Colección de 1200 textos sobre estudios clínicos y anuncios de protocolos de ensayos clínicos:
- 500 abstracts de revistas publicados con licencia Creative Commons, p. ej., disponibles en PubMed o el repositorio Scientific Electronic Library Online (SciELO)
- 700 anuncios de ensayos clínicos publicados en el Registro Europeo de Ensayos Clínicos (European Clinical Trials Register) y el Repositorio Español de Estudios Clínicos
El corpus se distribuye gratuitamente con fines educativos o de investigación mediante una Licencia Creative Commons no comercial de atribución (CC-BY-NC-A).
Descargar
El corpus está anotado con entidades del Unified Medical Language System© (UMLS©)
Las guías de anotación están disponibles para la descarga
![]()
Si utiliza este recurso, por favor, cite el corpus de la siguiente manera:
Campillos-Llanos, Leonardo, Ana Valverde-Mateos, Adrián Capllonch-Carrión, Antonio Moreno-Sandoval (2021) A clinical trials corpus annotated with UMLS© entities to enhance the access to Evidence-Based Medicine. BMC Medical Informatics and Decision Making. DOI: 10.1186/s12911-021-01395-z
@article{campillosetal-midm2021,
title = {A clinical trials corpus annotated with UMLS© entities to enhance the access to Evidence-Based Medicine},
author = {Campillos-Llanos, Leonardo and Valverde-Mateos, Ana and Capllonch-Carri{\'o}n, Adri{\'a}n and Moreno-Sandoval, Antonio},
journal = {BMC Medical Informatics and Decision Making},
year = {2021}
}Los autores del corpus son:
- Dr. Adrián Capllonch Carrión
- Dra. Ana Valverde Mateos
- Dr. Leonardo Campillos Llanos
- Dr. Antonio Moreno Sandoval
Table 1. Estadística descriptiva del corpus
![]()
Entregable 3: Word-embeddings de dominio médico
Los embeddings fueron entrenados con fastText y los siguientes parámetros: modelo skipgram, tamaño de ventana = 10, dimensiones = 100, frecuencia mínima = 1, número de muestras negativas = 10, tasa de aprendizaje = 1e-4
Se utilizó el corpus de textos de la Agencia Europea del Medicamento (European Medicines Agency) (∼13.9M tokens) y artículos médicos del repositorio Scientific Electronic Library Online (SciELO) (∼25M tokens)
Contacto
Leonardo Campillos Llanos, investigador postdoctoral.
Laboratorio de Lingüística Informática, Universidad Autónoma de Madrid
![]()
![]()
Colaboraciones
Acuerdo de colaboración firmado
![]()
![]()
![]()
La Real Academia Nacional de Medicina de España va a disfrutar de los resultados del proyecto NLPMedTerm.
La Unidad de Terminología Médica, que desarrolla el Diccionario panhispánico de términos médicos, ha proporcionado información terminológica para el lexicón del proyecto (Paquete de trabajo 1).
El proyecto NLPMedTerm proporcionará datos del Unified Medical Language System© (UMLS©): identificadores únicos de concepto (Concept Unique Identifiers), tipos semánticos (Semantic Types) y grupos semánticos (Semantic Groups). Dicha información será incluida en el Diccionario panhispánico de términos médicos, en proceso de creación por la RANME.
Colaboradores del paquete de trabajo 2:
- Dr. Adrián Capllonch Carrión, Complejo Asistencial Benito Menni, Ciempozuelos, Madrid, España
- Dra. Ana Valverde Mateos, Unidad de Terminología Médica, Real Academia Nacional de Medicina de España
- Parcialmente financiado por la Cátedra de Lingüística Computacional (Instituto de Ingeniería del Conocimiento)
Publicaciones
- L. Campillos-Llanos, Ana Valverde-Mateos, Adrián Capllonch-Carrión, Antonio Moreno-Sandoval (2021) A clinical trials corpus annotated with UMLS© entities to enhance the access to Evidence-Based Medicine. BMC Medical Informatics and Decision Making. DOI: 10.1186/s12911-021-01395-z
- L. Campillos-Llanos (2019) First Steps towards Building a Medical Lexicon for Spanish with Linguistic and Semantic Information. Proc. of BioNLP 2019, August 1st, 2019, Florence, Italy.
Última actualización: enero del 2021.