Laboratorio de Lingüística Informática
|
|
|
|
|
|
|
|
|
|
|
La nueva versión del UAM Spanish Treebank incluye la anotación de la negación y su ámbito de afectación en las 1.501 oraciones que componen el corpus. En ellas, se han detectado las marcas de negación, los elementos de concordancia negativa y su alcance. Se han extraído además los resultados estadísticos preliminares respecto a la frecuencia y funcionamiento de los elementos negativos anotados en el corpus. Esta nueva versión del corpus está igualmente disponible de forma gratuita.
El trabajo ha sido realizado por los Dres. Marta Garrote y Antonio Moreno.
El proyecto se inició en diciembre de 1997, y para septiembre de 1999 el corpus contaba con 1.500 oraciones extraídas de periódicos anotadas sintácticamente (El País Digital y Compra Maestra). En este tiempo, se ha desarrollado la guía de anotación y herramientas para anotar y depurar. En la fase actual, continuamos la anotación manual con la ayuda de anotadores humanos y herramientas mejoradas. El objetivo de esta fase es conseguir 5.000 oraciones anotadas. También se han iniciado experimentos sobre el corpus. El trabajo futuro está orientado a la construcción semiautomática del corpus, basada en una gramática inferida del treebank.
Durante la primera fase del proyecto (de diciembre de 1997 a mayo de 2000) participaron:
El manual de anotación de 86 páginas incluye un inventario de categorías y rasgos, el esquema de anotación e indicaciones específicas sobre una gran variedad de fenómenos del español.
Los árboles están codificados en estructura anidada, con paréntesis, con los elementos de cada nivel, incluyendo la categoría sintáctica, los rasgos sintácticos y semánticos y los nodos constituyentes. La estructura refleja la sintaxis superficial.
Tabla 1: Errores en asignación de rasgos
|
|
|
|
|
|
|
Número total de casos |
|
|
|
|
|
|
Número total de errores |
|
|
|
|
|
|
Porcentaje de errores |
|
|
|
|
|
|
Tabla 2: Tipos de error
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
A partir de estos datos, podemos afirmar que los errores más comunes son la falta y la sustitución de rasgos.
Además, observamos que los SNs y los SADV son los sintagmas más propensos a error según nuestro esquema de anotación. La estimación del porcentaje actual de error en la asignación de rasgos está por debajo del 5%.
Por otra parte, el generador de reglas para las estructuras sintagmáticas detecta combinaciones de constituyentes extrañas. Esta herramienta ha sido útil para detectar ciertas inconsistencias.
La coherencia y calidad del análisis se revisa manualmente.
Hemos utilizado el treebank para entrenar un parser estadístico, el Apple Pie Parser (Sekine, 1995). El APP funciona con una gramática probabilística independiente del contexto e información probabilística de las categorías sintácticas. Con él, hemos obtenido un sistema eficiente para hallar el análisis más probable.
El UAM Spanish Treebank está disponible de forma gratuita. Sin embargo, es necesario aceptar el acuerdo de licencia para uso no comercial y remitirnoslo.
El Treebank no está disponible para intereses comerciales.
1. Descargue del acuerdo de licencia (SÓLO con fines de investigación).e-mail: antonio.msandoval@uam.es
Web: www.lllf.uam.es