Main

Laboratorio de Lingüística Informática

UAM Spanish Treebank

Descripción
Nueva versión
Desarrollo de Spanish Treebank
Guía de anotación
Herramientas
Depuración
Algunos experimentos
Trabajo actual
Publicaciones
Ejemplos
Licencia de investigación

Dirección de contacto

Nueva versión

La nueva versión del UAM Spanish Treebank incluye la anotación de la negación y su ámbito de afectación en las 1.501 oraciones que componen el corpus. En ellas, se han detectado las marcas de negación, los elementos de concordancia negativa y su alcance. Se han extraído además los resultados estadísticos preliminares respecto a la frecuencia y funcionamiento de los elementos negativos anotados en el corpus. Esta nueva versión del corpus está igualmente disponible de forma gratuita.

El trabajo ha sido realizado por los Dres. Marta Garrote y Antonio Moreno.

Descripción

El proyecto se inició en diciembre de 1997, y para septiembre de 1999 el corpus contaba con 1.500 oraciones extraídas de periódicos anotadas sintácticamente (El País Digital y Compra Maestra). En este tiempo, se ha desarrollado la guía de anotación y herramientas para anotar y depurar. En la fase actual, continuamos la anotación manual con la ayuda de anotadores humanos y herramientas mejoradas. El objetivo de esta fase es conseguir 5.000 oraciones anotadas. También se han iniciado experimentos sobre el corpus. El trabajo futuro está orientado a la construcción semiautomática del corpus, basada en una gramática inferida del treebank.

Desarrollo de Spanish Treebank

Miembros

Durante la primera fase del proyecto (de diciembre de 1997 a mayo de 2000) participaron:

(la investigación de Susana López se ha financiado gracias a una beca de la New York University).

Resultados

Guía de anotación

Hay disponible un manual para anotadores humanos: Spanish Tree Bank: Specifications, Version 5 (30 April 1999).

El manual de anotación de 86 páginas incluye un inventario de categorías y rasgos, el esquema de anotación e indicaciones específicas sobre una gran variedad de fenómenos del español.

Los árboles están codificados en estructura anidada, con paréntesis, con los elementos de cada nivel, incluyendo la categoría sintáctica, los rasgos sintácticos y semánticos y los nodos constituyentes. La estructura refleja la sintaxis superficial.

Herramientas

Herramientas de anotación Herramientas de depuración

Depuración

Hemos realizado una evaluación de la asignación de rasgos en las primeras 500 oraciones:

Tabla 1: Errores en asignación de rasgos


Todas las categorías
SADJ
SADV
SN
SP
SV
Número total de casos
6364
592
262
2933
1503
1074
Número total de errores
672
51
70
457
35
59
Porcentaje de errores
10.5 %
8.6 %
26.7 %
15.6 %
2.3 %
5.4 %

Tabla 2: Tipos de error

Tipos de error
Todas las categorías
SADJ
SADV
SN
SP
SV
Total
672
51
70
457
35
59
Rasgos perdidos
442
22
29
333
25
13
Rasgos incorrectos
226
29
40
105
10
42
Rasgos innecesarios
24
0
1
19
0
4

A partir de estos datos, podemos afirmar que los errores más comunes son la falta y la sustitución de rasgos.

Además, observamos que los SNs y los SADV son los sintagmas más propensos a error según nuestro esquema de anotación. La estimación del porcentaje actual de error en la asignación de rasgos está por debajo del 5%.

Por otra parte, el generador de reglas para las estructuras sintagmáticas detecta combinaciones de constituyentes extrañas. Esta herramienta ha sido útil para detectar ciertas inconsistencias.

La coherencia y calidad del análisis se revisa manualmente.

Algunos experimentos

Hemos utilizado el treebank para entrenar un parser estadístico, el Apple Pie Parser (Sekine, 1995). El APP funciona con una gramática probabilística independiente del contexto e información probabilística de las categorías sintácticas. Con él, hemos obtenido un sistema eficiente para hallar el análisis más probable.

Trabajo actual

Durante los últimos años, hemos realizado dos experimentos diferentes:

Publicaciones

Ejemplos

Licencia de investigación

El UAM Spanish Treebank está disponible de forma gratuita. Sin embargo, es necesario aceptar el acuerdo de licencia para uso no comercial y remitirnoslo.

El Treebank no está disponible para intereses comerciales.

1. Descargue del acuerdo de licencia (SÓLO con fines de investigación).
2. Remítala a la dirección de contacto (abajo) o por fax (+34 914974498).

Dirección de contacto:

Laboratorio de Lingüística Informática
Dept. de Lingüística
Universidad Autónoma de Madrid
E-28049 Madrid, España

e-mail: antonio.msandoval@uam.es
Web: www.lllf.uam.es