Laboratorio de Lingüística Informática

UAM Spanish Treebank

Descripción

Nueva versión

Desarrollo de Spanish Treebank	Guía de anotación
Herramientas	Depuración
Algunos experimentos	Trabajo actual
Publicaciones	Ejemplos

Licencia de investigación

Dirección de contacto

Nueva versión

La nueva versión del UAM Spanish Treebank incluye la anotación de la negación y su ámbito de afectación en las 1.501 oraciones que componen el corpus. En ellas, se han detectado las marcas de negación, los elementos de concordancia negativa y su alcance. Se han extraído además los resultados estadísticos preliminares respecto a la frecuencia y funcionamiento de los elementos negativos anotados en el corpus. Esta nueva versión del corpus está igualmente disponible de forma gratuita.

El trabajo ha sido realizado por los Dres. Marta Garrote y Antonio Moreno.

Descripción

El proyecto se inició en diciembre de 1997, y para septiembre de 1999 el corpus contaba con 1.500 oraciones extraídas de periódicos anotadas sintácticamente (El País Digital y Compra Maestra). En este tiempo, se ha desarrollado la guía de anotación y herramientas para anotar y depurar. En la fase actual, continuamos la anotación manual con la ayuda de anotadores humanos y herramientas mejoradas. El objetivo de esta fase es conseguir 5.000 oraciones anotadas. También se han iniciado experimentos sobre el corpus. El trabajo futuro está orientado a la construcción semiautomática del corpus, basada en una gramática inferida del treebank.

Desarrollo de Spanish Treebank

Miembros

Durante la primera fase del proyecto (de diciembre de 1997 a mayo de 2000) participaron:

Lingüistas: (guías, selección de datos, anotación y depuración)

Antonio Moreno
Susana López
Manuel Alcántara

Lingüistas computacionales: (herramientas para la anotación y depuración)

Fernando Sánchez
Ralph Grishman

(la investigación de Susana López se ha financiado gracias a una beca de la New York University).

Resultados

1.600 oraciones anotadas sintácticamente.

Guía. Un manual de A 86 páginas (Especificaciones. Versión 5, 30 de abril de 1999).

Herramientas

Guía de anotación

Hay disponible un manual para anotadores humanos: Spanish Tree Bank: Specifications, Version 5 (30 April 1999).

El manual de anotación de 86 páginas incluye un inventario de categorías y rasgos, el esquema de anotación e indicaciones específicas sobre una gran variedad de fenómenos del español.

Los árboles están codificados en estructura anidada, con paréntesis, con los elementos de cada nivel, incluyendo la categoría sintáctica, los rasgos sintácticos y semánticos y los nodos constituyentes. La estructura refleja la sintaxis superficial.

Herramientas

Herramientas de anotación

Un anotador de categorías sintácticas estadístico, que proporciona la categoría más frecuente y los rasgos flexivos para cada palabra. Para ello, se utiliza el anotador descrito en Sánchez, Ramírez & Declerck, (1999).
Un "chunker" que reconoce SNs, SVs, SPs y SADJs (desarrollado por F. Sánchez)
Un selector de oraciones, que selecciona arbitrariamente oraciones de la fuente textual. Se pueden asignar algunas variables como tipo de texto o longitud de oración (desarrollado por F. Sánchez)

Herramientas de depuración

Una aplicación gráfica para dibujar los árboles de las oraciones anotadas. Se utiliza un programa público llamado Computational Linguistics Interactive (CLIG http://www.ags.uni-sb.de/~konrad/clig.html), desarrollado por Karsten Konrad en Saarbrücken.
Un revisor de rasgos que controla la asignación de los rasgos apropiados para cada categoría (desarrollado por R. Grishman).
Un generador de reglas para las estructuras sintagmáticas, usado para detectar posibles anotaciones incorrectas (desarrollado por R. Grishman).

Depuración

Hemos realizado una evaluación de la asignación de rasgos en las primeras 500 oraciones:

Tabla 1: Errores en asignación de rasgos

	Todas las categorías	SADJ	SADV	SN	SP	SV
Número total de casos	6364	592	262	2933	1503	1074
Número total de errores	672	51	70	457	35	59
Porcentaje de errores	10.5 %	8.6 %	26.7 %	15.6 %	2.3 %	5.4 %

Tabla 2: Tipos de error


Tipos de error	Todas las categorías	SADJ	SADV	SN	SP	SV
Total	672	51	70	457	35	59
Rasgos perdidos	442	22	29	333	25	13
Rasgos incorrectos	226	29	40	105	10	42
Rasgos innecesarios	24	0	1	19	0	4

A partir de estos datos, podemos afirmar que los errores más comunes son la falta y la sustitución de rasgos.

Además, observamos que los SNs y los SADV son los sintagmas más propensos a error según nuestro esquema de anotación. La estimación del porcentaje actual de error en la asignación de rasgos está por debajo del 5%.

Por otra parte, el generador de reglas para las estructuras sintagmáticas detecta combinaciones de constituyentes extrañas. Esta herramienta ha sido útil para detectar ciertas inconsistencias.

La coherencia y calidad del análisis se revisa manualmente.

Algunos experimentos

Hemos utilizado el treebank para entrenar un parser estadístico, el Apple Pie Parser (Sekine, 1995). El APP funciona con una gramática probabilística independiente del contexto e información probabilística de las categorías sintácticas. Con él, hemos obtenido un sistema eficiente para hallar el análisis más probable.

Trabajo actual

Durante los últimos años, hemos realizado dos experimentos diferentes:

Aumentar el treebank con una anotación más simple para probar si una información más rica es relevante para la inducción de reglas en español.

Inplementar una transformación del nivel sintáctico al semántico usando el etiquetario de SESCO

Publicaciones

Alcántara, M., 2005: Anotación y recuperación de información semántica eventiva en corpus. PhD Thesis.
Alcántara, M. and A. Moreno, 2004. Syntax to Semantics Transformation: Application to Treebanking. In Proc. Workshop Frontiers in Corpus Annotation at HLT-NAACL 2004. Boston, 2-7 May 2004.
Moreno, A. and S. López, 1999. Developing a Spanish Tree Bank. In Proc. Journées ATALA, Corpus annotés pour la syntaxe. Paris, 18-19 June 1999.
Moreno, A., R. Grishman, S. López, F. Sánchez and S. Sekine, 2000. A Treebank of Spanish and its Application to Parsing. Available morenoetal.ps(6496863 bytes) and morenoetal.ps.gz (84118 bytes).

Ejemplos

Oración 1: lisp & clig

Oración 2: lisp & clig

Oración 3: lisp & clig

Licencia de investigación

El UAM Spanish Treebank está disponible de forma gratuita. Sin embargo, es necesario aceptar el acuerdo de licencia para uso no comercial y remitirnoslo.

El Treebank no está disponible para intereses comerciales.

1. Descargue del acuerdo de licencia (SÓLO con fines de investigación).
2. Remítala a la dirección de contacto (abajo) o por fax (+34 914974498).

Dirección de contacto:

Laboratorio de Lingüística Informática
Dept. de Lingüística
Universidad Autónoma de Madrid
E-28049 Madrid, España

e-mail: antonio.msandoval@uam.es
Web: www.lllf.uam.es