Laboratorio de Lingüística Informática
Dirigido por:FRANCISCO
A. MARCOS-MARÍN(UAM)
Secretario Ejecutivo: ERNESTO EVANS ESPIÑEIRA
(Gabinete de la Presidencia de la República)
Colaboración entre la Sociedad Estatal del Quinto Centenario y la Agencia Española de Cooperación Internacional, Instituto de Cooperación con Iberoamérica.
Antecedentes
La Sociedad Nacional del Quinto Centenario, por medio de su área de Industrias de la Lengua, dentro del encargo de la Comisión de las Comunidades Europeas para coordinar el Corpus de Referencia de la Lengua Española Contemporánea, se puso en contacto con el Ministerio Secretaría de la República de Chile, para presentar una acción conjunta chileno-comunitaria, en el marco del Quinto Centenario del Descubrimiento.
Con fecha 14 de diciembre de 1990 D. Carlos Bascuñán, como Presidente de la Comisión Ejecutiva, envió una carta para comunicar el apoyo de la Comisión al proyecto, tras su estudio por el Profesor D. Francisco Aguilera de la Universidad de Chile. Con fecha 20 de Septiembre de 1991, fue firmado un acuerdo de colaboración entre la SOCIEDAD ESTATAL QUINTO CENTENARIO y el CENTRO DE INVESTIGACIONES Y PROMOCIÓN IBEROAMÉRICA-EUROPA, donde se establecían los criterios de participación de ambas instituciones en la creación de un CORPUS DE REFERENCIA EN CHILE.
Al respecto, se instituyeron en Chile los grupos de trabajos con el fin de producir el mencionado CORPUS. Ellos debieron abordar la tarea de hacer una "BASE DE DATOS TEXTUAL" con las siguientes características :
- que tuviera almacenados ocho millones de palabras.
- que contuviera textos escritos en español.
- que respetara un porcentaje de frecuencia de textos.
- que los textos fueran de autores chilenos, - en lo posible los más representativos de la lengua escrita, contemporáneos.
- la presentación de los textos en código ASCII ( American Standard Code for Information Interchange ).
- que los textos respetaran la estandarización según las normas de la T.E.I.(Encoding and Interchange of Machine-Readable Texts)
Composición de la Comisión Nacional del Quinto Centenario de la Llegada de Colón a América en Chile
En esta Comisión participan, entre otras altas autoridades, el Señor Ministro de Relaciones Exteriores Don Enrique Silva Cimma, que la preside, el Señor Ministro de Educación Don Ricardo Lagos Escobar y el Señor Jefe de Gabinete del Presidente de la República, Don Carlos Bascuñán Edwards, en calidad de presidente de la Comisión Ejecutiva.
Organismos Consultores: Universidad de Chile, Universidad Católica de Chile.
Composición del Equipo de Trabajo en Chile
En Chile el equipo de trabajo estaría constituido por un comité ejecutivo cuyo Secretario Ejecutivo, Ernesto Evans Espiñeira, sería responsable de la labor administrativa del proyecto. Un consultor lingüístico, el académico Alfredo Matus, profesor de la Universidad Católica y Universidad de Chile, un consultor histórico-jurídico, el académico Julio Retamal A., profesor de la Universidad Católica, y un consultor bibliográfico, la Directora de la Bilbioteca del Congreso Nacional, doña Ximena Feliú.
En dependencias de la Biblioteca del Congreso radicarían las
contrataciones externas de personal de secretaría, digitalización
de datos y operación general del sistema, consulta de textos.
La Secretaría ejecutiva es la instancia encargada de coordinar y ejecutar las acciones indispensables para efectuar los trabajos necesarios para la construcción de un CORPUS DE LA LENGUA con textos de autores chilenos. La Secretaría Ejecutiva está a cargo de Ernesto Evans Espiñeira del Gabinete del Ministerio Secretaría, quien realiza también las funciones de consultor informático.
Acciones:
- La Secretaría Ejecutiva ha establecido las reuniones con la Dirección de la Biblioteca del Congreso Nacional, con el fin de disponer de las facilidades de los textos resguardados en dicha institución.
- La Secretaría Ejecutiva ha fijado, junto a los académicos y los especialistas, aquellos criterios generales de «selección» de los textos que fueron almacenados en las bases de datos del Corpus.
- La Secretaría Ejecutiva ha coordinado los trabajos de un grupo de Ingenieros y Lingüistas, con el propósito de establecer normas de aplicación de los estándares SGML tipificados en la T.E.I.
- La Secretaría Ejecutiva ha vigilado y corregido el ingreso y la normalización de los textos.
- La Secretaría Ejecutiva ha hecho las rendiciones contables a la Sociedad Estatal, los pagos de honorarios, y de los impuestos de segunda categoría (PPM).
- La Secretaría Ejecutiva ha encargado los estudios jurídicos acerca del copyright, los derechos de autor, y las autorizaciones para la reproducción electrónica de los textos seleccionados.
Digitación de textos
El CORPUS CHILENO contrató a la Corporación Click, Santiago de Chile, con dirección en la calle Huérfanos 779, of. 703, Santiago, para el ingreso de los textos seleccionados.
En Mayo del año 1992 estaba completamente definida la frecuencia del ingreso de los textos. Los dos millones de palabras exigidas corresponden a 5.000 páginas de textos aproximadamente (columnas de 85 y líneas de 54 sin márgenes).
Los textos seleccionados fueron transferidos a la Corporación Click, quienes entregaban casi 600 páginas mensuales.
Normalización según estándares de la T.E.I.
Participaron en el estudio:
Ernesto Evans Espiñeira
Julio Retamal Ávila
Pablo Délano Icaza.
Criterios de selección de textos.
Porcentaje
Tipo de Texto
%
15% | de textos científicos. |
10% | de textos económicos comerciales. |
15% | de textos escolares. |
5% | de textos humanísticos |
10% | de textos histórico-jurídicos. |
10% | de textos literarios. |
15% | de textos periodísticos. |
5% | de textos publicitarios |
15% | de textos técnicos. |
El Corpus Chileno de Referencia tuvo por meta entregar dos millones de palabras según una frecuencia pre-definida:
Frecuencia de Textos
Número de Palabras
Páginas
textos científicos. | 300.000 -. | 850-. |
textos económicos comerciales. | 200.000 -. | 550-. |
textos escolares. | 300.000 -. | 850-. |
textos humanísticos. | 100.000 -. | 275-. |
textos histórico-jurídicos. | 200.000 -. | 550-. |
textos literarios. | 200.000 -. | 550-. |
textos periodísticos. | 300.000 -. | 850-. |
textos publicitarios. | 100.000 -. | 275-. |
textos técnicos. | 300.000 -. | 850-. |
Diagrama de flujo:
|
||||||
Almacenamiento de textos
|
ARBOL.TEI
EMOCIONE.TEI
ASTROCON.TEI
MISERIA.TEI ( ensayo de economía)
CECIONI.TEI (educación científica)
CECIONI1.TEI (educación científica)
CECIONI2.TEI (educación científica)
JESUS.TEI (educación religiosa)
G1-2-3.ASC (educ. cs. sociales)
CUN01.TEI (geografía de Chile, Pedro Cunill )
CUN02.TEI (geografía de Chile, Pedro Cunill )
CUN03.TEI (geografía de Chile, Pedro Cunill )
CUN04.TEI (geografía de Chile, Pedro Cunill )
CUN05.TEI (geografía de Chile, Pedro Cunill )
CUN06.TEI (geografía de Chile, Pedro Cunill )
CUN07.TEI (geografía de Chile, Pedro Cunill )
CUN08.TEI (geografía de Chile, Pedro Cunill )
CUN09.TEI (geografía de Chile, Pedro Cunill )
G10-11.ASC (educ. cs. sociales)
G12-13-B (educ. cs. sociales)
G4-7.ASC (educ. cs. sociales)
G8-9.ASC (educ. cs. sociales)
CHILE-1.TEI (ensayo)
CHILE-2.TEI (ensayo)
CHILE-3.TEI (ensayo)
DERE-POL.TEI (ensayo jurídico)
SIGLO03.TEI (ensayo histórico)
SIGLO04.TEI (ensayo histórico)
SIGLO05.TEI (ensayo histórico)
SIGLO06.TEI (ensayo histórico)
SIGLO07.TEI (ensayo histórico)
SIGLO08.TEI (ensayo histórico)
SIGLO09.TEI (ensayo histórico)
SIGLO11.TEI (ensayo histórico)
SIGLO22.TEI (ensayo histórico)
SIGLO33.TEI (ensayo histórico)
SIGLO44.TEI (ensayo histórico)
SIGLO55.TEI (ensayo histórico)
MUJER.TEI
PAPELUCH.TEI
PABLO.TEI
PEDRO.TEI
MERMELAD.TEI
PERIOD9A.TEI (Bases de datos periodísticas desde año 90)
PERIOD9B.TEI (Bases de datos periodísticas desde año 90)
PERIOD9C.TEI (Bases de datos periodísticas desde año 90)
PERIOD9D.TEI (Bases de datos periodísticas desde año 90)
PERIOD9Y.TEI (Bases de datos periodísticas desde año 90)
PERIOD9Z.TEI (Bases de datos periodísticas desde año 90)
HUMANOID.TEI
PERIOD87.ZIP (Bases de datos periodísticas año 87)
PERIOD9.ZIP (Bases de datos periodísticas desde año 90)
PUBLICIT.ZIP (archivo compactado publicidad medios escritos)
INT_CO1.TEI
INT_CO2.TEI
< FILE.HEADER >
< FILE.DESCRIPTOR >
< TITLE.STATEMENT >
< TITLE >
JESUS1.TEI
VEN Y SIGUEME
Edición Electrónica
</TITLE >
< STATEMENT.OF.RESPONSABILITY >
< NAME >Ernesto Evans</NAME >
< ROL >Secretario Ejecutivo
Corpus de Referencia Chile
</ROL >
< NAME >CORPORACION CLICK S.A.</NAME >
< ROL >Digitación de textos</ROL >
</STATEMENT.OF.RESPONSABILITY >
</TITLE.STATEMENT >
< EDITION.STATEMENT >
< EDITION >
Versión 1. Transcripción Electrónica Texto Fuente.
Base Textual escolar.
CORPUS CHILE DE REFERENCIA.
< DATE >2 de Junio de 1992</DATE>
</EDITION >
< STATEMENT.OF.RESPONSABILITY >
< NAME >CORPORACION CLICK S.A.</NAME >
< ROL > Definición de la estructura del documento
Aplicación normas TEI
</ROL >
</STATEMENT.OF.RESPONSABILITY >
</EDITION.STATEMENT >
< PUBLICATION.STATEMENT >
< PUBLICATION >
< NOTE >
Carta del Cardenal a los jóvenes de Santiago
Misión Joven 1982
ARZOPISPADO DE SANTIAGO
</NOTE >
</PUBLICATION >
< PUBLICATION.STATEMENT >
< SOURCE.DESCRIPTION >
< TITLE >
VEN Y SIGUEME
</TITLE >
</SOURCE.DESCRIPTION >
< EXTENT.STATEMENTS >
70 KB aprox
37 Páginas
</EXTENT.STATEMENTS >
</FILE.DESCRIPTOR >
< ENCODING.DECLARATIONS >
< AIM >
Definición de estructura de documento DTD, de modo que
refleje estructura física y lógica del Texto Fuente.
</AIM >
< CORRECTION >
Se han corregido, aunque no se han marcado, los errores
ortográficos del documento fuente.
</CORRECTION >
</ENCODING.DECLARATIONS >
</FILE.HEADER >
<! DOCTYPE Carta [
<! ELEMENT Carta - - (Indice,Mensaje,Capítulo+,Despedida)>
<! ELEMENT Indice - - (Tema+) >
<! ELEMENT Mensaje - - (Párrafo+)>
<! ELEMENT Capítulo - - (Título Capítulo,Subcapítulo+) >
<! ELEMENT Tema - - (#PCDATA, Nº Página) >
<! ELEMENT Nº Página- - (#PCDATA) >
<! ELEMENT Párrafo - - (#PCDATA) >
<! ELEMENT Título Capítulo- - (Número, #PCDATA) >
<! ELEMENT Subcapítulo- -(Subtítulo,Párrafo+,Referencia*,Pregunta*) >
<! ELEMENT Referencia- - (#PCDATA) >
<! ELEMENT Subtítulo- - (#PCDATA) >
<! ELEMENT Pregunta - - (#PCDATA) >
<! ELEMENT Despedida- - (Título,Párrafo+,Nombre) >
<! ELEMENT Título - - (#PCDATA) >
<! ELEMENT Nombre - - (#PCDATA) >
<! ELEMENT Fecha - - (#PCDATA) >
]>
</ TEI.Carta >
Referencias: