Main

Laboratorio de Lingüística Informática

Corpus lingüístico de referencia de la lengua española en Chile

Dirigido por:FRANCISCO A. MARCOS-MARÍN(UAM)

Secretario Ejecutivo: ERNESTO EVANS ESPIÑEIRA (Gabinete de la Presidencia de la República)

Colaboración entre la Sociedad Estatal del Quinto Centenario y la Agencia Española de Cooperación Internacional, Instituto de Cooperación con Iberoamérica.

Descarga del corpus

Antecedentes

La Sociedad Nacional del Quinto Centenario, por medio de su área de Industrias de la Lengua, dentro del encargo de la Comisión de las Comunidades Europeas para coordinar el Corpus de Referencia de la Lengua Española Contemporánea, se puso en contacto con el Ministerio Secretaría de la República de Chile, para presentar una acción conjunta chileno-comunitaria, en el marco del Quinto Centenario del Descubrimiento.

Con fecha 14 de diciembre de 1990 D. Carlos Bascuñán, como Presidente de la Comisión Ejecutiva, envió una carta para comunicar el apoyo de la Comisión al proyecto, tras su estudio por el Profesor D. Francisco Aguilera de la Universidad de Chile. Con fecha 20 de Septiembre de 1991, fue firmado un acuerdo de colaboración entre la SOCIEDAD ESTATAL QUINTO CENTENARIO y el CENTRO DE INVESTIGACIONES Y PROMOCIÓN IBEROAMÉRICA-EUROPA, donde se establecían los criterios de participación de ambas instituciones en la creación de un CORPUS DE REFERENCIA EN CHILE.

Al respecto, se instituyeron en Chile los grupos de trabajos con el fin de producir el mencionado CORPUS. Ellos debieron abordar la tarea de hacer una "BASE DE DATOS TEXTUAL" con las siguientes características :

- que tuviera almacenados ocho millones de palabras.

- que contuviera textos escritos en español.

- que respetara un porcentaje de frecuencia de textos.

- que los textos fueran de autores chilenos, - en lo posible los más representativos de la lengua escrita, contemporáneos.

- la presentación de los textos en código ASCII ( American Standard Code for Information Interchange ).

- que los textos respetaran la estandarización según las normas de la T.E.I.(Encoding and Interchange of Machine-Readable Texts)

Composición de la Comisión Nacional del Quinto Centenario de la Llegada de Colón a América en Chile

En esta Comisión participan, entre otras altas autoridades, el Señor Ministro de Relaciones Exteriores Don Enrique Silva Cimma, que la preside, el Señor Ministro de Educación Don Ricardo Lagos Escobar y el Señor Jefe de Gabinete del Presidente de la República, Don Carlos Bascuñán Edwards, en calidad de presidente de la Comisión Ejecutiva.

Organismos Consultores: Universidad de Chile, Universidad Católica de Chile.

Composición del Equipo de Trabajo en Chile

En Chile el equipo de trabajo estaría constituido por un comité ejecutivo cuyo Secretario Ejecutivo, Ernesto Evans Espiñeira, sería responsable de la labor administrativa del proyecto. Un consultor lingüístico, el académico Alfredo Matus, profesor de la Universidad Católica y Universidad de Chile, un consultor histórico-jurídico, el académico Julio Retamal A., profesor de la Universidad Católica, y un consultor bibliográfico, la Directora de la Bilbioteca del Congreso Nacional, doña Ximena Feliú.

En dependencias de la Biblioteca del Congreso radicarían las contrataciones externas de personal de secretaría, digitalización de datos y operación general del sistema, consulta de textos.
 

COMITÉ EJECUTIVO
|
SECRETARÍA EJECUTIVA
|
-------------------------------------------------------------------------
CONSULTOR                         CONSULTOR                        CONSULTOR                                  SERVICIOS
LINGÜÍSTICO               HISTÓRICO-JURÍDICO              INFORMÁTICO                              EXTERNOS
Equipo Invest.                     Equipo Invest.                             Equipo                                           Biblioteca
                                                                                                    Informático                                       Congreso
Cons. Ling.                          Cons. His.-Jur.                                                                                       Nacional

La Secretaría ejecutiva es la instancia encargada de coordinar y ejecutar las acciones indispensables para efectuar los trabajos necesarios para la construcción de un CORPUS DE LA LENGUA con textos de autores chilenos. La Secretaría Ejecutiva está a cargo de Ernesto Evans Espiñeira del Gabinete del Ministerio Secretaría, quien realiza también las funciones de consultor informático.

Acciones:

- La Secretaría Ejecutiva ha establecido las reuniones con la Dirección de la Biblioteca del Congreso Nacional, con el fin de disponer de las facilidades de los textos resguardados en dicha institución.

- La Secretaría Ejecutiva ha fijado, junto a los académicos y los especialistas, aquellos criterios generales de «selección» de los textos que fueron almacenados en las bases de datos del Corpus.

- La Secretaría Ejecutiva ha coordinado los trabajos de un grupo de Ingenieros y Lingüistas, con el propósito de establecer normas de aplicación de los estándares SGML tipificados en la T.E.I.

- La Secretaría Ejecutiva ha vigilado y corregido el ingreso y la normalización de los textos.

- La Secretaría Ejecutiva ha hecho las rendiciones contables a la Sociedad Estatal, los pagos de honorarios, y de los impuestos de segunda categoría (PPM).

- La Secretaría Ejecutiva ha encargado los estudios jurídicos acerca del copyright, los derechos de autor, y las autorizaciones para la reproducción electrónica de los textos seleccionados.

Digitación de textos

El CORPUS CHILENO contrató a la Corporación Click, Santiago de Chile, con dirección en la calle Huérfanos 779, of. 703, Santiago, para el ingreso de los textos seleccionados.

En Mayo del año 1992 estaba completamente definida la frecuencia del ingreso de los textos. Los dos millones de palabras exigidas corresponden a 5.000 páginas de textos aproximadamente (columnas de 85 y líneas de 54 sin márgenes).

Los textos seleccionados fueron transferidos a la Corporación Click, quienes entregaban casi 600 páginas mensuales.

Normalización según estándares de la T.E.I.

Participaron en el estudio:

Ernesto Evans Espiñeira

Julio Retamal Ávila

Pablo Délano Icaza.

Criterios de selección de textos.

                                    Porcentaje                     Tipo de Texto
                                    %

15%  de textos científicos.
10%  de textos económicos comerciales. 
15%  de textos escolares. 
 5%  de textos humanísticos 
10%  de textos histórico-jurídicos.
10%  de textos literarios.
15%  de textos periodísticos.
 5%  de textos publicitarios 
15%  de textos técnicos. 
Según esta frecuencia, se solicitaron informes de los académicos y especialistas correspondientes de cada área, con el fin de obtener una muestra de los textos más simbólicos de este siglo.

El Corpus Chileno de Referencia tuvo por meta entregar dos millones de palabras según una frecuencia pre-definida:

                        Frecuencia de Textos                                                     Número de Palabras         Páginas
 

textos científicos. 300.000 -. 850-.
textos económicos comerciales. 200.000 -. 550-. 
textos escolares. 300.000 -. 850-.
textos humanísticos. 100.000 -. 275-.
textos histórico-jurídicos. 200.000 -. 550-.
textos literarios. 200.000 -. 550-.
textos periodísticos. 300.000 -. 850-.
textos publicitarios. 100.000 -. 275-.
textos técnicos. 300.000 -. 850-. 
    
Se estimó que cada página contenía entre 390 y 400 palabras. Se calculó como número óptimo el ingreso de 25 a 30 páginas diarias. Cada página ingresada debía ser sometida a un proceso de normalización según las normas de la T.E.I.

Diagrama de flujo:
 

ESTUDIO Y ANÁLISIS 
DE LOS TEXTOS 
 
 
SELECCIÓN DE LOS TEXTOS PARA EL CORPUS 

Selección, según frecuencia, de textos escritos en español por chilenos contemporáneos.

CONTROL 
 
 
 
 
 
 INGRESO Y NORMALIZACIÓN  


Ingreso de la información (Textos). 


Traducción de los archivos Wp o Imagen (.pic,.flic,etc.) en código ASCII. 
 
 
Corrección de textos ASCII 
 
              Normalización de los archivos ASCII según los estándares de la T.E.I. 
 
Corrección de Textos T.E.I.
 
Almacenamiento de textos 
 
 

Archivos estandarizados.


  1. Textos científicos.
  2. ARBOL.TEI

    EMOCIONE.TEI

    ASTROCON.TEI

  3. Textos económicos comerciales.
  4. MISERIA.TEI ( ensayo de economía)

  5. Textos escolares.
  6. CECIONI.TEI (educación científica)

    CECIONI1.TEI (educación científica)

    CECIONI2.TEI (educación científica)

    JESUS.TEI (educación religiosa)

    G1-2-3.ASC (educ. cs. sociales)

    CUN01.TEI (geografía de Chile, Pedro Cunill )

    CUN02.TEI (geografía de Chile, Pedro Cunill )

    CUN03.TEI (geografía de Chile, Pedro Cunill )

    CUN04.TEI (geografía de Chile, Pedro Cunill )

    CUN05.TEI (geografía de Chile, Pedro Cunill )

    CUN06.TEI (geografía de Chile, Pedro Cunill )

    CUN07.TEI  (geografía de Chile, Pedro Cunill )

    CUN08.TEI (geografía de Chile, Pedro Cunill )

    CUN09.TEI (geografía de Chile, Pedro Cunill )

    G10-11.ASC (educ. cs. sociales)

    G12-13-B (educ. cs. sociales)

    G4-7.ASC (educ. cs. sociales)

    G8-9.ASC (educ. cs. sociales)
     

  7. Textos humanísticos
  8. CHILE-1.TEI (ensayo)

    CHILE-2.TEI (ensayo)

    CHILE-3.TEI (ensayo)
     

  9. Textos histórico-jurídicos.
  10. DERE-POL.TEI (ensayo jurídico)

    SIGLO03.TEI (ensayo histórico)

    SIGLO04.TEI (ensayo histórico)

    SIGLO05.TEI (ensayo histórico)

    SIGLO06.TEI (ensayo histórico)

    SIGLO07.TEI (ensayo histórico)

    SIGLO08.TEI (ensayo histórico)

    SIGLO09.TEI (ensayo histórico)

    SIGLO11.TEI (ensayo histórico)

    SIGLO22.TEI (ensayo histórico)

    SIGLO33.TEI (ensayo histórico)

    SIGLO44.TEI (ensayo histórico)

    SIGLO55.TEI (ensayo histórico)
     

  11. Textos literarios.
  12. MUJER.TEI

    PAPELUCH.TEI

    PABLO.TEI

    PEDRO.TEI

    MERMELAD.TEI
     

  13. Textos periodísticos.
  14. PERIOD9A.TEI (Bases de datos periodísticas desde año 90)

    PERIOD9B.TEI (Bases de datos periodísticas desde año 90)

    PERIOD9C.TEI (Bases de datos periodísticas desde año 90)

    PERIOD9D.TEI (Bases de datos periodísticas desde año 90)

    PERIOD9Y.TEI (Bases de datos periodísticas desde año 90)

    PERIOD9Z.TEI (Bases de datos periodísticas desde año 90)

    HUMANOID.TEI

    PERIOD87.ZIP (Bases de datos periodísticas año 87)

    PERIOD9.ZIP (Bases de datos periodísticas desde año 90)

  15. Textos publicitarios.
  16. PUBLICIT.ZIP (archivo compactado publicidad medios escritos)
     

  17. Textos técnicos.
  18. INT_CO1.TEI

    INT_CO2.TEI

DTD y encabezado de un libro del corpus chileno

< TEI.Carta >

< FILE.HEADER >

< FILE.DESCRIPTOR >

< TITLE.STATEMENT >

< TITLE >

JESUS1.TEI

VEN Y SIGUEME

Edición Electrónica

</TITLE >

< STATEMENT.OF.RESPONSABILITY >

< NAME >Ernesto Evans</NAME >

< ROL >Secretario Ejecutivo

Corpus de Referencia Chile

</ROL >

< NAME >CORPORACION CLICK S.A.</NAME >

< ROL >Digitación de textos</ROL >

</STATEMENT.OF.RESPONSABILITY >

</TITLE.STATEMENT >

< EDITION.STATEMENT >

< EDITION >

Versión 1. Transcripción Electrónica Texto Fuente.

Base Textual escolar.

CORPUS CHILE DE REFERENCIA.

< DATE >2 de Junio de 1992</DATE>

</EDITION >

< STATEMENT.OF.RESPONSABILITY >

< NAME >CORPORACION CLICK S.A.</NAME >

< ROL > Definición de la estructura del documento

Aplicación normas TEI

</ROL >

</STATEMENT.OF.RESPONSABILITY >

</EDITION.STATEMENT >

< PUBLICATION.STATEMENT >

< PUBLICATION >

< NOTE >

Carta del Cardenal a los jóvenes de Santiago

Misión Joven 1982

ARZOPISPADO DE SANTIAGO

</NOTE >

</PUBLICATION >

< PUBLICATION.STATEMENT >

< SOURCE.DESCRIPTION >

< TITLE >

VEN Y SIGUEME

</TITLE >

</SOURCE.DESCRIPTION >

< EXTENT.STATEMENTS >

70 KB aprox

37 Páginas

</EXTENT.STATEMENTS >

</FILE.DESCRIPTOR >

< ENCODING.DECLARATIONS >

< AIM >

Definición de estructura de documento DTD, de modo que

refleje estructura física y lógica del Texto Fuente.

</AIM >

< CORRECTION >

Se han corregido, aunque no se han marcado, los errores

ortográficos del documento fuente.

</CORRECTION >

</ENCODING.DECLARATIONS >

</FILE.HEADER >

<! DOCTYPE Carta [

<! ELEMENT Carta - - (Indice,Mensaje,Capítulo+,Despedida)>

<! ELEMENT Indice - - (Tema+) >

<! ELEMENT Mensaje - - (Párrafo+)>

<! ELEMENT Capítulo - - (Título Capítulo,Subcapítulo+) >

<! ELEMENT Tema - - (#PCDATA, Nº Página) >

<! ELEMENT Nº Página- - (#PCDATA) >

<! ELEMENT Párrafo - - (#PCDATA) >

<! ELEMENT Título Capítulo- - (Número, #PCDATA) >

<! ELEMENT Subcapítulo- -(Subtítulo,Párrafo+,Referencia*,Pregunta*) >

<! ELEMENT Referencia- - (#PCDATA) >

<! ELEMENT Subtítulo- - (#PCDATA) >

<! ELEMENT Pregunta - - (#PCDATA) >

<! ELEMENT Despedida- - (Título,Párrafo+,Nombre) >

<! ELEMENT Título - - (#PCDATA) >

<! ELEMENT Nombre - - (#PCDATA) >

<! ELEMENT Fecha - - (#PCDATA) >

]>

Sigue el texto etiquetado.

</ TEI.Carta >

Referencias:




Main Main