Corpus de Referencia de la Lengua Española Contemporánea: Corpus Oral Peninsular

Grupo de investigación:

Director: Francisco Marcos Marín

Recolección de material en cintas de audio y transcripción:

Almudena Ballester Carrillo

Carmen Santamaría García

Elena Pertierra Torreño

Otilia Brandão Cardoso dos Santos

Pedro Luis Díez Orzas

 

CONTENIDO

DESCRIPCIÓN DEL CORPUS TEXTUAL

II.CRITERIOS DE REGISTRO SONORO, TRANSCRIPCIÓN Y ETIQUETADO DE TEXTOS

Criterios de recogida de textos (registro sonoro)

Criterios de transcripción y etiquetado

Identificación de los ficheros (cabeceras)

Convenciones adoptadas para la codificación (etiquetas)

Convenciones de codificación y puntuación (ortografía)

Algunos de los problemas que presentan los corpus orales.

Ejemplos

III. ARQUITECTURA DE LA BASE DE DATOS TEXTUAL.

Número de palabras

Porcentajes de representatividad

 


I. DESCRIPCIÓN DEL CORPUS TEXTUAL

Título: CORPUS ORAL DE REFERENCIA DEL ESPAÑOL CONTEMPORÁNEO

Definición: Base de datos textual (corpus de lengua hablada): transliteración de textos grabados en cintas de audio del registro oral. 1.100.000 de palabras transliteradas en soporte informático.

Grupo de investigación:

Director: Francisco Marcos Marín

Recolección de material en cintas de audio y transcripción:

Almudena Ballester Carrillo

Carmen Santamaría García

Elena Pertierra Torreño

Otilia Brandão Cardoso dos Santos

Pedro Luis Díez Orzas

La base de datos textuales denominada Corpus Oral de Referencia del Español Contemporáneo comenzó a elaborarse en enero de 1991, finalizando su realización en febrero de 1992. Ha sido realizada en la cátedra de Lingüística General de la Universidad Autónoma de Madrid gracias a una subvención de IBM España. Es accesible por red mediante esta serie de comandos FTP:

>ftp ftp.lllf.uam.es

Name: ftp

Password: (nombre del usuario)

% get README (y seguir las instrucciones del fichero README)

 

II.CRITERIOS DE REGISTRO SONORO, TRANSCRIPCIÓN Y ETIQUETADO DE TEXTOS

Criterios de recogida de textos (registro sonoro).

El corpus oral ha de recoger textos de todo tipo, desde conversaciones hasta presentaciones de índole más académica (no leídas), de acuerdo con unos requisitos y dentro de una banda de frecuencias de tipos textuales previamente determinada. En los aspectos generales, se rige por los criterios que hemos presentado anteriormente, en esta exposición.

El equipo recolector de textos orales debe tener en cuenta también seis criterios para definir los textos que se integrarán en la base de datos:

1) Oralidad

2) Espontaneidad

3) Adecuación

4) Representatividad

5) Autenticidad

6) Estándar

En lo referente a la transcripción, se debe insistir en que se trata de una transcripción ortográfica, por lo que este criterio es el determinante. Cuando en la expresión oral se hayan suprimido segmentos que deben representarse ortográficamente (como la d del participio en la terminación -ado, p. ej.) se arbitra un sistema de representación que permite recuperar la información ortográfica (ver el apartado de etiquetas); pero sin perder la información relevante desde el punto de vista de la oralidad, para los efectos de cadenas de segmentos en estadísticas, por ejemplo.

En lo que se refiere al corpus oral, los tipos de texto representativos son los siguientes:

TIPO TEXTUAL

Administrativos

Científicos

Conversacionales o familiares

Educativos

Humanísticos

Instrucciones (megafonía)

Jurídicos

Lúdicos (concursos, etc.)

Políticos

Periodísticos:

Debates

Deportes

Documentales

Entrevistas

Noticiario

Publicitarios

Religiosos

Técnicos

Criterios de transcripción y etiquetado.

Identificación de los ficheros (cabeceras).

Todas las etiquetas antes mencionadas se insertan en el texto transcrito. Pero cada archivo requiere, aparte, un encabezamiento con una serie de datos fundamentales para la posterior recuperación de la información en ellos contenida.

La primera etiqueta es el número de la cinta en dónde se encuentra el texto grabado (tres dígitos).

A ésta le sigue el nombre del fichero. En ella se detalla:

- El autor de la transcripción: una inicial del nombre o apellido dels investigador que ha recogido y transcrito el texto.

- El tipo de texto transcrito: las tres primeras letras correspondientes al tipo o sección.

- El número de la cinta en que se encuentra el texto.

- La posición que ocupa en la cinta determinada, denominada mediante las letras del alfabeto español.

Y por último:

- Las iniciales «asc», ya que los textos se almacenan en código ASCII.

Así por ejemplo, un fichero llamado <A ENT 012 F.ASC>, indica que ha sido realizada por Almudena (A), que se trata de la entrevista (ENT) registrada en quinto lugar (F) en la cinta número 012, (en la cual puede haber, además, otro tipo de textos) y que está grabada en código ASCII.

A esta etiqueta le siguen las que identifican y sitúan al texto y a los hablantes que en él intervienen.

- Fecha: indicada con cifras, separadas por guiones.

- Fuente: se especifica si se toma de los medios de comunicación (radio, televisión), o del entorno familiar, académico, etc.

- <Localización=X>, donde X está en el lugar de la ciudad en cuestión donde ha sido grabado el texto.

- Términos: son los temas o tópicos tratados. Deben tratar de generalizar y no de ser concretos y servirán para la elaboración de un tesauro. Son todos ellos sustantivos, aunque pueden llevar adjetivos.

- Hablantes: para cada uno, una etiqueta identificativa.

Además se especifica su edad, sexo y su profesión u ocupación, si se sabe; aunque esto último no es del todo fundamental.

Si la edad de los hablantes es sólo aproximada indicaremos «c.» (circa) delante de la edad (varón, c. 45 años)

Finalmente, indicar que todos los ficheros comienzan con la etiqueta <texto> y terminan con la etiqueta </texto>. Un último ejemplo aclaratorio, para resumir:

<cinta 012>

<ACON012B.ASC>

<14-5-91>

<fuente=conversación familiar>

<localización=Madrid>

<términos=feria, domingo, tiempo libre, fotografía, pedida, aspecto físico>

<H1=Médico, mujer, 28 años>

<H2=Ama de casa, 55 años>

<H3=Filóloga, 23 años>

<texto>

<H1> .........................

<H2> .........................

<H3> .........................

</texto>

<cinta 005>

<ccon005c.asc>

<27-1-91>

<fuente=conversación entre amigos grabada en un tren de

cercanías Madrid-Segovia>

<localización=Tablada>

<términos=peseta, lotería>

<H1=mujer, c. 45 años>

<H2=varón, c. 40 años>

<H3=mujer, c. 45 años>

<texto></texto>

Las etiquetas aparecen con minúsculas siguiendo las normas de la TEI.

Convenciones adoptadas para la codificación (etiquetas).

Todas estas dificultades señaladas sólo lo son si no se adopta ninguna convención que unifique criterios, que marque estos posibles problemas para su posterior tratamiento, o su simple constatación.

Basándonos por una parte en las normas de la TEI (Text Encoding Initiative), y en nuestra intuición y capacidad como lingüistas, hemos resuelto marcar algunas de estas características del lenguaje hablado con las etiquetas que se citan a continuación. Por el momento, éstas son las etiquetas utilizadas:

1. Etiquetas que conciernen a la pronunciación.

<palabra cortada>...

El hablante no ha pronunciado todas las sílabas de una palabra, bien por confusión, autocorreción, o rapidez en el habla. Esta etiqueta es muy utilizada, especialmente en la transcripción de conversaciones informales. A ella hay que adjuntar puntos suspensivos, para que conste como vacilación y no como palabra real una vez eliminadas las etiquetas.

Reconstrucción de letras: Todas las letras que componen una palabra y que no hemos oído, incluso las sílabas, podemos reconstruirlas siguiendo los ejemplos a continuación:

Está ahí al la<(d)>o, pa<(r)><(a)> allá, to<(d)><(o)>, etc.

Se reconstruyen siempre que no se oigan en absoluto. En caso contrario, se transcriben ortográficamente. Cada letra es una etiqueta, no podemos incluir dos aunque el hablante haya omitido una sílaba entera.

<vacilación>

Esta etiqueta sustituye a sonidos ininteligibles que indican vacilación. A veces el hablante no llega a pronunciar sílabas enteras, sólo una secuencia de sonidos «oscuros», no vocálicos.

Fáticos:

<fático=afirmación> - el hablante emite un sonido que indica que está de acuerdo con su interlocutor.

<fático=duda> - ciertos sonidos que indican duda.

<fático=interrogación> - el hablante muestra sorpresa, desconocimiento, deseo de saber algo, etc.

<fático=negación> ...

En general, se considera que el «catálogo» de los sonidos fáticos no está cerrado; siempre que el transcriptor considere que se debe ampliar, esto enriquecerá la definición del corpus.

Ruidos:

Se distingue entre los ruidos propios de una comunicación y los ajenos a ella. Así, la etiqueta <ininteligible> indica que lo que el hablante dice (una o varias palabras) no se puede entender por la propia pronunciación del hablante. Sin embargo, la etiqueta <ruido> señala un ruido efectivo de cualquier tipo, solapado en la conversación y que dificulta o imposibilita del todo la comprensión.

Aparte de estos dos, normalmente también se señalan otros «ruidos» definidos con otras etiquetas:

<risas>, <aplausos>, <música>, etc. (Ver «Estructura de los archivos».)

A veces es necesario identificar la fuente de los ruidos. De este modo, si en el transcurso de una conversación, por ejemplo, suena un timbre de teléfono o de puerta y ello provoca comentarios, lo etiquetamos de la forma <ruido=timbre de teléfono>, tomando el primer caso. Hemos preferido hacerlo así en vez de considerar el sonido del timbre o los ladridos de un perro, poniendo otro caso, una sola etiqueta, como podrían ser <ladridos> o <timbrazo>; siempre con vistas a una mayor coherencia interna y una mejor recuperación de estas marcas.

Sin embargo, los sonidos que emiten los hablantes, tales como risas, suspiros, llanto, etcétera, son considerados etiquetas aparte.

Sonidos de formación expresiva o imitativa.

Nos encontramos con el problema de cómo etiquetar ciertos sonidos que se emplean para llamar la atención de alguien o bien para recomendar silencio. Ocurren con frecuencia, por ejemplo, en los textos educativos. En el diccionario podemos encontrar «chsss...» como transcripción de estos sonidos. Hemos decidido utilizar esta misma transcripción.

Etiqueta <onomatopéyico>: Como se puede adivinar, se utiliza en el lugar del sonido de agrado, desagrado, alegría, etc. que no es posible representar silábicamente. Algunas veces, sin embargo, estas exclamaciones sí son silábicas e incluso se pueden encontrar en el diccionario: «paf», «ayayai»...

En estos casos y, en general, siempre que se pueda, se transcribirán ortográficamente.

<onomatopéyico> </onomatopéyico>

Se utilizan para delimitar los sonidos onomatopéyicos que pueden reconstruirse ortográficamente. Por ejemplo:

<H1> Y los coches <onomatopéyico>piun, piun, piun, piun, piun</onomatopéyico>

2. Etiquetas concernientes a los hablantes.

En un principio, lo que nos pareció simple tarea de clasificación de intervenciones, ordenándolas y exponiéndolas con las etiquetas <H1>, <H2>, <H3>, etc. delante, resultó claramente insuficiente. No todas las intervenciones, por un lado, son de hablantes que participan en un mismo acto comunicativo y, por otro, no todo aquel que oímos hablar en una grabación tiene categoría de «hablante». Esto podrá parecer algo absurdo, pero piénsese, por ejemplo, en un noticiario de televisión. El locutor, que supuestamente no lee, improvisa su discurso en ese momento: transmite «algo» a los telespectadores en directo. Pero conecta con un corresponsal que, a su vez, tiene «elaborada» una noticia que incluye intervenciones de políticos, deportistas, etc. que ni han oído al locutor, ni al corresponsal, ni son conscientes de que sus palabras están siendo unidas a las de un periodista para la redacción de una noticia o una crónica. Esta crónica es retransmitida seguida de las observaciones de un locutor. Ambas son intervenciones, ambas son esporádicas -por supuesto, la segunda lo es mucho menos-, ambas pertenecen al registro oral. Pero el político, la actriz, el deportista o el afectado por una inundación no son «hablantes» para nuestro propósito, en el sentido estricto. Por lo tanto, no son <H5>, ni <H25> (en un noticiario, pueden «intervenir» muchas personas).

Sin embargo, sin estas valiosísimas aportaciones no existirían estos programas. Así pues, se mantiene su intervención y como tal se transcribe, pero utilizando las etiquetas distintivas <Ha>, <Hb>, <Hc>, etc. para cada una de ellas.

En cualquier debate de los medios de comunicación, es relativamente común que se muestren los resultados de una encuesta realizada previamente. Si además de mostrar los resultados globales, el realizador del programa decide exhibir también algunas de las respuestas que expuso la gente que fue entrevistada, nos encontramos nuevamente con intervenciones espontáneas, muy ocurrentes y representativas, pero a las cuales sería un grave error presentar con una etiqueta como <H3> o <H4> delante, pues eso significaría que están en el plató debatiendo con el resto de los invitados. Además, siempre son respuestas a una misma pregunta, la del encuestador, tampoco participante del debate.

Para ellas hemos propuesto las etiquetas <Encuestador> y <Encuestado 1>, <Encuestado 2>, etc.

En este mismo tipo de programas, importante y nada desdeñable fuente de nuestro corpus, el público puede tener un papel decisivo. Cuando sus risas, murmullos, o gritos influyen en el resto de las intervenciones, el dejar de señalarlo sería una omisión importante. El público también está presente como hablante «común» en las conferencias, las clases, los debates del Parlamento y en general, allí donde se trate de exponer ideas u opiniones o de divulgar conocimientos de interés «público», valga este adjetivo para notar la obviedad. Si interviene individualmente uno de los componentes del público, que ha seguido toda la conferencia o el debate, si está considerado hablante, por supuesto.

En el otro caso, la etiqueta <público> representará al mismo. Seguida a ella, adjuntamos las etiquetas correspondientes: <murmullos>, <risas>, por ejemplo.

Durante la transcripción de conversaciones en las que no se ha estado presente, es fácil notar que uno no es capaz de reconocer a quien está hablando en ese momento. Si tras hacer algunos esfuerzos por descubrirlo hemos seguido sin ser capaces, no nos ha quedado más remedio que recurrir a la etiqueta <no identificado> para este hablante, sin que por ello la intervención en cuestión haya de ser menospreciada.

<todos>

Esta etiqueta se utiliza cuando en algún momento de la conversación todos los hablantes dicen lo mismo:

<todos> ¡Sí!

<todos> ¡Vamos!

Es especialmente útil cuando contestan al profesor todos los alumnos, por ejemplo, y sería tedioso enumerar cincuenta o cien hablantes distintos. Esta etiqueta va definida en la cabecera:

<H1=profesor varón, 45 años>

<todos=alumnos. Edad media: 25 años>

Utilizamos <todos> <ininteligible> cuando todos los participantes en la conversación hablan a la vez y por ello no es posible entender a ninguno de los hablantes.

La etiqueta <público> designará al mismo en programas de televisión, encuentros deportivos, conferencias, etc. pero preferiremos la etiqueta <todos> para referirnos a alumnos y participantes en una conversación entre conocidos, familiares, etc.

3. Etiquetas concernientes a las intervenciones.

En ocasiones, en el transcurso de una conversación, los hablantes pueden ponerse tranquilamente a cantar, en el sentido literal de la palabra. Nos ha parecido que desdeñar estas cantarinas intervenciones no sería muy apropiado, teniendo en cuenta que con el Corpus oral pretendemos reflejar cómo habla la gente; y la gente, además de gritar, reírse, murmurar o toser, puede, entre otras cosas, cantar mientras habla. Resignarnos a no transcribir estas «piezas» nos pareció que dificultaría la comprensión del texto completo si, como suele ocurrir, se alude a ello posteriormente. Y aunque en ocasiones utilizamos la etiqueta <texto no transcrito> para algunos otros casos, éste no parece un buen candidato. Por otro lado, el hablante puede también «improvisar» esas canciones, lo cual es sin duda una manifestación demasiado interesante como para que se ignore.

Aunque no hay que olvidar que nuestro Corpus es pobre para reflejar algunos de estos aspectos relativos a la forma de enunciación y no al contenido -me refiero, naturalmente, a las indicaciones tonales- , para estas intervenciones hemos propuesto la etiqueta <cantando>, que se adjunta al principio de ellas, y su correspondiente de cierre, </cantando>.

Simultaneidad.

Señalamos esta característica con las etiquetas <simultáneo> </simultáneo>. Es una etiqueta doble ya que ha de adjuntarse delante (o a mitad) de la intervención del hablante que es interrumpido y detrás de la intervención del hablante que interrumpe, o justamente al revés. Cuando las intervenciones de los hablantes sean ininteligibles por causa de la simultaneidad indicaremos:

<H1> <simultáneo> <ininteligible>

<H2> <ininteligible> </simultáneo>

EJEMPLOS DE SIMULTANEIDAD:

<H2> Pero el lino... ¿de dónde se saca? ¿qué...

<H3> <simultáneo> Era una planta.

<H2> ...era? ¿una planta </simultáneo> que había por allí?

<H3> Sí, sí, sí. <simultáneo> Pa<(r)><(a)> sacar

<H1> Y queda... </simultáneo>

<H3> la fibra.

<H1> No. No había deja<(d)>o. Mi abuelo Eugenio no había

deja<(d)>o la labor. Como tenía hijos todavía y <simultáneo>

estaba...

<H2> Estaba... </simultáneo>

<H1> ...mi tío &Aa.ngel todavía soltero, pues él eso. Y cuando

murió mi abuelo Eugenio pues lo partió... nos lo dio todo y

mira éramos dos... dos que no teníamos padre, Tomás que me

ha<(b)><(é)>is oído...

Otras etiquetas.

Etiqueta <texto leído>: Empleada muy a menudo en los informativos y, en general, en grabaciones procedentes de los medios de comunicación, sustituye a la información que el locutor o hablante está leyendo y que se inserta en medio de un discurso oral o una narración.

<texto leído> </texto leído>:

Es conveniente transcribir ciertos textos leídos imprescindibles para la comprensión del texto que los sigue (por ejemplo las preguntas en un concurso, los titulares de los periódicos que se comentan en los noticiarios etc.) En ese caso se utilizará <texto leído> </texto leído> para delimitar dicho texto.

Etiqueta <texto no transcrito>: Por diversos motivos, en algunas ocasiones se puede optar por no transcribir ciertas partes del texto grabado. La etiqueta propuesta sustituye a estas partes. Se utiliza también en vez de textos pronunciados en otras lenguas o sus correspondientes traducciones. Esto último es relativamente frecuente en los noticiarios o reportajes.

Etiqueta <borrado involuntario>: No requiere explicación (¡aunque sí cuidado!).

Etiqueta <interrupción de la grabación>: Puede ocurrir que la cinta se termine pero la grabación continúe en otra cara, o en otra cinta. Como se han dejado de registrar ciertas palabras en la mitad del acto discursivo, hay que indicar el porqué de este corte. No hay que indicarlo, sin embargo, cuando definitivamente termina la grabación. En este caso se indica con la etiqueta </texto>, como en todos los archivos.

Etiqueta <silencio>: Si la pausa entre la intervención de uno o varios hablantes dura más de lo que podría representarse simplemente con un signo ortográfico como los puntos suspensivos.

<siglas> </siglas>

Al igual que en el caso de las palabras extranjeras, las siglas o acrónimos, que aparecen no pocas veces en nuestro discurso, han de ser etiquetadas, pues no son en sí una palabra que tenga estructura silábica idéntica a la española -aunque sus inventores hayan hecho esfuerzos por que éstas sean «pronunciables», cosa que han conseguido la mayoría de las veces, por razones obvias- y sobre todo, porque muy a menudo son siglas procedentes de palabras extranjeras, que los hablantes siguen pronunciando a la manera española. En este último caso, se decidió prescindir además de la etiqueta <extranjero>, dado que el hecho de marcarlas como una sigla ya pareció suficiente.

La etiqueta propuesta es doble: <siglas> al principio de la palabra en cuestión y </siglas> al final de la misma.

<sic>:

Cuando hay falta de concordancia utilizamos la etiqueta <sic> para evitar que se interprete como un error de transcripción. Ejemplo:

«...en los minutos inicial<sic> del partido...»

«...si reúne las<sic> requisitos... »

Se puede adjuntar esta etiqueta a las palabras que han sido mal pronunciadas a propósito o por error (inflacción), aunque esto último no es necesario, ya que garantizamos que si después de haber utilizado el corrector ortográfico ciertas palabras están transcritas con una ortografía diferente a la correcta es porque las hemos escuchado así.

<asentimiento> <denegación>

En situaciones en que el lenguaje corporal sustituya al lenguaje verbal para afirmar o negar podemos utilizar estas etiquetas.

Para señalar las palabras extranjeras se utilizan dos etiquetas (en realidad, la misma), adjuntando una al principio de la palabra o palabras (por ejemplo, cuando hay nombres y apellidos) y otra al final, sin dejar ningún espacio, por ejemplo:

<extranjero>Michael Jordan</extranjero>, <extranjero>motu proprio</extranjero>, <extranjero>Cardabelli</extranjero>, etc.

Hay que tener cierto cuidado en no señalar como extranjeras aquellas palabras cuya grafía se haya adaptado por completo a la española, como es el caso de las palabras árabes, o las que aparezcan en un atlas con una grafía ya estandarizada y española.

Convenciones de codificación y puntuación (ortografía).

1. ¿Qué se pone con mayúsculas?:

- Todos los nombres propios de personas (incluso apodos, abreviaciones, etc) Ejemplos: Adolfo Suárez, Coco, Chus, el Litri, Pepe, el Lute, el Nani, El Niño de la Puebla (pero atención: <extranjero>Jon</extranjero> Manteca, «el Cojo»;

- Todos los nombres de ciudades, países, pueblos, comarcas, barrios, distritos, plazas, calles... Ej.: San Sebastián de los Reyes, Castilla y León, la Albufera, el embalse del Vellón, el Alto Penedés, la Plaza de Neptuno, la calle la Bola, calle Mauricio Legendre...

- Las siglas. Con o sin puntos entre cada letra: URSS, E.E.U.U., la OTAN, el SIDA, el IVA, el PSOE.

- Los nombres de instituciones gubernamentales, académicas, culturales y demás: Comunidad de Madrid, Estado (cuando se refiere al Estado español), Ministerio de Economía, (pero ministro de Economía) Hacienda Pública, Museo del Prado, Sindicato de Médicos Ginecólogos, Patronato de Huérfanos del Ejército del Aire, Instituto de la Mujer, Comisiones Obreras, Caja Provincial de Ahorros... Siempre hay que tener en cuenta si las palabras de que consta el nombre en cuestión tienen un significado especial, como «caja» en el último ejemplo, o si los propios miembros de un colectivo escriben el nombre total con mayúscula. En caso de duda, consultar la prensa.

- También se escriben con mayúscula todos los nombres de cines, teatros, hospitales, colegios, universidades... : Hospital de Las Cruces de Baracaldo, Universidad Autónoma de Madrid, Colegio Mayor Chaminade, Teatro Español... Pero, atención, no se escribirán con mayúscula los nombres hospital, universidad, teatro, colegio, etc. cuando no se cite su nombre: «Le ingresaron en el hospital»; «Vamos al teatro a las cinco», por ejemplo.

- Los nombres de trofeos deportivos: Copa de Europa, Copa de Naciones, Recopa, Trofeo Conde de Godó de tenis, etc.

2. Uso de las comillas:

- En las citas textuales de otra persona o de uno mismo, con o sin verbo introductorio:

... decía una periodista italiana: «Si es pobre necesariamente tiene que ser malo»;

... todo fue empezar a hilar, y yo decía: «Si es que es imposible»;

... lo que te permite decirle «no» al jefe y llamarle «cabrón»;

... y entonces le he preguntado: «Oye, José Luis, que no has comido»;

Dejamos fuera de las comillas las aportaciones personales a las citas textuales. Nos referimos a frases como y tal y cual; y patatín y patatán, no sé qué no sé cuántos, etc. que se pronuncian con tono de voz imitativo como si las hubiese pronunciado la persona citada aunque no haya sido el caso:

... y dice: «Si es que no puedo más» no sé qué no sé cuantos «y tengo mucho trabajo».

- Cuando el hablante quiere resaltar un uso especial de la palabra, o su pronunciación, o se cita la palabra, o palabras sin que intervengan como tales en la conversación:

... No, no me refiero a la palabra «Cultura» con mayúscula;

... Un amigo decía que esto se llamaba el «recurso a los conocimientos de tipo B»;

... Si yo digo «Bilbado» porque quiero pronunciar mejor «he cantado», pues lo estoy haciendo muy mal (...) y no digo nada si recurro a la palabra «inflacción»;

... estoy diciendo que esa realidad que vemos ahí se llama «mesa»;

... Sadam Hussein critica lo que denomina una «intromisión inaceptable».

... operación «tormenta del desierto»

- Los títulos de libros, canciones y todo tipo de obras artísticas (aunque no se cite el nombre completo de la obra): «La Internacional», «El Quijote», «Las Meninas». Pero no, por ejemplo, la Novena sinfonía de Beethoven, aunque sí con mayúscula.

- Los nombres de publicaciones periodísticas de cualquier tipo: «El Mundo», «Hola», «El País», «Tiempo».

- Los motes, apodos o sobrenombres aplicados a personas, lugares o cualquier otra cosa:

<extranjero>Jon</extranjero> Manteca, «el Cojo»;

Cuba, «la isla del azúcar»;

Emilio Butragueño, «el Buitre»;

Policarpo Díaz, «el Potro de Vallecas»;

Iñaki Perosule, alias «Pinocho».

- También irán entre comillas los nombres de establecimientos y marcas comerciales. Ej.: «El Corte Inglés».

3. Palabras que se escriben juntas. Palabras inventadas.

Se transcriben tal como se oyen. Lo mismo rige para las confusiones, las palabras trabadas, las que se cortan voluntaria o involuntariamente y las autocorreciones. Se transcribe todo lo que se oye, aunque no sea una palabra documentada. Si el hablante se autocorrige, se transcribe tanto la palabra «mal» dicha como la corregida.

No adjuntamos ninguna etiqueta a las palabras inventadas. Una palabra como pueda ser «cuadernation», donde se pronuncia una palabra española con terminación a la inglesa, no falsea el tratamiento estadístico del corpus porque no aparece con tanta frecuencia como la palabra «cuaderno». Por tanto no será necesaria una etiqueta nueva para este caso. Simplemente transcribimos lo que oímos, con la ortografía que corresponda al idioma que corresponda.

4. Uso de los puntos suspensivos y la coma.

Utilizamos los puntos suspensivos para señalar las pausas (con frecuencia realizadas con un alargamiento de vocal al final de palabra), vacilaciones, cortes bruscos, y para separar varias realizaciones repetidas de una misma palabra.

La convención de marcar así un corte brusco viene condicionada por la adecuación que ha de tener el corpus a la ortografía española, donde no puede existir una separación mediante coma entre un artículo y un sustantivo, o entre un auxiliar y su verbo, por ejemplo, aunque de hecho los hablantes introduzcan una brevísima pausa -más bien, una vacilación- al hablar.

La coma se emplea según las reglas de la ortografía asimismo, y habrá de ser marcada aunque potencialmente el hablante no se detenga. En cualquier caso, estos signos quedan al criterio del transcriptor, siempre que -hay que insistir- no se viole ninguna regla de puntuación española como puede ser, por ejemplo, la no separación entre un sujeto y su verbo por medio de coma, de no ser que se introduzcan, naturalmente, subordinaciones, locuciones adverbiales, etc.

Las pausas de sentido en el discurso se indican, como es habitual en la ortografía española, mediante comas. El punto y aparte se reserva para cuando el cambio de tema o tópico en el discurso es claro.

Algunos de los problemas que presentan los corpus orales.

La principal dificultad que presentan los corpus orales es también una de sus características distintivas: la espontaneidad. Los hablantes no se sujetan a ningún tipo de regla estilística, retórica, ni siquiera gramatical en ocasiones, por lo que es frecuente encontrar palabras en un orden distinto del «normal»; repeticiones, muletillas, cortes bruscos dentro del acto comunicativo... y, por supuesto, cortes de palabras, palabras «inventadas», ininteligibles, o que no se ajustan desde luego a los cánones de, por ejemplo, un diccionario. Algunos de estos rasgos especiales se citan y estudian a continuación.

Mucho más a menudo de lo que pudiéramos pensar, los hablantes utilizamos palabras extranjeras, y otras que podríamos llamar «extranjerizantes», reconstruidas sobre una dada. Además, no es extraño oír palabras españolas con terminaciones fonéticas pretendidamente extranjeras (más bien, cuya fonética está adaptada a la extranjera), y muchas otras de este estilo.

Mención aparte merecen las palabras que se citan a lo largo de una conversación y que no provienen siquiera de un idioma extranjero: es el caso de las palabras de argot o jerga que ya están demasiado extendidas como para considerar que pertenecen a este tipo. Tal es el caso de «guai», por poner tan sólo un ejemplo de los más generalizados. En este momento, la propia autora ha dudado en escribirlo así, ajustándose totalmente a la fonética, o por el contrario, darle el aspecto «extranjerizante» que normalmente se puede ver escrito. Se podría todavía ahondar en el problema haciéndolo más complicado. Por ejemplo, cuando el hablante deforma la mencionada palabra, algo que ocurre no pocas veces...

Tampoco hay que olvidar en este apartado los sonidos normalmente llamados fáticos, ya que constituyen un apoyo imprescindible en gran número de situaciones comunicativas. Utilizados para aseverar, negar, dudar, etc., son en realidad «sonidos» que no pueden, sin embargo, ser clasificados entre los «ruidos», puesto que efectivamente comunican, lejos de impedirlo. No son, por otro lado, palabras: no tienen estructura silábica ni significado concreto determinado. Han de ser incluidos en cualquier corpus oral, precisamente porque se dan en la comunicación hablada y en ninguna otra.

A menudo sucede que los hablantes distorsionan su propia habla. No ocurre solamente en las imitaciones; en general no somos conscientes de cuántas veces hemos hablado (y nuestro interlocutor nos ha entendido) mientras nos reíamos, mientras sollozábamos, o mientras comíamos, por citar algunas situaciones comunes. Estas comunicaciones resultan distorsionadas por un ruido que nosotros mismos emitimos, y que hace el mensaje algo más difícil de captar, pero no absolutamente indescifrable.

Los hablantes tampoco esperan turno para hablar. Esta característica se puede observar incluso en los debates de los medios de comunicación, o en las retransmisiones deportivas. La superposición de conversaciones supone un par de dificultades para nuestros objetivos:

- la tarea del codificador se ve duplicada por lo evidentemente laboriosa que resulta la comprensión;

- no es precisamente fácil representar en un medio «plano» como es la pantalla de un ordenador una conversación de tales características.

Había que optar por la eliminación de una de las dos (o más) comunicaciones, considerándola «ruido», o bien, por la transcripción de las intervenciones simultáneas, indicando con etiquetas esta característica. Existe una tercera opción, y es transcribir una al lado de la otra tipo columna; pero ésta parece la menos recomendable por cuestiones de formato, y por la posible confusión que puede provocar.

Hasta ahora, sólo se han señalado los problemas que más se destacan y que cualquiera podría intuir. Existen otros que no son obvios por estar relacionados con la propia codificación de los textos. Se refieren en concreto a los detalles de transcripción de los datos en sí.

Consideremos el léxico español: para todos es tarea sencilla tomar un diccionario y buscar el significado de una palabra determinada. Está claro que ésta ha de pertenecer al vocabulario que se incluye en los diccionarios; a saber, el que dicta la Real Academia, o en su caso, la persona u organismo que confecciona un diccionario. No pasamos por alto el hecho de que hay diccionarios realizados para todos los campos de la ciencia y para todos los tipos de lenguaje; incluyendo aquí los famosos diccionarios de argot, por citar uno entre los muchos no dictados por la Academia.

Pero algo que jamás encontraríamos en un diccionario, por más extravagante que fuera, sería una palabra inventada por nosotros mismos. Que se sepa, de momento tampoco hay diccionarios-guía sobre cómo inventar una nueva palabra. Así pues, ni siquiera una referencia a nuestra palabra inventada sería posible encontrar. Y no es ninguna aguda observación el recordar que todos los días «funcionamos» con palabras creadas por nosotros mismos, que, además, entienden nuestros interlocutores.

Para no hacer las cosas complicadas y que alguien pudiera pensar que la anterior aserción es totalmente gratuita, aclararemos el concepto de palabra inventada, o palabra nueva.

Dejando de un lado que nuestra capacidad creativa, como nativos de español que somos, nos permita la creación de nuevas palabras conscientemente, un hecho evidente es que los hablantes vacilamos al hablar. Esto está claro: nadie es capaz de evitar que en un momento dado se le crucen dos palabras, o de encontrarse con que de repente no es capaz de pronunciar una dada. Se producen así nuevas asociaciones de sílabas, no oídas hasta entonces, pero en absoluto artificiales, o antinaturales. Tienen la misma estructura que el resto de las que componen las palabras que se pueden encontrar en un diccionario español, porque efectivamente están producidas por hablantes de español. Mantienen un significado aleatorio, si se quiere, o ninguno en absoluto.

Pueden ser tratadas de dos formas:

- como «ruidos» en la comunicación; y desechadas por lo tanto (no representadas más que con una etiqueta, pero nunca transcritas);

- como palabras reales, es decir, transcritas tal cual las oímos.

Esta última forma parece la más conveniente, por varias razones. En primer lugar, dejar de transcribirlas entra en conflicto con el principio de la no interpretación de lo oído. Una vez más hay que recordar que no podemos afirmar que no comuniquen algo, que sean efectivamente ruidos. En segundo lugar, resulta interesante el hecho de que estas combinaciones de sonidos respondan precisamente a los habituales de la lengua española. Al igual que se piensa en la necesaria reutilización de los textos a la hora del formato de los mismos, y de sus indicaciones contextuales, habría que pensar en lo útil que podría ser esta circunstancia para un fonólogo, por ejemplo.

El hecho de que no sean palabras del español no plantea problemas, como vemos.

Interesa señalar ahora otro de los escollos importantes con los que se encontraría cualquiera que se propusiese transcribir un texto oral: el problema mismo de la transcripción estricta de lo oído, o por el contrario, la peligrosa elección de reconstruir lo que uno supone entender. A simple vista, no parece un asunto demasiado grave: se opta por la transcripción ortográfica del texto oral, y lo que no queda claro, se etiqueta como ininteligible. Pero ocurre en multitud de ocasiones que el oyente es perfectamente capaz de entender lo oído aunque el hablante no haya pronunciado todas sus letras, ni siquiera sus sílabas. Ahora bien, algo que queda completamente claro es que a la hora de transcribir, no hay que interpretar. Y en estos casos, transcribir una palabra con todas las sílabas con las que se encuentra en un diccionario -es decir, reconstruirla- no sería otra cosa que estar interpretando que el hablante ha dicho algo que, en realidad, ni siquiera hemos oído.

Pero nuestro corpus oral no es fonético, sino ortográfico. Así pues, estas cuestiones quedan bastante en el aire. No son fácilmente representables sin desvirtuar de alguna manera los tres o cuatro principios básicos de la codificación, que sin duda deben ser mantenidos. O por el contrario, ateniéndonos a ellos en su totalidad, deberíamos «transformar» en buena medida la representación del corpus oral pretendido.

Ejemplos

<ACON021A.WPT> <También en cinta nº8>

<22-5-91>

<fuente=conversación telefónica>

<localización=Madrid>

<términos=plan, tenis, estudiantes extranjeros, trabajo, exámenes, agobio, fiesta, canciones, idioma alemán, lengua, libros, morfología>

<H1=Mujer, profesora de español para extranjeros en la Universidad, (filóloga), 23 años>

<H2=Mujer, filóloga, estudiante, 23 años>

<texto>

<H1> Digo: «Bueno». Ya se me ha estropea<(d)>o el plan.

<H2> Jo.

<H1> ¡Me he podido quedar! Si me pod<palabra cortada>... Me hubiese podido quedar, pero tendría que haber vuelto, ¿no? y ya me ha parecido demasiado. Digo: «Bah, ya... ya jugaré otro día con él». Porque me... al irme, me dice Alberto, dice: «¿no te quedas a jugar un poco más?»

<H2> Pero, ¿ése Alberto es... es un alumno tuyo... extranjero?

<H1> Sí.

<H2> ¿Y de dónde es, llamándose Alberto?

<H1> Italiano.

<H3> Ah, italiano. Claro, claro.

<H1> Di<palabra cortada>... tiene, fíjate, se llama Alberto y tiene un apellido catalán.

<H2> <risas> ¿Y eso?

<H1> ¿Eh?

<H2> ¿Y eso?

<H1> Pues no sé. Digo: «¡Pero bueno!» Dice: «Sí, sí», dice: «Si... muchas veces me he hecho pasar por español»

<H2> <risas>

<H1> «Con este apellido y este nombre...» Y nada. Y... y... y... me... le digo a su amigo, digo: «¿Qué tal juega Alberto al tenis?» y me dice: «Genial»

<H2> ¡Jo!

<H1> ¿Ves? Dice: «¡Idiota!», y le dice Alberto: «Idiota, ¿por qué se lo dices?», dice: «Ya no quiere jugar conmigo» Digo: «No, ya no quiero jugar contigo, porque juegas muy bien» <risas>

<H2> Y... ¿efectivamente juega bien?

<H1> Y efectivamente juega bien. Le he visto... yo, cuando han estado jugando ellos en la pista de abajo, y bueno, vamos, me manda a mí una pelota y tardo un año en cogerla. <risas>

<H2> <risas>

<H1> Y nada. Pero le he dicho... digo: «Venga, jugamos un día» y tal, y dice... : «¿Un día sólo?» digo: «Bueno, jugamos un día, venga, vale». Y eso. A ver si... si podemos (jugar)

<H2> Oye, ¿tú cuando <ininteligible> acabas las clases definitivamente?

<H1> Esta semana.

<H2> ¡Joe!

<H1> Y...

<H2> ¿Y luego tienes que seguir yendo a la facultad?

<H1> Sí, pero... pero será más relajado.

<H2> <fático=afirmación>

<H1> Tengo que... yo tengo que trabajar el... igual. Pero bueno, allí... prepararé material y a ver si me da tiempo a hacer más cosas, porque es que fij<palabra cortada>... Ahora estoy muy agobiada, porque... estoy... tengo que preparar y corregir todos los exámenes.

<H2> ¡Madre mía!

<H1> Mira... mira, tengo ya... <fático=duda> tengo... dos exámenes prepara<(d)>os, me falta otro. Eh... tengo que corregir un montón... Bueno, <onomatopéyico> mejor no te lo cuento, para no agobiar...

<H2> Hija, si pudiera te ayudaba, porque además, a mí eso de corregir y tal, eso me encanta, como ya sabes, pero... yo estoy... yo estoy también super fatal de tiempo.

<H1> Bah, no...

<texto no transcrito>

<H2> Bueno, chica. Y... yo qué sé, ya a lo mejor no salgo hasta... vete a saber, hasta el día de mi cumpleaños.

<H1> ¡Hala!

<H2> Joe, pues hablo en serio, ¿eh?

<H1> <ininteligible> junio, el día 12.

<H2> <onomatopéyico> Sí, sí.

<H1> No queda tanto.

<H2> No, queda... poquísimo. <risas>

<H1> <onomatopéyico> Ay, va a venir Tere pronto.

<H2> Sí... sí, sí, sí.

<H1> Pues nada, que te tienes que venir un día a cantar. <risas>

<H2> Hija... ha sido una rabia, una rabia eso de perdérmelo. Es que... aunque lo hubiera sabido a lo mejor no me habría da<(d)>o tiempo, pero hubiera hecho lo posible, no sé.

<H1> No, es que... me hubiese... por un la<(d)>o me hubiese encanta<(d)>o que hubieses esta<(d)>o, pero por otro me hubiese da<(d)>o pena porque no te hubiese podido atender.

<H2> Bueno.

<H1> Porque... he visto a Carlos, ahora que me acuerdo.

<H2> <fático=afirmación>

<H1> Le he visto, le he hecho así con la mano y ya no le he vuelto a ver.

<H2> ¡Joe! <risas>

<H1> ¿Y sabes? Había, Almudena, doscientas personas.

<H2> Pero, ¿dónde era?

<H1> ¿Eh?

<H2> ¿Dónde era?

<H1> En el... pabellón «B». Arriba.

<H2> Ah, ¿en el pabellón «B»? ¡Ah, claro!, ya sé dónde.

<H1> <ininteligible>

<H2> Ya, ya sé dónde.

<H1> Ya s<palabra cortada>... ¿sabes dónde está ese bar de... como de profesores?

<H2> Sí, sí, sí.

<H1> Allí ha sido.

<H2> <onomatopéyico> Ya, ya, ya, ya.

<H1> Ha esta<(d)>o muy bien, ha esta<(d)>o genial. Y... y nada, y... <onomatopéyico>

<H2> Pero, ¿tú has cantado la canción esa de <cantando> «Ya se van los pastores...»

<H1> Mis alumnos son unos cerdos. Les he llamado «cerdos», «guarros»... porque ¿sabes lo que me han hecho?

<H2> ¿Qué?

<H1> Les he dicho: «Dejadme cantad detrás, anda, dejadme» «No, no, no; tú te pones delante» Digo: «¡No, por favor, que me da mucha vergüenza, que me va a ver to<(d)><(o)> el mundo!» Y entonces me he puesto detrás y Inés no se había da<(d)>o cuenta, porque Inés también quería que sa<palabra cortada>... que yo estuviera delante, ¿no?

<H2> <fático=afirmación>

<H1> Y han cogido y dicen: «No, no; tú delante» Y me han saca<(d)>o y luego Inés me ha saca<(d)>o otra vez y me ha dicho que empezara yo con el tono.

<H2> <risas>

<H1> Muy mal. Pero luego ha queda<(d)>o muy bien la canción y... no sé de... bueno, yo que sé, ha sido... emotivo, ¿no? ahí...

<H2> <fático=afirmación>

<H1> Yo... vamos, yo les hubiese da<(d)>o un beso a todos, porque es que han sido geniales.

<H2> ¿Y no... no lo habéis... no lo habéis grabado ni nada?

<H1> ¡No...!

<H2> Qué pena.

<H1> <ininteligible> Ni me he dado cuenta. Sólo... y sólo ha... habido... buena, ha habido gente que ha hecho fotos; una alumna mía ha hecho fotos. Y yo ni siquiera me he lleva<(d)>o la cámara. Ni me he dado cuenta.

<H2> Bueno, en fin.

<H1> Pero grabar... eran todas canciones, y en alemán...

<H2> ¿Cuántas... ?

<H1> <ininteligible> preciosa.

<H2> ¿Cuántas ha habido en alemán?

<H1> En alemán, siete por lo menos.

<H2> ¡Ay, Dios mío!

<H1> <onomatopéyico>

<H2> ¿Y alguna que nosotros conocíamos?

<H1> La de: <cantando><extranjero>Winter ade, winter ade</extranjero></cantando>

<H2> <risas> Ya, ya, ya. ¿Y la de los pajaritos?

<H1> <tarareando>Na na nara na nanará</tarareando>. No, la de <extranjero>«Alle Vögel sind schon da»</extranjero> no. Ah, ha habido también esa de... <cantando><extranjero>Es tonen</extranjero></cantando>... no; esa no sé si la han canta<(d)>o al final. <cantando><extranjero>Es tonen die Lieder</extranjero></cantando>...

<H2> <tarareando>Na nana na ná</tarareando>... Sí, ya, ya, ya.

<H1> No sé, pero esa... pero han cantado una preciosa de... de Colón... se han disfrazado... Mira, ¿tú sabes lo que era...? Víctor, con una bolsa detrás en el culo...

<H2> <risas>

<H1> <ininteligible> peluca de lana, otros con... con pelu<palabra cortada>... con... plumas de indios... Entonces han hecho una especie de representación de América, porque la canción decía: <cantando><extranjero>Vielleicht... das ist Amerika</extranjero></cantando>

<H2> <risas>

<H1> Luego: <cantando>Gloria, victoria</cantando>. Bueno, ha sido super divertida. Y se contestaban unos a otros... bueno, genial. Pero bueno, hija. Al año que viene, si yo sigo ahí tú tienes que venir. (...)

<ADEP008A.WPT>

<fuente=televisión>

<2-91>

<localización=Madrid>

<términos=partido, puntos, baloncesto, defensor, tiro libre>

<H1=Varón, comentarista deportivo>

<H2=Varón, comentarista deportivo>

<H3=Varón, locutor en la cancha>



<texto>



<H1> ...corresponde al Taugrés. Ahí está Sibilio emparejado con Lisar, máximo anotador del partido, Lisar, catorce puntos; lanza Sibilio, falta personal de Lisar, la segunda. <silencio> <ruido>

Y repasamos las faltas personales, aparte de Norris que está con tres, ningún otro jugador alcanzó en el primer período esa cifra.

<H2> Tengo interés por ver ahora el emparejamiento de Epi y <extranjero>Scott Roth, Roth</extranjero> un hombre... muy agresivo en ataque, a veces con movimientos muy poco... pensados; eso obliga a que el defensor sufra a veces ciertas embestidas con ciertas tomas de posición un poco distintas de las normales en cuanto a lo que es la lucha ataque - defensa entre aleros.

<H1> Anotó un sólo tiro libre Sibilio, tres de trece, en tiros libres para el Taugrés.

<H2> Por parte de Vitoria, es Chicho Sibilio el que no se enfrenta a <ruido> como tú decías, Epi; dejándole pues bastante... comodidad para el primer lanzamiento.

<H1> Falló <extranjero>Trumbo</extranjero> después del lanzamiento de Epi, y el rebote final para Rivas en la acción de contraataque. Falta personal de Lisar, tercera.

<H2> No se crean que había una<sic>... cambio, sino que la jugada ha venido provocada de esta forma, y Lisar se ha quedado emparejado con <extranjero>Roth</extranjero>. Lisar, en menos de treinta segundos, dos faltas en esta segunda parte.

<H1> Sibilio... Ahora anotó, los tres puntos de esta segunda parte los ha conseguido Sibilio.

<silencio>

51 - 36... <extranjero>Trumbo</extranjero> Coneti. Balón para Solozábal, lanzamiento triple y lo convierte.

<H2> No se puede... dejar tirar a un hombre como Nacho Solozábal con esa comodidad y a esa distancia, y más perdiendo de la... de la diferencia que está perdiendo el Taugrés; hay que salir a morder cada posesión y ataque del equipo contrario.

<H1> Siete triples lleva ya... el Barcelona.

Sibilio... Y en la línea de fondo, con muchas dificultades, Piculín taponó y reboteó... Solozábal... Triple de Lisar... Ahora no.

<H2> Ese ha sido el más fácil que ha tirado... ¿eh? Los otros cuatro que había metido, cuatro si no me equivoco,

<H1> <simultáneo>Sí, sí.

<H2> ...había</simultáneo> sido mucho más compleja la posición, con un defensor delante... Ahora que estaba con el hombre más próximo que le... marcase a cuatro metros, lo ha fallado.

<H1> Sibilio... Cinco puntos ya en esta segunda parte.

<silencio>

Epi asiste a <extranjero>Trumbo</extranjero>... vamos a ver si es capaz de subir la bola. No, porque hubo falta personal de Arlaukas, segunda.

<silencio>

<H2> Lo cierto, Pedro, es que si el Barcelona ha de ganar este partido de hoy, y lo ha de ganar de esta manera, la verdad es que el Taugrés además le hace un buen favor, puesto que yo creo que están sufriendo muy poco desgaste. No quiero decir que sea un entrenamiento, porque pienso que esto es muy fuerte, y entre profesionales no cabe considerar esta posición, pero yo creo que el Barcelona está trabajando con bastante desahogo, como para mañana si tiene que jugar, perdón, pasado mañana si tiene que jugar una semifinal, poderla afrontar con poco desgaste físico.

<H1> Pues era una de las claves a priori en esta copa, la dificultad que para el Barcelona podía entrañar, con una plantilla tan corta como la que tiene ahora por culpa de las lesiones, el jugar tres partidos decisivos en tan sólo cuatro días; pero si el primero es tan fácil, habrá reducido la cosa a dos en dos, porque mañana vendrá jornada de descanso.

<silencio>

Epi... con Piculín... <extranjero>Trumbo</extranjero> le devuelve a Piculín... <extranjero>Trumbo</extranjero> otra vez, dos rebotes ofensivos <simultáneo> <ininteligible>

<H2> <extranjero>Trumbo</extranjero>... </simultáneo> si se me permite la expresión, haciendo de hombre-escoba, barriendo todo lo que llega por ahí y... ¿eh? llevándoselo de nuevo... Pero que es una labor importantísima, recuperar esos rebotes de ataque es un lujo que cualquier entrenador soñaría con tener.

<H1> Triple de Epi. Lleva ocho, el Barcelona. Puede establecer un nuevo récord de la temporada, a poco que mantenga el acierto de la primera parte.

Rebote para Piculín, tras el error en el lanzamiento de Sibilio...

<H2> Bueno.

<H1> Epi que no... Lisar...

<H2> Oye, es que eh... no defienden, no atacan con solidez, no rebotean... Creo que el partido hoy del Taugrés es para olvidar, ¿eh?

<H1> Pues es la continuidad del... que tuvo el pasado domingo en la pista del Caja de Ronda. No vale la acción; hay falta personal de Sibilio, segunda. Y habrá una nueva sustitución, con el número 14 entrará Juan Miñana.

Y se retira un hombre que yo no sé si ha jugado o no. <ininteligible> Arlaukas, a pesar de que... lo que hemos comentado en la primera parte era el que había metido más puntos, es un hombre que no está, no está en el partido, ninguna de sus acciones entraña... prácticamente valor ninguno.

<H1> Pues muy mal lo debe de ver <extranjero>Brown</extranjero> cuando a colocado a Miñana, en lugar de Arlaukas... otro rebote, Lisar... ahí no estuvo muy hábil... y ha estado a punto además de ganarse el codazo de Rivas... <risas>

<silencio>

<H2> El golpe en el tablero, por parte de Piculín, cuando el balón bajaba, ha sido penalizado, allí lo veremos...

<H1> Con canasta para <extranjero>Roth</extranjero>

<H2> Con canasta para <extranjero>Scott Roth</extranjero>.

(...)

<cinta 033>

<ADEB033A.WPT>

<12-11-91>

<fuente=radio>

<localización=Madrid>

<términos=niñez, depresión, problemas, padres, prevención, causa>

<H1=Varón, psicólogo, edad desconocida>

<H2=Varón, psicólogo, edad desconocida>

<texto>

<H1> ... un niño depresivo no rinde, un niño depresivo no transmite alegría; y después hay unas consecuencias <fático=duda>... digamos que en el último extremo, que pueden ser el suicidio, <fático=duda> afortunadamente, eh... un... una minoría, pero <vacilación> una de las causas del suicidio infantil y juvenil es la depresión; y después hay una causa que es quizá más sutil, hay una consecuencia quizá que es más sutil que es el... el... el instaurar un estado de ánimo permanente, estructurar lo que nosotros llamamos una depres<palabra cortada>... depe<palabra cortada>... <fático=duda> enfe<palabra cortada>... personalidad con tendencia a la depresión o pesimista; es decir, hay tipos de niños que han sufrido una depresión en la infancia que no se ha resuelto, que se ha ido viendo que es su manera de ser, que ha quedado enquistada como una manera de ir por la vida y est<palabra cortada>... estas personas van a estar estigmatizadas para el resto de sus días con la... una incapacidad para en<palabra cortada>... el entusiasmo, con una incapacidad para disfrutar, con una incapacidad para el ánimo y eh... son eh... quizá eh... cuando tengan cuarenta años serán vistos sólo como pesimistas, ellos dirán que son realistas; se instaurarán como <fático=duda> paladines de la razón crítica, pero eh... todo ello serán las consecuencias de una depresión no resuelta en la infancia.

<H2> Yo... yo quisiera incidir un poquito en el tema de la depresión infantil antes de los seis años, porque es un tema muy debatido en el sentido de si se puede localizar o se puede diagnosticar una depresión infantil antes de los seis años. En los últimos estudios parece ser que sí; se han logrado aislar... di<palabra cortada>... dicho de una manera un poco... general, algunos factores o algunos elementos que nos puedan ayudar a... a detectar estos cuadros depresivos ante<palabra cortada>... en los niños antes de los seis años, incu<palabra cortada>... incluso a ayudarlo a prevenirlos, ¿no?, porque de alguna manera suena como muy... como muy grave el que antes de los seis años en un niño pequeño se le puede detectar una depresión. E<(n)>to<(n)>ces, eh... aquí hemos comentado que hay unos factores estresantes, el estrés familiar puede provocar una depresión y que en el niño pequeño esta depresión yo pienso que se puede... de alguna manera evaluar básicamente a través de su expresión facial, su pérdida de apetito, su cambio de humor repentino; el hecho de que deje de tener amiguitos en el colegio, en la guardería o en el parvulario, de que ya no haya un ajuste social; el hecho de que u<palabra cortada>... es un niño que, habitualmente, es un niño bastante tranquilo y se... comience a estar agitado... e<(s)> <(d)><(e)>cir, hay una serie de... de... de elementos que nos pueden ayudar a detectar y a prevenir la de<palabra cortada>... la depresión infantil en los seis años, evidentemente junto con los biológicos, ¿no? Eh... lo importante muchas veces es ver qué factores ambientales, aparte de los biológicos, pueden, de alguna manera, detectarse como motivadores de esta depresión infantil; y, básicamente, eh... yo diría que en... las últimas investigaciones, en los últimos a<palabra cortada>... a<palabra cortada>... análisis que yo he podido realizar, yo he encontrado -o hemos encontrado- de alguna manera, algunos elementos importantes, que no son los únicos ni los más eh... decisivos, pero que están presentes en los últimos niños que han podido ser diagnosticados de depre<palabra cortada>... o de cuadros depresivos antes de los seis años. Uno sería el carácter autoritario de los padres, muchas veces; otro sería una enfermedad crónica por parte del niño o por parte de alguno de los padres que tienen relación directa con el niño y otro elemento, fundamental también, podía serlo las familias que tienen disputas internas tan al<palabra cortada>... tan eh... extremas que el niño está presente, ¿no? E<(s)> <(d)><(e)>cir, que son factores que pueden provocar estre<palabra cortada>... estrés en el niño pequeño y que eso se observa, bas<palabra cortada>... básicamente, con una pérdida absoluta del humor, e<(s)> <(d)><(e)>cir, un niño normal, alegre, tranquilo, pasa a ser un niño con un humor... con una eh... crisis de humor eh... depresivo; niños que suelen ser normales en cuanto a nivel de movimiento y per<palabra cortada>... y pierden o se agitan de una forma extraordinaria; e<(s)> <(d)><(e)>cir, de alguna manera eh... podemos, en estos momentos, detectar la depresión a nivel com<palabra cortada>... de comportamiento y de conducta, a nivel... antes de los seis años; y eso nos puede dar un poco el... el pie o el hecho de que podamos prevenirla, podamos ayudar a los padres a que ajusten su conducta y sus pau<palabra cortada>... pautas educativas con los c<palabra cortada>... con sus hi<palabra cortada>... con sus niños y dar orientaciones a las maestras par que lo sepan detectar y no contenten con decir: «Bueno, este niño ha... ha cambiado; este niño tiene una reacción que no m<palabra cortada>... no... no... no me gusta; ya se le pasará; esto ya... bueno, pues que vaya al médico, que vaya al psicólogo o que no vaya a ningún<palabra cortada>... a ninguna parte...» , y habitualmente sí; lo que no<palabra cortada>... lo que ocurre es que ahí tenemos... <fático=duda> vemos niños con reacciones depresivas que al cabo dos, tres semanas, un mes, pues bueno, estos niños han variado.

(...)

<APOL009A.WPT>

<fuente=televisión>

<1-91>

<Sesión parlamentaria, congreso de los diputados>

<localización=Madrid>

<términos=guerra, Golfo Pérsico, ataque, petróleo, liberación, invasión, representatividad, democracia, protesta, interés económico>

<H1=Varón, presidente del Gobierno español y del Partido Socialista Obrero Español, c.45 años>

<H2=Varón, locutor de televisión, edad desconocida>

<H3=Varón, diputado, presidente de Izquierda Unida, c.44 años>

<H4=Varón, presidente de la cámara, c.48 años>

<H5=Varón, diputado, presidente del Partido Andalucista, c. 40 años>

<H6=Varón, diputado, portavoz de Unión Valenciana, c.46 años>

<H7=Varón, diputado, portavoz de Eusko Alkartasuna, c.43 años>

<H8=Varón, diputado, presidente del Partido Popular, c.44 años>

<texto>

<H1>...Y mientras tanto seguiría haciendo sufrir a su pueblo. Se dice que la guerra es horrible, y es verdad, señorías. Pero todos los que estamos en esta cámara y muchos más ciudadanos, quizá no los suficientes, deben saber que la guerra, horrible, ha sido la que ha libra<(d)>o Sadam Hussein durante 8 años, con la responsabilidad de más de un millón de muertes, de más de un millón de muertes por haber desata<(d)>o el conflicto. Y ahora, la que ha libra<(d)>o desde el 2 de agosto invadiendo a un pequeño país indefenso. Yo no califico cuál es el sistema de esos países. No los califico. Indefenso. Ocupándolo en 48 horas, y aplastándolo. Y esa es el comportamiento y la actitud. Y lo que quiero decir, y lo quiero decir en nombre de la dignidad de la España democrática, que no se puede comparar la... situación de la opinión pública en relación con los representantes legítimos de nuestro país, con la situación de la opinión pública en determinados países que dicen que tampoco son representadas por sus gobiernos, cuando se trata de países que no tienen democracia, como se ha dicho desde esta tribuna y equiparándolo respecto de algunos países árabes. Repito, no quiero entrar en esa... discusión sobre la legitimidad o no, desde el punto de vista democrático de estos gobiernos. Lo que no puedo es admitir que se nos compare como país, en cuanto a representar o no legítimamente a la opinión pública y a la soberanía de nuestro país, con esos otros países. Con los que no respetan esa voluntad popular, o no la contrastan públicamente a través de procesos electorales. Tampoco en eso se deben confundir los ciudadanos.

La verdad es, que cuando pase esta época, cuando se plantee la pos<(t)>crisis, cuando realmente sigamos manteniendo la posición de una respuesta amplísimamente respaldada en esta cámara y por la comunidad internacional, de una conferencia para la paz en el Medio Oriente y de estabilidad para la región, cuando se tenga per<(s)>pectiva de este momento en el que estamos hablando, y de estos días, ocurrirá como ha ocurrido otras veces en la Historia. Se sabrá dónde estuvo cada cual, y por consiguiente, nuestros conciudadanos podrán juzgar, y podrán juzgar con la per<(s)>pectiva de qué responsabilidad debe asumir cada cual. Gracias.

<H2> Ya han escuchado ustedes al presidente del Gobierno, que como suele hacer en su segunda intervención, ha sido mucho más contundente, y ha hecho gala de su oratoria parlamentaria. «No hay que confundir a los ciudadanos», «el parlamento representa la soberanía popular», y no se puede hacer el juego de que la calle se divorcia de lo que decide y vota este parlamento. «La guerra no comenzó el 16 de enero, sino el 2 de agosto, y una vida sin dignidad no merece la pena ser vivida». Y no se puede equiparar tampoco a Sadam Hussein con la coalición de países, la coalición internacional, en cuanto a su planteamiento. Ha pedido... el derecho de réplica, cuando son las 3 de la tarde menos 11 minutos, don Julio Anguita, que evidentemente, era el... al que iba dirigida la mayor parte de la batería dialéctica del señor presidente del Gobierno. Así pues, escuchamos la respuesta del señor Anguita.

<H3> Señor presidente... señorías... Yo no sé cuántos años... tiene este hemiciclo, pero por los ligeros conocimientos de historia que tengo, estoy seguro que ha oído encendidas expresiones patrióticas por parte de presidentes de Gobierno, que han apelado a las palabras más sublimes para defender posturas políticas, erigiéndose en defensores del derecho de la dignidad patriótica y de la patria. Eso tiene un antecedente en nuestra Historia. Mandar los soldados a Cuba <murmullos>; después, burlarse de ellos cuando regresan vencidos; hablar de la patria, y a continuación de hablar de la patria, entregarse a políticas concretas que en los eh... terrenos de lo económico y de lo social no tenían nada que ver con la patria; la historia de este hemiciclo está llena de intervenciones de presidente de Gobierno airados, que además, tergiversan las intervenciones habidas en esta tribuna.La intervención que yo he tenido ha sido serena <murmullos>, equilibrada, sin descomposición del gesto <murmullos>. Y además, en este segundo caso, con coro incluido, señor presidente, qué más se puede pedir. Ha habido vehemencia. Pero cuando la vehemencia lleva arrastrando las palabras, las palabras bran<sic> por detrás de los pensamientos. Veámoslo. La primera, yo no he dicho que España se ponga a la altura de los sistemas políticos denunciados. He dicho que la fuerza multinacional en el momento en que desata una operación militar de consecuencias más graves que la invasión de Irak a Kuwait, se está colocando a la altura de Sadam Hussein. No he mencionado ningún país <murmullos>, no se tergiverse, nadie puede tergiversar mis expresiones, y menos que nadie, quien tiene que dar ejemplo de ajustarse correctamente a los planteamientos de un adversario político. La responsabilidad de presidente de Gobierno va más allá que la intervención. Va también en un juego limpio en las intervenciones. Y la segunda cuestión: Es un truco muy fácil la satanización de un adversario <murmullos>. Voy a refrescar la memoria a sus señorías. Dije en la intervención del 11 de setiembre, en nombre de lo que representaba en este parlamento, que éramos la fuerza política que antes de la invasión ya había condenado a Sadam Hussein, antes que muchos de sus señorías. Muchísimo antes. Y roto relaciones diplomáticas <risas> Antes que muchos de sus señorías. Sí. Sí. Sí. <murmullos> Señorías, el término diplomático hace referencia a un sustantivo y también a un adjetivo, y en la medida en que las fuerzas políticas mantienen relaciones unas con otras, son relaciones diplomáticas <murmullos>, <risas>.

(...)

III. ARQUITECTURA DE LA BASE DE DATOS TEXTUAL.

Estructura de directorios.

Directorios. Tipología textual.

(Bajo directorio CORPUS)

ADM Administrativos

CIE Científicos

CONV Conversacionales o familiares

EDU Educativos

HUM Humanísticos

INS Instrucciones (megafonía)

JUR Jurídicos

LUD Lúdicos (concursos, etc.)

POL Políticos

Periodísticos:

DEB Debates

DEP Deportes

DOC Documentales

ENT Entrevistas

NOT Noticiario

PUB Publicitarios

REL Religiosos

TEC Técnicos

Nota: Estos nombres de directorios corresponden al código de tipo de texto que aparece en el nombre de fichero excepto CONV (conversacional, etiquetado como CON): MS-DOS no permite que un directorio se llame «CON».

Cómputo aproximado de palabras:

Número de palabras.

Administrativos y políticos.................   61.200 palabras

Científicos.................................   36.600 "

Conversacionales o familiares............... 269.500 "

Educativos..................................   58.300 "

Humanísticos................................   61.200 "

Instrucciones (megafonía)...................    6.600 "

Jurídicos...................................   35.200 "

Lúdicos (concursos, etc.)...................   61.200 "

Periodísticos

Debates.........................               93.500 "

Deportes........................               58.300 "

Documentales....................               28.600 "

Entrevistas.....................              171.200 "

Noticiario......................               72.600 "

Publicitarios...............................   30.800 "

Religiosos..................................   12.100 "

Técnicos....................................   43.100 "

TOTAL ESTIMADO........................      1.100.000 palabras

 

Porcentajes de representatividad.

Administrativos y políticos.................. 5'6 %

Científicos.................................. 3'3 %

Conversacionales o familiares................ 24'5 %

Educativos................................... 5'3 %

Humanísticos................................. 5'6 %

Instrucciones (megafonía).................... 0'6 %

Jurídicos.................................... 3'2 %

Lúdicos (concursos, etc.).................... 5'6 %

Periodísticos:

Debates..........................             8'5 %

Deportes.........................             5'3 %

Documentales.....................             2'6 %

Entrevistas......................            15'6 %

Noticias.........................             6'6 %

Publicitarios................................ 2'8 %

Religiosos................................... 1'1 %

Técnicos..................................... 3'9 %

____________________________________________________

                                            100 %

Referencias:

Francisco A. Marcos Marín: Informática y Humanidades, Madrid: Gredos, 1994. (ISBN: 84-249-1665-4)

Anonymous FTP

ftp anónimo a Madrid

ftp anónimo a Buenos Aires

back to corpus page