LABORATORIO DE LINGÜÍSTICA INFORMÁTICA

Departamento de Lingüística, Lenguas Modernas, Lógica y Filosofía de la Ciencia

Universidad Autónoma de Madrid
Universidad Autónoma de Madrid


Traducción e internet

Antonio Moreno Sandoval
Laboratorio de Lingüística Informática
antonio.msandoval AT uam.es

 
 




 

Segunda sesión: Recursos en la red



2.1. ¿Cómo buscar información en la red?

 

 
 

La información en la red está compuesta por más de 20 millones de sitios. Además, la universalidad y la falta de una autoridad controladora hacen que la búsqueda sea aún más difícil. A diferencia de las bibliotecas, donde contamos con catálogos y bibliotecarios, y las adquisiciones se registran, la "web" es un espacio de información incierto: nadie puede saber ni acotar lo que hay, ya que está en continuo cambio. Lo normal es perderse.
 
 
 

2.1.1. Tipos de buscadores


Lo que sigue es una adaptación del excelente curso "A basic tutorial on searching the Web"
de  Biblioteca Beaufort de University of South Carolina
(http://www.sc.edu/beaufort/library/pages/bones/bones.shtml)
 

Podemos distinguir tres tipos de recursos para buscar información en la red:

Las diferencias entre ellos consisten sobre todo en si la información ha sido recogida automáticamente (por programas que exploran la red) o si ha sido elaborada por especialistas.  La búsqueda automática es mucho más amplia y menos selectiva; la búsqueda en sitios especializados es mucho más selectiva. En otras palabras, cantidad frente a calidad.

Esta división en muchos casos se diluye ya que tanto unos como otros intentan incluir los rasgos de la competencia: los motores de búsqueda tienen secciones especializadas y las bases de datos incorporan motores de búsqueda para agilizar la consulta.  

2.1.2. Motores de búsqueda


¿QUÉ SON LOS MOTORES DE BÚSQUEDA (search engines)?
 

Son enormes bases de datos de páginas web e índices que contienen las palabras que aparecen en dichas páginas. Estas bases de datos han sido recopiladas automáticamente.
 

¿CÓMO FUNCIONAN?
 

Para realizar la compilación, se utilizan unos programas denominados "robots" o "spiders" que exploran la red siguiendo los enlaces de las páginas. Cuando llegan a un sitio (por ejemplo, la página del Laboratorio de Lingüística Informática) indexan la mayor parte de las palabras que aparecen en las páginas públicas del sitio. OJO: las páginas que no contengan algún enlace son "invisibles" para los robots.

IMPORTANTE: cuando se hace una consulta a un buscador, lo que se está pidiendo es que busque en su índice de sitios y contraste la consulta (realizada mediante palabras-clave) con los términos indexados en la base de datos del buscador. Por tanto, cuando se utiliza un buscador no se está consultando la información que en ese momento existe en la red, sino la porción de la red capturada en una fecha anterior.  Esto explica que a veces alguno de los punteros ofrecidos por el buscador han cambiado. Controlar la actualización del índice del buscador es difícil.
 
 

VENTAJAS  Y DESVENTAJAS DE  LOS MOTORES DE BÚSQUEDA

Ventajas:
 


Desventajas:


¿SON TODOS LOS BUSCADORES IGUALES ?
 
 

Aunque los buscadores utilizen programas de exploración de la red muy similares, los resultados son diferentes ya que no existen dos buscadores en tamaño, velocidad de acceso y contenido (Para saber algunos criterios de evaluación
de buscadores, véase más abajo). Esto se debe a que cada buscador establece sus propios criterios de ordenación de las respuestas, así como sus opciones de búsqueda. Puede que las diferencias no sean cuantitativamente importantes, pero cualitativamente significativas.  
 

¿CUÁLES SON LOS CRITERIOS DE ORDENACIÓN DE LAS RESPUESTAS?

Todos los buscadores ofrecen sus respuestas ordenadas por RELEVANCIA, es decir, las que el buscador "piensa" que se acercan más a la petición del internauta. Obviamente, el primer criterio es el de cuántas palabras de la consulta se han localizado en el documento. Otro es el de frecuencia de dichas palabras en el documento. Algunos buscadores dan más prioridad a las palabras que aparecen en los lugares de cabecera. Además, algunos valoran la popularidad de los documentos: cuanto más enlaces señalando a esos documentos haya, mayor es la popularidad. Por tanto, más valiosa es la página y supuestamente contendrá información relevante para el tema.
 

¿CUÁLES SON LAS DIFERENCIAS ENTRE  BUSCADORES INDIVIDUALES Y METABUSCADORES ?  
 


 

2.1.3. Directorios temáticos


Estos directorios, a diferencia de los buscadores automáticos, han sido creados y están permanentemente actualizados por "buscadores" humanos. Es decir, se produce una selección de los recursos citados y, en muchos casos, contienen comentarios. (En cierto sentido, esta página podría considerarse un directorio temático en miniatura, ya que presenta una selección de sitios).

En resumen: menos cantidad de información pero de mayor calidad. Es decir, cuanto más seleccionada y anotada esté la información, menos tiempo invertirá el usuario en encontrar la información relevante. Por el lado negativo, obtenemos una selección "filtrada" de manera que puede haber páginas que nos interesen y que el editor del directorio temático haya decidido excluir. Para evitar eso, es muy importante que en los directorios temáticos se diga explícitamente los criterios de selección.

Algunos directorios pueden incluir motores de búsqueda.

¿CÓMO FUNCIONAN?

Al realizar una consulta mediante una palabra-clave, esta se contrasta con los contenidos de las descripciones del directorio. Es decir, no se buscan palabras que aparecen en las páginas de la web, sino en las descripciones "seleccionadas" del directorio. Si se conoce bien el tema, la búsqueda es más exacta.  

Los directorios temáticos pueden ser de muy variados temas, destacando sobre todo los directorios académicos (sobre temas universitarios) y directorios comerciales. Los llamados "portales" son un ejemplo de uso comercial de los directorios, ya que proporcionan no solo enlaces útiles dentro de un dominio temático, sino que además ofrecen servicios adicionales como correo electrónico, etc. y se financian con publicidad. Funcionan como lugares de acceso a internet.

EJEMPLOS:

    Yahoo!  Terra   Magellan  Excite
 
 
El portal de los buscadores    www.tusbuscadores.com

2.1.4. Bases de datos especializadas


Son bases de datos creadas por especialistas en un tema (profesores, investigadores, documentalistas, expertos, organismos públicos y privados, etc.). El acceso a estas bases de datos está normalmente protegido por una "contraseña" (aunque es fácil conseguir acceso, después de registrarse como usuario). Estas bases de datos contienen documentos, diccionarios y otros tipos de información interesante.

¿QUÉ ES LA "INFORMACIÓN INVISIBLE"?

Precisamente la información que está dentro de sitios protegidos por palabras-clave. Esta información no
puede ser indexada por los motores de búsqueda. Se calcula que una buena parte de la información en internet
es "información invisible".

La información contenida en estos sitios es de alta calidad, ya que ha sido seleccionada y evaluada por
especialistas.

EJEMPLOS:

RAE, Enciclopedia Britannica, CSIC
 
 
 
 

2.1.5. ¿Cómo evaluar un buscador?


Debemos esperar cualquier cosa de la red, dada su universalidad: desde páginas frívolas a serias, propaganda y cursos académicos, recursos y programas gratuitos. Es esencial, por tanto, distinguir entre los distintos tipos de páginas. Estos son algunos consejos:
 
 

  1. conocer la identidad del autor o del responsable de la página. Normalmente uno se puede fiar de páginas que dependan de alguna institución prestigiosa (por ejemplo, una universidad). También las páginas de las compañías conocidas son fiables, aunque hay que tener en cuenta sus intereses comerciales.
  2. cualquier página con buen estilo debería contener información sobre:
    1. última fecha de actualización
    2. dirección electrónica a la que enviar preguntas o comentarios
    3. identificación del propietario de la página
  3. comprobación del contenido de la página:
    1. distinguir entre promoción y propaganda de información seria y objetiva
    2. verificar los enlaces hacia y desde la página. Una página que contenga el sello de algún directorio prestigioso (por ejemplo, Magellan) es un signo de calidad contrastada. El problema de los documentos electrónicos con respecto a los libros y revistas impresas es que la calidad no está constratada por ningún comité de selección, salvo por los directorios temáticos.
  4. comprobar la estabilidad de una página: la publicación en internet, por definición, es volátil: la información puede cambiar de un día a otro. Una página estable y fiable se puede reconocer mediante la fecha de actualización y el propietario.

 

2.1.6. ¿Cómo realizar búsquedas? Algunos consejos


(tomados de la página de Ellen Chamberlain)
 


Casi todos los buscadores actuales tienen una opcion de busqueda avanzada.


2.2. Sitios de interés para los traductores


Me he basado en información de estas dos páginas:

Página de enlaces de José María Guirao
 

La página de Anna Mazzoldi: el paraíso del traductor.
 
 

2.2.1. Traductores on-line

SYSTRAN: el padre y la madre de todos los traductores automáticos.

Alta Vista y Babel Fish: uno de sus hijos

foreingword.com: otra página con diferentes programas de traducción on-line
 

2.2.2. Traducción automática


Asociaciones de Traducción Automática:
 

British Computer Society
Natural Language Translation Specialist Group
http://www.bcs.org.uk/siggroup/nalatran/nalatran.htm
 

Incluye un puntero a  suministradores de programas de traducción automática
organizado por lenguas.
European Association of Machine Translation (EAMT)
http://www.eamt.org/
 

Bibliografía sobre traducción automática

Documentos de John Hutchins
 
 
 

2.2.3. Bases de datos terminológicas

 

Terminology Forum: foro de discusión para terminólogos,
traductores y documentalistas. Enorme cantidad de enlaces.
 

EuroDicAutom: la página del Servicio de Traducción
de la Comisión Europea. Es la base de datos terminológica
por excelencia. Contiene más de 400.000 términos en español.
 
 

2.2.4. Lenguas: diccionarios y gramáticas en internet


The Human-Languages Page: página con infinidad de enlaces de todo tipo
sobre temas relacionados con las lenguas: diccionarios, literatura, recursos
lingüísticos, ofertas de trabajo....

La página de Richard Beard sobre diccionarios y gramáticas: impresionante
catálogo de recursos lingüísticos on-line.

 

The Linguist List: el principal foro de discusión sobre lingüística y disciplinas relacionadas. Un clásico.

travlang's Translating Dictionaries: diccionarios con traducciones gratuitos. Emplea el esperanto como interlingua.
 

2.2.5. El mundo del traductor profesional en internet

La página de Aquarius: listas de traductores freelance y agencias.

The Translator's Home Companion: de todo para el traductor profesional, desde glosarios y recursos, hasta conferencias y seminarios, pasando por ofertas de trabajo y ventas de productos.  

y con cualquier buscador se pueden encontrar cientos de Agencias de traducción que ofrecen sus servicios en internet.  
 
 
 
 

Volver a la sesión anterior : (Introducción a internet para traductores)


Visitar la próxima sesión:
(Ejercicios de búsqueda y traducción on-line)