|
|
LABORATORIO DE LINGÜÍSTICA INFORMÁTICA |
La información en la red está compuesta por más de
20 millones de sitios. Además, la universalidad y la falta de una autoridad controladora
hacen que la búsqueda sea aún más difícil. A
diferencia de las bibliotecas,
donde contamos con catálogos y bibliotecarios, y las adquisiciones
se registran, la "web" es un espacio de información incierto: nadie puede saber ni acotar lo
que hay, ya que está en continuo cambio. Lo normal es perderse.
Lo que sigue es una adaptación del excelente curso "A basic tutorial
on searching the Web"
de Biblioteca Beaufort de University of South Carolina
(http://www.sc.edu/beaufort/library/pages/bones/bones.shtml)
Podemos distinguir tres tipos de recursos para buscar información en la red:
Las diferencias entre ellos consisten sobre todo en si la información ha sido recogida automáticamente (por programas que exploran la red) o si ha sido elaborada por especialistas. La búsqueda automática es mucho más amplia y menos selectiva; la búsqueda en sitios especializados es mucho más selectiva. En otras palabras, cantidad frente a calidad.
Esta división en muchos casos se diluye ya que tanto unos como otros intentan incluir los rasgos de la competencia: los motores de búsqueda tienen secciones especializadas y las bases de datos incorporan motores de búsqueda para agilizar la consulta.
¿QUÉ SON LOS MOTORES DE BÚSQUEDA
(search engines)?
Son enormes bases de datos de páginas web e índices que contienen
las palabras que aparecen en dichas páginas. Estas bases de datos han
sido recopiladas automáticamente.
¿CÓMO FUNCIONAN?
Para realizar la compilación, se utilizan unos programas denominados "robots" o "spiders" que exploran la red siguiendo los enlaces de las páginas. Cuando llegan a un sitio (por ejemplo, la página del Laboratorio de Lingüística Informática) indexan la mayor parte de las palabras que aparecen en las páginas públicas del sitio. OJO: las páginas que no contengan algún enlace son "invisibles" para los robots.
IMPORTANTE: cuando se hace una consulta a un buscador, lo que se está pidiendo es que busque en su índice de sitios y contraste la consulta (realizada
mediante palabras-clave) con los términos indexados en la base de datos del buscador. Por tanto,
cuando se utiliza un buscador no se está consultando la información que en ese
momento existe en la red, sino la porción de la red capturada en una fecha anterior.
Esto explica que a veces
alguno de los punteros ofrecidos por el buscador han cambiado. Controlar la
actualización del índice del buscador es difícil.
VENTAJAS Y DESVENTAJAS DE LOS MOTORES DE BÚSQUEDA
Ventajas:
- la exhaustividad: se proporciona un enorme cantidad de información
- cuando no se tienen criterios muy definidos de lo que se busca, este método proporciona una visión muy amplia
- cuando se sabe acotar la búsqueda y se emplean las opciones avanzadas, los resultados pueden ser muy certeros y completos
Desventajas:
- mucho "ruido": debido a que la información no ha sido seleccionada por un humano especialista, es probable que la ambigüedad propia de las lenguas naturales dé listas enormes de posibles páginas. La precisión es el punto débil de estos sistemas.
¿SON TODOS LOS BUSCADORES IGUALES ?
Aunque los buscadores utilizen programas de exploración de la red
muy similares, los resultados son diferentes ya
que no existen dos buscadores en tamaño, velocidad de acceso y contenido
(Para saber algunos criterios de evaluación
de buscadores, véase más abajo). Esto
se debe a que cada buscador establece sus propios criterios de ordenación
de las
respuestas, así como sus opciones de búsqueda. Puede que las
diferencias no sean cuantitativamente importantes,
pero cualitativamente significativas.
¿CUÁLES SON LOS CRITERIOS DE ORDENACIÓN DE LAS RESPUESTAS?
Todos los buscadores ofrecen sus respuestas ordenadas por RELEVANCIA, es
decir, las que el buscador "piensa" que
se acercan más a la petición del internauta. Obviamente, el
primer criterio es el de cuántas palabras de la consulta se han
localizado en el documento. Otro es el de frecuencia de dichas palabras en
el documento. Algunos buscadores dan más
prioridad a las palabras que aparecen en los lugares de cabecera. Además,
algunos valoran la popularidad de los documentos:
cuanto más enlaces señalando a esos documentos haya, mayor
es la popularidad. Por tanto, más valiosa es la página y
supuestamente contendrá información relevante para el tema.
¿CUÁLES SON LAS DIFERENCIAS ENTRE
BUSCADORES INDIVIDUALES Y METABUSCADORES ?
Ventajas: ofrecen diferentes opciones de búsqueda
Ejemplos: Alta Vista,
Google
Ventajas: proporcionan listas combinadas con las mejores páginas
de los distintos buscadores. Son muy rápidos
Desventajas: no dan todas las respuestas ofrecidas por los buscadores si no una selección de las mejores.
Ejemplos: Ixquick, Metacrawler, netPandora, Buscopio
Estos directorios, a diferencia de los buscadores automáticos, han
sido creados y
están permanentemente actualizados por "buscadores" humanos. Es decir,
se
produce una selección de los recursos citados y, en muchos casos, contienen
comentarios. (En cierto sentido, esta página podría considerarse
un directorio temático
en miniatura, ya que presenta una selección de sitios).
En resumen: menos cantidad de información pero de mayor calidad. Es decir, cuanto más seleccionada y anotada esté la información, menos tiempo invertirá el usuario en encontrar la información relevante. Por el lado negativo, obtenemos una selección "filtrada" de manera que puede haber páginas que nos interesen y que el editor del directorio temático haya decidido excluir. Para evitar eso, es muy importante que en los directorios temáticos se diga explícitamente los criterios de selección.
Algunos directorios pueden incluir motores de búsqueda.
¿CÓMO FUNCIONAN?
Al realizar una consulta mediante una palabra-clave, esta se contrasta con los contenidos de las descripciones del directorio. Es decir, no se buscan palabras que aparecen en las páginas de la web, sino en las descripciones "seleccionadas" del directorio. Si se conoce bien el tema, la búsqueda es más exacta.
Los directorios temáticos pueden ser de muy variados temas, destacando sobre todo los directorios académicos (sobre temas universitarios) y directorios comerciales. Los llamados "portales" son un ejemplo de uso comercial de los directorios, ya que proporcionan no solo enlaces útiles dentro de un dominio temático, sino que además ofrecen servicios adicionales como correo electrónico, etc. y se financian con publicidad. Funcionan como lugares de acceso a internet.
EJEMPLOS:
Yahoo! Terra Magellan Excite
El portal de los buscadores www.tusbuscadores.com
Son bases de datos creadas por especialistas en un tema (profesores, investigadores,
documentalistas, expertos, organismos públicos y privados, etc.). El acceso a estas
bases de datos está normalmente
protegido por una "contraseña" (aunque es fácil conseguir acceso,
después de registrarse como usuario).
Estas bases de datos contienen documentos, diccionarios y otros tipos de
información interesante.
¿QUÉ ES LA "INFORMACIÓN INVISIBLE"?
Precisamente la información que está
dentro de sitios protegidos por palabras-clave. Esta información no
puede ser indexada por los motores de búsqueda.
Se calcula que una buena parte de la información en internet
es "información invisible".
La información contenida en estos sitios es
de alta calidad, ya que ha sido seleccionada y evaluada por
especialistas.
EJEMPLOS:
RAE, Enciclopedia
Britannica, CSIC
Debemos esperar cualquier cosa de la red, dada su
universalidad: desde páginas frívolas a serias, propaganda
y cursos académicos, recursos y programas gratuitos.
Es esencial, por tanto, distinguir entre los distintos tipos de
páginas. Estos son algunos consejos:
(tomados de la página de Ellen Chamberlain)
Me he basado en información de estas dos páginas:
Página
de enlaces de José María Guirao
La página de Anna Mazzoldi: el paraíso
del traductor.
SYSTRAN: el padre y la madre de todos los traductores automáticos.
Alta Vista y Babel Fish: uno de sus hijos
foreingword.com:
otra página con diferentes programas de traducción on-line
Asociaciones de Traducción Automática:
British
Computer Society
Natural Language
Translation Specialist Group
http://www.bcs.org.uk/siggroup/nalatran/nalatran.htm
Incluye un puntero a suministradores de programas de traducción automáticaEuropean Association of Machine Translation (EAMT)
organizado por lenguas.
Bibliografía sobre traducción automática
Documentos de John Hutchins
Terminology Forum: foro
de discusión para terminólogos,
traductores y documentalistas. Enorme cantidad de enlaces.
EuroDicAutom:
la página del Servicio de Traducción
de la Comisión Europea. Es la base de datos terminológica
por excelencia. Contiene más de 400.000 términos en español.
The Human-Languages Page: página
con infinidad de enlaces de todo tipo
sobre temas relacionados con las lenguas: diccionarios, literatura, recursos
lingüísticos, ofertas de trabajo....
La página de Richard Beard
sobre diccionarios y gramáticas: impresionante
catálogo de recursos lingüísticos on-line.
The Linguist List: el principal foro de discusión sobre lingüística y disciplinas relacionadas. Un clásico.
travlang's Translating
Dictionaries: diccionarios con traducciones gratuitos. Emplea
el esperanto como interlingua.
The Translator's Home Companion: de todo para el traductor profesional, desde glosarios y recursos, hasta conferencias y seminarios, pasando por ofertas de trabajo y ventas de productos.
y con cualquier buscador se pueden encontrar cientos de Agencias de
traducción que ofrecen sus servicios en internet.
Volver a la sesión anterior :
(Introducción
a internet para traductores)
Visitar la próxima sesión:
(Ejercicios
de búsqueda y traducción on-line)