Encontrar información en el WWW


Buscadores

IIa La web invisible

1) La "Web Invisible"

No todo lo que hay en el World Wide Web es accesible mediante los buscadores. A la parte de la WWW a la que no pueden acceder los buscadores se le denomina "Web Invisible".

Hay varios motivos que justifican la existencia de esta "Web invisible".

Por ejemplo, bases de datos que se pueden consultar en el WWW pero que los buscadores no pueden acceder a ellas porque no son páginas web "normales".

Por ejemplo, en el Instituto de Contabilidad y Auditoría de Cuentas (ICAC) hay una base de datos con todas las publicaciones que se editan sobre Contabilidad y Auditoría en Lenguas Ibéricas, ICALI (http://www.icac.meh.es/publicaciones/icali/buscador.aspx). En esta base de datos se registra el título, autor, resumen de la publicación, etc.

Cualquier usuario puede libremente entrar ahí y solicitar una búsqueda. Pero un buscador como Google no es capaz de entrar a ver sus fichas.

Navegando en la web invisible


Trate de localizar un artículo sobre el inmovilizado del autor Besarrante. Si decimos a Google (http://www.google.com) que lo busque en la página del ICAC, escribiríamos: inmovilizado besarrante site:mec.es y no lo encuentra. Pero sí que está y lo podemos comprobar consultando en ICALI (http://www.icac.meh.es/publicaciones/icali/buscador.aspx)

Nota: había puesto otro ejemplo con un link hacia la ficha del ICAC. Al cabo del tiempo el Google ha entrado ahí, y ha dejado de ser "invisible". Por eso he cambiado de ejemplo y no he puesto un link a la ficha.

Esta no es la única razón de la existencia de la "web invisible". Otras veces los buscadores tienen dificultades para acceder a los documentos en Word, en Flash y otros formatos.

Evitar que entre un robot a determinadas páginas


El webmaster puede evitar que entren a determinadas páginas los robots de los principales buscadores porque hay una convención para decirle que no entren. Consiste en escribir un documento llamado robots.txt en el cual se indica qué se le permite buscar y qué no. El robot lo primero que hace es leer ese documento -si existe- y respeta su contenido. Por ejemplo, si escribimos (http://www.heraldo.es/robots.txt) podemos comprobar que no deja que entren al directorio con las estadísticas.

Podemos aprender más sobre esto en Robotstxt (http://www.robotstxt.org).


2) Buscar en bases de datos

Si los buscadores no entrar en las bases de datos, no queda más remedio que identificar dichas bases de datos y hacer las consultas.

Por una parte podemos echar mano de buscadores especializados en bases de datos, como:

Buscar bases de datos de contabilidad
Pruebe a buscar bases de datos de Contabilidad en Internets (http://www.internets.com)

Buscadores como Turbo10 (http://turbo10.com) y Profusion (http://www.profusion.com) permiten acceder a la web invisible.

También podemos buscar en los buscadores como Google (http://www.google.com) poniendo la palabra database o "base de datos" y el concepto que busquemos.

Buscar bases de datos de contabilidad en Google
Si en el Google (http://www.google.com) pide la siguiente consulta "base de datos" contabilidad aparece como primera opción la base de datos de ICALI comentada anteriormente.

Un caso especial de bases de datos son las de revistas y abstracts. Es muy interesante consultar las Bases de datos de Abstracts de Sciencedirect.

Ir a CiberContaCitar como: Serrano Cinca C. (2003): "Encontrar información en el World Wide Web", [en línea] 5campus.org, Sistemas Informativos Contables <http://www.5campus.org/leccion/buscar> [y añadir fecha consulta]este  Inicio leccion
[Índice