La web superficial y la web profunda.
No todo lo que está publicado en internet es accesible a través de un buscador. Éstos sólo muestran una pequeña parte de lo que existe online. Esta parte localizable es la porción que es indexada por las arañas de los motores de búsqueda y se la conoce como web superficial o visible.
La parte que no es indexada es la web profunda o invisible.
Se estima que la parte invisible es 500 veces mayor la que superficial.
Clasificación:
- Web superficial o visible:
Comprende la parte que es facilmente localizable a través de un buscador.
Generalmente son páginas web estáticas con enlaces desde otros sitios web y que son de libre acceso ya que no requieren registro.
- Web profunda o invisible:
La web profunda es una porción presumiblemente muy grande de Internet que es difícil de rastrear o ha sido hecha casi imposible de rastrear deliberadamente. A veces no es algo deliberado sino que depende de la capacidad de indexación de los motores de búsqueda, a las limitaciones en los resultados a mostrar o a una simple cuestión de economizar en indexación. La falta de enlaces que apunten a una determinada página también hacen que se dificulte su localización, esto se conoce como Web Opaca.
Otro tipo de web profundas son las Webs privadas. Són página protegidas por contraseñas o que contienen archivos que indican al buscador que no debe encontrarlas, como el "robots.txt" o el atributo "nofollow/noindex"
La siguiente en esta clasificación sería la Web propietaria que incluye las páginas en la que el registro es necesario, sean de pago o no.
Por último la Web realmente invisible es la que contiene páginas que no pueden ser encontradas por las propias limitaciones de los buscadores y su incompatibilidad con ciertos archivos o programas. Generalmente se generan de forma dinámica y su información sólo se puede extraer si se solicita específicamente.
A continuación comentaremos una serie de recursos de búsqueda en la Web Profunda:
- The WWW Virtual Library se considera el catálogo más antiguo en la web y fue iniciado por Tim Berners-Lee, el creador de la web.
- Infoplease es una Web de consulta con más de 57.000 artículos de la prestigiosa enciclopedia Columbia. Facilita la consulta de información con opciones de búsqueda por términos o por áreas de conocimiento. Es posible acceder a un buen número de enciclopedias, atlas, y biografías. Y también tiene algunas ramificaciones interesantes como Factmonster.com para los niños y Biosearch, un motor de búsqueda sólo para biografías, o información de todo lo acontecido históricamente en un determinado día.
- DeepWebTech ofrece cinco motores de búsqueda para temas específicos. Los motores de búsqueda abarcan la ciencia, medicina y negocios. El uso de estos motores de búsqueda específicos del tema, puede consultar las bases de datos subyacentes en la Web profunda.
- TechXtra centra su información, en ingeniería, matemáticas e informática. Es posible navegar a través de una extensa lista de revistas gratuitas especializadas de ingeniería, documentos técnicos, descargas y podcasts.
Y éste el el resumen del módulo 4 del curso encontrando tesoros en la red.