Se conoce como Internet profunda o Internet invisible (en
inglés: Deepweb, Invisible Web, Deep Web, Dark Web o Hidden Web) a todo el
contenido de Internet que no forma parte del Internet superficial, es decir, de
las páginas indexadas por las redes de los motores de búsqueda de la red. Esto
se debe a las limitaciones que tienen las redes para acceder a todos los sitios
web por distintos motivos. La mayor parte de la información encontrada en la
Internet Profunda está enterrada en sitios generados dinámicamente y para los
motores de búsqueda tradicionales es difícil hallarla. Fiscales y Agencias
Gubernamentales han calificado a la Internet Profunda como un refugio para la
delincuencia debido al contenido ilícito que se encuentra en ella.
CAUSAS
La principal causa de la existencia de la Internet profunda
es la imposibilidad de los motores de búsqueda (Google,Yahoo, Bing, etc.) de
encontrar o indexar gran parte de la información existente en Internet. Si los
buscadores tuvieran la capacidad para acceder a toda la información entonces la
magnitud de la "Internet profunda" se reduciría casi en su totalidad.
No obstante, aunque los motores de búsqueda pudieran indexar la información de
la Internet Profunda esto no significaría que ésta dejará de existir, ya que
siempre existirán las páginas privadas. Los motores de búsqueda no pueden
acceder a la información de estas páginas y sólo determinados usuarios,
aquellos con contraseña o códigos especiales, pueden hacerlo.
Los siguientes son algunos de los motivos por los que los
buscadores son incapaces de indexar la Internet profunda:
·
Páginas y sitios web protegidos con contraseñas
o códigos establecidos.
·
Páginas que el buscador decidió no indexar: esto
se da generalmente porque la demanda para el archivo que se decidió no indexar
es poca en comparación con los archivos de texto HTML; estos archivos
generalmente también son más “difíciles” de indexar y requieren más recursos.
·
Sitios, dentro de su código, tiene archivos que
le impiden al buscador indexarlo.
·
Documentos en formatos no indexables.
·
De acuerdo a la tecnología usada por el sitio,
por ejemplo los sitios que usan bases de datos. Para estos casos los buscadores
pueden llegar a la interfaz creada para acceder a dichas bases de datos, como
por ejemplo catalogo de librerías o agencias de gobierno.
·
Enciclopedias, diccionarios, revistas en las que
para acceder a la información hay que interrogar a la base de datos, como por
ejemplo la base de datos de la RAE.
·
Sitios que tienen una mezcla de media o archivos
que no son fáciles de clasificar como visible o invisible (Web opaca).
·
La información es efímera o no suficientemente
valiosa para indexar. Es posible indexar está información pero como cambia con
mucha frecuencia y su valor es de tiempo limitado no hay motivo para indexarla.
·
Páginas que contienen mayormente imágenes, audio
o video con poco o nada de texto.
·
Los archivos en formatos PostScript, Flash,
Shockwave, ejecutables (.exe), archivos comprimidos (.zip, .tar, etc)
·
Información creada en páginas dinámicas después
de llenar un formulario, la información detrás de los formularios es invisible.
·
Documentos dinámicos, son creados por un script
que selecciona datos de diversas opciones para generar una página
personalizada. Este tipo de documentos, aunque sí se pueden indexar, no están
en los motores de búsqueda porque en ocasiones puede haber varias páginas
iguales, pero con pequeños cambios, y las arañas web quedan atrapadas en ellos.
·
Es un sitio aislado, es decir, no hay ligas que
lo vinculen con otros sitios y viceversa.
·
Son subdirectorios o bases de datos
restringidas.
El internet se ve divido en dos ramas, La internet profunda
y la superficial. El Internet superficial se compone de páginas estáticas o
fijas , mientras que Web profunda está compuesta de páginas dinámicas. La
páginas estáticas no dependen de una base de datos para desplegar su contenido
si no que residen en un servidor en espera de ser recuperadas, y son
básicamente archivos HTML cuyo contenido nunca cambia. Todos los cambios se
realizan directamente en el código y la nueva versión de la página se carga en
el servidor. Estas páginas son menos flexibles que las páginas dinámicas. Las
páginas dinámicas se crean como resultado de una búsqueda de base de datos. El
contenido se coloca en una base de datos y se proporciona sólo cuando lo
solicite el usuario.
Denominación
Son páginas de texto, archivos, o en ocasiones información a
la cual se puede acceder por medio de la World Wide Web que los buscadores de
uso general no pueden, debido a limitaciones o deliberadamente, agregar a sus
indices de páginas webs.
La Web profunda se refiere a la colección de sitios o bases
de datos que un buscador común, como Google, no puede o quiere indexar. Es un
lugar especifico del Internet que se distingue por el anonimato. Nada que se
haga en esta zona puede ser asociado con la identidad de uno, a menos que uno
lo deseé.
Bergman, en un artículo semanal sobre la Web profunda
publicado en el Journal of Electronic Publishing, mencionó que Jill Ellsworth
utilizó el término "la Web invisible" en 1994 para referirse a los
sitios web que no están registrados por algún motor de búsqueda.
Rastreando la Internet profunda
Los motores de búsqueda comerciales han comenzado a explorar
métodos alternativos para rastrear la Web profunda. El Protocolo del sitio
(primero desarrollado e introducido por Google en 2005) y OAI son mecanismos
que permiten a los motores de búsqueda y otras partes interesadas descubrir
recursos de la Internet Profunda en los servidores web en particular. Ambos
mecanismos permiten que los servidores web anuncien las direcciones URL que se
puede acceder a ellos, lo que permite la detección automática de los recursos
que no están directamente vinculados a la Web de la superficie. El sistema de
búsqueda de la Web profunda de Google pre-calcula las entregas de cada
formulario HTML y agrega a las páginas HTML resultantes en el índice del motor
de búsqueda de Google. Los resultados surgidos arrojaron mil consultas por
segundo al contenido de la Web profunda15. Este sistema se realiza utilizando
tres algoritmos claves:
La selección de valores de entrada, para que las entradas de
búsqueda de texto acepten palabras clave.
La identificación de los insumos que aceptan sólo valores
especificos (por ejemplo, fecha).
La selección de un pequeño número de combinaciones de
entrada que generan URLs adecuadas para su inclusión en el índice de búsqueda
Web.
Ingresando a la web profunda
Las Arañas (Web crawler)
Cuando se ingresa a un buscador y se realiza una consulta,
el buscador no recorre la totalidad de Internet en busca de las posibles
respuestas, si no que busca en su propia base de datos, que ha sido generada e
indizada previamente. Se utiliza el término "Araña web" (en inglés
Web crawler) o robots (por sofware, comúnmente llamados "bots")
inteligentes que van haciendo búsquedas por enlaces de hipertexto de página en
página, registrando la información allí disponible.
TOR
A pesar de que son muchos los servicios y programas para
acceder a la web profunda, el software más popular es Tor (The Onion Router),
pero existen otras alternativas como I2P y Freenet.
TOR es un proyecto diseñado e implementado por la marina de
los Estados Unidos, posteriormente fue patrocinado por la EFF (Electronic
Frontier Foundation, una organización en defensa de los derechos digitales).
Actualmente subsiste como TOR Project, una organización sin ánimo de lucro
galardonada en 2011 por la Free Software Foundation por permitir que millones
de personas en el mundo tengan libertad de acceso y expresión en Internet
manteniendo su privacidad y anonimato.
A diferencia de los navegadores de Internet convencionales,
Tor le permite a los usuarios navegar por la Web de forma anónima. Tor es
descargado de 30 millones a 50 millones de veces al año, hay 800,000 usuarios
diarios de Tor y un incremento del de 20 % en el 2013, Tor puede acceder a
6,500 sitios web ocultos.
Bitcoin
Mercados ilegales están alojados en servidores que son
exclusivos para usuarios de Tor. En estos sitios ,se pueden encontrar drogas,
armas, o incluso asesinos a sueldo. Se utiliza la moneda digital llamada
Bitcoin, que tiene sus orígenes en 2009, pero que se ha vuelto todo un fenómeno
desde 2012, que se intercambia a través de billeteras digitales entre el
usuario y el vendedor , lo que hace que sea prácticamente imposible de
rastrear.
Recursos de la
internet profunda
Los recursos de la Internet Profunda pueden estar
clasificados en una de las siguientes categorías:
- Contenido de Acceso limitado: los sitios que limitan el
acceso a sus páginas de una manera técnica (Por ejemplo, utilizando el estándar
de exclusión de robots o captcha, que prohíben los motores de búsqueda de la
navegación por y la creación de copias en caché.
- Contenido Dinámico: Las páginas dinámicas que devuelven
respuesta a una pregunta presentada o acceder a través de un formulario,
especialmente si se utilizan elementos de entrada en el dominio abierto como
campos de texto.
- Contenido No Vinculado: páginas que no están conectadas con
otras paginas, que pueden impedir que los programas de rastreo web tengan
acceso al contenido. Este material se conoce como páginas sin enlaces
entrantes.
- Contenido Programado: páginas que sólo son accesibles a
través de enlaces producidos por JavaScript, así como el contenido descargado
de forma dinámica a partir de los servidores web a través de soluciones de
Flash o Ajax.
- Sin contenido HTML: contenido textual codificado en
multimedia (imagen o video) archivos o formatos de archivo específicos no
tratados por los motores de búsqueda.
- Web privada: los sitios que requieren de registro y de una
contraseña para iniciar sesión.
- Web contextual: páginas con contenidos diferentes para
diferentes contextos de acceso (por ejemplo, los rangos de direcciones IP de
clientes o secuencia de navegación anterior).
NIVELES DE DEEP WEB
Niveles de deep web
Nivel 1 - Surface Web:
web
En este nivel se encuentra la web en general, páginas como
Google o Facebook. O donde estamos actualmente T.
Nivel 2 - Bergie Web:
Deep
En este nivel se encuentra el resto de la internet conocida
pero más "under" que el nivel uno. Páginas porno, la comunidad 4chan,
servidores FTP, porno "jailbait" (menores que por su apariencia
física aparentan ser mayores de edad), etc.
Nivel 3 - Deep Web (Se requiere Proxy):
TOR
En este nivel ya estamos en la deep web y las cosas se ponen
más escabrosas. Se requiere usar un proxy para sumergirte de forma anónima,
aquí podemos encontrar jailbait más heavy, pornografía infantil
"light" (CP significa childporn), gore, hackers, script kiddies,
información sobre virus, etc.
Dentro de este nivel, si nos sumergimos aún más vamos a
necesitar, ya no un proxy, sino el Tor para navegar de forma anónima y más
segura.
Nivel 4 Charter Web (Se requiere Tor):
profunda
Este nivel es lo más profundo que un usuario común puede
llegar dentro de la deep web. Nos encontramos con páginas como: Hard Candy,
PedoPlanet (grupos de pedófilos), la hidden wiki, una página con enlaces dentro
de la deep web, vídeos y libros prohibidos, material visual cuestionable,
asesinos a sueldo, venta de drogas, tráfico de humanos y el resto del mercado
negro.
Dentro del nivel 4 hay una parte aún más profunda a la que
no se puede llegar por medios convencionales, se requiere una modificación de hardware
llamada "closed shell system" y la cosa se pone muy seria. Esta parte
contiene, por ejemplo, pornografía infantil "hardcore" como scat,
rape y snuff, redes de asesinos a sueldo, la "law of 13" relacionada
con los Illuminati, experimentos sobre la segunda guerra mundial, terrorismo y
se dice que también la ubicación de la Atlántida, etc.
Por increíble que parezca, el 80% de internet se encuentra
debajo de todo lo nombrado anteriormente y para sumergirse aún más profundo se
necesita un programa, imposible de conseguir y que no se sabe bien si existe o
es un mito llamado "polymeric falcighol derivation" que utiliza
algoritmos de mecánica cuántica, se supone que sólo el gobierno puede acceder a
esta parte.
Nivel 5 - Marianas Web:
snoff
Poco y nada se conoce sobre este nivel. El nombre deriva de
la Fosa de las Marianas, la fosa marina más profunda conocida, localizada en el
sureste de las Islas Marianas cerca de Guam. Se dice que es un nivel muy
peligroso y controlado por el gobierno, la parte más profunda de la deep web y
donde "nadie quiere entrar".
Zion y La Liberté:
Deep Web (Niveles, y que contiene cada uno)
En lo más profundo de la deep web existen estos dos sitios.
La Liberté es una página francesa, una de las más profundas dentro de la deep
web. Para poder ingresar tanto a Zion como a La Liberté, se necesita
invitación. Los diferentes foros dentro de estas páginas están tan protegidos
que se necesita un usuario y contraseña distintos para cada foro. Zion supera a
La Liberté en profundidad, ya que La Liberté sólo recibe información y videos
liberados por Zion, en estas páginas se puede encontrar por ejemplo, el famoso
video de los rusos matando a un mendigo a martillazos y clavándole un
destornillador en el ojo, otro de rusos dándole con un bate a unos indigentes
en medio del bosque hasta partirles la cabeza (literalmente). Vídeos de peleas
hasta morir, de violencia de género (como un hombre que apaleaba a puñaladas a
una chica en la calle), violencia contra animales, vídeos de ejecuciones, etc.
También hay una sección de peleas a muerte en tiempo real, eventos que se
tienen que pagar por medio de bitcoins y se puede apostar usando esta moneda.
Algunos dicen que las apuestas normalmente son de 10 mil dólares para arriba.
También se dice que Zion es una idea conceptual para referirse a lo más
profundo de la deep web, pero no es una dirección URL física a la que poder
acceder.
http://www.taringa.net/posts/offtopic/16047905/Deep-Web-Niveles-y-que-contiene-cada-uno.html
http://es.wikipedia.org/wiki/Internet_profunda#Denominaci.C3.B3n
Navegadores de deep web:
Archivos
Find that
File
http://www.findthatfile.com
Es un buscador muy ágil que te permite bucear en distintas
tipologías de formato (torrent, emule, pdf, vídeo, etc) además te da la
posibilidad de filtrar por tipo de localización, por si quieres buscar por
ejemplo en FTP. Y si quieres buscar en la web profunda de un modo todavía más
específico en su sección http://www.findthatfile.com/about.php tienen una lista
con todos los buscadores que han desarrollado. ¡Altamente recomendable!
Files tube
http://www.filestube.to/
Otro de esos buscadores maravillosos que te ayudan a
encontrar cualquier tipo de archivo en la web profunda. En esta ocasión, este
buscador rastrea en prácticamente todas las webs que permiten subir archivos
para compartir, en total unos 58 puntos de contacto entre ellos el conocido
DropBox. También te da la posibilidad de buscar por periodos de tiempos para
pulir un poco más tu búsqueda.
Noticias:
Look ahead
http://lookahead.surfwax.com
Este buscador bucea entre 140 rss muy populares con la
posibilidad de un histórico de 7 días. Es por tanto muy bueno para monitorizar
noticias, por ejemplo de un conflicto determinado y construir un análisis de
Timeline. Eso sí, hay que buscar en inglés pues son medios anglosajones.
Clusty
http://clusty.com/
Es un buscador que organiza por temáticas. Ya los vimos en
13 metabuscadores. En esta ocasión, este concretamente recupera muy bien
noticias de la red. Ideal para análisis de medios de comunicación y saber lo
que dicen unos y otros. Por supuesto también para localizar propaganda. Además,
te permite hacer búsquedas en distintos formatos (imagenes, blogs, wikis,
etc.). Muy bueno.
Newspaper Archive (comercial)
http://newspaperarchive.com/
Sin lugar a dudas una de las bases de datos de noticias más
importantes de Internet. Eso sí, centrada específicamente en USA, aunque con la
posibilidad de acceder a otros países como Canadá. Es de pago. Pero conviene
saber que existe una hemeroteca virtual de este tipo.
Publicaciones:
Deepdyve
http://www.deepdyve.com/
Espectacular buscador de ámbito científico que recoge
millones de publicaciones. Sin duda uno de los mejores para el ámbito académico
y de investigación. Te permite, además crear una alerta sobre un tema concreto
para estar al día de todo lo nuevo que van localizando e incorporando.
Highwire
Stanfor
http://highwire.stanford.edu
Este buscador de publicaciones es realmente poderoso, nos
busca publicaciones comerciales, pero también otras que están disponibles
gratuitamente en pdf. Con él podemos conocer quienes son los investigadores más
relevantes de un tema y acertar completamente en nuestras lecturas “para
ponernos al día”.
Personas:
Pipl.com
https://pipl.com
Curioso buscador de personas. Está configurado para entrar
en las principales redes sociales y buscar el nombre que queremos. Puede ser
muy útil para buscar aquellas personas que han configurado sus redes de un modo
muy personal. Pero evidentemente se le escapan cosas.
Literatura gris:
Docuticker
http://www.docuticker.com/
Más que un buscador como tal es un repositorio donde
recopilan información emitida por distintas organizaciones, think tank y
gobiernos. Te permite suscribirte al boletín de novedades como si fuera una
actualización de feed. Tiene un buscador interno basado en tecnología Google
para localizar publicaciones específicas por clave de búsqueda. En el menú de
navegación derecho disponen de árboles de búsqueda si lo que te interesa es un
tema en concreto.
Buscador de archivos desclasificados de la CIA
http://www.foia.cia.gov/
Muy buen buscador para ayudarte en tus búsquedas de los
documentos que va desclasificando el gobierno americano. Los documentos están
en pdf, aunque no puedes bajártelos todos.
Directorio Internacional de literatura gris
http://www.greynet.org/internationaldirectory.html
Esta lista en pdf incluye distintas universidades y
organismo públicos que disponen de buscadores a sus propios documentos. Puede
ser útil en un momento determinado para encontrar alguna publicación especial.
Históricos
Internet Archive
https://archive.org/
Es un repositorio de información muy variada en distintos
tipos de formato. Permite filtrar por fecha, número de descargas, etc por lo
que podemos encontrar verdaderas joyas “abandonadas” en la Red.
Lo + profundo:
Torch - Onion
https://xmh57jrzrnw6insl.onion.to/
La versión web de la conocida red Tor por la que se suele
mover todo el “underground” que nos podemos imaginar. Este buscador no facilita
el anonimato. Para el que todavía no sabe lo que es Tor aquí está la web
oficial: https://www.torproject.org/ Y si quieres un pequeño tutorial muy
interesante y orientado a la ciberseguridad, te recomiendo que veas el vídeo de
las jornadas de ciberdefensa "Deep Web. Redes Tor" te ayudará a
comprender de un modo claro y ameno de qué va esta película ;-)
Torsearch -
Onion
https://kbhpodhnfxl3clb4.onion.to/
Nace el hermano pequeño del buscador Tor. Todavía está muy
incipiente y como ellos dicen sólo busca dentro del contenido alojado en la
propia Red Tor. Parece que tiene la estructura comercial del Google así que no
me extrañaría que pronto la veamos crecer. Aunque es evidente que se perderán
numerosas entradas “interesantes”, pues si deja de ser una Red “profunda”
muchas personas dejarán de utilizarla para compartir contenido, especialmente
de sexo, drogas, armas y piratería que son las temáticas más utilizadas en esta
Red. En fin, ya veremos en qué acaba este proyecto que tiene pinta de ser sólo
para conseguir dinero.
PasteBin
http://pastebin.com
Ésta es una Red Social muy útil cuando se
pretende chatear y acompañar el diálogo con alguna información en concreto,
porque permite acompañar el diálogo con la información que “pasteemos”.
Evidentemente es muy inestable y volátil, pues los perfiles publican y
despublican rápidamente. Pero a veces se encuentran cosas interesantes