miércoles, 10 de diciembre de 2014

DEEP WEB

Se conoce como Internet profunda o Internet invisible (en inglés: Deepweb, Invisible Web, Deep Web, Dark Web o Hidden Web) a todo el contenido de Internet que no forma parte del Internet superficial, es decir, de las páginas indexadas por las redes de los motores de búsqueda de la red. Esto se debe a las limitaciones que tienen las redes para acceder a todos los sitios web por distintos motivos. La mayor parte de la información encontrada en la Internet Profunda está enterrada en sitios generados dinámicamente y para los motores de búsqueda tradicionales es difícil hallarla. Fiscales y Agencias Gubernamentales han calificado a la Internet Profunda como un refugio para la delincuencia debido al contenido ilícito que se encuentra en ella.

CAUSAS

La principal causa de la existencia de la Internet profunda es la imposibilidad de los motores de búsqueda (Google,Yahoo, Bing, etc.) de encontrar o indexar gran parte de la información existente en Internet. Si los buscadores tuvieran la capacidad para acceder a toda la información entonces la magnitud de la "Internet profunda" se reduciría casi en su totalidad. No obstante, aunque los motores de búsqueda pudieran indexar la información de la Internet Profunda esto no significaría que ésta dejará de existir, ya que siempre existirán las páginas privadas. Los motores de búsqueda no pueden acceder a la información de estas páginas y sólo determinados usuarios, aquellos con contraseña o códigos especiales, pueden hacerlo.

Los siguientes son algunos de los motivos por los que los buscadores son incapaces de indexar la Internet profunda:

·         Páginas y sitios web protegidos con contraseñas o códigos establecidos.

·         Páginas que el buscador decidió no indexar: esto se da generalmente porque la demanda para el archivo que se decidió no indexar es poca en comparación con los archivos de texto HTML; estos archivos generalmente también son más “difíciles” de indexar y requieren más recursos.


·         Sitios, dentro de su código, tiene archivos que le impiden al buscador indexarlo.

·         Documentos en formatos no indexables.

·         De acuerdo a la tecnología usada por el sitio, por ejemplo los sitios que usan bases de datos. Para estos casos los buscadores pueden llegar a la interfaz creada para acceder a dichas bases de datos, como por ejemplo catalogo de librerías o agencias de gobierno.


·         Enciclopedias, diccionarios, revistas en las que para acceder a la información hay que interrogar a la base de datos, como por ejemplo la base de datos de la RAE.

·         Sitios que tienen una mezcla de media o archivos que no son fáciles de clasificar como visible o invisible (Web opaca).


·         La información es efímera o no suficientemente valiosa para indexar. Es posible indexar está información pero como cambia con mucha frecuencia y su valor es de tiempo limitado no hay motivo para indexarla.

·         Páginas que contienen mayormente imágenes, audio o video con poco o nada de texto.

·         Los archivos en formatos PostScript, Flash, Shockwave, ejecutables (.exe), archivos comprimidos (.zip, .tar, etc)

·         Información creada en páginas dinámicas después de llenar un formulario, la información detrás de los formularios es invisible.

·         Documentos dinámicos, son creados por un script que selecciona datos de diversas opciones para generar una página personalizada. Este tipo de documentos, aunque sí se pueden indexar, no están en los motores de búsqueda porque en ocasiones puede haber varias páginas iguales, pero con pequeños cambios, y las arañas web quedan atrapadas en ellos.

·         Es un sitio aislado, es decir, no hay ligas que lo vinculen con otros sitios y viceversa.

·         Son subdirectorios o bases de datos restringidas.


  
El internet se ve divido en dos ramas, La internet profunda y la superficial. El Internet superficial se compone de páginas estáticas o fijas , mientras que Web profunda está compuesta de páginas dinámicas. La páginas estáticas no dependen de una base de datos para desplegar su contenido si no que residen en un servidor en espera de ser recuperadas, y son básicamente archivos HTML cuyo contenido nunca cambia. Todos los cambios se realizan directamente en el código y la nueva versión de la página se carga en el servidor. Estas páginas son menos flexibles que las páginas dinámicas. Las páginas dinámicas se crean como resultado de una búsqueda de base de datos. El contenido se coloca en una base de datos y se proporciona sólo cuando lo solicite el usuario.


Denominación

Son páginas de texto, archivos, o en ocasiones información a la cual se puede acceder por medio de la World Wide Web que los buscadores de uso general no pueden, debido a limitaciones o deliberadamente, agregar a sus indices de páginas webs.

La Web profunda se refiere a la colección de sitios o bases de datos que un buscador común, como Google, no puede o quiere indexar. Es un lugar especifico del Internet que se distingue por el anonimato. Nada que se haga en esta zona puede ser asociado con la identidad de uno, a menos que uno lo deseé.


Bergman, en un artículo semanal sobre la Web profunda publicado en el Journal of Electronic Publishing, mencionó que Jill Ellsworth utilizó el término "la Web invisible" en 1994 para referirse a los sitios web que no están registrados por algún motor de búsqueda.

Rastreando la Internet profunda

Los motores de búsqueda comerciales han comenzado a explorar métodos alternativos para rastrear la Web profunda. El Protocolo del sitio (primero desarrollado e introducido por Google en 2005) y OAI son mecanismos que permiten a los motores de búsqueda y otras partes interesadas descubrir recursos de la Internet Profunda en los servidores web en particular. Ambos mecanismos permiten que los servidores web anuncien las direcciones URL que se puede acceder a ellos, lo que permite la detección automática de los recursos que no están directamente vinculados a la Web de la superficie. El sistema de búsqueda de la Web profunda de Google pre-calcula las entregas de cada formulario HTML y agrega a las páginas HTML resultantes en el índice del motor de búsqueda de Google. Los resultados surgidos arrojaron mil consultas por segundo al contenido de la Web profunda15. Este sistema se realiza utilizando tres algoritmos claves:

La selección de valores de entrada, para que las entradas de búsqueda de texto acepten palabras clave.
La identificación de los insumos que aceptan sólo valores especificos (por ejemplo, fecha).
La selección de un pequeño número de combinaciones de entrada que generan URLs adecuadas para su inclusión en el índice de búsqueda Web.

Ingresando a la web profunda

Las Arañas (Web crawler)

Cuando se ingresa a un buscador y se realiza una consulta, el buscador no recorre la totalidad de Internet en busca de las posibles respuestas, si no que busca en su propia base de datos, que ha sido generada e indizada previamente. Se utiliza el término "Araña web" (en inglés Web crawler) o robots (por sofware, comúnmente llamados "bots") inteligentes que van haciendo búsquedas por enlaces de hipertexto de página en página, registrando la información allí disponible.

TOR

A pesar de que son muchos los servicios y programas para acceder a la web profunda, el software más popular es Tor (The Onion Router), pero existen otras alternativas como I2P y Freenet.

TOR es un proyecto diseñado e implementado por la marina de los Estados Unidos, posteriormente fue patrocinado por la EFF (Electronic Frontier Foundation, una organización en defensa de los derechos digitales). Actualmente subsiste como TOR Project, una organización sin ánimo de lucro galardonada en 2011 por la Free Software Foundation por permitir que millones de personas en el mundo tengan libertad de acceso y expresión en Internet manteniendo su privacidad y anonimato.

A diferencia de los navegadores de Internet convencionales, Tor le permite a los usuarios navegar por la Web de forma anónima. Tor es descargado de 30 millones a 50 millones de veces al año, hay 800,000 usuarios diarios de Tor y un incremento del de 20 % en el 2013, Tor puede acceder a 6,500 sitios web ocultos.


Bitcoin

Mercados ilegales están alojados en servidores que son exclusivos para usuarios de Tor. En estos sitios ,se pueden encontrar drogas, armas, o incluso asesinos a sueldo. Se utiliza la moneda digital llamada Bitcoin, que tiene sus orígenes en 2009, pero que se ha vuelto todo un fenómeno desde 2012, que se intercambia a través de billeteras digitales entre el usuario y el vendedor , lo que hace que sea prácticamente imposible de rastrear.




Recursos de la internet profunda
Los recursos de la Internet Profunda pueden estar clasificados en una de las siguientes categorías:

  • Contenido de Acceso limitado: los sitios que limitan el acceso a sus páginas de una manera técnica (Por ejemplo, utilizando el estándar de exclusión de robots o captcha, que prohíben los motores de búsqueda de la navegación por y la creación de copias en caché.
  • Contenido Dinámico: Las páginas dinámicas que devuelven respuesta a una pregunta presentada o acceder a través de un formulario, especialmente si se utilizan elementos de entrada en el dominio abierto como campos de texto.
  • Contenido No Vinculado: páginas que no están conectadas con otras paginas, que pueden impedir que los programas de rastreo web tengan acceso al contenido. Este material se conoce como páginas sin enlaces entrantes.
  • Contenido Programado: páginas que sólo son accesibles a través de enlaces producidos por JavaScript, así como el contenido descargado de forma dinámica a partir de los servidores web a través de soluciones de Flash o Ajax.
  • Sin contenido HTML: contenido textual codificado en multimedia (imagen o video) archivos o formatos de archivo específicos no tratados por los motores de búsqueda.
  • Web privada: los sitios que requieren de registro y de una contraseña para iniciar sesión.
  • Web contextual: páginas con contenidos diferentes para diferentes contextos de acceso (por ejemplo, los rangos de direcciones IP de clientes o secuencia de navegación anterior).

NIVELES DE DEEP WEB

Niveles de deep web

Nivel 1 - Surface Web:

web

En este nivel se encuentra la web en general, páginas como Google o Facebook. O donde estamos actualmente T.


 web

Nivel 2 - Bergie Web:

Deep

En este nivel se encuentra el resto de la internet conocida pero más "under" que el nivel uno. Páginas porno, la comunidad 4chan, servidores FTP, porno "jailbait" (menores que por su apariencia física aparentan ser mayores de edad), etc.

Deep


Nivel 3 - Deep Web (Se requiere Proxy):

TOR

En este nivel ya estamos en la deep web y las cosas se ponen más escabrosas. Se requiere usar un proxy para sumergirte de forma anónima, aquí podemos encontrar jailbait más heavy, pornografía infantil "light" (CP significa childporn), gore, hackers, script kiddies, información sobre virus, etc.


Dentro de este nivel, si nos sumergimos aún más vamos a necesitar, ya no un proxy, sino el Tor para navegar de forma anónima y más segura.





Nivel 4 Charter Web (Se requiere Tor):

profunda


Este nivel es lo más profundo que un usuario común puede llegar dentro de la deep web. Nos encontramos con páginas como: Hard Candy, PedoPlanet (grupos de pedófilos), la hidden wiki, una página con enlaces dentro de la deep web, vídeos y libros prohibidos, material visual cuestionable, asesinos a sueldo, venta de drogas, tráfico de humanos y el resto del mercado negro.


Dentro del nivel 4 hay una parte aún más profunda a la que no se puede llegar por medios convencionales, se requiere una modificación de hardware llamada "closed shell system" y la cosa se pone muy seria. Esta parte contiene, por ejemplo, pornografía infantil "hardcore" como scat, rape y snuff, redes de asesinos a sueldo, la "law of 13" relacionada con los Illuminati, experimentos sobre la segunda guerra mundial, terrorismo y se dice que también la ubicación de la Atlántida, etc.


Por increíble que parezca, el 80% de internet se encuentra debajo de todo lo nombrado anteriormente y para sumergirse aún más profundo se necesita un programa, imposible de conseguir y que no se sabe bien si existe o es un mito llamado "polymeric falcighol derivation" que utiliza algoritmos de mecánica cuántica, se supone que sólo el gobierno puede acceder a esta parte.


Nivel 5 - Marianas Web:

snoff

Poco y nada se conoce sobre este nivel. El nombre deriva de la Fosa de las Marianas, la fosa marina más profunda conocida, localizada en el sureste de las Islas Marianas cerca de Guam. Se dice que es un nivel muy peligroso y controlado por el gobierno, la parte más profunda de la deep web y donde "nadie quiere entrar".

snoff


Zion y La Liberté:

Deep Web (Niveles, y que contiene cada uno)

En lo más profundo de la deep web existen estos dos sitios. La Liberté es una página francesa, una de las más profundas dentro de la deep web. Para poder ingresar tanto a Zion como a La Liberté, se necesita invitación. Los diferentes foros dentro de estas páginas están tan protegidos que se necesita un usuario y contraseña distintos para cada foro. Zion supera a La Liberté en profundidad, ya que La Liberté sólo recibe información y videos liberados por Zion, en estas páginas se puede encontrar por ejemplo, el famoso video de los rusos matando a un mendigo a martillazos y clavándole un destornillador en el ojo, otro de rusos dándole con un bate a unos indigentes en medio del bosque hasta partirles la cabeza (literalmente). Vídeos de peleas hasta morir, de violencia de género (como un hombre que apaleaba a puñaladas a una chica en la calle), violencia contra animales, vídeos de ejecuciones, etc. También hay una sección de peleas a muerte en tiempo real, eventos que se tienen que pagar por medio de bitcoins y se puede apostar usando esta moneda. Algunos dicen que las apuestas normalmente son de 10 mil dólares para arriba. También se dice que Zion es una idea conceptual para referirse a lo más profundo de la deep web, pero no es una dirección URL física a la que poder acceder.

http://www.taringa.net/posts/offtopic/16047905/Deep-Web-Niveles-y-que-contiene-cada-uno.html

http://es.wikipedia.org/wiki/Internet_profunda#Denominaci.C3.B3n

Navegadores de deep web:

Archivos

Find that File

http://www.findthatfile.com

Es un buscador muy ágil que te permite bucear en distintas tipologías de formato (torrent, emule, pdf, vídeo, etc) además te da la posibilidad de filtrar por tipo de localización, por si quieres buscar por ejemplo en FTP. Y si quieres buscar en la web profunda de un modo todavía más específico en su sección http://www.findthatfile.com/about.php tienen una lista con todos los buscadores que han desarrollado. ¡Altamente recomendable!

Files tube
http://www.filestube.to/

Otro de esos buscadores maravillosos que te ayudan a encontrar cualquier tipo de archivo en la web profunda. En esta ocasión, este buscador rastrea en prácticamente todas las webs que permiten subir archivos para compartir, en total unos 58 puntos de contacto entre ellos el conocido DropBox. También te da la posibilidad de buscar por periodos de tiempos para pulir un poco más tu búsqueda.

Noticias:

Look ahead
http://lookahead.surfwax.com

Este buscador bucea entre 140 rss muy populares con la posibilidad de un histórico de 7 días. Es por tanto muy bueno para monitorizar noticias, por ejemplo de un conflicto determinado y construir un análisis de Timeline. Eso sí, hay que buscar en inglés pues son medios anglosajones.

Clusty
http://clusty.com/

Es un buscador que organiza por temáticas. Ya los vimos en 13 metabuscadores. En esta ocasión, este concretamente recupera muy bien noticias de la red. Ideal para análisis de medios de comunicación y saber lo que dicen unos y otros. Por supuesto también para localizar propaganda. Además, te permite hacer búsquedas en distintos formatos (imagenes, blogs, wikis, etc.). Muy bueno.

Newspaper Archive (comercial)
http://newspaperarchive.com/

Sin lugar a dudas una de las bases de datos de noticias más importantes de Internet. Eso sí, centrada específicamente en USA, aunque con la posibilidad de acceder a otros países como Canadá. Es de pago. Pero conviene saber que existe una hemeroteca virtual de este tipo.

Publicaciones:

Deepdyve
http://www.deepdyve.com/

Espectacular buscador de ámbito científico que recoge millones de publicaciones. Sin duda uno de los mejores para el ámbito académico y de investigación. Te permite, además crear una alerta sobre un tema concreto para estar al día de todo lo nuevo que van localizando e incorporando.

Highwire Stanfor
http://highwire.stanford.edu

Este buscador de publicaciones es realmente poderoso, nos busca publicaciones comerciales, pero también otras que están disponibles gratuitamente en pdf. Con él podemos conocer quienes son los investigadores más relevantes de un tema y acertar completamente en nuestras lecturas “para ponernos al día”.

Personas:

Pipl.com
https://pipl.com

Curioso buscador de personas. Está configurado para entrar en las principales redes sociales y buscar el nombre que queremos. Puede ser muy útil para buscar aquellas personas que han configurado sus redes de un modo muy personal. Pero evidentemente se le escapan cosas.

Literatura gris:

Docuticker
http://www.docuticker.com/

Más que un buscador como tal es un repositorio donde recopilan información emitida por distintas organizaciones, think tank y gobiernos. Te permite suscribirte al boletín de novedades como si fuera una actualización de feed. Tiene un buscador interno basado en tecnología Google para localizar publicaciones específicas por clave de búsqueda. En el menú de navegación derecho disponen de árboles de búsqueda si lo que te interesa es un tema en concreto.

Buscador de archivos desclasificados de la CIA
http://www.foia.cia.gov/

Muy buen buscador para ayudarte en tus búsquedas de los documentos que va desclasificando el gobierno americano. Los documentos están en pdf, aunque no puedes bajártelos todos.

Directorio Internacional de literatura gris
http://www.greynet.org/internationaldirectory.html

Esta lista en pdf incluye distintas universidades y organismo públicos que disponen de buscadores a sus propios documentos. Puede ser útil en un momento determinado para encontrar alguna publicación especial.


Históricos

Internet Archive
https://archive.org/

Es un repositorio de información muy variada en distintos tipos de formato. Permite filtrar por fecha, número de descargas, etc por lo que podemos encontrar verdaderas joyas “abandonadas” en la Red.


Lo + profundo:

Torch - Onion
https://xmh57jrzrnw6insl.onion.to/

La versión web de la conocida red Tor por la que se suele mover todo el “underground” que nos podemos imaginar. Este buscador no facilita el anonimato. Para el que todavía no sabe lo que es Tor aquí está la web oficial: https://www.torproject.org/ Y si quieres un pequeño tutorial muy interesante y orientado a la ciberseguridad, te recomiendo que veas el vídeo de las jornadas de ciberdefensa "Deep Web. Redes Tor" te ayudará a comprender de un modo claro y ameno de qué va esta película ;-)

Torsearch - Onion
https://kbhpodhnfxl3clb4.onion.to/

Nace el hermano pequeño del buscador Tor. Todavía está muy incipiente y como ellos dicen sólo busca dentro del contenido alojado en la propia Red Tor. Parece que tiene la estructura comercial del Google así que no me extrañaría que pronto la veamos crecer. Aunque es evidente que se perderán numerosas entradas “interesantes”, pues si deja de ser una Red “profunda” muchas personas dejarán de utilizarla para compartir contenido, especialmente de sexo, drogas, armas y piratería que son las temáticas más utilizadas en esta Red. En fin, ya veremos en qué acaba este proyecto que tiene pinta de ser sólo para conseguir dinero.

PasteBin
http://pastebin.com

Ésta es una Red Social muy útil cuando se pretende chatear y acompañar el diálogo con alguna información en concreto, porque permite acompañar el diálogo con la información que “pasteemos”. Evidentemente es muy inestable y volátil, pues los perfiles publican y despublican rápidamente. Pero a veces se encuentran cosas interesantes





No hay comentarios:

Publicar un comentario