[réseaux] web #1 (clear) web et deep web

[slides mises à jour le 15 mars 2017] Comme vous et moi, tout le monde utilise le web au quotidien, depuis un ordinateur, un téléphone, une tablette… Un peu comme Monsieur Jourdain qui faisait de la prose sans le savoir (c’est dans « Le Bourgeois gentilhomme » de Molière). Alors, normal, vous et moi pensons savoir ce qu’est le web, le « cyber-espace » consultable à partir d’un navigateur.

Vous voulez comprendre la réalité technique de cet univers virtuel ? Quelques mots d’explications avant les images et les schémas.

Internet et web

Le web ? Le world wide web ? Ah, le www. ! A ne pas confondre avec l’Internet dont elle n’est qu’une des applications, la « Toile » est d’abord un protocole de communication qui permet, depuis un navigateur, de consulter des pages web et leurs « ressources », accessibles depuis une URL (une adresse web, quoi !). Par extension, le terme désigne également l’ensemble des contenus librement accessibles à partir de… OK, nous commencerons par un (petit) rappel.

Rappel technique

Internet, le Réseau des réseaux, permet au protocole www de fonctionner. Les échanges d’informations numériques du web passent tous par l’utilisation du protocole tcp/ip, auquel s’ajoute le protocole http (les liens hypertexte). Vous pouvez consulter des URL grâce à l’adresse IP de votre terminal… Je sens que Monsieur Jourdain va apprendre des choses…

L’indexation des URL

Vu la taille (on parlerait plutôt de « poids » en langage informatique) de l’ensemble des « ressources » que l’on trouve librement sur la Toile mondiale, il est d’abord nécessaire de les identifier. C’est le travail préliminaire de l’indexation. Il faut donc d’abord s’intéresser aux robots logiciels appelés « bots » (par contraction du terme « robots »). Une fois indexés par les bots, les contenus peuvent être consultés à la demande. C’est en cela que l’on distingue le (clear) web du deep web. Nous en profiterons pour évoquer l’enregistrement en mémoire cache des pages web et les problèmes de sécurité que cela pourrait (?) poser.

[mise à jour du 19 janvier 2017] L’indexation des URL est un métier à part entière et vous ne serez pas surpris que Google communique sur le travail accompli par ses « Googlebots ». Lisez l’intéressant article « Google explique ce qui aide ses robots à mieux parcourir les sites » publié sur Le Journal du Net le 17 janvier 2017.

Le « ranking » ? 

A ce premier travail d’indexation systématique s’ajoute celui du classement des réponses par pertinence. Il s’agit alors du « ranking », qui est opéré par les algorithmes (secrets) dans les soutes des moteurs de recherche. Car c’est dans l’affichage des réponses à vos critères de recherche que s’apprécie la qualité du moteur de recherche. Nous distinguerons bien évidemment le ranking « naturel » (résultat du IP tracking) du ranking « sponsorisé » de type Google Adwords, à base d’achat de mots-clé. Le second marche encore mieux. On se demande bien pourquoi.

Une plongée dans le web « profond »

C’est la partie la moins sensationnelle de cette étude, même si au départ, ça sent un peu le mystère quand même… C’est certainement le volume (le poids on a dit !) de la Toile mondiale le plus important (on parle de 500 fois plus que le web indexé). Mais personne ne sait ce qu’il en est en réalité.

Mais qu’est-ce qui distingue le web du deep web ? Si le web « de surface » est indexé par les bots des moteurs de recherche, justement, le deep web ne l’est pas. Pour des raisons différentes. 

Les pages non indexées

Il y a plusieurs explications à cette non-indexation :

  • certaines pages ne contiennent pas de lien http. Pas de lien hypertext actif inclus dans la page ? Pas d’indexation.
  • certains sites refusent l’indexation de leurs pages, par activation d’un « robot .txt ».
  • d’autres sites, enfin, sont en accès restreint : il s’agit des pages web, gratuites ou payantes, accessibles seulement avec un login et un password.

C’est ici qu’apparaissent les premières failles de sécurité. J’ai testé pour vous une visite – depuis mon bureau (grâce à une connexion anonymisée) (on n’est jamais assez trop prudent de nos jours) – du système d’informations d’un célèbre zoo de Californie du sud, depuis une page web en mémoire cache de Google. STU-PE-FIANT ! Je ne vous cache pas que je n’y serais jamais arrivé seul (pas de nom, pas de nom…).

Bienvenu sur la Toile !

C’est grâce à ce protocole de communication que vous visionnez cette présentation.

La seconde partie de cette étude porte spécifiquement sur les darknets (ou dark web pour utiliser un terme bien anxiogène). 


Merci à Philippe Wlodyka, à Maxime Cheminade… et à Jef Mathiot. Sans eux, cette présentation n’aurait tout simplement pas vu le jour. Merci à vous trois pour votre patience.


Un immense merci à Serge Lehman et Stéphane « Gess » Girard, respectivement scénariste et dessinateur de « L’Oeil de la nuit« , exceptionnelle série en trois tomes. Bon, Serge Lehman est dans le top 5 des scénaristes de BD de science fiction (dont notamment Eric Corbeyran et Jean-Pierre Pécau), ai-je besoin d’insister sur ce point ? J’adore la genèse du « Nictalope », héros de ce préquel de « La Brigade Chimérique » et ces aventures au style art nouveau. Je suis un grand fan du dessin de Gess : audacieux, stylisé et d’une grande puissance évocatrice (et je ne dis pas cela que parce qu’il est le dessinateur des huit premiers tome de la série Carmen Mc Callum que j’adore). Bref, « L’Oeil de la nuit » est une oeuvre majeure, par son scénario et son graphisme. Mais vous avez le droit de passer à coté de l’essentiel…

Un très grand merci à l’équipe des éditions Delcourt, Sébastien Le Foll et Lucie Massena, pour leur réactivité (chacune de mes présentations est validée avant sa publication par l’éditeur et par les auteurs) et surtout, pour leur confiance renouvelée dans mon détournement des phylactères de personnages que rien ne prédestinait à évoquer les arcanes de notre univers électronique. 


web #1 deep web darknet Ledieu avocat nouvelle technologie contrat logiciel SaaS DMP metadonnée personnelle cybersécurité blog BD.055


web #1 deep web darknet Ledieu avocat nouvelle technologie contrat logiciel SaaS DMP metadonnée personnelle cybersécurité blog BD.055