Accueil arrow Actualités arrow Moteurs de recherche arrow Le web invisible ou le web profond c'est quoi?
Billet d'humeur
J'aime vachement le nouveau site www.jaimelesartistes.fr ... Mais j'aime toujours pas les majors. On se marre bien quand même avec les ninjas.
 
Actulligence :
Veille, Intelligence Economique et recherche d'information
par Frédéric Martinet

Le web invisible ou le web profond c'est quoi? Convertir en PDF Version imprimable Suggérer par mail
Écrit par Frédéric Martinet   
16-11-2008

Digimind a publié début novembre un très court PDF [inscription obligatoire] avec 4 images afin d'expliciter ce qu'est le web invisible.

Digimind précise que la définition première est : tous les documents non indexés ou partiellement indexés par les moteurs de recherche.

Cela recouvre donc :

  • les pages sécurisées
  • les documents trop volumineux
  • les pages orphelines
  • les pages générées dynamiquement
  • les formats mal reconnus

Les pages sécurisées comprennent toutes les bases de données professionnelles, les sites nécessitant un login / password, un abonnement, et les profils de réseaux sociaux type Facebook accessibles uniquement lorsque vous disposez d'un compte et / ou que vous êtes coopté.

Elles comprennent aussi les pages pour lesquelles le webmaster utilise le fichier robots.txt ou bien encore les commandes de type "no follow".

Les document trop volumineux sont principalement des documents types bureautiques dont la taille en Mo dépasse un certain volume et Google (et les autres moteurs n'indexent donc que partiellement le contenu afin de ne pas surcharger leur index.)

Les pages orphelines sont des pages vers lesquelles aucune autre page accessible par les moteurs de recherche ne fait de lien.

Les pages générées dynamiquement ne sont pas à proprement parler non indexées par les moteurs de recherche (Google en tête). En effet aujourd'hui, ce qu'on appelle pages dynamiques est généralement indexé par Google. En effet tous les CMS, blogs et autres sont ce qu'on appelle dynamiques, c'est à dire que la page résultante est générée et interprétée à la volée et qu'elle n'est pas un fichier statique. Mais toutefois, certaines pages dynamiques ne sont pas accessibles facilement via les moteurs de recherche. En effet, historiquement, Google n'aime pas particulièrement les URL à rallonge comportant un nombre important de paramètres (ce qui suit un point d'interrogation dans une URL) et par ailleurs, les pages résultant d'un formulaire de requête en POST (formulaires d'interrogation de bases de données par exemple).

De plus, les formats de fichiers ne sont pas encore indexés par les moteurs de recherche qui se partagent le marché du search online...même si ces derniers se font de plus en plus rare...

On peut ensuite rajouter à ce web invisible tous les fichiers que les moteurs de recherche blacklistent pour cause de non respect de leurs règles : duplicate content (plusieurs fois le même contenu ou presque derrière plusieurs URL), de cloaking (renvoyer une version différente de page à un moteur de recherche et à un internaute), ou de spamdexing (multiplication de mots clés cachés de façon à berner les moteurs de recherche).

Le web invisible comporte aussi des barrières plus locales : en effet certains sites ne sont accessibles que si vous vous connectez d'un certain pays. Typiquement Google vous renvoie des résultats différents selon l'endroit d'où vous vous connectez.... Exemple aussi, certains sites gouvernementaux américains ne sont accessibles que si vous vous connectez d'un proxy en sol américain.

Côté multimédia, et bien que cela progresse, les vidéos et images sont accessibles mais souvent par rapport au contenu textuel qui les entourent. On a donc un web invisible partiel sur ce type de documents puisque c'est l'environnement qui en est indexé et non pas le contenu audio et vidéo. A noter, Google risque de réduire le web profond sur la partie images étant donné qu'il va se mettre à océriser les images et pdf ne disposant pas d'une couche texte.

De même les contenus émanant de technologies propriétaires ou exotiques (javascript de liens complexes, contenu AJAX, mais aussi contenu Flash - quoique..)

Enfin, le web invisible ou web profond, pour résumer on ne sait pas tout ce que c'est puisque par définition le contenu est difficilement accessible et que par ailleurs les moteurs de recherche n'ont pas forcément tendance à communiquer sur ce qu'ils n'inexent pas. Je me permets aussi de rester sceptique sur toute évaluation de taille du web visible et invisible... Déjà la taille du web visible n'est pas simple à estimer....alors du web invisible...je ne suis pas Madame Irma.

Commentaires

coulson
2008-12-31 09:39:43
Invité
E-mail
Http
billet intéressant qui m'a provoqué quelques réflexions sur le 'Dark Side' du web. 
 
Subscribed



Ecrire un commentaire

  • Merci de ne publier que des commentaires relatifs à l'article
  • Les attaques personnelles seront supprimées.
  • Ne pas profiter de cet espace pour faire éhontément la pub de votre site.
  • Si vous tapiez un code de sécurité erroné merci de rafraîchir la page avant de réexpédier votre commentaire.
Nom:
E-mail
Homepage
Commentaire:



Code:* Code

Dernière mise à jour : ( 28-07-2009 )
 
< Précédent   Suivant >
Publicité
Spotter, Analyse du buzz et des médias sociaux, études e-reputation et veille image The Power to Understand
Qui suis-je ?
Frédéric Martinet
fredericmartinet.tel

Consultant et formateur veille et intelligence économique
Webmaster d'un site sur l'intelligence économique depuis 8 ans (martinet-on-line.com désormais devenu actulligence.com)
Intervenant dans plusieurs formations de 3ème cycle en veille et intelligence économique.

Consultez mon CV :
- Français HTML
- Français Word


Add me on MSN frederic.martinet on Google Talk


Frédéric Martinet

Frederic Martinet


International Actulligence
Actulligence via RSS

Add to netvibes
Subscribe in Bloglines

Subscribe in NewsGator Online
Ajouter ce flux à votre Protopage
Add to Google

Abonnement email

Vous êtes allergique au RSS? Abonnez vous par mail!

Blogs préférés
Mais aussi :
© 2010 Intelligence Economique, veille, recherche d informations
Joomla! est un logiciel libre distribué sous licence GNU/GPL. URL rewriting by Artio JoomSEF. URL rewriting by Artio, sponsored by Traveliana.