Co-Lab Sémantique : La recherche d’information

Le 23 novembre 2010 se tenait le Co-Lab Sémantique à la cantine, organisé par X-Wiki et Silicon Sentier avec pour sponsor le consortium Scribo qui regroupe différents acteurs autours de projets sémantiques : l’Epita, Nuxeo, Proxem, l’INRIA, X-Wiki, le CEA, Tagmatica, et Mandriva.

Lors de cette journée, Jérôme Charron et moi-même avions été conviés pour donner notre point de vue sur l’état actuel de la recherche d’information.

Jérôme est bien placé pour parler sur le sujet puisqu’il est le fondateur de la liste de diffusion Motrech qui est aussi devenu aujourd’hui un “blog” qui tourne sous Posterous et auquel l’hyperactive Emilie Ogez et moi-même avons l’occasion de collaborer.

Nous avons donc pendant trois quarts d’heure un peu courts évoqué :

  • La taille des index et les types de fichiers indexés
  • L’ergonomie des moteurs de recherche
  • La pertinence des moteurs de recherche
  • Le search et le sémantique

Bien évidemment nous avons parlé beaucoup de Google. Sans être partisan du quasi monopole de Google dans la recherche d’information en ligne, il nous était difficile de minimiser le rôle qu’a pu jouer Google dans notre conception de la recherche d’information.

1) La taille des index et les types de fichiers

Il est loin le temps où Google et Yahoo se livraient à une guerre d’affichage sur leur page de résultats pour devancer son concurrent direct dans la guerre de la taille.

Mais le temps de jouer à celui qui avait le plus gros index s’en est allé en 2005. Google dans un geste de dédain décidait de ne pas annoncer son nouveau chiffre bien supérieur à celui de Yahoo (8 fois comme il l’annonçait lors d’un communiqué de presse / communication officielle). A cette époque la taille de l’index de Google était de plus de 8 milliards de page.

En 2005 le ton était donné. Les acteurs crédibles du search grand public avait atteint une taille d’index suffisante pour que la lutte ne se livre plus uniquement sur ces aspects là. Par ailleurs on pourrait considérer que la taille de cet index envoyait un signal ambigüe vers les utilisateurs : Comment pourraient ils trouver le bon résultat à travers 50 milliards de documents indexés ? Etait-ce d’ailleurs si important alors que lors d’une recherche rares sont les internautes qui vont consulter les résultats au delà de la première page.

Aller plus loin : Yahoo : 19 milliards de pages ? par Jean Véronis et Taille des index : Google enterre la hache de guerre sur Abondance

D’ailleurs aujourd’hui combien d’entre vous savent qu’il est impossible d’accéder à plus de 1000 résultats d’une requête même si Google vous annonce 144 000 résultats?

Une des conclusions partielles de cette partie était donc de l’admettre : la taille n’est pas un critère aujourd’hui qui permet de différencier les principaux acteurs du search.

Toutefois, la taille reste un critère important.

Pour les nouveaux acteurs du search ou les acteurs innovants elle reste d’ailleurs un facteur important d’échec.

L’infrastructure nécessaire à l’alimentation d’un index de plusieurs milliards de pages et au maintien à jour de ce dernier ainsi qu’à la capacité à répondre aux requêtes des utilisateurs  reste un facteur induisant une forte barrière à l’entrée sur le marché du search.

On le constate d’ailleurs, les acteurs innovants du search pour limiter le poids de cette infrastructure se limite souvent en termes de langues indexées, l’objectif étant pour eux souvent de faire la démonstration de leurs innovations.

Concernant les types de fichiers indexés, là encore les acteurs se livrent une lutte importante et ce depuis le début des années 2000.

Google dans la mission qu’il annonçait de rendre la plus grande partie du Web accessible indexait successivement en 2002 les fichiers Excel et puis Access, avec comme effet colatéral la diffusion par milliers de mots de passe que les webmasters avaient omis de sécuriser.

Aujourd’hui encore il ne se passe pas quelques mois sans que l’on annonce que tel ou tel format sera mieux indexé. Dernièrement Google annonçait une meilleurs indexation des fichiers Flash qui historiquement ont toujours posés des problèmes aux moteurs de recherche.

Dans les problèmes de formats de fichiers ou tout du moins de technologie actuellement utilisés qui posent des problèmes demeurent quelques épines dans les pieds des géants.

Le javascript propriétaire pose des soucis majeurs d’indexation, brisant la chaîne des robots qui, même s’ils ont appris à composer avec les fonctions javascript de liens standards, se heurtent aux fonctions propriétaires avancées renvoyant par exemple des données en POST.

L’Ajax, comprenant une forte composante javascript pose donc d’important soucis aux moteurs de recherche.

Il en pose également un autre : celui des contenus mélangés.

Les moteurs de recherche ne savent pas composer avec les layers et les index z qui masquent ou affichent de contenus déjà chargés dans le code source. Ainsi le contenu en ajax mélange parfois les thématqiues à l’intérieur d’une même page web qui pourtant semblent des pages différentes pour l’internaute.

Quels nouveaux autres défis pour le search ?

En ligne de mire le multimédia. Speech to text, reconnaissance de sons, reconnaissance de formes.

Si l’on peut considérer que le match est quasiment terminé pour les grands acteurs du Web sur la recherche textuelle, il reste une marge de progrès considérable sur les contenus multimédias et par ailleurs  les enjeux économiques sont importants.

On le voit clairement Google brûle de pouvoir proposer de la publicité contextuelle sur les vidéos de YouTube et cela prend encore une autre dimension si l’on considère les récentes annonces faites autour de la Google TV.

Quant à Yahoo, avec sa base d’images Flickr, l’intégration d’une technologie d’indexation d’images basée sur la reconnaissance des formes, des couleurs ou une recherche par similarité, ne serait pas de refus pour en optimiser son accessibilité.

On voit de nombreux essais technologiques à ce jour sur ces aspects là mais pour l’instant l’intégration dans les principaux moteurs de recherche reste résiduelle : reconnaissance du format portrait, filtres sur la couleur, … mais pas encore de compréhension fine des contenus multimédias.

On pourra toutefois évoquer le cas de Like.com, racheté l’an dernier si ma mémoire est bonne et qui intégrait des algorithmes avancés de reconnaissance de forme même si la technologie de démonstration reposait sur un nombre de produits indexés limité.

Le projet Quaero se positionne clairement également sur ces innovations technologiques même si le nombre de démonstrateurs technologique issus de Quaero reste encore limité.

Aller plus loin : Le site tineye.com permet de retrouver des images qui ont été faites à partir d’un même fichier à partir de la “signature” numérique d’un fichier image. Le démonstrateur Retrievr quant à lui repose sur la technologie de reconnaissance de formes et de couleurs. Plus complexe il s’applique de façon plus limité au seul index de Flickr. A lire aussi sur Actulligence un petit florilège de liens.

2) L’ergonomie

Google a conditionné fortement ce que les utilisateurs considèrent comme une ergonomie efficace voire agréable pour la recherche d’information.

Boîte de recherche aux alentours dégagé, liste de résultats comprenant un nombre limité de champs : titre, description, URL.

Pendant de nombreuses années cette interface est restée très dégagée pour le leader de la recherche. D’ailleurs elle a inspiré de nombreux moteurs et les dissidents, considérés pourtant parfois par la presse spécialisée comme intéressants, ont bien eu de la peine à faire accepter leur ergonomie en colonne (Cuil, le pseudo Google Killer) ou sous forme de vignettes ou bien encore de cartographies (Kartoo).

Il aura fallu attendre 2008 pour commencer à voir se transformer considérablement l’interface de Google, cette évolution s’accélérant en 2010.

Afin de répondre à une taille croissante des pages indexées Google et d’autres moteurs de recherche ont du segmenter leurs index par type de contenus (blogs, news, articles scientifiques, brevets,…) clairement identifiables par les internautes.

Dans le même instant l’ergoinomie de la page de résultat s’est transformée elle aussi afin de relever les défis du Universal Search : proposer à l’intérieur d’un seul et même espace – la première page – une liste cohérente et lisible de résultats de natures parfois très variées : actualités, résultats temps réel (micro blogging), vidéos, images.

Et maintenant das cette même page apparaissent les vignettes.

C’est intéressant de constater que c’est presque un constat d’échec de la part de Google et des interfaces légères : le retour à une interface de plus en plus complexe et délicate à appréhender marque un retour en arrière d’une bonne dizaine d’années. Pour certains nostalgiques, on se croirait presque revenu au temps des AltaVista et consorts. Seule différence peut être : l’utilisateur a un peu mûri. Et je dis bien un peu.

Restons toutefois réaliste, pour la plupart des recherches, l’internaute ne tapera qu’une paire de mots et se limitera à consulter les tous premiers résultats. Pour ceux là, la présentation de Google a peu d’impacts.

Jérôme a par ailleurs souligné l’importance que Google accorde aux A/B testing proposant ses nouvelles innovations ergonomiques à une seule partie des utilisateurs pour évaluer l’impact de l’implantation de ces innovations.

Il rappelait également que Google n’est peut être plus une société si innovante que cela : qu’il s’agisse de la proposition des requêtes en cours de frappe ou de l’instant search, tout cela existait avant que Google décide de l’implanter dans ses services.

3) La pertinence

Fin des années 90 :  Le search se porte relativement mal. Les grands acteurs du moment peinent à indexer un web qui croit trop vite pour leurs moyens financiers. en manque de moyens financiers et peut-être aussi technologique, ils ont bâti leurs algorithmes sur une logique de méta balises massivement détournée par les spamdexeurs.

La “pertinence” des résultats est à réinventer et ce ce que fait Google en développant une architecture technique et une structure d’index plus robuste lui permettant de crawler non pas le début d’une page mais toute la page, mais également en introduisant le page rank, véritable recommandation d’un résultat qui limite l’impact du webmaster sur son propre site.

Mais qu’est ce que la pertinence ? A t’on vraiment une légitimité à parler de la pertinence des moteurs de recherche ?

La pertinence est à mon sens un point de vue purement humain. Une information est pertinente pour un utilisateur qui est souvent le seul à même d’en juger.

Un moteur de recherche type Yahoo ou Google, repose sur un algorithme de classement des résultats qui seront classés par adéquation décroissante avec la requête.

Le processus de recherche est quelque chose de complexe qui comporte plusieurs biais :

  • Un biais purement humain et psychologique à l’expression de la requête. L’utilisateur ne connaît parfois pas bien ce qu’il recherche lui même. Et parfois quant il le sait il ne connaît pas les mots nécessaires ou souffre d’un ensemble de blocages pour exprimer correctement sa requête : syndrome de l’expert qui ne détaille pas assez par exemple.
  • Un biais lors de la formulation : l’utilisateur ne connaît pas forcément les meilleurs moyens technologiques ou syntaxiques pour exprimer sa requête. Une bonne formulation reposerait sur une connaissance approfondie du moteur de recherche utilisé ce qui est parfois délicat (mode d’emploi imprécis ou erroné, algorithmes tenus secrets,…)
  • Un biais dans la diffusion du contenu : les webmasteurs ou éditeurs ne vont pas mettre en place les meilleurs moyens pour diffuser leurs contenus. Pas de sitemap par exemple, ou alors contenus non indexables. Ils peuvent également utiliser des termes qui seront en décalage par rapport à ceux qui pourraient chercher l’information et en avoir besoin.
  • Un biais algorithmique : l’algorithme de classement des résultats est fatalement subjectif et découle d’un processus humain. le développeur indique ce que lui pense être comme plus important dans le poids d’un résultat et affecte des coefficients de pondération : notoriété globale du site, mot clés présent dans l’URL ou le titre, taux de densité des mots clés…

De fait l’on voit bien que l’on ne peut parler de classement par pertinence en tout cas lorsqu’il s’agit d’un moteur de recherche.

Jérôme a par ailleurs souligné que des tests de “pertinence” de certains moteurs de recherche existaient. Lors de l’événement annuel TREC (Textual Retrieval Conference) les moteurs de recherche souhaitant participés sont évalués et confrontés à la pertinence humaine qui a préqualifié un ensemble de résultats  sur des requêtes. Malheureusement les grands du search grand public n’y participent pas.

4) Le sémantique

Web 2 puis Web 3 maintenant. On parle de structurer le web qui est foncièrement déstructuré.

Le sémantique est il le nouvel enjeu du Web?

Il existe des travaux en cours depuis de nombreuses années et aussi des normalisations en cours à travers la définition des composantes OWL, véritable framework du web sémantique.

En dehors du OWL, microformats et micro datas sont en cours d’implantation et de développement.

Mais est ce vraiment un plus pour la recherche d’information ?

Jérôme précise avec justesse qu’imposer la structuration du web pour en faciliter sa compréhension c’est revenir aux problèmes posés par les métabalises. Les plus performants et plus manipulateurs risquent de tirer profit de cette nouvelle opportunité pour structurer leurs contenus à leur avantage.

On voit bien que Google a aujourd’hui un pouvoir important sur le Web. Il a ainsi imposer le format sitemap comme première brique de structuration du Web. Format communément adopté par les grands moteurs.

En imposant cette structuration du web aux webmasters et aux éditeurs de CMS les risques ne sont ils pas pour lui de s’exposer à des fraudes importantes ?

Il n’est pas possible aujourd’hui de répondre à cette question mais l’on constate que les tentatives de structuration à la volée du Web, type Google Squared, sont difficilement applicables sur des corpus aussi importantes et hétéroclites que ceux d’aujourd’hui.

A suivre donc…

Et pour suivre justement je vous propose de télécharger la petite présentation que nous avons réalisé avec Jérôme à l’occasion de cette petite session. Quelques “slides” seulement. Pour égayer nos propos et divertir le chaland. L’occasion aussi pour nous de tester un bien bel outil, Prezi, même si la version gratuite est loin de comporter toutes les fonctionnalités que nous aurions aimées utiliser.

Pour aller plus loin également nous vous invitons bien sur à lire le blog de Motrech. Une liste de discussion puis un site sur lequel Jérôme s’est toujours beaucoup investi. Un site qu’Emilie l’a aidé à alimenter et que auquel je suis ravi de contribuer (trop peu à mon goût) aujourd’hui.

Pour aller plus loin :

Vous pourrez consulter les riches interventions qui oint été mises en ligne suite à la journée du Co-Lab sémantique dont celles des membres du consortium Scribo autour du sémantique et de ses applications.

6 Réponses à “Co-Lab Sémantique : La recherche d’information”

  1. Amine BENHAMZA 30 novembre 2010 à 11 h 20 min #

    Article intéressant et enrichissant Frédéric.

    Il y’a un point qui n’a pas été évoqué et qui me semble pertinent : est ce que les moteurs de recherche indexe l’ensemble du web (visible et invisible) ?

    Je pense profondément que non. Quelle est alors la proportion indexée chez les leaders : 20%, 40%, 80% ?

    • Frédéric Martinet 30 novembre 2010 à 16 h 16 min #

      Hello Amine,
      J’espère que tu vas bien !!!
      Ravi de voir que tu lis toujours Actulligence :)
      Bon pour répondre à ta question le sujet du web invisible a bien été abordé… J’ai juste oublié de le retranscrire.
      Ta question me pose un vrai problème en fait… Que veut dire selon toi web invisible ? Quelle est lé définition du mot que tu emploies.
      Qui dit invisible dit invisible… Si tu veux y voir plus clair fait une petite requête sur Actulligence : je pense que j’avais repris cette définition assez précisément suite à un premier billet de Christophe Asselin.
      Donc par définition on ne peut connaître sa taille. La structure même du web fait de toute façon qu’il est très dur d’en connaître la taille vu que “le web” est atomisé sur des milliers de serveurs qui hébergent les sites et autres.
      Le calcul de la taille du Web est quasi impossible mais l’on peut partir du postulat que celui qui est le plus près d’en connaître la taille c’est Google.
      Pour le Web invisible, l’estimation de sa taille, la répartition Web visible et Web invisible je laisse le soin aux médiums, devins et gourous webs de te répondre avec des offres qui de toute façon ne pourront qu’être tirés de leur chapeau.

      Ce que l’on peut dire je pense quand même sans prendre de risques c’est que :
      – La taille du web invisible croît ne serait ce que par le réseau Facebook et autres réseaux sociaux.
      – La taille du web global est en croissance forte.
      – Les moteurs de recherche ont améliorés leur performance sur ce qui était le web invisible auparavant et qui du coup n’est plus le web invisible si l’on part de l’hypothèse que l’on inclut par Web invisibles les contenus difficilement accessibles pour un utilisateur lambda (enfouis trop profondément à l’intérieur d’un site web, très mal référencés voire pas du tout.) … Et les acceptions du web invisible peuvent varier sur ce point là…. En quoi ils ont réussis cela : crawl des URL’s complexes comprenant de nombreuses variables get, interrogation des bases de données publiques accessibles uniquement par un formulaire de recherche en injectant des mots clés courants et en générant des pages de résultats, suivi des liens javascripts simples, crawl améliorés du Flash, crawl de plus en plus de formats de fichiers etc….

      Voilà, donc désolé… Pas de chiffres à te donner…

  2. AmineDigirep 1 décembre 2010 à 15 h 32 min #

    Salut Frédéric,

    Je suis toujours lecteur de ton blog. Le contenu est de qualité et le ton est franc. Ton expérience a son poids 😉

    Concernant le Web invisible, il est difficile de le définir. Tant cette notion a évolué, comme tu le soulignes, avec l’évolution des moteurs de recherche. Moi même, ma perception de ce sujet a évolué avec le temps.

    Au début des années 2000, pour moi “Web invisible = Formulaires” à l’instar des pagesjaunes. Ensuite, “Web invisible = Formulaires + certains formats de contenu”. Aujourd’hui, toute l’information publique (information qu’on veut partager, indépendemment du format du contenu) est accessible ou le sera rapidement dans l’avenir via les moteurs de recherches.

    La notion d’invisible, à mon sens aujourd’hui, est associée à la notion de communauté donc inhérente à une volonté humaine. Auparavant, la notion d’invisible était liée à un savoir faire technique.

    Tu as donné l’exemple des réseaux sociaux qui est pertinent. J’ajouterai l’exemple d’un réseau de blogeurs qui se référencent les uns les autres où aucun de ces blogs n’est indéxé par un moteur de recherche et aucun de ces blogs n’est référencé par un blog ou site extérieur qui est potentiellement indéxé. Dans ce cas, si les blogeurs eux mêmes ne cherchent pas à s’indéxer, aucun moteur de recherche ne pourra indéxer le réseau de blogs.
    ==> Je fais l’hypothèse que les moteurs de recherches n’ont pas accès aux données des hébergeurs de sites 😉 Est ce toujours vrai ?

  3. ponceblanc92 6 juin 2013 à 9 h 28 min #

    La pertinence des moteurs de recherche est un sujet très vaste et complexe. Il semblerait que Google aujourd’hui, à défaut de pouvoir analyser tous les sites par des humains classe les sites non pas par pertinence mais par popularité. Dans bien des cas, cette démarche est légitime puisque l’idée est de répondre à la demande des internautes mais cela nuit surement aux sites Internet aux contenus de fond, plus pointus et moins abordables au premier abord.

Trackbacks/Pingbacks

  1. Tweets that mention Co-Lab Veille : La recherche d’information | Actulligence.com | Veille Stratégique, Intelligence Economique » -- Topsy.com - 28 novembre 2010

    […] This post was mentioned on Twitter by Stephane Lacassagne and Frédéric Martinet, ALSAGORA. ALSAGORA said: RT @actulligence Co-Lab Veille : La recherche d’information | Actulligence.com | Veille Stratégiqu.. http://bit.ly/iaUPjv […]

  2. La recherche d’information à l’ère du web social | Digital Reputation Blog - 14 décembre 2010

    […] Le schéma ci-dessous est issu d’une excellente thèse doctorale réalisée en 2004 par Carlos Castillo sur la collecte d’informations, intitulée Effective Web Crawling, disponible en téléchargement libre. Pour en savoir plus, je vous recommande également le billet de Frédéric Martinet à ce sujet. […]

Laisser une réponse à AmineDigirep