Tendances et innovation : les outils de recherche d’information

Le 4 avril, Actulligence Consulting et l’ADBS Languedoc-Roussillon organisaient un webinar sur la thématique de l’innovation dans le secteur de la recherche d’information afin de partager une vision et une analyse autour de ces outils qui sont devenus incontournables pour tous les travailleurs du savoir et plus globalement pour tous les cols blancs.

J’ai le plaisir de vous faire partager le support de présentation réalisé à cette occasion ainsi que ci-après une synthèse de ce que j’ai pu dire pendant cette petite heure.

Google

Google est l’outil incontournable pour tous ceux qui recherchent de l’information en ligne, dans le cadre d’une recherche documentaire ou plus généralement dans un cadre professionnel. La puissance de  ses outils et de son infrastructure sont aujourd’hui sans aucun équivalent, comprenant entre autre 12 data centers répartis à travers le monde. Ayant développé son propre système de répartition électrique et de refroidissement de ses serveurs, premier possesseur de serveur au monde, Google répond à l’une des promesses faite il y a 15 ans : indexer le web et le rendre disponible où que soit l’information.

Alors bien évidemment, Google a ses limites : les réseaux de micro-blogging, le Web invisible inaccessible techniquement ou bloqué par les webmasters (espaces sécurisés, robots.txt, flash,…) qui ne souhaitent pas voir indexer leurs contenus mais soyons très clairs, en occident, hors de Google point de salut. (NDLR : dans d’autres pays Google ne domine pas forcément et se heurte par exemple à Baidu et Sohou en Chine, à Yandex en Russie, à Naver en Corée du Sud.).

Si des outils tels que DuckDuck Go ou bien encore Ixquick surfent sur la vague de la “privacy” et du respect de l’anonymat – psychose NSA oblige … alors que rappelons le, Echelon à nos portes fait cela depuis fort longtemps – ces outils ne sont ni plus ni moins que mauvais : index parcellaire, algorithmes antispam et de classification des résultats défaillants : le Google Killer n’est pas encore né bien que de multiples challengers n’aient pas hésité à clamer haut et fort leur venue.

Comment Google est arrivé à dominer le marché ???

Plusieurs étapes lui ont permis d’en arriver là :

  • Alors qu’il y a 18 ans les annuaires (Yahoo) (et le moteur de recherche Altavista) dominaient le monde de la recherche en ligne, Google a permis de générer des résultats de recherche en 0,002 secondes tout en réduisant drastiquement le spam, la rentabilité de sa solution et en limitant l’investissement temps de l’utilisateur (rechercher longuement dans des rubriques ou bien maîtriser des opérateurs complexes). Les algorithmes sont au coeur de cette victoire : le page rank partait du principe qu’ l’on ne pouvait plus se fier à ce qui était présent sur un site mais qu’il fallait au-delà, regarder qui parle de ce site et donc fait un lien vers lui. Encore aujourd’hui le page rank demeure, n’étant toutefois plus qu’un critère de classification parmi d’autres, avec un renforcement sur un page rank de thématique jugeant de la cohérence de l’écosystème des liens entrants sur un site web.
  • La mise à jour continue de ces algorithmes permet de limiter la progression du spamdexing. C’est une guerre sans merci que mène Google contre les spammeurs et cela s’est traduit pas les algorithmes Panda et Penguin qui ont permis de faire reculer les résultats spams qui commençaient à ennuyer Google particulièrement sur des grandes marques (de luxe entre autre) par ailleurs acquéreurs de campagne de référencement payant.
  • L’évolution vers le sémantique que Google a entamé à travers le Google Knowledge Graph et l’algorithme Hummingbird qui vise à faire du moteur de recherche un outil capable de structurer et de comprendre. Comprendre les relations, leur sens, leur intensité, désambiguïser, bref, apporter une réponse plutôt qu’une liste.

Pour cela Google s’offre les meilleurs têtes bien faites au monde en big data, en linguistique, en sémantique, en statistiques.

L’algorithme impose la vision que nous avons de notre  univers numérique aussi surement que les bulles attentionnelles (cf Olivier Ertzscheid qui en a parlé à de multiples reprises) que nous construisons et qui nous renferment dans l’univers que nous connaissons et que nous voulons voir.

Bref, Google s’oriente non plus vers une logique de liste de résultats mais bien vers la promesse d’une réponse. La démarche avait été engagée en rapprochant les index à travers la première page de ses résultats qui selon la requête et l’actualité va composer et mixer images, vidéos, résultats organiques sites webs, etc, elle se traduit désormais par cette fiche qui apparaît de plus en plus souvent dans la colonne de droite et qui récapitule les éléments principaux, adaptés, en fonction du type de recherche et de l’objet de la recherche. La recherche sur un peintre vous donnera son mouvement, ses oeuvres majeures avec des liens correspondants vers Google images, Une ville vous donnera sa superficie sa population, etc. Le moteur comprend, structure les méta données et leurs contenus, agrège et offre sa réponse.

Le chemin était évident et les technologies de plus en plus matures : à travers Google Squared, Google avait démontré sa capacité à comprendre ce qui définissait un champ d’observation à la volée et à structurer cette information. Bientôt probablement les résultats organiques seront minoritaires dans le sacro-saint (et accessoirement “bankable”) espace de la première page de résultats.

Google comme tous ses concurrents (Facebook, Twitter, Apple) s’est engagé dans un processus de domination numérique avec plusieurs axes de domination :

  • l’attention, nerf de la guerre qui va avec le temps consommé par l’individu dans un écosystème numérique
  • et son corollaire, la captivité, déclinée en mobilité, en support multimédia (télé, tablettes,…) et en connexion continue (maîtrise du réseau au sens tuyaux), complément essentiel à l’attention, qui renferme l’individu dans un écosystème et qui va à l’encontre de la définition du Web 2 que Tim O’Reilly, pas si visionnaire que ça finalement, voyait lui comme ouvert et interopérant.

La pertinence, la qualité de service, l’innovation ne sont que des externalités positives qui visent à convaincre l’individu de mettre son doigt dans l’engrenage d’un écosystème jusqu’au moment où le coût de sortie rendra impossible toute évasion.

Externalités négatives, Google ferme tous ses services qui détournent l’attention et permettent de sortir de son écosystème avec des formats standards : les Google Alertes sont délaissées par le géant de Mountain View, le mail et le RSS n’étant pas assez “propriétaires”. Google Reader, massivement utilisés par les travailleurs du savoir disparaît. La course au social sharing visant à mobiliser les Googlenautes sur Google+ est engagée et déjà les premiers résultats organiques laissent apparaître les traces de cette bulle attentionnelle en précisant lesquels de vos amis ont liké quels sites.

Comme tous ses concurrents d’ailleurs, les portes du pénitencier se referment autour des Googlenautes, Facebooknautes, ou Twittos (quoique Twitter reste à ce jour un peu plus ouvert de par sa nature même mais ne rêvons pas…).

Pour parfaire la captivité, voilà que Google devient aussi son propre pourvoyeur de connexion, maillant le monde de ses propres tuyaux et serveurs raccourcissant les distances et les temps entre celui qui cherche et celui qui répond.

Accessibilité, connexion permanente, et immersion

Fer de lance des outils de recherche d’information, l’immersion dans leur univers se poursuit jusque sous vos propres yeux (dans vos propres yeux même...) Les téléphones portables ne sont pas assez immersifs, ce que veulent les outils de recherche c’est être à même de répondre où que vous soyez à vos questions : comment aller à tel endroit ? Quel est cet objet ? Comment dit-on ? A qui ressemble ?, mais c’est aussi être à même d’étendre sa bulle attentionnelle en capturant et partageant en temps réel avec votre communauté.

Tous s’y lancent ou s’y lanceront.

Le Big Data

Pour les moteurs de recherche le big data s’impose de fait. Tout d’abord pour la gestion de leurs colossaux index. S’il y a bien un secteur d’activité dans lequel le big data est un réel enjeu c’est l’accessibilité à l’information sur le Web. En dehors de l’algorithmie, la structuration des données et l’optimisation des temps de traitement permet de maintenir le niveau de performance des moteurs de recherche.

Si l’on rajoute à tout cela la masse de données que ces écosystèmes fermés collectent sur leurs utilisateurs l’on comprend bien l’enjeu colossal qu’il y a à imaginer des nouvelles techniques et technologies qui appréhendent les logs utilisateurs, leurs interactions, leurs recherches.

L’objectif est simple : rester “pertinent” à la fois sur les résultats organiques mais aussi sur le ciblage publicitaire.

Pour les professionnels de la recherche d’information le big data (et l’open data) ouvrent aussi de nouvelles perspectives. Bien que les API de ces écosystèmes soient de plus en plus restrictives elles offrent quand même encore des possibilités sous-exploités par la plupart des veilleurs et des solutions traditionnelles de veille ou de recherche d’information que nous connaissons en France.

Là où l’on pourrait travailler sur le recoupement, sur la dynamique de l’information et des réseaux informationnels, nous nous contentons souvent de traiter les données par lots uniformes là où nous devrions nous préoccuper de les rapprocher, de les relier et de les séquencer.

Les outils existent et il faut désormais travailler à les faire collaborer dans une logique de mise en perspective spatiale, temporelle et relationnelle, et en tant que vieux de la veille, je ne peux que regretter le manque de vision de nombreux éditeurs qui s’engouffrent sur le traitement du mass média social (données ouvertes Facebook, Twitter et acquisition de flux d’information aux mêmes information providers.)

Les médias sociaux et les réseaux sociaux

Si l’on sort de Facebook et de Twitter, les réseaux sociaux sont nombreux et même si certains peinent à se développer, il n’est pas rare de trouver des réseaux sociaux par thématique, par corps professionnel et par zone géographique.

Là encore, il est difficile d’identifier des solutions qui permettent de travailler efficacement avec des réseaux de niche mais qui souvent peuvent comporter un réel intérêt.

Qu’est-il par exemple proposé aux veilleurs qui veulent travailler sur les contenus LinkedIn ? Il leur est conseillé par la communauté de “se connecter régulièrement et de regarder”. Bienvenue au Moyen-âge.

Pourtant les solutions existent. LinkedIn fournit également des APIs permettant par exemple de travailler sur les groupes.

L’enjeu doit être clair pour le veilleur et le chercheur d’information. Comprendre ce qui est dit, est fait, par qui et quelles relations se nouent. Des démonstrateurs existent par exemple LinkedIn Maps. mais là encore il manque la dynamique. L’on peut voir son réseau mais pas la façon dont il évolue.

Un point a attiré mon attention et mon intérêt dernièrement : la géolocalisation de l’information. Montres avec capteurs GPS, appareils photos avec capteurs GPS, Téléphones localisés, proxys localisés. L’information est localisé dès sa création sans intervention humaine permettant de rajouter la dimension “espace”. Les derniers mouvements autour de la base de données de lieux Facebook Places et Foursquare montrent l’enjeu de la contextualisation des interactions dans l’espace.

Cette donnée est également aujourd’hui sous-exploitée alors qu’elle apporte un réel plus pour le veilleur qui peut combiner mots-clés et zone d’observation. Qu’est ce qui se dit, se tweete, est pris en photo, qui se géolocalise à Bologne à proximité de l’usine de Ducati alors que vous travaillez pour Yamaha ? L’on voit l’intérêt. Il me semble en tout cas évident

Avec son démonstrateur We Are Data à l’occasion de la sortie du jeu Watch Dogs, Ubisoft a rendu concrète une réalité que nous imaginions mais avions du mal à accepter : savoir qui fait quoi et où dans un espace et éventuellement le suivre (données publiques, mais bon c’est déjà fort !)

Mes conclusionsThe Internet Is Dead

  • Le combat contre le spamdexing est une lutte sans fin que mèneront les outils de recherche et d’accès à l’information. La lutte pour l’espace attentionnelle que se livrent vendeurs d’espaces publicitaire AKA moteurs de recherche ou réseaux sociaux et spammeurs est un combat qui se fait à grands coups de technologie , de statistiques et de linguistique. Comprendre l’information ou identifier les failles algorithmiques pour être présent là où les internautes passent du temps et attendent des réponses.
  • Head up display et réalité virtuelle, connexion permanentes et maîtrise des infrastructures la domination du World Wide (Web) par les acteurs numériques se déroulent à proprement parler sous nos yeux rendant plus que jamais crédible cette scène de Minority Reports où les pupilles sont scannées pour identifier la publicité contextualisée à projeter.
  • Désormais ce sontt des réponses qui nous seront proposés. Pourtant cette posture est dangereuse pour les outils d’accès à l’information et déjà les voix s’élèvent. Pourquoi créer du contenu si Google favorise dans la structuration des réponses sa propre visibilité au détriment de ceux qui créent cette information. Par ailleurs si les technologies sémantiques apportent un plus sur la structuration à la volée d’information factuelles les réponses complexes nécessitant une construction intellectuelle ne sont pas encore à la portée de ces algorihtmes. Ouf ! Le travail des veilleurs, chercheurs d’information et business analyst n’est pas encore mort bien que certains travaillent déjà depuis de nombreuses années à la modélisation et à la prédictivité.
  • Les technologies rendront la donnée et l’information multidimensionnelle. Ce qui s’engage avec le bid gata appliqué à la recherche d’information, c’est la capacité des outils à créer des bases de données intégrant temps, lieux, connexions et à travailler par intervalles tout en représentant de façon dynamique les évolutions des corpus documentaires, de leurs vecteurs (sources et auteurs) de leurs lieux, de leurs acteurs (entités nommées)
  • Là où Tim O’Reilly nous prédisait un web interactif, ouvert, reposant sur des standards, le constat est clair, le Web est mort. Applications sur mobiles, réseaux sociaux semi-privatifs, API propriétaires. Nous sommes acteurs et victimes un peu complaisantes d’un univers qui nous montre ce que nous connaissons, ce que nous avons choisi. Amorcé il y a fort longtemps à travers la localisation de votre proxy et de la langue de votre OS pour vous renvoyer les résultats du Google dans VOTRE langue et de VOTRE pays, la logique est désormais imparable, incontournable. Nous ajoutons nos amis qui ont fait les mêmes études que nous, que nous fréquentons, nous bloquons, supprimons, effaçons les opinions divergentes et nous clôturons la discussion avant qu’elle n’ait commencé en nous auto-convaincant de ce que nous avons déjà. La quête du signal faible que nous autres veilleurs cherchons devient aussi improbable que la quête du Graal au fur et à mesure que les écosystèmes se referment sur notre communauté. Les efforts des professionnels de l’information pour casser ces barrières et enclencher le radar d’horizon sont des efforts désormais coûteux, épuisants et que les solutions d’accès à l’information font tout pour limiter voire briser.

NB :

  • Vous aviez été très nombreux à vous inscrire au Webinar et nous avons été infiniment désolés des conditions dans lesquelles cela a pu se dérouler. Notre “hôte” AKA Hôtel Ibis Montpellier Centre (Merci le groupe Accor) qui s’était engagé à fournir une connexion internet stable nous permettant de réaliser un streaming a honteusement failli. Après une connexion “PassMan” défaillante, il nous a connecté sur sa propre box Orange visiblement  également défaillante. D’où ce support et ce looooooong billet qui malheureusement ne reflète qu’une partie de la présentation live et des échanges.
  • Ce support est mis à disposition gratuitement comme je partage pour la communauté des professionnels de l’information. Respectez les auteurs qui donnent de leur temps et partagent.

Tags: , , , , , , ,

8 Réponses à “Tendances et innovation : les outils de recherche d’information”

  1. Fabien 13 avril 2014 à 9 h 34 min #

    Bonjour Frédéric,
    Je te savais excellent, là je te trouve brillant.
    Bon WE

    • Frédéric Martinet 13 avril 2014 à 9 h 49 min #

      Bonjour Fabien,
      Merci beaucoup ! Ca fait longtemps! J’espère que tu vas bien.
      Fais gaffe avec les compliments quand même…J’ai déjà une forte propension à avoir les chevilles qui gonflent.
      Amitiés

  2. xavier Méhaut 15 avril 2014 à 20 h 29 min #

    Je confirme ; brillant :) Fluide, limpide, vécu.
    Bravo.

  3. Franck 16 avril 2014 à 6 h 50 min #

    Merci frédéric pour la diffusion du support. Très intéressant.

  4. Skrzat 21 avril 2014 à 9 h 21 min #

    Merci Frédéric pour cette synthèse claire et lucide et pour cette veille constante qui nous appelle toujours à la vigilance.

  5. Dorothée Nicodème 23 avril 2014 à 17 h 01 min #

    Merci Frédéric pour cette présentation très claire et intéressante… à défaut d’avoir pu suivre le webinar en live… cette frustration est maintenant apaisée grâce au support disponible.

  6. Frederic 24 avril 2014 à 5 h 53 min #

    Bonjour Dorothée,

    Je suis vraiment désolé pour la façon dont s’est déroulé le Webinar et croyez mi j’étais vraiment très déçu et accessoirement très en colère contre notre hôte qui nous avait garanti une bonne connexion Internet………

    Bref, c’est pour cela que j’ai pris le temps de rédiger ce long billet quasiment aussi complet que ce que j’ai pu dire ce jour là.

    Vous souhaitant une bonne lecture.

  7. Dorothée Nicodème 24 avril 2014 à 14 h 54 min #

    Bonjour Frédéric, ne soyez pas désolé… ce sont des choses qui arrivent… le tt c’est qu’il y ait une solution pour avoir accès à l’information que vous souhaitiez présenter… ce billet complet + la présentation, tt est parfait! Merci encore pour ce suivi… et de partager gratuitement vos réflexions (et votre savoir).
    Encore félicitations pour ttes ces initiatives…
    Au plaisir d’assister à d’autres webinars.
    Dorothée.

Laisser une réponse à Franck