Retour sur la conférence : Recherche d’information et veille : outils gratuits et outils payants

Hotel W BarcelonaJ’étais cordialement convié cette année à participer à la conférence / table ronde intitulée “Entre outils gratuits et outils payants, quelles nouvelles méthodes efficaces de recherche sur le web visible et invisible ? Trucs et astuces pour effectuer des recherches avancées dans le web ? ” qui se tenait lors d’i-Expo.

L’occasion ici de vous partager les questions qui étaient posées aux intervenants et les éléments de réponse que j’ai pu y apporter sur un timing serré.

Question : Factiva, dans l’une de ses communications déclarait : “c’est gratuit mais vous en avez pour votre argent”. Quelle est votre réaction ?

“Si c’est gratuit c’est que vous êtes le produit.” L’adage n’est pas nouveau, il est difficile d’y attribuer une paternité, mais il n’a jamais été aussi vrai particulièrement dans les métiers de la veille.

La gratuité est une vue de l’esprit et après plus de 20 ans de Web nous connaissons les tenants et les aboutissants : qu’il s’agisse de publicité et de temps perdu à lutter contre, qu’il s’agisse d’une pérennité qui n’arrivera jamais dans un produit et des coûts de sortie de cette solution, ou bien encore de l’évolution à termes vers un modèle premium, toute solution gratuite a un coût.

Et si nous parlons de l’information nous voyons bien, plus que jamais, à cette époque de fake news et de manipulation de l’information, l’importance de disposer de médias financés par leurs lecteurs pour la qualité de l’information et non pas par un parti politique ou par des industries pour véhiculer des messages qui leur seraient utiles.

Question : Quelle distinction faites vous entre veille et recherche d’information ?

Bien qu’effectivement les outils de veille et de recherche soient de plus en plus entremêlés de par leur fonctionnalités, j’ai tendance à résumer la différence entre veille et recherche d’information à une dichotomie relativement simple : la recherche d’information permet de trouver une réponse grâce à un stock d’information. La veille permet de détecter de nouvelles informations par les variations d’information dans un périmètre surveillé.

Les technologies clés sous-jacentes sont donc à mon sens relativement différentes.

Les technologies liées à la recherche d’information vont être celles liées à la réduction de la friction entre celui qui cherche l’information et celui qui la met à disposition. Traitement automatique du langage naturel, speech to text et text to speech, technologies lexicales et sémantiques, traduction, deep learning, intelligence artificielle. L’objectif de ces couches technologiques est de permettre la meilleure compréhension par la machine d’un corpus de documents et la meilleure compréhension de la requête effectuée.

La veille se heurte principalement à des contraintes techniques liées à l’extraction de l’information (crawlers, scrapeurs), à sa structuration (liens documentaires, méta données, extractions de concepts et d’entités nommées), et à sa rediffucion (éditorialisation et livrables).

Question : Quelle distinction faites vous entre outils et contenus ?

La différence contenus / outils est aujourd’hui absolument essentielle pour bien comprendre ce qui se joue sur le marché des éditeurs d’outils et de fournisseurs d’information. Tout producteur et revendeur de contenus “payants” doit assurer la gestion de la diffusion de ces contenus et la rémunération des auteurs (et intermédiaires). Un outil (de veille) s’appuie sur un interstice juridique permettant certaines choses (droit de copie technique, liberté de liens, dédouanement de l’hébergeur dans le cadre de la LCEN) avec des contenus massivement protégés par le droit d’auteur (NB : un article de blog est protégé par le droit d’auteur) payants pour certaines. Dans cette lutte pour l’accès à l’information chacune des parties ouvre ou verrouille son système, ses données, en fonction de l’évolution des rapport de force et des possibilités offertes par le business model mis en place par les uns et les autres. Aujourd’hui dans le monde la  veille, il est certains que les producteurs de contenus essaient de reprendre la main sur leur matière première et l’on voit ainsi des éditeurs / agrégateurs / Bases de données professionnelles développer leurs système de push et leur offres de veille aussi bien technologique que de services.

Question : Quelle est votre typologie outils gratuits/payants, en détaillant bien les fonctionnalités ?

Attention !!! Le listing ci-dessous n’est ni exhaustif ni contextualisé. Ces outils sont des outils que j’apprécie pour leurs qualités intrinsèques et leur rapport qualité / prix. Pour chacun des projets de veille il faut prendre soin de choisir les bons outils pour le contexte (utilisateurs / informatique / enjeux)

  • Outils de veille gratuit : mes favoris sont les lecteurs RSS disposant de fonctionnalités de filtre / requêtes et j’utilise personnellement Inoreader en SaaS et en desktop FeedDemon (mais de moins en moins). Cela peut être complété par des outils d’alertes par emails ou RSS. La base pour moi reste la possibilité de générer des RSS fiables et multilingues à partir de Google News et en compléments des systèmes tels qu’Alerti, Google Alerts.
  • Outils de veille payants : J’utilise sur les projets où je suis impliqué principalement Digimind, KB Crawl et Sindup en fonction des attentes du client. Je garde un oeil sur Contify, en Inde, et le tout nouveau Cikisi, nouvel acteur Belge, qui me semblent être l’un des rares que j’ai pu détecter dernièrement sur le scope potentiellement CI. Sur les aspects social media monitoring Brandwatch, Talkwalker and Visibrain. Je surveille de près les outils tels que Radian 6 (Salesforce) qui traverse pour moi un passage à vides, Mention, Sprinklr sur le module listening.

Question : Concrètement, en entreprise, comment mettre en place un outil de veille performant (REX) , gratuit ou payant ?

Les avantages du déploiement de solutions de veille sont multiples pour les clients qui en général décident de franchir le pas lorsqu’ils ont été confrontés aux limites des outils gratuits.

Les outils payants permettent plus aisément la collaboration entre les veilleurs et les experts d’un sujet. Ils intègrent également la chaîne de traitement spécifique à nos métiers : paramétrage des sources, des collectes (parcours de crawl, ciblage de zone), filtrage par mots clés / expressions booléennes, aide à la validation, aide à la modification, aide à la classification / organisation, publication, partage, accessibilité à posteriori.
Difficile de trouver l’intégralité de cette chaîne de traitements dans un seul outil même s’il est possible de parvenir à des combinaisons gratuites ou peu onéreuses sur des bases de RSS + CMS + Module newsletter.

Seul bémol : la couverture des solutions payantes et des packages de sources proposés reste parfois problématique car il est difficle de maintenir un package de sources complet. Qu’il s’agisse des solutions de Social Media Listening totalement opaques sur leur sourcing ou des solutions de veille ne permettant pas la collecte de façon satisfaisante de certains sites, le veilleur devra parfois (souvent) avoir recours à des solutions complémentaires. Et là j’avoue qu’en solution passe partout Website Watcher est mon favori. Un crawler techniquement satisfaisant pour des volumes de plusieurs milliers de pages, paramétrable à souhait le tout pour 100 euros… Que demander de plus.

Question : Quels sont à votre avis les évolutions des fonctionnalités dans les outils de veille et de recherche gratuits et payants ?

  • Dans les outils payants l’intégration des API des principaux fournisseurs d’information tels que Twitter (avec des fois le firehose) et Facebook (via les channels), l’intégration de la recherche d’image à partir d’une image (détection de logo, détection de contrefaçon), le speech to text qui se heurte encore beaucoup à des problématiques de puissance de traitement nécessaire et d’imprécisions lorsque le fond sonore est mauvais. Paradoxalement je trouve que la sémantique est clairement sous intégrée y compris les couches lexicale les plus basiques telles que l’extraction d’entités nommées. L’on se trouve souvent face à de pauvres nuages de mots inutilisables ou sans intérêt.
  • Dans les outils gratuits (principalement de recherche car à ma connaissance il y a peu d’outils de veille réellement gratuits hormis les lecteurs RSS) l’intégration du sémantique est une des orientations clés de Google et globalement l’on retrouve cela dans les outils de search payants : qu’il s’agisse d’IA, de machine learning ou d’outils de traitement du langage naturel, d’outils linguistiques et sémantiques divers et variés, les moteurs cherche à comprendre la question et son contexte de la façon la plus efficace, à limiter les frictions entre celui qui publie et celui qui cherche en organisant informations et questions dans une base commune de connaissances et d’informations et non plus dans un lexique inversé. (L’on pourra par exemple regarder la très récente vidéo  de Emmanuel Mogenet, Directeur Google Research Europe, sur le deep learning chez Google.)

Question : Sur la chaîne de valeur de l’information, comment placer les différents outils ? Comment situer le gratuit et le payant ? Quels sont les bons curseurs ?

Dans un processus de veille professionnel avec un minimum d’acteurs impliqué les outils de veille professionnels de type plateforme sont souvent au coeur du système. Les outils gratuits sont souvent utilisés comme des compléments de contrôle ou bien sur des unités qui n’ont pas de moyen financiers pour accéder à une solution plus coûteuse.
De plus en plus je note toutefois que les outils de veille pros sont complétés fonctionnellement par des outils d’aide à l’analyse, des outils d’analyse textuelle, des outils de cartographie.
Le rôle de l’analyste qui se contentait autrefois de simples alertes informationnelles ou de newsletters internes + externes pour construire ses analyses est aujourd’hui complété par des briques l’aidant à faire face à la masse d’information, y compris après un premier filtre “veille”.

Question : Quid de la maîtrise des outils et des sources ?

Le sourcing est au coeur du métier ef force est de constater qu’à ce jour il est de plus en plus difficile pour le veilleur de disposer d’un sourcing maîtrisé et fiable. Entre les sourcings plus que partiels des bouquets de sources fournis par les éditeurs qu’il s’agisse de competitive intelligence ou de Social Media Listening, des problèmes de paramétrage pour cibler l’information que l’on souhaite et uniquement celle que l’on souhaite, de la guerre menée par certains sites webs contre les éditeurs de logiciels de veille ou les crawlers, la maîtrise du sourcing est devenue très complexe et participe à cette nécessité d’envisager de disposer de plusieurs outils et de les faire cohabiter intelligemment. La mise en place de mécanismes de contrôle est elle aussi essentielle.

Question : comment voyez vous l’avenir sur l’évolution des outils gratuits/payants ?

Je suis relativement inquiet pour les outils de veille payants ou gratuits. L’on voit bien que les éditeurs de contenus et les majors tels que Facebook, et LinkedIn verrouillent de plus l’accès à leurs informations et à leurs fonctionnalités via les API. Il est clair que les éditeurs d’information, les bases de données et les GAFA se battent aujourd’hui pour maîtriser toute la chaîne de production, de commercialisation et de consommation de l’information soit à travers une croissance interne (développement de fonctionnalités, ouverture au monde l’entreprise, …), une croissance externe (rachat de nombreuses start ups dans l’IA, le machine learning, etc) soit par des fusions-acquisitions ou partenariats.

PS : merci infiniment à Anne-Marie Libman, de FLA Consultants, qui m’a proposé d’intervenir sur cette table ronde

Crédits photo : Frédéric Martinet. Toute utilisation ou reproduction interdite sans autorisation préalable.

Tags: , , , ,

6 Réponses à “Retour sur la conférence : Recherche d’information et veille : outils gratuits et outils payants”

  1. Arnaud VELTEN 19 avril 2017 à 8 h 37 min #

    Merci pour ce partage et ta synthèse :)
    Tout de bon comme on dit chez nous

  2. Frédéric 19 avril 2017 à 11 h 21 min #

    Merci beaucoup Arnaud :)

  3. Emmanuel Barthe 23 avril 2017 à 21 h 15 min #

    Bonjour Frédéric,

    Merci pour le rappel sur le droit d’auteur. Gros blogueur moi-même, je manque pas de faire parfois un contrôle et du “nettoyage”.

    Sur vos outils préférés :
    – il y en a plusieurs que je n’ai pas testés. Je suis très petits outils
    – Inoreader est malin, pragmatique, pro-RSS : j’approuve à 100% votre choix
    – idem pour Website Watcher. Vous devez le savoir, c’était le logiciel standard de SVP il y a deux ans (probablement encore aujourd’hui vu son rapport qualité prix imbattable)
    – Talkwalker n’a pas mes suffrages ça tient peut-être au fait que ma veille est sur du droit et non des noms de sociétés
    – KBCrawl m’avait impressionné lors de son test par la richesse de ses fonctionnalités mais ça se payait par la complexité de l’interface. Le paramétrer seul doit être une gageure.

    • Frédéric Martinet 1 mai 2017 à 12 h 19 min #

      Bonjour Emmanuel et merci beaucoup pour votre retour.
      Nous partageons pas mal de points communs.
      Concernant Talkwalker, c'(est un des outils de S2M que j’utilise mais il n’a pas ma préférence également pour des raisons ergonomiques mais cela reste toutefois un très bon outilL Bien évidemment ces outils sont calibrés pour faire des veilles de type “image” sur des noms de société ou de produits ou de marques. Cela peut toutefois marcher avec des termes plus génériques / des thématiques mais ne fonctionnera pas sur des sources juridiques ou scientifiques bien spécifiques qui sortent des traditionnel médias en ligne.

  4. JF Monteil 28 avril 2017 à 20 h 00 min #

    Merci pour cet article très complet !

    L’extension Chrome gratuite Capitalize!t Webscrapper (www.capitalizeit.net) permet egalement d’aspirer le contenu principal d’une page web, d’extraire les images et les entités principales (personnes, organisations, lieux) et d’annoter la page avec differents types de metadonnées en fonction de vos besoins métier. Le tout est sauvegarde dans une feuille Google Spreadsheet structurée en feuilles de travaille. Plus d’info sur http://www.capitalizeit.net

Trackbacks/Pingbacks

  1. 5 bonnes raisons pour aller au Salon de l’information et de la veille à Paris – La veille pour tous - 29 mai 2017

    […] sociaux et e-réputation, sur l’utilisation et la confrontation d’outils gratuits et payants (voir le retour de Frédéric Martinet sur son site), et encore sur le « Big Data » (voir notre article sur le blog) ou sur la […]

Laisser une réponse à Frédéric