Cet article est tiré du Guide pratique Archimag n°47 intitulé « Outils et efficacité d’un système de veille. » Vous pouvez les commander et retrouver l’intégralité des publications ainsi qu’un tableau récapitulatif des solutions de veille sur le site d’Archimag.
Les métiers de la veille sont aujourd’hui soumis à un bouleversement profond des usages.
Les usagers d’un dispositif de veille, professionnels en entreprise, sont aussi des individus qui utilisent les réseaux sociaux grands publics, tels que Facebook et Twitter, et qui ont une relation à l’information qui a fortement évoluée.
L’information circule de plus en plus massivement et de plus en plus rapidement. C’est ce qu’attendent voire qu’exigent les utilisateurs ou clients de la veille.
Quel est l’impact de ce débit d’information et quels sont les nouveaux défis que la veille doit surmonter ?
Les professionnels de la veille avaient, pour grand nombre d’entre eux, l’habitude de travailler sur des sources ouvertes, officielles, ou sur des sources « reconnues ». Si l’on omet bien évidemment la veille terrain.
Au début des années 2000, les blogs ont pour la première fois dans les métiers de la veille, amené les travailleurs du savoir à se poser la question de l’intégration des sources personnelles. Encore aujourd’hui d’ailleurs, la question se pose parfois sur certains projets de veille.
YouTube a transformé le Web en faisant de la lecture de vidéos un des principaux usages.
Facebook, LinkedIn, Twitter ont à leur tour amené de nouvelles questions : quelle proportion d’informations intéressante sur ces nouveaux médias? Comment aborder cette information ?
Twitter à travers à travers des événements plus ou moins récents a montré la rapidité à laquelle une information pouvait circuler sur le Web.
L’éclatement des bad buzzs peut impacter lourdement une entreprise voire même un gouvernement, tel que le très récent cas du Gouvernement Hollande face à la fronde du mouvement des pigeons.
S’il y a bien une question qui ne devrait plus se poser c’est de savoir s’il est nécessaire d’être à l’écoute de ces sources d’information « en temps réel », sociales, voire multimédias, mais plutôt comment ?
Les problématiques de collecte
Pour coller au cycle de la veille on peut tout d’abord se pencher sur les problématiques de collecte qui sont multiples.
Quelles sources en temps réel surveiller ?
En repartant à l’analyse du besoin, il est clair que certains types de veille ne nécessitent pas forcément de se pencher sur ces nouveaux médias et encore moins de surveiller en temps réel.
La veille brevets par exemple n’a que peu de sens à intégrer une surveillance des réseaux sociaux. Sauf peut-être certains qui seraient des réseaux sociaux dédiés à la recherche ou à une problématique spécifique.
Donc avant d’établir la liste des réseaux ou « nouveaux » médias en ligne à surveiller demandez vous toujours s’il y a une chance de trouver de l’information pertinente pour vos besoins (et également les moyens qu’il vous faudra pour les surveiller en regard).
Ne soyez toutefois pas abrupte dans vos jugements. La masse d’information aujourd’hui créée est colossale.
Qui oserait s’imaginer par exemple qu’en surveillant le nom d’un de ses concurrents sur YouTube il puisse y trouver une vidéo filmée au sein de l’une des usines ?
Comment surveiller ses sources ?
Chaque média social a ses propres règles, ses protocoles, son langage.
Il ne faut pas sous-estimer la difficulté technique de la partie collecte. Un des enjeux de la veille en temps réel est bien de parvenir à surveiller rapidement une masse importante d’information, le tout en minimisant le temps homme, tout au moins sur la partie collecte.
Beaucoup d’éditeurs de logiciels pratiquent la règle du 80 / 20.
« Vous voulez-faire de la veille en temps réel ? Notre solution permet de surveiller les réseaux sociaux. »
Entendez par là souvent : les espaces publics de Facebook (autant dire rien), une partie des contenus publiés sur Twitter (car peu de fournisseurs proposent l’intégralité des tweets sur un sujet), YouTube (en tout cas les textes autour de chacune des vidéos).
Pourtant le champs des réseaux sociaux est large et peut permettre d’envisager une veille plus poussée sur les parties du web qui vous paraissent les plus intéressantes : groupes des réseaux sociaux professionnels, photos et commentaires publiés dans Foursquare, sites de partage de Powerpoint ou PDF… Et Twitter sur lequel les moyens et la façon de collecter peuvent changer lourdement la qualité des résultats issus de la veille.
Comment traiter l’information issue de ces nouvelles sources ?
La première problématique rencontrée est celle de l’exploitabilité de l’information collectée quel que soit son format.
La plupart des outils collaboratifs de veille, ou de traitement de l’information permettent d’appréhender du texte.
Ainsi tous les contenus multimédias peuvent être traités mais rarement par des technologies intégrées aux solutions de veille répandues en France.
L’intégration de la vidéo et de l’image dans un système de veille nécessitera donc souvent un travail intermédiaire préalable d’enrichissement voir de conversion au format texte.
Les technologies de speech-to-text permettront ainsi de caler sur une vidéo le texte correspondant.
Les images nécessiteront souvent un travail de qualification manuelle. Si les logiciels de reconnaissance d’images permettent de détecter des images similaires, des grands types de formes (paysage, portrait, …), des dominantes ou zones de couleur, ils ne savent pas encore répondre à la question « qu’y a-t’il sur cette image ? »
Exploiter l’information en temps réel
La collecte est un point essentiel car généralement chronophage en tant que telle. Toutefois le véritable enjeu de la veille c’est l’ensemble d’actions qu’elle doit générer.
La veille en temps réel a démocratisé du point de vue logiciel la notion de dashboard. Les résultats de la veille sont affichés selon une mise à jour continue à la fois sous forme de flux d’information brute ou enrichie de métas données et d’indicateurs. Cela permet aux veilleurs ou community managers, selon leur fonction, de traiter les informations brutes en les capitalisant, les qualifiant ou en les faisant rentrer dans un worflow pour validation-action.
Les dashboards sont aussi souvent constitués de graphes de tendances ou de répartition permettant d’identifier les variations fortes de volumétrie ou de positionnement (géographique ou par type de source.)
Les outils de la veille en temps réel ne font que suivre les usages qui doivent permettre maintenant de suivre une volumétrie forte de publications multimédias et d’y réagir dans les délais les plus brefs. Le temps du veilleur doit être mobilisé sur des tâches imposant l’œil humain. Juger de la crédibilité d’une information, maintenir son système de veille ajuster des scénarios de collecte sont autant des tâches du métier de veilleur qui permettent de le positionner comme un infomédiaire essentiel entre l’information et ceux qui en ont l’usage.
Twitter est quant à lui un cas particulier par la masse d’informations diffusée et par ses caractéristiques atypiques.
Avec Twitter la problématique de veille en temps réel prend tout son sens.
Twitter a la capacité à faire émerger des signaux faibles bien avant que les médias traditionnels s’en emparent.
Le problème est qu’ils peuvent rester noyés à jamais dans la masse ou au contraire devenir massivement publics.
Pour absorber Twitter dans un dispositif de veille plusieurs choses peuvent être faites :
- Travaillez vos connecteurs : à moins que vous ne soyez dans la veille de tendances ou de buzz, et que les grandes masses vous suffisent, assurez vous que vous surveillez correctement Twitter en développant éventuellement vos propres crawlers sur la base des APIs, en multipliant les points de collecte, en dédoublonnant ou tout simplement en achetant un flux de tweet auprès d’un fournisseur ayant accès au firehose (1).
- Apprenez à détecter les spams : sur 140 caractères cela est très compliqué car les algorithmes de reconnaissance de spam n’ont pas assez de mots pour être efficaces. L’idéal peut être dans ce cas de suivre les URL présentes dans les tweets et de faire tourner les algorithmes sur la page de destination.
- Faites évoluer vos requêtes « en temps réel » ou presque. 140 caractères cela implique que les utilisateurs de Twitter soient agiles pour faire passer des messages. Acronymes courts, hashtags, abréviations. Au fur et à mesure de la détection du langage utilisé par les utilisateurs de Twitter, faites évoluer rapidement vos requêtes de collecte. La veille en temps réel nécessite une adaptation en temps réel (ou presque) de ses requêtes et de son périmètre de surveillance.
- Si vous en avez les moyens, aidez vous de technologies qui permettent d’enrichir l’information collectée via Twitter. L’API de Klout permet par exemple de recouper les différents lieux de publication d’un auteur Twitter et donc de faciliter sa qualification. OpenCalais offre une alternative intéressante pour détecter les entités nommées à l’intérieur des tweets et pour faciliter la navigation à l’intérieur d’un corpus. La résolution des URLs courtes peut permettre de recouper les tweets rattachés à une même source, une même information.