• en
  • fr
Intelligence économique et veille : pour que l'information se transforme en action

Pourquoi les outils de social media monitoring ne vous seront pas d’un grand secours pour écouter Facebook ?

Il y a déjà plus d’un an, Facebook faisait évoluer ses API et bloquait l’accès aux posts publics. La compréhension des interactions des utilisateurs et du contenu qu’ils créaient sur Facebook était déjà fortement limité par l’accessibilité limitée des données partagé en “privé” mais désormais même les posts publics des profils utilisateurs échappent à la compréhension. Se reposer sur des solutions de social media monitoring uniquement pour détecter les bad buzz est donc particulièrement risqué si l’on omet de mettre en place des dispositifs spécifiques de surveillance sur Facebook.

Explication des limites d’accès aux informations issues de Facebook.
1) Les limites d’accès aux informations privées 

Chaque individu sur le réseau social Facebook peut décider de partager ses contenus avec des personnes en
particulier selon plusieurs critères :
– Les amis : le contenu est alors partagé avec tous ses amis
– Ses amis mais pas ses « connaissances » : pour chaque individu dans son réseau d’ami, le titulaire
d’un compte peut décider qu’une des personnes n’est pas un ami mais plutôt une simple
connaissance. L’individu est alors une « acquaintance ». Il est ajouté à une liste préparamétrée qui se retrouve dans différentes sélections lors du partage.
– Des partages sur mesure : lors de chaque partage le titulaire d’un compte peut choisir de partager
nominativement à une personne ou plusieurs personnes et peut également décider de les exclure
du partage.
– Des listes sur mesure : chaque titulaire peut créer ses listes d’amis sur mesure : amis proches,
famille, collègues, etc. Il en gère le nombre, l’intitulé et les personnes à l’intérieur. Et lors d’un
partage il peut décider de partager avec une ou plusieurs listes mais également d’exclure l’un ou
plusieurs listes d’un partage.
– Public : les contenus partagés sont potentiellement visibles par tous lors d’une recherche sur le
moteur et bien évidemment visibles par tous les ami(e)s de la personne sans restriction et par tous les
amis des personnes qui vont interagir avec ce contenu.
Concernant les outils de veille et de social media listening, de toutes dates aucun des contenus partagés autre qu’en mode public n’étaient accessibles aux outils de social media monitoring. Cette donnée a toujours été protégée et n’a jamais été redistribuée à des tiers, revendus, ou accessibles via les APIS permettant d’interroger directement la base de données des posts au sein de l’infrastructure de Facebook.

Seules des données de typestatistiques pouvaient potentiellement être accessibles. Par exemple une marque pouvait avoir des statistiques sur les profils de personnes citant un produit, un mot clé mais n’avaient accès qu’à des données statistiques agrégées et jamais au contenu en texte intégral des posts partagés en mode privé.

Pendant plusieurs années toutefois les contenus publics étaient accessibles en partie via les APIs : texte
intégral, émetteur, nombres de likes, etc.
Depuis le 30 avril 205 : aucun développeur, aucune application, aucun revendeur ne peut avoir accès via les APIs de façon simple et structurée aux contenus publics postés par ses utilisateurs rendant leur monitoring extrêmement difficile.

2) Concept du « edge rank »

(NDLR : Inutile de chipoter, je sais que l’algorithme ne s’appelle plus vraiment comme cela mais le concept reste vrai)

Dans le point 1) nous mentionnions qu’avant la version 2.0 des API de Facebook, une partie des contenus
publics étaient accessibles. En effet, même lorsqu’un contenu était public, il pouvait ne pas remonter dans le moteur de recherche ni dans les API.

Il est essentiel de comprendre cela aujourd’hui car même lorsqu’un utilisateur, par exemple le community
manager d’une marque, effectue une requête avec son compte personnel, ou le compte de la marque sur
Facebook, il n’aura pas forcément accès à tout le contenu qui contient le mot clé de sa requête.
En effet, afin de faire le choix dans les contenus qu’affiche Facebook dans une timeline d’un utilisateur (le flux des informations publiés par ses amis mais aussi par les pages qu’il aime, Facebook calcul pour chaque post un « edgerank » (NDLR : la formule initiale du edgerank a clairement largement évolué mais il faut surtout en retenir que Facebook utilise un algorithme désormais complexe pour savoir comment ses contenus sont affichés sur une timeline, lors d’une recherche, etc.)

Pour qu’un contenu d’affiche dans une recherche il faut que ce dernier ait une certaine valeur pour Facebook et cette valeur est relative pour chaque individu. Ainsi lors d’une recherche Facebook sur un mot clé vous verrez apparaître en premier les contenus de vos amis, ceux ensuite publiés par des amis de vos amis. D’autres critères rentrent en ligne de compte comme le taux d’interaction avec vos amis, mais également leur nombres d’amis, etc.

Les contenus publics sont également disponibles lors de cette recherche mais c’est avant tout les contenus de vos amis qui sont valorisés.

Facebook communique peu sur cet algorithme et sur les critères de calcul.
Les conclusions importantes sont :
– Lorsque vous faîtes une recherche Facebook, sachez que vous avez peu de chance de voir apparaître tous les résultats publics concernant un mot clé.
– Seuls les contenus publics émanant de personnes actives, suivies, éventuellement proches de votre réseau d’amis vont apparaître.
– Les contenus des pages Facebook tenues par les marques, ou bien les groupes, peuvent
également apparaître.
– Il est aujourd’hui impossible d’avoir accès à tout le contenu publié publiquement par un utilisateur
sur le réseau en recherchant par mot clé directement sur l’interface Facebook.

L’on comprendra que le risque est de ne pas identifier un contenu critique.

Quelques exemples de recherche :
• Derniers posts (le mode de recherche le plus exhaustif et qui remonte le plus de contenus)
• Le mode top ne ramène que les contenus scorés le plus haut par Facebook et inclus des profils, des
posts.

3) La surveillance de channels

La seule chose que permet Facebook aujourd’hui via ses APIS pour accéder à des posts publics est de s’abonner directement à des pages voire même à des profils. Ceci est faisable avec la plupart des solutions de social media listening du marché telles que Brandwatch, Digimind Social, Radian 6, …

Ainsi afin de maximiser le monitoring sur un secteur d’activité il peut être intéressant de faire un vrai travail d’identification des pages Facebook sur un secteur d’activité et de les intégrer comme une source à surveiller directement.
Il s’agit là d’un point de paramétrage essentiel d’un outil de S2M et le seul permettant d’avoir accès à des
posts publiés sur des pages ou des profils Facebook de façon publique.

NDLR : Tous les outils de social media listening sont confrontés aux même contraintes et apportent le même type de solution : surveiller page par page.

Afin d’améliorer le paramétrage de la solution de Social Media Listening il peut être intéressant de faire le tour donc des pages Facebook des parties prenantes autour de votre marque et de vos produits. Ce paramétrage ne vous prémunira toutefois pas d’une bad buzz qui prendrait racine chez des utilisateurs “clients finaux” de la solution qui ne disposeront pas de page publique. Vous parviendrez toutefois à améliorer la surveillance de vos marques et produits sur Facebook.
4) Monitorer les contenus publics sans passer par une surveillance page par page dans un outil de SML

A plusieurs égards il est interdit de crawler des contenus de facebook avec des automates :

– Selon les termes de service  sous l’article 10 de la partie safety qui mentionne par exemple : « You will not do anything that could disable, overburden, or impair the proper working or appearance of Facebook, such as a denial of service attack or interference with page rendering or other Facebook functionality. » Or un robot peut être considéré comme un outil portant atteinte au bon focntionnement du site.

Ainsi certains développeurs ayant développé des crawlers ont pu être poursuivis en
justice par Facebook : https://petewarden.com/2010/04/05/how-i-got-sued-byfacebook/
Le robots.txt de Facebook vient rappeler cela de façon clairement explicite : tout crawler n’ayant
pas une autorisation expresse ne peut collecter de données sur Facebook.
– Enfin bien évidemment la législation sur les données personnelles est également restrictive et
implique à minima une déclaration à la Cnil pour la France (législation variable en fonction des
pays et complexe car dans le cadre d’une extraction de données internationales une donnée
devrait être effectuée dans chaque pays.)

Le seul moyen strictement légal de surveiller des posts publics sur Facebook par une recherche par mots clés est de se connecter avec son compte utilisateur et de régulièrement effecteur la requête pour détecter des contenus. Bienvenue au Moyen-Age donc.

L’intégration des channels dans un outil de Social Media Listening est une approche complémentaire ciblée.

Enfin l’on peut également se servir du moteur de recherche Google en effectuant une recherche ciblée de
type : site:facebook.com MOTCLE et filtrer par date pour avoir des contenus récents. Cette requête remonte toutefois une faible partie des contenus car Facebook est très mal indexé par Google (y compris en raison du fichier robots.txt qui interdit par exemple l’accès aux posts de type photos ce qui peut souvent être le cas pour un bad buzz). Cette requête peut être automatisée avec une Google Alerte mais sans  certitude de fonctionnement, le service Google Alerte étant clairement peu fiable.

Le CFC veut encadrer l’activité des prestataires et éditeurs de logiciels de veille

L’information est passé totalement inaperçue dans le petit landerneau de la veille et pourtant elle en dit long et vient s’ajouter à la longue liste des signaux faibles – ou moins faibles – envoyés par les agrégateurs de presse et les sites de presse en ligne.

Le CFC*, dans un article du 24 mai 2016, dit vouloir encadrer l’activité des prestataires de veille et des éditeurs de logiciels de veille. Le CFC cite ainsi clairement les “sociétés dont l’activité consiste à explorer, crawler et indexer les contenus web notamment des éditeurs de presse, afin de restituer à leurs clients une analyse et/ou des liens renvoyant sur le site de l’éditeur.”

Ouch. Petit rappel donc aux consommateurs / utilisateurs de logiciels de veille et aux éditeurs… : si le contenu que vous publiez dans vos newsletters, dont vous faîtes la curation, que vous rediffusez, est protégé par le droit d’auteur et que le CFC est mandaté par ce média vous devrez vous acquitter de droit de copie.

Voilà donc qui réjouira les agrégateurs de presse qui s’acquittaient des droits de copie là où les utilisateurs de logiciels de veille pouvaient omettre de le faire.

Le CFC propose ainsi une relation contractuelle autorisant les éditeurs de logiciels de veille / clients / veilleurs / prestataires de veille à crawler, indexer et restituer des copies partielles ou complètes des articles des médias pour lesquels ils en auraient fait la demande.

Ce nouveau dispositif vient compléter le signal envoyé par l’intermédiaire du robots.txt aux éditeurs de logiciels de veille en leur interdisant le crawling de leurs sites.

NDLR : pour exemple l’on pourra aller consulter le fichier robots.txt de Le Monde qui cite à peu près tout ce qui existe ou presque comme éditeur de logiciel de veille voire même de prestataire.

Une bien belle occasion de vous lancer à la lecture des articles suivants sur la même thématique :

*CFC : Centre Français d’exploitation du droit de Copie – Le Centre français d’exploitation du droit de copie, également connu sous le sigle CFC, est une société française de perception et de répartition de droits de propriété littéraire et artistique créée en 1984. (Définition Wikipédia)

Actulligence lance son service de Veille Stratégique

header_newsletter_13

Actulligence Consulting accompagne, depuis maintenant plus de 5 ans, le fleuron des entreprises et de l’industrie du CAC40, en fournissant des services de conseil, d’accompagnement et de formation intelligence économique à forte valeur ajoutée.

Dans un contexte de besoin de réactivité et devant une demande croissante de la part de nos clients, nous avons créé une solution de veille permettant aux entreprises de s’affranchir des contraintes techniques et organisationnelles souvent liées au lancement de telles prestations.

  • Vous souhaitez mettre en place une cellule de veille de façon ponctuelle ou temporaire pour traiter un sujet spécifique.
  • Vos délais de mise en place sont trop courts pour le réaliser en interne ou vous n’avez pas les ressources à disposition.

Nous intervenons de façon rapide en proposant la mise à disposition de notre offre complète comprenant un chargé de veille spécialiste du domaine, une solution logicielle configurée selon les besoins et une livraison des résultats au format compatible choisi.

Pour bénéficier d’une présentation plus détaillée de notre offre “Solution Veille Actulligence” , rendez vous sur la page www.actulligence.com/veille ou prenez contact avec notre équipe.

Nouveau Délégué Interministériel à l’Intelligence Economique

Après deux ans de bons et loyaux service, Claude Revel vient de quitter ses fonctions de Déléguée Interministérielle à l’Intelligence Economique. Un départ (précipité ? abrupte ? surprenant ?) que certains qualifient de “cadeau” étant donné qu’elle occupera prochainement l’un des postes les plus rémunérateurs de la fonction publique au sein de la cour des comptes. Point de vue démenti dans un article de Challenges et émoluments également démentis par l’intéressée.

Un départ qui fait suite à celui de l’inoxydable Alain Juillet, dont le titre de ex-Haut Responsable à l’Intelligence Economique  ne le quitte plus, et qui avait quitté ses fonctions avec une certaine amertume, n’hésitant pas à dénoncer le manque de vision stratégique et à long terme du gouvernement pour les problématiques d’intelligence économique.

Le nom du remplaçant, au moins par interim, est donc désormais officiellement connu : il s’agit de Jean-Baptiste Carpentier, chef du service à compétence nationale Tracfin. C’est donc un nouveau Délégué Interministériel à l’Intelligence Economique avec un parcours de magistrat qui occupera cette fonction délicate si l’on en juge par la durée des mandats de ses prédécesseurs.

Mettre en place une veille sécurité

L’on parle souvent de veille concurrentielle, de veille image / e-réputation, de veille technologique…

L’on oublie souvent de citer la veille sécurité. Il y a plusieurs raisons à cela :

  • Tout d’abord ceux qui font de la veille sûreté en parlent rarement. Il faut dire que le sujet est sensible et nous verrons pourquoi.
  • Ensuite elle est aussi probablement moins répandue. En effet, la veille sécurité dépend souvent de la direction sûreté / sécurité dans les grands groupes, et ces dernières sont plus souvent attachés à ce que l’information ne sorte pas plutôt que détecter l’information qui est déjà sortie.

Commençons par définir la veille sécurité. En tout cas je vais vous donner ma définition opérationnelle. Je ne suis pas un homme de livres…

De mon point de vue la veille sécurité est l’ensemble des techniques et outils qui permettent d’identifier des fuites d’informations potentielles qui pourraient porter atteinte à la pérennité de l’entreprise. Ainsi secret industriels de fabrication, organisation des sites de production, volumes de production, sous-traitants, machines outils, mais également des informations qui pourraient porter atteinte lourdement à l’image de l’entreprise ou porter atteinte durablement à son image et impacter son bon fonctionnement.

La listes est bien évidemment non exhaustive.

La veille sécurité est finalement un maillon essentiel de la mise en oeuvre de l’intelligence économique. Faisant référence aux 3 piliers de l’intelligence économique, la veille s’occupe de l’aspect renseignement et information, la veille sécurité est elle directement rattaché au pilier “sécurité de l’information”.

Les affaires nombreuses et récentes dans les plus hautes instances nationales et internationales nous montrent bien que, quels que soient les mécanismes de protection mis en place, l’information peut sortir et qu’il FAUT mettre en place des moyens visant à identifier ces fuites au plus tôt.

Quels sont les freins à la mise en place de ce type de veille ?

  • Où regarder :
    • Là où le veilleur sait approximativement identifier les endroits où l’information utile est accessible, la veille sécurité peut difficilement présumer où va se produire une fuite. Qu’elle soit malveillante ou faite par inadvertance, une fuite d’information est souvent peu accessible.
  • La légalité :
    • Nous y revenons encore et encore, mais la fuite d’information est souvent liée aux personnes. Le fameux problème qui se situe inexorablement entre la chaise et le clavier. A parti du moment où des collaborateurs peuvent être impliqués, les fuites peuvent survenir dans des espaces professionnels et / ou personnels. Or l’entreprise ne peut en aucun cas porter atteinte à la vie privée de ses salariés. Par ailleurs la surveillance des médias sociaux est un sujet délicat (CGU, API de plus en plus fermées, données personnelles)
  • Les filtres :
    • Déterminer un champ lexical qui définirait un document ou une information sensible est quasi impossible : taille d’une équipe, mentions de collaboration entre un salarié et un prestataire, appel d’offres trop détaillé… Alors bien évidemment certains documents, noms de code de projet, nom de technologies peuvent être des déterminants clairs mais il peut être délicat de les utiliser dans des solutions de veille qui sont aujourd’hui en SaaS (de la futilité de la veille et des traces laissées. Au final, la volumétrie liée à la mise en place d’une veille sécurité peut entraîner une volumétrie d’informations collectées élevée, difficile à réduire sans risque de silence sur le peu de documents sensibles.

Comment mettre en place une veille sécurité ?

Difficile mais pas impossible, la veille sécurité doit amener à faire évoluer notre façon parfois simpliste de voir la veille : une veille accès sur un schéma linéaire source -> crawling -> filtre par mots clés -> filtre humain.

  • Sélectionner ses sources :
    • Ici l’on privilégiera les sources sur une approche probabilité d’apparition du risque + exposition de la source. En somme, il faut cibler les endroits où les informations à risque ont le plus de chance de survenir et où ces informations sont le plus explosé. Au final s’il y a fuite mais que l’information est très difficile à trouver il y a moins de risque qu’elle se propage.
    • De fait les sources impliquant des “humains” sont celles où il y a le plus de chances de voir apparaître le risque. Réseaux sociaux professionnels, réseaux sociaux personnels, file sharing type Slideshare ou Prezi, YouTube, Foursquare, Instagram. Qu’il s’agisse de valoriser son travail pour en chercher un nouveau, de partager des moments exaltants de sa vie professionnelle ou de mettre à disposition des présentations, ces réseaux sont à risque.
    • En complément de ces sources privilégiées externes, la surveillance de son propre environnement informationnel ne doit surtout pas être oubliée. Failles de sécurité d’intranet ou de RSE, serveurs FTP, une simple surveillance sur le différents noms de domaine l’entreprise peut permettre de limiter la casse lors de la mise en ligne de serveur de test ou de pré-ipod par exemple.
  • Ajuster son vocabulaire :
    • Le vocabulaire de filtre devra être adapté. Il faut impérativement limiter la sortie d mots clés trop sensibles ou de combinaisons de mots clés parlantes qui pourraient dévoiler la stratégie de l’entreprise ou de Recherche et Développement.
    • L’on privilégiera ainsi un champ très large (simple nom de l’entreprise) sur les sources les plus sensibles et l’on combinera sur d’autres types de sources des combinaisons entre le nom de l’entreprise et le type d’information : présentation, réunion, conférence, confidentiel, ne pas diffuser, diffusion restreinte, budget,… ou avec le type de fichiers (PDF, XLS)
  • Imaginer de nouvelles approches :
    • Ce type de projets m’a amené à réfléchir à de nouvelles approches dont l’une d’elle que je peux livrer : lister tous les sites physiques d’une entreprise et extraire l’information via les API des réseaux sociaux, sans mots clés, mais sur des zones de publication. Bien que peu d’informations soient géolocalisées, lorsque cette dernière est présente, ce critère de collecte peut-être particulièrement pertinent et discriminant.
    • C’est l’une des approches… mais il y en a clairement d’autres. Des petits trucs et astuces…

Le radar d’horizon

Quel que soit le nombre de sources mises sous surveillance, il est essentiel de pouvoir disposer d’une surveillance large, ouverte, du web. Et là on se heurte clairement à l’opacité des outils…

L’automatisation de la veille ouverte en se servant par exemple de Google c’est un peu le saint Graal du veilleur. Chacun de nous rêve d’un outil performant lui permettant de détecter sur le web tous les nouveaux documents disponibles.

Personnellement cela fait quelques années que je ne crois plus au Père Noël…

Google ne dispose pas ou plus d’API… Jusque là Google Custom Search pouvait permettre pus ou moins d’attaquer proprement les résultats de Google. Désormais il faut passer par du parsing de pages de résultats en mode passager clandestin.

C’est faisable. Techniquement challenging, budgétairement déraisonnable mais faisable…

Mais au final cela ne fonctionne pas. J’ai eu beau le tourner dans tous les sens : les résultats ne sont pas à la hauteur. Beaucoup de résultats manquent à l’appel. Pas seulement des résultats qui relèveraient de l’information grise d’ailleurs. Des résultats qui a priori devraient remonter dans le résultats mais en sont au final absents…

MAIS, même si le résultat n’est pas satisfaisant, il est difficile de s’abstenir de mettre en place cette veille. Car pour le coup, la source “Google” (NDLR : qui n’est pas une source soyons clair mais un moyen d’accès à l’information) est une “source” à haute exposition.

Mobiliser les personnes

Là où certains pourraient être tentés de centraliser la veille sécurité il est essentiel de travailler avec toutes les forces vives de l’entreprise et non pas se situer dans une logique de concurrence. L’accès au Web est mondial mais la masse d’information disponible a amené les différents médias à favoriser l’accès à l’information pour un public local.

Géolocalisation, cloaking, SOLOMO, sont autant d’outils ou d’approche que les médias mettent en place pour limiter l’accès à l’information à partir d’un autre endroit du monde.

Cette accessibilité limitée et géolocalisée, ajoutée à la barrière linguistique, doit amener à mettre en place et à concevoir des systèmes de remontées internes de remontée d’information à partir du terrain et par des capteurs humains.

De la limite des algorithmes

Les algorithmes du web, tous calibrés pour amener à l’information pertinentes, pour valoriser également l’information “buzz”, pour limiter l’accès au dark web est un frein massif à la veille sécurité.

De même les algorithmes de machine learning qui pourraient arriver à typer ce qu’est un document critique en terme de sécurité ne peuvent pas fonctionner… : la volumétrie de documents critiques identifiée est trop faible pour permettre un “profiling”.

De l’intérêt de la veille sécurité

Lorsque je participe à des présentations et conférences sur l’intelligence économique avec des heures et des heures consacrées à la sécurité économique allant jusqu’à dire “débrancher internet” cela me dépasse.

La solution n’est pas dans la stigmatisation des connexions et du numérique ni le catastrophisme mais passe bien par une sensibilisation et par le développement de la prévention mais doit aussi considérer que les accidents peuvent arriver, qu’ils sont inhérents à l’exercice de l’activité économique et que des solutions d’identification, via une veille sécurité, et de résolution des incidents doit être mis en place. Ne nous leurrons pas, ce n’est pas le numérique qui a donné naissance aux failles de sécurité.