• en
  • fr
Intelligence économique et veille : pour que l'information se transforme en action

La GED de la Tribune accessible via flux RSS

Si malheureusement trop de sites réduisent drastiquement la présence de flux RSS, ce n’est pas le cas de La Tribune qui dans son immense mansuétude offre un super accès intégral à sa GED, en vous offrant l’accès à tous les flux RSS entreprise par entreprise, par pays, par thèmes, etc.

Par ici : http://ged.latribune.fr/data/rss/

Autant dire que c’est Noël avant l’heure.

(Bon en fait ça fait un moment que ça traîne mais je n’avais pas encore pris le temps de le partager… dans la foulée de l’article sur Google News et les RSS le timing me semblait impeccable.)

Choisissez votre filtre en haut à gauche, et ensuite récupérez l’adresse du flux RSS qui vous intéresse.

GED La Tribune

Vous les voulez tous bande de petits gourmands… ?

Extrayez la liste de tous les liens présents dans la page grâce à ce bookmarklet (faire glisser dans la barre de navigation).

ged la tribune 2

Seul petit bémol, vous n’aurez accès qu’aux titres et extraits. Les articles en texte intégral pointent vers la base documentaire payante et réservée aux abonnés.

Google News et les RSS

Il était une fois un truc magique qui s’appelait les RSS. Ce truc bien pratique permettait à tout un chacun de surveiller assez aisément des sites d’actualité, des résultats issus d’une base de données et parfois même les derniers résultats issus d’un moteur de recherche.

En l’occurrence, cela était possible sur Google News.

Malheureusement, au fil des abus (prendre, rediffuser, réexploiter) et de business model (plus tu passes du temps chez moi puis je peux vendre la pub chère), ces fils RSS ont fondus comme neige au soleil.

Celui de Google News y compris.

Remédions à cela.

Tout d’abord réalisons une recherche dans Google Actualités. Je prendrai un terme international afin de montrer les différences entre les exemples. Ebola.

L’URL de la requête Google News se présente ainsi :

https://www.google.fr/search?hl=fr&gl=fr&tbm=nws&authuser=0&q=ebola&oq=ebola&gs_l=news-cc.3..43j0l10j43i53.2239.2966.0.3120.5.5.0.0.0.0.230.491.2j1j1.4.0…0.0…1ac.1.HLgJ7U6HDjc

Bon… Prenons conscience que nous pouvons dégager tout un tas de choses dont ces vilains chiffres et lettres à la fin qui ressemblent vaguement à un identifiant de session.

Cela nous donne une requête simplifiée :

https://www.google.fr/search?hl=fr&gl=fr&tbm=nws&authuser=0&q=ebola&oq=ebola

Miracle elle marche encore…

Maintenant transformons la légèrement (voir en gras)

https://news.google.fr/?output=rss&hl=fr&gl=fr&tbm=nws&authuser=0&q=ebola&oq=ebola

Second miracle. Nous avons désormais un fil RSS simplement en dégageant les WWW et en remplaçant search par news et en rajoutant un format de sortie (output) en RSS.

OK.

Corsons la chose.

Il est également possible de passer sur le Google.com ou pourquoi pas d’essayer avec n’importe quel autre pays qui bénéficierait d’un Google news local en changeant l’extension du nom de domaine. Pour des résultats encore plus performants essayez de mettre les paramètres de langue et d’interface en adéquation.

https://news.google.com/?output=rss&hl=fr&gl=fr&tbm=nws&authuser=0&q=ebola&oq=ebola

Gogole News - 1

 

Pour continuer à jouer nous pouvons changer à la fois la langue des sources qui sera privilégie (paramètre gl) et la langue de l’interface (paramètre hl).

https://news.google.com/?output=rss&hl=en&gl=en&tbm=nws&authuser=0&q=ebola&oq=ebola

Nous avons alors ici des news anglaises principalement. On notera l’intérêt de savoir jouer avec ces paramètres de flux RSS, ce qui permet de contourner le cloaking de façon simple. (Le cloaking étant la salle habitude que Google a de vous renvoyer systématiquement bers ses outils dans votre langue à partir de la détection de votre proxy, de la langue de votre navigateur ou de votre OS, etc).

Rien qu’en jouant avec ces deux paramètres il est déjà possible de faire une collecte internationale facilement via des RSS.

Exemple ci-après également en allemand. https://news.google.de/?output=rss&hl=de&gl=de&tbm=nws&authuser=0&q=ebola&oq=ebola

Google News 2

 

De très nombreux autres paramètres peuvent être rajoutés et peuvent permettre de s’amuser et de générer à peu près ses fils RSS sur mesure pour Google News.

Je vous liste ceux qui me semblent plus intéressants.

Formats de sortie :

output=FORMAT : permet de gérer le format de sortie. Remplacer FORMAT par rss ou par atom selon le type de fil que vous souhaitez
hl=LANGUE : définit la langue de l’hôte. Par défaut ce paramètre sest “us”. Remplacez par la langue qui vous intéresse. sets host language.
hdlOnly=1 : Réglé sur 1 ce paramètre permet de n’afficher que les headlines.

Tri :

scoring=ORDER permet de trier les résultats. Par défait la valeur est : “r”. Alias: “as_scoring”
“r” tri par pertinence
“n” tri par date en partant de la plus récente
“d” par date en partant de la plus récente avec doublons
“o” par date en partant de la plus ancienne.

Voilà, c’était mon super truc et astuce de l’année en espérant que cela puisse aider de nombreux veilleurs 🙂

Par ailleurs vous pourrez trouver quelques bons articles sur le sujet et même pour les plus courageux lire la documentation des APIs de Google.

Quelques références :

Offre d’alternance : chargé(e) de veille – Groupe La Poste

Au sein de la Direction de la Stratégie, Innov’Up a pour enjeux de positionner la DSI au cœur des sujets stratégiques de la Branche Services-Courrier-Colis du GROUPE LA POSTE. Pour ce faire, Innov’up assure les missions d’appui et de conseil auprès des pôles de la Direction de la Stratégie, des Centres Service Support de la DSI, et des Directions métiers (Marketing, …) clientes de la DSI.
La structure de Veille Innovation a vocation à : 1) Faciliter la prise de décisions dans les projets ; 2) Fédérer une communauté d’experts ; 3) Faire monter en compétence des postiers sur des connaissances marchés, usages et technologiques.

Missions :
A ce titre, l’apprenti :

  • Réalisera des missions de veille ponctuelle ou itérative (cadrage du périmètre de veille,  recherche  de sources, analyse, synthèse, diffusion et retour sur expérience), dont  benchmark, étude de partenariat ou radar  technologique ;
  • Participera aux actions d’animation et de communication de la structure ;
  • Participera à l’implémentation des méthodologies, outils experts, référentiels sources et bases de connaissance au sein de la structure, selon le sujet du mémoire.

Profil :
Formation de type Master Intelligence Economique, Veille, Sciences de l’Information ou Histoire
Maîtrise des méthodes et technique de veille
Maîtrise des méthodes de recherche avancée sur Internet et les réseaux sociaux
Appétence pour la technologie et/ou sensibilité marketing
Esprit de synthèse et sens de la pédagogie
Capacité à travailler en équipe
Anglais apprécié

Modalités :
Type de contrat : contrat d’apprentissage
Dates : dès que possible, année scolaire 2014/2015
Localisation : Paris 14ème (75), Guyancourt (78)
Rémunération : Conditions légales

Contact :
Envoyez votre CV et lettre de motivation à :
marielaure.hodara@laposte.fr et christian.thomas@laposte.fr

La veille informationnelle : enjeux et évolutions

Veille informationnelle et intelligence économiqueLa veille professionnelle est aujourd’hui confrontée à de nouveaux défis étroitement liés au développement des technologies de l’information. Décryptage.

La veille, démarche qui vise à rationaliser, organiser et systématiser la surveillance de son environnement, et plus particulièrement des mouvements qui pourraient avoir un impact sur son activité, est inévitablement confrontée à la numérisation de l’information et à l’explosion de ses volumes et donc aux aspects techniques qu’il est désormais impossible d’éluder lorsqu’il s’agit d’accéder à l’information et la traiter.

La veille à l’heure de la numérisation

La numérisation n’en est certes plus à ses débuts, mais c’est un mouvement massif qui vise désormais à supprimer l’information sur support physique ou tout du moins sur support papier. Cette évolution du support de l’information a transformé les métiers du savoir et déplacé l’intervention humaine dans la chaîne de traitement de la valeur. Là où l’humain lisait, sélectionnait, résumait – travail que nombre de documentalistes ont réalisé fort longtemps – il ne subsiste maintenant plus que des algorithmes qu’il utilise et paramètre en y injectant des mots-clés, des périodes, en peaufinant des équations booléennes et en couplant son système avec des sources d’information.
La veille requiert désormais les capacités à :

  • détecter de nouvelles sources d’informations ;
  • se connecter à ces sources afin d’en extraire l’information de la façon la plus efficace possible ;
  • savoir utiliser des outils de traitement de ces flux d’information et maintenir leur efficacité ;
  • analyser cette information ;
  • animer une communauté de personnes mobilisées autour d’un processus de veille.Les nouveaux défis des enclosures

Il y eut d’abord le Web 1, un idéal ouvert de documents liés les uns aux autres par une balise unique : la balise <A>. Puis vint le Web 2, un web indéniablement social, favorisant l’explosion des contenus et plus particulièrement des contenus générés par les utilisateurs (User-generated content), avec l’apparition d’un nouvel Eldorado : celui de la donnée des utilisateurs, de la donnée personnelle et de sa monétisation.
De ce web normé, unifié, social naquirent des entités dont le slogan désormais lointain était « don’t be evil » (« ne soyez pas malhonnêtes »). Les univers, ouverts dans un premier temps, se referment pour céder la place à des espaces clos, privatifs ou « communautaires » qui protègent leurs données à coup de conditions générales d’utilisation (CGU), de procès ou d’API de plus en plus restrictives, et le veilleur se trouve confronté à des murs numériques.
Les options sont alors multiples et leur impact éthique ou juridique souvent loin d’être neutre :

  • pénétrer ces espaces en allant à l’encontre des CGU ;utiliser des APIs souvent bien restrictives et perdre une part des données ou des éléments de contextualisation pouvant ainsi amener à déformer l’information ;
  • acheter la donnée lorsque cela lui est possible.

Il s’agit là du défi le plus important que doit relever le veilleur car ces espaces donnent accès à de l’information blanche, grand public, massive, mais aussi à des informations parfois grises, des indiscrétions, des inattentions à valeur souvent bien plus élevée.

Composer avec la masse d’information

À lui seul Google possèderait à ce jour plus de deux millions et demi de serveurs informatiques, faisant de lui le premier possesseur privé de serveurs en termes de nombres, de capacité de stockage et probablement en capacité de calcul.
Même si le veilleur limite son attention à une partie du web (celle relative à son activité), il n’en demeure pas moins que la surveillance de millions de pages web nécessite du matériel et de la bande passante. De surcroît, même s‘il limite son périmètre d’écoute, il aura toujours besoin d’avoir un radar d’horizon plus large sur le web, afin de détecter de nouvelles sources ou tout simplement des informations qui seraient diffusées sur des sources non surveillées.
La masse d’information disponible et accessible pose donc plusieurs problèmes :

  • celui de l’aiguille dans la botte de foin et plus particulièrement lorsque l’on recherche un signal faible ou divergent dont les mots clés descripteurs ou le vecteur sont inconnus ;
  • celui du bruit informationnel, car quelle que soit l’efficacité des équations de recherche ou de filtre, quelle que soit la qualité des algorithmes de détourage de l’information, de désambiguïsation ou tout simplement d’anti-spam, le veilleur se heurte bien souvent au bruit ;
  • celui de la mobilisation des ressources humaines, car les effectifs de veilleurs et de documentalistes sont aujourd’hui rarement à la hausse et je reste convaincu qu’à ce jour la qualité des algorithmes et des technologies accessibles au commun des entreprises ne suffit pas à pallier les limitations imposées en termes de personnels chargés de la collecte, de la diffusion et de l’analyse de l’informationLes contraintes juridiques

La veille est soumise à de fortes contraintes réglementaires, juridiques et contractuelles. Et cela ne semble pas évoluer dans un sens qui facilite les activités de veille malgré des mouvements comme les creative commons et l’open data qui en sont encore à leurs premiers frémissements.
Bien que dans les faits, de nombreuses entreprises sous-estiment, ignorent ou tout simplement décident de ne pas respecter certaines restrictions juridiques, toute information qu’elle soit papier ou numérique (site web, blog, forum…) est potentiellement soumise au droit d’auteur à de rares exceptions près. Par ailleurs, les éditeurs de sites web ajoutent souvent des conditions générales d’utilisation qui interdisent l’extraction automatisée des informations qui y sont diffusées.
La législation est également différente en fonction du type d’information, des structures, mais aussi du pays du détenteur des droits de propriété intellectuelle, de l’hébergeur et du veilleur, complexifiant souvent à outrance les veilles dont la portée est internationale et l’appréciation du risque juridique y afférent. Enfin, la jurisprudence est assez mouvante sur ces sujets et le veilleur devra avoir à cœur de se tenir informé des derniers jugements.

Des difficultés spécifiques au multimédia

Rechercher des textes à partir de mots-clés devient presque une banalité à tel point que l’on entend souvent l’hérésie « tous veilleurs » ou bien alors « sur Google on trouve tout ». Par contre, la recherche d’images et la recherche vidéo comportent encore de nombreuses carences qui limitent leur accessibilité au veilleur. Ainsi la recherche d’images à partir de mots-clés nécessite une indexation manuelle car hormis quelques formes pouvant être reconnues automatiquement ou quelques textes océrisés, l’indexation automatique et la catégorisation des images restent encore limitées. On voit bien apparaître des technologies de recherche d’images par similarité à une autre image, mais celles-ci sont très gourmandes en ressources informatiques et en temps de calcul limitant souvent leur exploitation à quelques sites (Flickr en tête) ou à quelques applications (monuments, étiquettes de vin, produits et marques, véhicules et plus particulièrement véhicules militaires…).
De la même façon, pour les flux audios ou vidéos, les logiciels de reconnaissance vocale (Speech to Text) sont également gourmands et leur exploitation reste coûteuse, limitant leur accès aux organismes gouvernementaux, aux grands groupes ou aux prestataires de services à même de mutualiser ces technologies pour leurs clients.

En conclusion, les défis de la veille et ses évolutions sont en étroite relation avec l’évolution de l’information et de ses nouveaux enjeux. Là où certaines sociétés privées cherchent à s’accaparer l’information, le veilleur devra trouver moyen d’y accéder en respectant les contraintes réglementaires. Alors que les ressources humaines dédiées à la veille s’amenuisent, ce dernier devra sélectionner les technologies adéquates et mobiliser les bonnes volontés internes, les connaissances et s’affirmer comme un animateur-coordinateur. Enfin, le veilleur devra garder son esprit ouvert sur un web en mouvement perpétuel. Il évaluera les nouvelles opportunités d’accès à l’information et devra savoir composer avec les évolutions technologiques.

Article publié dans Ar(abes)ques, la revue de l’Abes, du mois d’octobre – novembre – décembre 2014

Crédits photos : Businessman hand pointing business strategy and success diagram as concept via Shutterstock

Philippe Ramon quitte la Délégation Interministérielle à l’intelligence économique

Philippe Ramon, ancien adjoint de la Déléguée Interministérielle à l’intelligence économique, Mme Claude Revel, Chef du pôle “Sécurité économique, affaires intérieures”,  quitte la D2IE et rejoint la communauté d’agglomération de Béziers Méditerranée en tant que Directeur Général des Services.