• en
  • fr
Intelligence économique et veille : pour que l'information se transforme en action

Google News et les RSS

Il était une fois un truc magique qui s’appelait les RSS. Ce truc bien pratique permettait à tout un chacun de surveiller assez aisément des sites d’actualité, des résultats issus d’une base de données et parfois même les derniers résultats issus d’un moteur de recherche.

En l’occurrence, cela était possible sur Google News.

Malheureusement, au fil des abus (prendre, rediffuser, réexploiter) et de business model (plus tu passes du temps chez moi puis je peux vendre la pub chère), ces fils RSS ont fondus comme neige au soleil.

Celui de Google News y compris.

Remédions à cela.

Tout d’abord réalisons une recherche dans Google Actualités. Je prendrai un terme international afin de montrer les différences entre les exemples. Ebola.

L’URL de la requête Google News se présente ainsi :

https://www.google.fr/search?hl=fr&gl=fr&tbm=nws&authuser=0&q=ebola&oq=ebola&gs_l=news-cc.3..43j0l10j43i53.2239.2966.0.3120.5.5.0.0.0.0.230.491.2j1j1.4.0…0.0…1ac.1.HLgJ7U6HDjc

Bon… Prenons conscience que nous pouvons dégager tout un tas de choses dont ces vilains chiffres et lettres à la fin qui ressemblent vaguement à un identifiant de session.

Cela nous donne une requête simplifiée :

https://www.google.fr/search?hl=fr&gl=fr&tbm=nws&authuser=0&q=ebola&oq=ebola

Miracle elle marche encore…

Maintenant transformons la légèrement (voir en gras)

https://news.google.fr/?output=rss&hl=fr&gl=fr&tbm=nws&authuser=0&q=ebola&oq=ebola

Second miracle. Nous avons désormais un fil RSS simplement en dégageant les WWW et en remplaçant search par news et en rajoutant un format de sortie (output) en RSS.

OK.

Corsons la chose.

Il est également possible de passer sur le Google.com ou pourquoi pas d’essayer avec n’importe quel autre pays qui bénéficierait d’un Google news local en changeant l’extension du nom de domaine. Pour des résultats encore plus performants essayez de mettre les paramètres de langue et d’interface en adéquation.

https://news.google.com/?output=rss&hl=fr&gl=fr&tbm=nws&authuser=0&q=ebola&oq=ebola

Gogole News - 1

 

Pour continuer à jouer nous pouvons changer à la fois la langue des sources qui sera privilégie (paramètre gl) et la langue de l’interface (paramètre hl).

https://news.google.com/?output=rss&hl=en&gl=en&tbm=nws&authuser=0&q=ebola&oq=ebola

Nous avons alors ici des news anglaises principalement. On notera l’intérêt de savoir jouer avec ces paramètres de flux RSS, ce qui permet de contourner le cloaking de façon simple. (Le cloaking étant la salle habitude que Google a de vous renvoyer systématiquement bers ses outils dans votre langue à partir de la détection de votre proxy, de la langue de votre navigateur ou de votre OS, etc).

Rien qu’en jouant avec ces deux paramètres il est déjà possible de faire une collecte internationale facilement via des RSS.

Exemple ci-après également en allemand. https://news.google.de/?output=rss&hl=de&gl=de&tbm=nws&authuser=0&q=ebola&oq=ebola

Google News 2

 

De très nombreux autres paramètres peuvent être rajoutés et peuvent permettre de s’amuser et de générer à peu près ses fils RSS sur mesure pour Google News.

Je vous liste ceux qui me semblent plus intéressants.

Formats de sortie :

output=FORMAT : permet de gérer le format de sortie. Remplacer FORMAT par rss ou par atom selon le type de fil que vous souhaitez
hl=LANGUE : définit la langue de l’hôte. Par défaut ce paramètre sest “us”. Remplacez par la langue qui vous intéresse. sets host language.
hdlOnly=1 : Réglé sur 1 ce paramètre permet de n’afficher que les headlines.

Tri :

scoring=ORDER permet de trier les résultats. Par défait la valeur est : “r”. Alias: “as_scoring”
“r” tri par pertinence
“n” tri par date en partant de la plus récente
“d” par date en partant de la plus récente avec doublons
“o” par date en partant de la plus ancienne.

Voilà, c’était mon super truc et astuce de l’année en espérant que cela puisse aider de nombreux veilleurs 🙂

Par ailleurs vous pourrez trouver quelques bons articles sur le sujet et même pour les plus courageux lire la documentation des APIs de Google.

Quelques références :

Rejoindre la conversation

9 commentaires

  1. Bonjour Frédéric,

    Je confirme, c’est une bonne méthode depuis la disparition, il y a 1 an ou 2, de la possibilité de générer un flux RSS directement sur le site Google News.

    C’est très sympa de partager cette astuce sur votre blog, parce moi j’ai galéré un moment, l’année dernière, pour générer ces flux RSS. Mais j’y suis arrivé, c’est l’essentiel.

    En tout cas, j’utilise cette méthode depuis plus d’un an et ça marche au poil.
    J’ajouterai juste qu’il est aussi possible d’ajouter le paramètre “source” qui permet de spécifier la sourcé d’info.

    Si ça intéresse quelqu’un, et selon le même principe, il y a aussi possibilité de générer un flux RSS pour la section blogs de Google.
    La requête est la suivante (changer “query” par mot recherché) :
    https://www.google.com/search?q=query&tbm=blg&output=rss

    Bonne journée,

    Latino

  2. Merci beaucoup “latino” pour le message et la confirmation. En espérant effectivement que cela soit utile à d’autres. Merci aussi pour le petit rappel sur Google Blog Search 🙂 Cela sera utile à beaucoup de monde aussi je pense.
    Bonne journée.

  3. Mille mercis pour ces informations.

    Je vais non seulement pouvoir réactiver mes anciens flux rss google news laissés un peu à l’abandon car devenus de moins en moins pertinents, mais en créer de nouveaux sans passer par l’ancienne interface google news.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *