Rechercher
Fermer ce champ de recherche.
Blog

Nos articles

Google News et les RSS

Il était une fois un truc magique qui s’appelait les RSS. Ce truc bien pratique permettait à tout un chacun de surveiller assez aisément des sites d’actualité, des résultats issus d’une base de données et parfois même les derniers résultats issus d’un moteur de recherche.

En l’occurrence, cela était possible sur Google News.

Malheureusement, au fil des abus (prendre, rediffuser, réexploiter) et de business model (plus tu passes du temps chez moi puis je peux vendre la pub chère), ces fils RSS ont fondus comme neige au soleil.

Celui de Google News y compris.

Remédions à cela.

Tout d’abord réalisons une recherche dans Google Actualités. Je prendrai un terme international afin de montrer les différences entre les exemples. Ebola.

L’URL de la requête Google News se présente ainsi :

https://www.google.fr/search?hl=fr&gl=fr&tbm=nws&authuser=0&q=ebola&oq=ebola&gs_l=news-cc.3..43j0l10j43i53.2239.2966.0.3120.5.5.0.0.0.0.230.491.2j1j1.4.0…0.0…1ac.1.HLgJ7U6HDjc

Bon… Prenons conscience que nous pouvons dégager tout un tas de choses dont ces vilains chiffres et lettres à la fin qui ressemblent vaguement à un identifiant de session.

Cela nous donne une requête simplifiée :

https://www.google.fr/search?hl=fr&gl=fr&tbm=nws&authuser=0&q=ebola&oq=ebola

Miracle elle marche encore…

Maintenant transformons la légèrement (voir en gras)

https://news.google.fr/?output=rss&hl=fr&gl=fr&tbm=nws&authuser=0&q=ebola&oq=ebola

Second miracle. Nous avons désormais un fil RSS simplement en dégageant les WWW et en remplaçant search par news et en rajoutant un format de sortie (output) en RSS.

OK.

Corsons la chose.

Il est également possible de passer sur le Google.com ou pourquoi pas d’essayer avec n’importe quel autre pays qui bénéficierait d’un Google news local en changeant l’extension du nom de domaine. Pour des résultats encore plus performants essayez de mettre les paramètres de langue et d’interface en adéquation.

https://news.google.com/?output=rss&hl=fr&gl=fr&tbm=nws&authuser=0&q=ebola&oq=ebola

Gogole News - 1

 

Pour continuer à jouer nous pouvons changer à la fois la langue des sources qui sera privilégie (paramètre gl) et la langue de l’interface (paramètre hl).

https://news.google.com/?output=rss&hl=en&gl=en&tbm=nws&authuser=0&q=ebola&oq=ebola

Nous avons alors ici des news anglaises principalement. On notera l’intérêt de savoir jouer avec ces paramètres de flux RSS, ce qui permet de contourner le cloaking de façon simple. (Le cloaking étant la salle habitude que Google a de vous renvoyer systématiquement bers ses outils dans votre langue à partir de la détection de votre proxy, de la langue de votre navigateur ou de votre OS, etc).

Rien qu’en jouant avec ces deux paramètres il est déjà possible de faire une collecte internationale facilement via des RSS.

Exemple ci-après également en allemand. https://news.google.de/?output=rss&hl=de&gl=de&tbm=nws&authuser=0&q=ebola&oq=ebola

Google News 2

 

De très nombreux autres paramètres peuvent être rajoutés et peuvent permettre de s’amuser et de générer à peu près ses fils RSS sur mesure pour Google News.

Je vous liste ceux qui me semblent plus intéressants.

Formats de sortie :

output=FORMAT : permet de gérer le format de sortie. Remplacer FORMAT par rss ou par atom selon le type de fil que vous souhaitez
hl=LANGUE : définit la langue de l’hôte. Par défaut ce paramètre sest « us ». Remplacez par la langue qui vous intéresse. sets host language.
hdlOnly=1 : Réglé sur 1 ce paramètre permet de n’afficher que les headlines.

Tri :

scoring=ORDER permet de trier les résultats. Par défait la valeur est : “r”. Alias: “as_scoring”
« r » tri par pertinence
« n » tri par date en partant de la plus récente
« d » par date en partant de la plus récente avec doublons
« o » par date en partant de la plus ancienne.

Voilà, c’était mon super truc et astuce de l’année en espérant que cela puisse aider de nombreux veilleurs 🙂

Par ailleurs vous pourrez trouver quelques bons articles sur le sujet et même pour les plus courageux lire la documentation des APIs de Google.

Quelques références :

Partager cet article

Autres articles

à consulter