En finir avec les RSS trop courts

Qu’y a-t’il de plus énervant qu’un RSS tronqué, ne faisant figurer qu’un extrait de l’article ? Beaucoup de chose pour le commun de mortel, mais pour le veilleur qui sommeille en chacun de vous, pas grand chose je parie.

Vous êtes tranquillement sur votre iPhone pour consulter vos RSS et systématiquement quand un article vous intéresse vous êtes contraints de consulter une page web non optimisée…

Lorsque vous capitalisez vos flux RSS dans votre lecteur, du coup, il vous est impossible d’interroger sur l’intégralité des articles.

Certains logiciels de veille peuvent pallier à cette carence en suivant les liens et en aspirant la page complète. Mais là encore, la page n’est pas nettoyée et comporte les pubs, menus, footer et autres contenus parasites ce qui est fort ennuyeux pour la veille en général et pour le text mining en particulier.

Voilà pourquoi j’ai tressauté lorsqu’Olivier Guitton, administrateur du site Sphere-IE et également concepteur de la solution de veille collaborative en devenir OG Crawl, m’a dit qu’il avait développé un Yahoo Pipe permettant de transformer un flux tronqué en flux en texte intégral.

Solution extrêmement intéressante donc.

Comment procède le pipe ?

  • Vous saisissez en entrée le flux RSS tronqué de départ (dans le champ Fetch feed / URL)
  • Le pipe va alors, pour chacun des items, suivre le lien (item.link) et remplacer le contenu de l’item tronqué for each item description replace … by …) par le contenu en text intégral qu’il aura récupéré dans la page complète.
  • Pour cela il vous faudra juste regarder le code source de la page de l’article et détecter le bout de code de départ du texte intégral Cut content from) et le code de fin du texte intégral (to) (en général on trouve toujours un DIV spécifique de style et une chaîne de caractère récurrente de fin.)

Le pipe conçu par Olivier Guitton initialement est accessible ici :

http://pipes.yahoo.com/pipes/pipe.edit?_id=… et il se basait sur le flux RSS du blog Cadde-reputation, de Camille.

Et pour ma part, à partir du flux rss de départ du blog de François Jeanne-Beylot, j’ai adpaté le pipe d’Olivier en quelques minutes pour obtenir un flux en texte intégral.

Voir le pipe pour le blog de François Jeanne-Beylot :

http://pipes.yahoo.com/pipes/pipe.edit?_id=…

Résultat très concluant si ce n’est une balise vidéo que j’ai perdu en cours de route. Mais rien de dramatique.

Remarque : avec un même pipe de transformation du texte tronqué en texte intégral vous pouvez assez facilement transformer plusieurs flux : il suffit pour cela qu’ils soient générés par le même CMS ou par la même plateforme de blogs, les codes de délimitation étant en général les mêmes. Il vous suffit de saisir plusieurs URL de flux RSS tronqués en input dans la box Fetch Feed et le tour est joué.

Cela confirme vraiment mon sentiment que Yahoo Pipes est un outil très puissant, bien que réservé à un nombre limité de personnes par la technicité qu’il requière, et je ne peux que regretter depuis ces dernières années de ne pas avoir eu l’occasion de me pencher plus avant dessus.

Tous mes remerciements renouvelés à Olivier qui oeuvre maintenant depuis plusieurs années sur le Web au service de la communauté des professionnels de l’Intelligence Economique (à travers Sphere IE et maintenant à travars OG Crawl).

2 Réponses à “En finir avec les RSS trop courts”

  1. Stéphanie 18 août 2010 à 9 h 17 min #

    Bonjour,

    Votre article est très intéressant. Merci. Il m’aide à comprendre le fonctionnement de yahoo pipes. Cependant, j’ai vraiment du mal à comprendre de quelle façon récupérer les textes intégraux de flux RSS tronqués. J’ai dans l’idée de faire un pipe avec plusieurs flux RSS réunis pour ne créer qu’un flux présentant les titres et contenus des documents. Auriez-vous une astuce ?

    Je vous en remercie d’avance.

  2. Frédéric Martinet 18 août 2010 à 9 h 19 min #

    Bonjour Stéphanie,
    Tout est expliqué dans l’article.
    Il vous suffit de suivre la démarche pas à pas…
    Cordialement,
    Frederic Martinet

Laisser une réponse