Accueil arrow Actualités arrow Outils du veilleur arrow En finir avec les RSS trop courts
Billet d'humeur
J'aime vachement le nouveau site www.jaimelesartistes.fr ... Mais j'aime toujours pas les majors. On se marre bien quand même avec les ninjas.
 
Actulligence :
Veille, Intelligence Economique et recherche d'information
par Frédéric Martinet

En finir avec les RSS trop courts Convertir en PDF Version imprimable Suggérer par mail
Écrit par Frédéric Martinet   
28-07-2009
Qu'y a-t'il de plus énervant qu'un RSS tronqué, ne faisant figurer qu'un extrait de l'article ? Beaucoup de chose pour le commun de mortel, mais pour le veilleur qui sommeille en chacun de vous, pas grand chose je parie.

Vous êtes tranquillement sur votre iPhone pour consulter vos RSS et systématiquement quand un article vous intéresse vous êtes contraints de consulter une page web non optimisée...

Lorsque vous capitalisez vos flux RSS dans votre lecteur, du coup, il vous est impossible d'interroger sur l'intégralité des articles.

Certains logiciels de veille peuvent pallier à cette carence en suivant les liens et en aspirant la page complète. Mais là encore, la page n'est pas nettoyée et comporte les pubs, menus, footer et autres contenus parasites ce qui est fort ennuyeux pour la veille en général et pour le text mining en particulier.

Voilà pourquoi j'ai tressauté lorsqu'Olivier Guitton, administrateur du site Sphere-IE et également concepteur de la solution de veille collaborative en devenir OG Crawl, m'a dit qu'il avait développé un Yahoo Pipe permettant de transformer un flux tronqué en flux en texte intégral.

Solution extrêmement intéressante donc.

Comment procède le pipe ?

  • Vous saisissez en entrée le flux RSS tronqué de départ (dans le champ Fetch feed / URL)
  • Le pipe va alors, pour chacun des items, suivre le lien (item.link) et remplacer le contenu de l'item tronqué for each item description replace ... by ...) par le contenu en text intégral qu'il aura récupéré dans la page complète.
  • Pour cela il vous faudra juste regarder le code source de la page de l'article et détecter le bout de code de départ du texte intégral Cut content from) et le code de fin du texte intégral (to) (en général on trouve toujours un DIV spécifique de style et une chaîne de caractère récurrente de fin.)

Le pipe conçu par Olivier Guitton initialement est accessible ici :

http://pipes.yahoo.com/pipes/pipe.edit?_id=... et il se basait sur le flux RSS du blog Cadde-reputation, de Camille.

Et pour ma part, à partir du flux rss de départ du blog de François Jeanne-Beylot, j'ai adpaté le pipe d'Olivier en quelques minutes pour obtenir un flux en texte intégral.

Voir le pipe pour le blog de François Jeanne-Beylot :

http://pipes.yahoo.com/pipes/pipe.edit?_id=...

Résultat très concluant si ce n'est une balise vidéo que j'ai perdu en cours de route. Mais rien de dramatique.

Remarque : avec un même pipe de transformation du texte tronqué en texte intégral vous pouvez assez facilement transformer plusieurs flux : il suffit pour cela qu'ils soient générés par le même CMS ou par la même plateforme de blogs, les codes de délimitation étant en général les mêmes. Il vous suffit de saisir plusieurs URL de flux RSS tronqués en input dans la box Fetch Feed et le tour est joué.

Cela confirme vraiment mon sentiment que Yahoo Pipes est un outil très puissant, bien que réservé à un nombre limité de personnes par la technicité qu'il requière, et je ne peux que regretter depuis ces dernières années de ne pas avoir eu l'occasion de me pencher plus avant dessus.

Tous mes remerciements renouvelés à Olivier qui oeuvre maintenant depuis plusieurs années sur le Web au service de la communauté des professionnels de l'Intelligence Economique (à travers Sphere IE et maintenant à travars OG Crawl).



Ecrire un commentaire

  • Merci de ne publier que des commentaires relatifs à l'article
  • Les attaques personnelles seront supprimées.
  • Ne pas profiter de cet espace pour faire éhontément la pub de votre site.
  • Si vous tapiez un code de sécurité erroné merci de rafraîchir la page avant de réexpédier votre commentaire.
Nom:
E-mail
Homepage
Commentaire:



Code:* Code

Dernière mise à jour : ( 28-07-2009 )
 
< Précédent   Suivant >
Publicité
Spotter, Analyse du buzz et des médias sociaux, études e-reputation et veille image The Power to Understand
Qui suis-je ?
Frédéric Martinet
fredericmartinet.tel

Consultant et formateur veille et intelligence économique
Webmaster d'un site sur l'intelligence économique depuis 8 ans (martinet-on-line.com désormais devenu actulligence.com)
Intervenant dans plusieurs formations de 3ème cycle en veille et intelligence économique.

Consultez mon CV :
- Français HTML
- Français Word


Add me on MSN frederic.martinet on Google Talk


Frédéric Martinet

Frederic Martinet


International Actulligence
Actulligence via RSS

Add to netvibes
Subscribe in Bloglines

Subscribe in NewsGator Online
Ajouter ce flux à votre Protopage
Add to Google

Abonnement email

Vous êtes allergique au RSS? Abonnez vous par mail!

Blogs préférés
Mais aussi :
© 2010 Intelligence Economique, veille, recherche d informations
Joomla! est un logiciel libre distribué sous licence GNU/GPL. URL rewriting by Artio JoomSEF. URL rewriting by Artio, sponsored by Traveliana.