Un mois sans vrai billet, ça valait bien la peine que je me fende d’un vrai boulot.
Donc aujourd’hui je vous propose un support de formation à Website Watcher que j’ai réalisé.
Website Watcher est un logiciel de veille “old school”. Le genre de logiciel qui a vu le jour au début des années 2000, développé par Martin Aignesberger, et dont la fonction principale d’aller visiter régulièrement des sites webs et de vous prévenir quand certains types de changements survenaient.
Ce type de logiciel, monoposte, mono-utilisateur et dont la cible évidente reste les professionnels de la veille ou de l’information-documentation n’a plus torp le vent en poupe depuis maintenant plusieurs années. On y préfère souvent les plateformes tout intégrées permettant de couvrir une partie plus importante du cycle de la veille et plus particulièrement la partie capitalisation et diffusion ou au contraire des dispositifs plus simples reposant sur l’utilisation d’un lecteur RSS.
Que j’ai pu l’entendre critiquer ce pauvre petit logiciel Website Watcher Et pourtant, et ce la n’engage que moi, il est aujourd’hui un des logiciels métiers incontournables pour ceux qui veulent surveiller des sites pointus se protégeant contre les crawleurs extérieurs.
Depuis son existence Website Watcher s’est perfectionné, amélioré, affiné, musclé.
C’est aujourd’hui le tout terrain de la veille et peu de sites lui résistent. J’espère que ce support de formation vous aidera à y voir plus clair… et vous incitera peut être à le tester.
Quels sont les points forts, en vrac, de Website Watcher ? Attention liste non exhaustive :
- Website Watcher permet de surveiller des sites en profondeur à partir d’une page de départ. Il ira suivre les urls que vous lui auraient précisées. Il dispose pour cela de fonctionnalités de filtre avancées permettant de sélectionner les URLs selon leur forme.
- Website Watcher dispose d’un système de macro lui permettant de simuler une connexion à un espace protégé par des identifiants ou de faire des requêtes automatisées sur des moteurs de recherche (utilisant le protocole POST). A titre d’exemple c’est un des seuls logiciels de veille qui permet de surveiller certains sites d’appels d’offres.
- Website Watcher dispose de tout un ensemble de filtres apprenants : il va détecter les changements survenant entre deux versions de pages et pourra par exemple générer automatiquement des REGEX, des règles permettant de filtrer certaines variations parasites.
- Website Watcher n’est pas cher !!! C’est sans conteste un investissement efficace en diable pour la modique somme de 100 €.
- Website Watcher fonctionne ! Il ne plante que rarement (cela peut quand même lui arriver de rencontrer quelques défaillances mais pas plus qu’un pack Office par exemple).
- Website Watcher dispose d’un langage de programmation intégré qui pourra vous permettre de pousser très loin sa personnalisation pour peu que vous disposiez de compétences informatiques. A titre d’exemple, la communauté de ses utilisateurs propose des plugins permettant de faciliter la surveillance de certains types de CMS ou de forums tels que vBoard ou PHPBB…
Mais alors quels sont ses points faibles ???
Il en a quand même quelques uns…
- C’est compliqué. Hé oui mon bon monsieur et ma bonne dame. Certains outils demandent des compétences. Il ne suffit pas de porter un jean slim et une chemise entrouverte pour que ca vous claque des jolis graphes dashboardés couleurs pastels / web 2.
- C’est moche. Conséquence plus ou moins directe du point précédent… et du fait que techniquement il y ait pléthores d’interfaces de paramétrage.
- Il ne permet pas de “découper” une page pour n’en surveiller qu’une seule partie.
- Comme tous les logiciels de veille il bloque sur les javascripts propriétaires qui permettent de suivre certains liens.
- Heu… c’est pas français… (pardon on me dit dans l’oreillette que c’est pas forcément un problème…)
Mais à part ces quelques points noirs, ou plutôt gris tout au plus, il saura rapidement se rendre indispensables pour ceux qui ont à surveiller des sites complexes et qui réalisent des veilles un petit peu “touchys”?
Bon donc voilà, le support est à vous.
Parcourez, essayez, amusez vous.
C’est un support de premier niveau qui n’aborde pas entre autre la personnalisation des sorties ou bien encore la programmation.
Mais bon en cas de besoin 😉 je fais aussi des formations en vrai. Avec un numéro de déclaration, des attestations. Tout ce qu’il y a de plus sérieux.
- Télécharger le support de formation à Website Watcher
Publicité
Hello Fred,
tu es sûr à propos du point négatif “découpage de zone à surveiller” ?
J’ai eu l’occasion d’aller assez loin dans le paramétrage de Website Watcher quand je taffais à l’Apec, et il me semble qu’on pouvait sélectionner des zones à surveiller… (fonction “cadre” si je me souviens bien)
Sur et certain Romain. J’ai même eu la confirmation éditeur car je pensais pareil que toi. C’est peut être une fonctionnalité qu’ils ont enlevé. A l’époque je crois qu’on pouvait choisir des marqueurs (balises) dans le texte de début et de fin… Seul moyen actuel : passer par la programmation d’un plugin spécifique pour ta source…. Mais bon là c’est un peu hardcore.
Very good job !
Merci Fred 😉
Le support est vraiment bien fait, un sacré boulot !
Hello Dorothée, et merci infiniment. J’y travaille à publier des trucs que l’on ne voit pas partout ailleurs. Dur dur des fois 🙂
Bonne journée.
Salut Fred,
Merci pour ce super billet que je lis avec retard.
Website Watcher… ça nous rajeunit pas !!
J’ai bien rigolé au passage “Il ne suffit pas de porter un jean slim…”.
A bientôt !
Oui. Clair que ca nous rajeunit pas. Enfin surtout moi en l’occurrence 🙂
Mais bon c’est un outil qui a pas trop mal vieilli. Il n’a pas cédé aux sirène du web 2. Il a gardé sa ligne de conduite, perfectionné son “coeur de métier” par des améliorations subtiles mais continues. ET c’est un outil qui à ce prix là trouve toujours selon moi sa place dans la trousse à outils du veilleur.
Bonne journée ! 🙂 A bientôt.
Merci Frédéric pour cette excellente initiative. On y redécouvre avec intérêt Website Watcher….pas encore “has been” malgré les années !
Bonne journée
Salut Fred,
Toujours un contenu Top 😉
Comme Thibault, j’ai bien rigolé sur “Il ne suffit pas de porter un jean slim et une chemise entrouverte pour que ca vous claque des jolis graphes dashboardés couleurs pastels / web 2.” J’en ris encore à imaginer la chose.
Plus sérieusement, pour surveiller des sites, il y’a Scrapy : http://scrapy.org/. C’est un Framework Python assez complet et extensible pour faire du web scraping. Toutefois, pas d’interface graphique. Donc besoin d’un plus de code (donc d’argent), pour en disposer amplement.
@+
Hello Amine,
Thanks 🙂
Concernant Scrapy, c’est un framework. Donc vraiment orienté dev et sa spécificité c’est surtout de faire du web scraping. De l’extraction de données ciblées à l’intérieur de pages. Enfin c’est plus mon point de vue.
PAs d’interface utilisateur ou peu pour paramétrer les crawls, pas de filtre ni d’envoi d’emails. Pas vraiment orienté utilisateurs finaux mais effectivement pas mal pour des projets sur mesure d’extraction de données.
Dans le type de Scrapy tu as Web Harvest. Trés bien aussi.
http://web-harvest.sourceforge.net/
Ca demande de bonnes connaissances du XQuery et du Xpath (et bien évidemment du XML) 🙂
Y a donc des solutions trés bien en termes de Web Scrapping mais malheureusement ce sont des projets que l’on rencontre peu en entreprise.
C’est à mon avis du en grande partie aux manques de ressources internes en DSI dans les grandes entreprises qui passent par des sous traitants ou de gros éditeurs et non pas par de “petits” projets internes sur mesure, réactifs… Ce qui est bien dommage car dans le domaine de la veille cela pourrait donner des choses extrêmement efficaces.
Ton (votre ) avis ?
Bonne journée.
Scrapy est plus une boite à outils qu’un produit fini. Je l’ai expérimenté quelques heures en ligne de commande. Il est facilement paramétrable et doté d’une communauté qui produit pas mal de plugins.
Pour passer au stade produit, il est nécessaire de mettre en place un réel projet de veille et suivre le cycle classique en V d’un projet informatique.
Concernant les DSI et leur fonctionnement, c’est mon rayon !! On ne fait plus de code en interne, en dehors de R&D. On pensera toujours pour un projet donné à acheter un outil, imaginer toutes les bidouilles du monde pour le faire marcher plutôt que de bâtir sa propre application qui correspond au besoin. Dans la majorité des cas, on n’atteint jamais l’objectif qui n’est pas de clôturer le projet (et se vanter !!) mais d’implémenter le besoin.
Sous prétexte qu’il faut rationaliser les coûts, on ne fait appel qu’aux prestataires pour des projets informatiques. Faut voir la galère et les retards de planning, quand on débarque sur un projet avec un transfert de connaissances inachevé ou mal pensé. Le savoir interne de l’entreprise s’évapore ainsi avec la valse des sous traitants.
Des entreprises françaises l’ont compris et commencent à créer des centres de développement en province (toujours pour rationaliser les coûts 😉 ) afin de garder une partie de leurs applications sous contrôle et réaliser des prototypages pour les demandes métiers. Une fois le prototype fini et approuvé, on passe aux prestataires l’industrialisation de la solution.
Je passe mon tour 🙂
Bonjour,
Je voulais savoir comment procéder quand à l’ajout d’un site sur Website Watcher celui-ci ne prend en compte que le header (les onglets constituant le plan du site) et pas le body ni le footer.
Cordialement.
Bonjour,
Pour toute question je vous invite à vous retourner vers le forum de l’éditeur qui normalement est très actif et sur lequel des membres devraient pouvoir dépanner votre problème (qui de mon point de vue semble atypique…) Le problème de header peut arriver sur certains site mais c’est assez rare.
Bien cordialement,
Frederic