Outwit structure le Web

J’ai récemment réalisé une série de billets sur la veille tarifaire (et d’ailleurs j’en ai toujours un en attente de trrasncription de mes notes…), c’est donc avec un vif intérêt que j’ai consulté le billet de Christophe qui est de retour de vacances et qui nous parle de Outwit, un outil d’extraction de contenu à l’intérieur d’une page web.

Outwit c’est un peu la passerelle entre contenu non-structuré (en gros les pages HTML et l’internet en général… et le contenu structuré (base de données, fiches Exel, etc.)

Outwit vous permet, une fois lancé, d’extraire par exemple toutes les images d’une page web, ou bien encore tous les liens, mais là où Ouwit devient vraiment plus intéressant c’est lorsqu’il vous permet de récupérer des données à l’intérieur du’ne page et de les exporter dans un tableau Excel. C’est à quelques variantes près ce que doivent faire à minima la plupart des solutions de veille tarifaires. Après les plateformes de veille tarifaires peuvent aller au delà bien évidemment en proposant par exemple le matching de différents produits qui ont été trouvés à deux adresses différentes.

En fonction de la strucutre de la page, Outwit reconnaîtra automatiquement les labels des colonnes et valeurs des lignes ou bien vous demandera de mettre les mains dans le camboui en lui précisant quels sont les délimiteurs informatiques de chacun des champs afin de pouvoir les extraire sans douleur grâce au bouton "Deviner" (ci-après un screenshot réalisé à partir de la liste des MP3 Apple sur Kelkoo).

Cette reconaissance de structure s’appuie sur la structure DOM de la page en question ainsi que sur la délimitation des zones par les balises ou marqueurs caractérisant chacunes d’entre elles. (Vous pourrez aller voir le billet d’Information Aesthetics pour voir aussi comment l’on peut faire de jolis dessins à partir d’une strucure DOM!)

Dansl’hypothèse où le logiciel ne reconnaîtrait pas cette structure automatiquement vous pourrez lui définir à la main le nom de chacun des champs et précisers les balises ou marqueurs les délimitant.

L’export par Excel est ensuite simple comme un copier-coller et totalement indolore.

Un très très bon produit qui doit nous rappeler qu’il y a de nombreuses possibilités techniques et d’outils permettant de structurer, tout du moins partielement, les données que l’on met en surveillance sur Internet.

Enfin pour finir

  • Télécharger Outwit Hub, l’addon pour Firefox 3.*
  • Merci à Christophe d’outilsFroids, leblog des outils au servide des knowledge workerspour l’info
  • Merci aussi et surtout à Olivier Ezratty qui en a fait un superbe tuto pour un addon qui le valait bien!
  • Et au passage merci à Antoine Montoux, mon collègue donc, d’avoir pris le temps de nous le signaler, parce qu’il n’existe pas encore de meilleur règle de diffusion sélective de l’information qu’ne personne qui sait ce qui vous intéresse!

 

Aucun commentaire pour le moment.

Laisser une réponse