Démonstration de web scraping

On a beaucoup parlé de cartographie sur Actulligence ces derniers mois.
La raison est simple : j’ai beaucoup travaillé sur ces aspects là et mobilisé beaucoup d’énergie.

J’ai testé différentes solutions, j’ai partagé avec de nombreuses personnes et je continue à échanger d’ailleurs avec eux.
En plus l’actualité m’a fourni l’occasion et surtout m’a poussé à prendre le temps de montrer ce que l’on peut faire en cartographie afin de prouver que l’on peut faire des choses intéressantes.

Dans les points que j’ai abordés et sur lesquels je tiens absolument à revenir car ils me semblent vraiment essentiels, il y a tout d’abord le fait que la cartographie n’est pas un “outil magique”. Ce n’est pas en poussant un bouton que l’on construit une cartographie qui vous dévoilera les secrets de l’univers concurrentiel ou d’influence.
Chaque étape de conception de la cartographie doit être réfléchie, cadrée afin d’éviter les biais et les erreurs, pensée également peut-être pour être actualisée. Le choix des indicateurs visuels est importants, la vérification des informations essentielle, etc.

Deuxième point et qui fera l’objet plus précisément de ce court billet aujourd’hui, l’extraction de l’information peut et même doit être automatisée.
Il devient quasiment impossible sauf sur des marchés de niche avec une très faible activité informationnelle d’extraire de la donnée automatisée.

Nombre de cette donnée peut se trouver sur le Web mais l’extraction en est difficile, tout du moins en attendant la généralisation des microformats…

J’avais présenté quelques outils sur le sujet qui sont plus ou moins simples à appréhender dont Web Harvest en Java mais qui nécessite quand même de solides connaissances en XQuery et XPath.

Dernièrement au fil d’un commentaire Amine a évoqué également l’outil Scrapy qui est en python et qui est plus une bibliothèque de scripts, un framework permettant de paramétrer de l’extraction de contenus issus du web de façon précise.

Maintenant je voulais vous montrer ce que cela peut donner technologiquement une fois que c’est fonctionnel.

La petite vidéo ci-après est issue de la technologie qu’a développé Sam et qui m’a aidé sur la conception de la cartographie de l’intelligence économique.
C’est lui qui a développé ce petit extracteur en technologie Ruby.

On le voir ici lancer une extraction des résultats d’une requête faîte sur se loger.
Cette extraction lui permet d’extraire en quelques minutes le prix, l’agence immobilière, le type du bien + sa surface, le téléphone et l’URL.

Le tout lui est restitué dans un beau fichier Excel (mais on pourrait imaginer d’autres formats comme un dump MySQL par exemple…) voir une alimentation directe en base de données.

Maintenant ne rêvez pas non plus. Ce que l’on ne voit pas derrière c’est le paramétrage de la solution qui doit être fait pour chaque site.

L’extraction de ces données, bien qu’elles soient publiques, doit se faire de façon méthodique et “chirurgicale”, avec une grande précision.

Dans le cadre de l’analyse des réseaux (nombre de liens, intensité des liens, etc), il est d’autant plus nécessaire de mener cette extraction de données de façon méthodique, tout en conservant les liens entre ces dernières.

Aujourd’hui nous avons testé cette solution et paramétré différents modules d’extraction sur Twitter, Facebook, Viadeo, LinkedIn et cela fonctionne particulièrement bien en exploitation surtout pour l’analyse des réseaux humains mais également pour permettre de décrypter les écosystèmes d’influence, des communautés.

Tags: , , , , , ,

6 Réponses à “Démonstration de web scraping”

  1. DUFOUR 1 mars 2011 à 19 h 07 min #

    Rapprochez vous de Denis Dollfus d’Altercept. Nous avons développé ensemble WebExt. Je l’utilise depuis 2005. Nous pourrons en discuter le 29 mars à Lille lors du forum Telmi, dont je suis le co-organisateur

  2. Camille A 22 mars 2011 à 22 h 13 min #

    Mince, il est bien sympathique ce petit outil d’extraction (shame on me je n’avais pas vu ton article avant…) !

    Il m’a l’air un peu plus abordable que Web-Harvest (bien qu’une fois qu’on s’est plongé dedans et qu’on le plug à un bon outil de carto on peut faire des trucs sympa… quand on aime se taper du code :-( ).

    Et… y a t-il un moyen d’avoir accès à ce petit outil ?! :-)

    • Frederic Martinet 22 mars 2011 à 23 h 36 min #

      @Camille : outil développé par un partenaire très talentueux ! :) C’est du sur mesure ! Pour chaque source ou presque. Mais extrêmement puissant, précis et rapide. Le tout manié par quelqu’un qui maîtrise parfaitement les problématiques liées à l’information et à son exploitation.
      On peut peut être organiser une démonstration au prochain barbecue.

  3. Sam 22 septembre 2011 à 11 h 11 min #

    C’est un peu tard, mais je viens de me créer un blog. Je vais essayer de mettre d’autres vidéos 😉

  4. Mickel 8 septembre 2016 à 16 h 30 min #

    Un nouvel outil dans la famille des solutions de scraping : Hurry Scrap 😉

    • Frédéric Martinet 10 octobre 2016 à 8 h 45 min #

      Bon, c’est un peu un commentaire à connotation publicitaire mais je valide… Un peu plus de détails sur votre scraper et ses atouts auraient été un plus. Quitte à faire de la pub dans des espaces commentaires on essaie de le faire avec un minimum de contenu et pas juste avec un backlink.

Laisser une réponse à Sam