Blog

Nos articles

Les éditeurs de logiciel de veille dans la ligne de mire des sites de presse

Frédéric Martinet
8 juillet 2014

Restez informé

« Nous vendons des photocopieuses, après c’est le client qui décide ce qu’il en fait et s’il copie des oeuvres protégées », c’est en schématisant (à peine) la réponse que m’avait faite un éditeur de logiciel de veille lorsque j’expliquais que les éditeurs de logiciels de veille savaient clairement qu’ils vendaient des logiciels qui visaient à enfreindre le droit d’auteur.

Situation d’autant plus délicate que la plupart des éditeurs sont aujourd’hui en SaaS, c’est à dire qu’ils proposent un service, que certains proposent des packages de sources avec extraction des données nettoyées (sans header, footer et menus latéraux) et que même si la la loi sur la confiance en l’économie numérique protège l’hébergeur, on se situe clairement plus qu’à la frontière de la légalité. De mon point de vue je pense assez clairement savoir de quelle côté de la frontière on se trouve dans cette situation et je trouve que ca commence à sentir la poudre et pas du 8mm mais plutôt genre Grosse Bertha…

Bref, on pourrait débattre de ce point de vue juridique de moultes et moultes heures, on pourrait philosopher sur le fait qu’en plus à partir du moment où l’on copie des oeuvres mises à disposition gratuitement ces mêmes fournisseurs de contenu et éditeurs ne se posent même plus la question de savoir s’il y a propriété intellectuelle (ne pas hésiter à relire « Blogueurs et auteurs où est le droit« ), on pourrait écouter le discours de certains éditeurs qui est que la loi ne correspond plus aux usages mais de mon pont de vue qui n’engage que moi.

Enfin qui n’engageait que moi…

Jusque là la jurisprudence était clémente… Par-ci par là une condamnation de la CCI de Paris contre Prisma Presse, l’Inist CNRS et le CFC condamnés pour contrefaçon (commercialisation d’articles sans l ‘accord des auteurs), une petite condamnation de Cedric M. qui avait utilisé un logiciel de veille pour surveiller le site de CDiscount (cf mon article sur le cadre juridique des solutions de veille stratégique et concurrentielle)

Bref, c’était gentillet. On réglait quelques comptes et on essuyait quelques tirs de frontière. Rien de bien dramatique.

MAIS, v’la ti pas que ce matin je m’amuse à checker quelques pages robots.txt. Si, si vous savez, ce fichier que le W3C a imaginé pour que les propriétaires et éditeurs de sites webs puissent dire aux moteurs de recherche de ne pas venir indexer indûment certains contenus. Là aussi d’ailleurs on a eu quelques tirs de frontières surtout sur la partie Google News avec quelques soubresauts (1) je t’interdis toi méchant Google d’indexer mon contenu 2) merde mon trafic est en chute libre 3) OK indexe mon contenu mais ne le mets pas en cache et si possible aide moi à vendre mes articles… Bon, toutefois certains arrivent à se passer de Google 🙂

Le Monde était un des premiers à engager cette lutte puis à faire comme de nombreux site de presse, à négocier.

Alors le robots.txt du Monde il est intéressant et ce matin plus encore… Je me permets de vous en faire un petit copier coller ci-après et je vous reprends après lecture pour la traduction.

#
# Il est interdit d'utiliser des robots
# d'indexation Web ou d'autres méthodes
# automatiques de feuilletage ou
# de navigation sur ce site Web.
# Nous interdisons de crawler notre site
# Web en utilisant un
# agent d'utilisateur volé qui ne correspond
# pas à votre identité.
# « Violation du droit du producteur de base de données –
# article L 342-1 et suivant le Code de la propriété intellectuelle ».
# Nous vous invitons à nous contacter
# pour contracter une licence d’utilisation.
# Seuls les partenaires sont habilités à utiliser
# nos contenus pour
# un usage autre que strictement individuel.
#

User-agent: *
Disallow: /ajah/
Disallow: /api/
Disallow: /archives/
Disallow: /cgi-bin/ACHATS/
Disallow: /element/commun/afficher/
Disallow: /petites-annonces/
Disallow: /qui-sommes-nous/
Disallow: /reactions/
Disallow: /services-aux-internautes/
Disallow: /teaser/
Disallow: /txt/
Disallow: /web/
Disallow: /ws/

Sitemap: http://www.lemonde.fr/sitemap_index.xml

User-agent: Googlebot-Image
Allow: /image/

# Robots exclus de toute indexation.
User-agent: Meltawer
Disallow: /

User-agent: Digimind
Disallow: /

User-agent: Knowings
Disallow: /

User-agent: Sindup
Disallow: /

User-agent: Cision
Disallow: /

User-agent: Talkwater
Disallow: /

Alors la traduction :

1) Petit rappel à l’ordre : mon site est protégé par le droit d’auteur et si tu t’amuses à utiliser des crawlers, automates de visites ou autre sache mon gars qu’il peut t’arriver des soucis et que maintenant ça va plus se passer comme ça… Je te sortirai l’arsenal juridique de la mort et il t’en cuira. We watch you dude !

2) A tous les moteurs de recherche ce serait sympa de ne pas indexer certains répertoires

3) Mon petit si tu t’appelles Digmind, Meltwater, Cision, Talkwalker, Sindup, Knowings je t’interdis strictement d’indexer toute partie de mon site et gare à toi sinon retour au 1) [et je n’ai pas listé tout le monde, juste ceux du robots.txt du Monde… mais c’est pas fini…]

Bon, tout d’abord je me suis permis de corriger la la liste car au Monde ils ont dû recruter le stagiaire d’i-Télé du coup on se retrouve avec talkwater au lieu de Talkwalker et Metltawer au lieu de Meltwater… Il a pas du boire que de l’eau lui.

Sinon à part ça le message est assez clair hein non me semble-t-il ???

Et c’est une p***** de véritable épidémie qui s’est emparée des sites de presse : lesechos.fr, challenges.fr, nouvelobs.com, lefigaro.fr, voxeurop.eu… Les éditeurs de logiciel de veille ne sont plus les bienvenus sur les sites de presse et même sur d’autres types de sites, même si à mon avis pour l’instant on en est à l’épidémie de quartier y a de fortes chances que cela se propage…

La liste du Monde est presque misérabiliste quand on regarde d’autres, telle que celle du « Biblio Nouvel Obs » qui listent aussi Qwam, MyTwip, Proxem, Moreover, Mention, etc etc etc. J’aime même trouvé Scoop.it…

M’est d’avis que ces logiciels ont été identifiés sur une liste quelconque comme des robots spammeurs et sont désormais persona non grata. Ou bien alors qu ce petit robots.txt leur a été proposé par « un partenaire habilité ».

Bref… Et maintenant on fait quoi ?

Quelles solutions pour les clients ? Et que vont faire les éditeurs logiciels ? Quels risques juridiques et pour qui ?

Ça va commencer à être funky les discussions entre les services juridiques des clients utilisateurs des logiciels de veille et les éditeurs. Je sens que les budgets CFC / Factiva vont exploser cette année…

PS : je me permets juste de rappeler que certains éditeurs offrent à leurs clients lors du paramétrage la possibilité de décider de respecter le fichier robots.txt, conscients de ce risque… Mais là on est dans un cas encore un peu au-delà puisque l’on interdit à l’éditeur d’indexer toute partie de ce site.

Partager cet article

Blog

Nos articles

Les éditeurs de logiciel de veille dans la ligne de mire des sites de presse

Catégories

Articles récents

Restez informé

Autres articles

à consulter

L’Intelligence Artificielle et la Veille

Réaliser une veille sur le site clinicaltrials.gov

Sanofi: une veille bien traitée

L’Intelligence Artificielle et la Veille

Réaliser une veille sur le site clinicaltrials.gov

Sanofi: une veille bien traitée

Votre veille avec Google Alerts : le guide indispensable

Blog

Nos articles

Les éditeurs de logiciel de veille dans la ligne de mire des sites de presse

Catégories

Articles récents

Restez informé

Autres articles

à consulter

L’Intelligence Artificielle et la Veille

Réaliser une veille sur le site clinicaltrials.gov

Sanofi: une veille bien traitée

L’Intelligence Artificielle et la Veille

Réaliser une veille sur le site clinicaltrials.gov

Sanofi: une veille bien traitée

Votre veille avec Google Alerts : le guide indispensable

Votre veille avec Google Alerts : le guide indispensable