Les éditeurs de logiciel de veille dans la ligne de mire des sites de presse

“Nous vendons des photocopieuses, après c’est le client qui décide ce qu’il en fait et s’il copie des oeuvres protégées”, c’est en schématisant (à peine) la réponse que m’avait faite un éditeur de logiciel de veille lorsque j’expliquais que les éditeurs de logiciels de veille savaient clairement qu’ils vendaient des logiciels qui visaient à enfreindre le droit d’auteur.

Situation d’autant plus délicate que la plupart des éditeurs sont aujourd’hui en SaaS, c’est à dire qu’ils proposent un service, que certains proposent des packages de sources avec extraction des données nettoyées (sans header, footer et menus latéraux) et que même si la la loi sur la confiance en l’économie numérique protège l’hébergeur, on se situe clairement plus qu’à la frontière de la légalité. De mon point de vue je pense assez clairement savoir de quelle côté de la frontière on se trouve dans cette situation et je trouve que ca commence à sentir la poudre et pas du 8mm mais plutôt genre Grosse Bertha…

Bref, on pourrait débattre de ce point de vue juridique de moultes et moultes heures, on pourrait philosopher sur le fait qu’en plus à partir du moment où l’on copie des oeuvres mises à disposition gratuitement ces mêmes fournisseurs de contenu et éditeurs ne se posent même plus la question de savoir s’il y a  propriété intellectuelle (ne pas hésiter à relire “Blogueurs et auteurs où est le droit“), on pourrait écouter le discours de certains éditeurs qui est que la loi ne correspond plus aux usages mais de mon pont de vue qui n’engage que moi.

Enfin qui n’engageait que moi…

Jusque là la jurisprudence était clémente… Par-ci par là une condamnation de la CCI de Paris contre Prisma Presse, l’Inist CNRS et le CFC condamnés pour contrefaçon (commercialisation d’articles sans l ‘accord des auteurs), une petite condamnation de Cedric M. qui avait utilisé un logiciel de veille pour surveiller le site de CDiscount (cf mon article sur le cadre juridique des solutions de veille stratégique et concurrentielle)

Bref, c’était gentillet. On réglait quelques comptes et on essuyait quelques tirs de frontière. Rien de bien dramatique.

MAIS, v’la ti pas que ce matin je m’amuse à checker quelques pages robots.txt. Si, si vous savez, ce fichier que le W3C a imaginé pour que les propriétaires et éditeurs de sites webs puissent dire aux moteurs de recherche de ne pas venir indexer indûment certains contenus. Là aussi d’ailleurs on a eu quelques tirs de frontières surtout sur la partie Google News avec quelques soubresauts (1) je t’interdis toi méchant Google d’indexer mon contenu 2) merde mon trafic est en chute libre 3) OK indexe mon contenu mais ne le mets pas en cache et si possible aide moi à vendre mes articles… Bon, toutefois certains arrivent à se passer de Google :)

Le Monde était un des premiers à engager cette lutte puis à faire comme de nombreux site de presse, à négocier.

Alors le robots.txt du Monde il est intéressant et ce matin plus encore… Je me permets de vous en faire un petit copier coller ci-après et je vous reprends après lecture pour la traduction.

#
# Il est interdit d'utiliser des robots
# d'indexation Web ou d'autres méthodes
# automatiques de feuilletage ou
# de navigation sur ce site Web.
# Nous interdisons de crawler notre site
# Web en utilisant un
# agent d'utilisateur volé qui ne correspond
# pas à votre identité.
# « Violation du droit du producteur de base de données –
# article L 342-1 et suivant le Code de la propriété intellectuelle ».
# Nous vous invitons à nous contacter
# pour contracter une licence d’utilisation.
# Seuls les partenaires sont habilités à utiliser
# nos contenus pour
# un usage autre que strictement individuel.
#

User-agent: *
Disallow: /ajah/
Disallow: /api/
Disallow: /archives/
Disallow: /cgi-bin/ACHATS/
Disallow: /element/commun/afficher/
Disallow: /petites-annonces/
Disallow: /qui-sommes-nous/
Disallow: /reactions/
Disallow: /services-aux-internautes/
Disallow: /teaser/
Disallow: /txt/
Disallow: /web/
Disallow: /ws/

Sitemap: http://www.lemonde.fr/sitemap_index.xml

User-agent: Googlebot-Image
Allow: /image/

# Robots exclus de toute indexation.
User-agent: Meltawer
Disallow: /

User-agent: Digimind
Disallow: /

User-agent: Knowings
Disallow: /

User-agent: Sindup
Disallow: /

User-agent: Cision
Disallow: /

User-agent: Talkwater
Disallow: /

Alors la traduction :

1) Petit rappel à l’ordre : mon site est protégé par le droit d’auteur et si tu t’amuses à utiliser des crawlers, automates de visites ou autre sache mon gars qu’il peut t’arriver des soucis et que maintenant ça va plus se passer comme ça… Je te sortirai l’arsenal juridique de la mort et il t’en cuira. We watch you dude !

2) A tous les moteurs de recherche ce serait sympa de ne pas indexer certains répertoires

3) Mon petit si tu t’appelles Digmind, Meltwater, Cision, Talkwalker, Sindup, Knowings je t’interdis strictement d’indexer toute partie de mon site et gare à toi sinon retour au 1) [et je n'ai pas listé tout le monde, juste ceux du robots.txt du Monde... mais c'est pas fini...]

Bon, tout d’abord je me suis permis de corriger la la liste car au Monde ils ont dû recruter le stagiaire d’i-Télé du coup on se retrouve avec talkwater au lieu de Talkwalker et Metltawer au lieu de Meltwater… Il a pas du boire que de l’eau lui.

Sinon à part ça le message est assez clair hein non me semble-t-il ???

Et c’est une p***** de véritable épidémie qui s’est emparée des sites de presse : lesechos.fr, challenges.fr, nouvelobs.com, lefigaro.fr, voxeurop.eu… Les éditeurs de logiciel de veille ne sont plus les bienvenus sur les sites de presse et même sur d’autres types de sites, même si à mon avis pour l’instant on en est à l’épidémie de quartier y a de fortes chances que cela se propage…

La liste du Monde est presque misérabiliste quand on regarde d’autres, telle que celle du “Biblio Nouvel Obs” qui listent aussi Qwam, MyTwip, Proxem, Moreover, Mention, etc etc etc. J’aime même trouvé Scoop.it…

M’est d’avis que ces logiciels ont été identifiés sur une liste quelconque comme des robots spammeurs et sont désormais persona non grata. Ou bien alors qu ce petit robots.txt leur a été proposé par “un partenaire habilité”.

Bref… Et maintenant on fait quoi ?

Quelles solutions pour les clients ? Et que vont faire les éditeurs logiciels ? Quels risques juridiques et pour qui ?

Ça va commencer à être funky les discussions entre les services juridiques des clients utilisateurs des logiciels de veille et les éditeurs. Je sens que les budgets CFC / Factiva vont exploser cette année…

PS : je me permets juste de rappeler que certains éditeurs offrent à leurs clients lors du paramétrage la possibilité de décider de respecter le fichier robots.txt, conscients de ce risque… Mais là on est dans un cas encore un peu au-delà puisque l’on interdit à l’éditeur d’indexer toute partie de ce site.

Tags: , , , , , ,

15 Réponses à “Les éditeurs de logiciel de veille dans la ligne de mire des sites de presse”

  1. Raymundo Seybou 8 juillet 2014 à 21 h 01 min #

    Semble-t-il que certain de ces services ont déjà été condamnés par des grands titres de la presse, mais cela s’est apparemment réglé par avocats interposés et sans publicité. Les Echos sont assez pugnaces dans ce domaine.

    Une question me semble-t-il n’a pas été évoquée ici, mon “prestataire” propose en effet d’accéder aux publications contre les identifiants de mon entreprise. “Entre deux” sur le fil du rasoir qui ne s’encombre pas du concept du nombre de destinataires âprement discutés auprès des Factiva et consorts.

    Ce qui est dommage, c’est qu’en l’état ce sont des entreprises plutôt modestes (pour les françaises) qui font une partie de leur chiffre d’affaire sur un flou juridique… dans ce domaine ce ne sont pas les premières ni seules

    • Frédéric Martinet 8 juillet 2014 à 23 h 28 min #

      Je ne suis pas assez dans les milieux autorisés pour savoir s’il y a eu des règlements à l’amiable… Les modifications de ces fichiers robots.txt laissent toutefois le champ ouvert à des attaques sur le droit d’auteur (délicates car il faut avoir la preuve que le contenu a été copié) et à des attaques sur l’atteinte au bon fonctionnement des systèmes automatisés de traitement de données (par contre beaucoup plus facile à prouver…)

      Sur ce que propose votre “prestataire” je n’ai guère envie de tergiverser car je pense justement, que cette liste n’et pas tombée ici par hasard… Et si cela avait été proposé par des revendeurs autorisés cela ne serait guère étonnant.

      Sur le dernier point, il y a la loi, l’éthique, et ses propres choix et arbitrages risques lorsque l’on est hors des zones… Je pense avoir assez de background dans le milieu de la veille pour avoir une vision assez précise de la façon don sont exploités les outils par les clients finaux, mais aussi des discours éditeurs relatifs au droit d’auteur… La conférence i-expo où j’intervenais en 2010 au côté du patron de Go Albert – Ami Software fut éclairante à bien des égards, lorsque l’on m’expliquait que si un blogueur ne voulait pas que son contenu soit exploité par des sociétés commerciales il n’avait qu’à le vendre – ou comment une société qui fait peu d’argent en fait plus que certains blogueurs dont elle copie le contenu.

      Accessoirement sur les aspects blogs c’est aussi ce que fat Factiva-DowJones en revenant un accès à des contenus de blogs pour une somme dérisoire qui vient s’ajouter aux sommes plus conséquentes des contenus presse qu’elle vend. Les premiers procès blogueurs VS DowJones pourraient être intéressants pour ceux qui auraient le courage d’y aller.

      • Raymundo Seybou 10 juillet 2014 à 21 h 38 min #

        Merci pour cette réponse complète.

        Un billet de votre blog m’est revenu à l’esprit, au sujet de “d’où vient cette liste”. Les visites depuis les sites de veille ( billet sur la furtivité) est-ce qu’un bon travail d’analytics sur les liens entrant ne permet pas d’obtenir une liste assez similaire ? Ou est-ce chercher une aiguille dans une botte de foin ?

      • Frederic 11 juillet 2014 à 7 h 31 min #

        @Raymon : Si si tout à fait, avec un travail sur ses Google Analytics l’on peut voir qui est derrière la plupart du temps justement comme je le disais grâce au referer. La plupart du temps les crawlers de ces solutions ne sont quand même pas derrière des proxys nommés :) mais avec les referers des clics clients on peut avoir pas mal de choses. En l’occurrence je ne pense pas que cette liste a été constituée de cette façon et par ailleurs j’ai trouvé plus de 70 sites qui utilisent cette liste…

        Après quand vous êtes le Monde ou les Echos, j’imagine que regarder ses logs c’est autre chose que de regarder les logs d’Actulligence.

  2. Frederic Martinet 8 juillet 2014 à 23 h 43 min #

    Pour citer la liste complète des Echos dailleurs des éditeurs et softwares blacklistés :

    User-agent: TurnitinBot
    Disallow: /

    User-agent: ConveraCrawler
    Disallow: /

    User-agent: QuepasaCreep
    Disallow: /

    User-agent: Jetbot
    Disallow: /

    User-agent: Meltwater
    Disallow: /

    User-agent: NewsNow
    Disallow: /

    User-agent: Digimind
    Disallow: /

    User-agent: Knowings
    Disallow: /

    User-agent: kbcrawl
    Disallow: /

    User-agent: AmiSoftware
    Disallow: /

    User-agent: Newzbin
    Disallow: /

    User-agent: Ask n read
    Disallow: /

    User-agent: Qwam content intelligence
    Disallow: /

    User-agent: Zite
    Disallow: /

    User-agent: flipboard
    Disallow: /

    User-agent: FlipboardProxy
    Disallow: /

    User-agent: Youmag
    Disallow: /

    User-agent: Synthesio
    Disallow: /

    User-agent: trendybuzz
    Disallow: /

    User-agent: spotter
    Disallow: /

    User-agent: scoop.it
    Disallow: /

    User-agent: linkfluence
    Disallow: /

    User-agent: 5emeRue
    Disallow: /

    User-agent: Augure
    Disallow: /

    User-agent: Sindup
    Disallow: /

    User-agent: Corporama
    Disallow: /

    User-agent: readability.com
    Disallow: /

    User-agent: grub-client
    Disallow: /

    User-agent: ia_archiver
    Disallow: /

    User-agent: ia_archiver-web.archive.org
    Disallow: /

    User-agent: k2spider
    Disallow: /

    User-agent: libwww
    Disallow: /

    User-agent: wget
    Disallow: /

    User-agent: 5erue
    Disallow: /

    User-agent: adequat
    Disallow: /

    User-agent: adequat-systems
    Disallow: /

    User-agent: auramundi
    Disallow: /

    User-agent: coexel
    Disallow: /

    User-agent: ellisphere
    Disallow: /

    User-agent: eureka
    Disallow: /

    User-agent: eureka.cc
    Disallow: /

    User-agent: Europresse
    Disallow: /

    User-agent: leadbox
    Disallow: /

    User-agent: mention
    Disallow: /

    User-agent: Moreover
    Disallow: /

    User-agent: mytwip
    Disallow: /

    User-agent: NewsNow
    Disallow: /

    User-agent: Newzbin
    Disallow: /

    User-agent: opinion-tracker
    Disallow: /

    User-agent: proxem
    Disallow: /

    User-agent: score3
    Disallow: /

    User-agent: trendeo
    Disallow: /

    User-agent: vecteurplus
    Disallow: /

    User-agent: verticalsearch
    Disallow: /

    User-agent: vsw
    Disallow: /

    User-agent: winello
    Disallow: /

    User-agent: Fetch
    Disallow: /

    User-agent: infoseek
    Disallow: /

    User-agent: MSIECrawler
    Disallow: /

    User-agent: Offline Explorer
    Disallow: /

    User-agent: sitecheck.internetseer.com
    Disallow: /

    User-agent: SiteSnagger
    Disallow: /

    User-agent: Teleport
    Disallow: /

    User-agent: TeleportPro
    Disallow: /

    User-agent: WebCopier
    Disallow: /

    User-agent: WebStripper
    Disallow: /

    User-agent: Zealbot
    Disallow: /

    User-agent: asknread.com
    Disallow: /

    User-agent: ellisphere
    Disallow: /

    User-agent: spotter
    Disallow: /

    • Emmanuel Barthe 9 juillet 2014 à 22 h 01 min #

      Merci pour cette information. Très importante à mon avis.

      Pour le contexte, on peut ajouter ceci :
      - le paiement des droits d’auteur par les éditeurs de presse aux journalistes est proportionnel à la consommation d’articles. Il ne peut donc donner lieu durablement à remise par ces mêmes éditeurs aux agrégateurs/bases de données de presse (Factiva, Europresse, Pressedd), donc ces agrégateurs ne peuvent guère en faire à leurs clients. Alors même que la période l’exigerait
      - en effet, les temps difficiles pour les clients des agrégateurs de presse entraînent réductions de consommation et résiliations et … recours accru aux applications de veille sur le Web gratuit
      - d’où un double manque à gagner pour la presse. Rien de neuf me direz vous. Oui, mais ce qui est neuf, c’est que ce manque à gagner s’accroît nettement et des deux cotés
      - la puissance de Google en termes d’indexation/visibilité et donc revenus publicitaires des journaux protège ses Google Alerts. Mais … et si Google supprimait ce service ? Pas réaliste pour l’instant (le service a été récemment légèrement mis à jour dans la présentation des mails), mais des professionnels américains de la recherche et de la veille avaient il y a quelque temps repéré une baisse relative de l’exhaustivité et de la pertinence des résultats de leurs mails GG Alerts
      - à noter que les agrégateurs de presse ne proposent à ma connaissance l’indexation des blogs et sites de presse gratuits que depuis, quoi, 3 ou 4 ans ? Cette offre supplémentaire est de plein fouet en opposition avec celle des logiciels de veille …
      - enfin une décision de la Cour de justice de l’Union européenne (CJUE) a donné raison à Meltwater, refusant d’interdire ses extractions et copies régulières de titres d’articles. Certes, il n’était pas question dans cette affaire de fichier robots.txt. Or une interdiction par ce fichier pourrait permettre d’invoquer une introduction irrégulière dans un système informatique. Si des lecteurs connaissent des cas semblables passés en justice, je suis preneur.

      • Frédéric Martinet 10 juillet 2014 à 12 h 58 min #

        Bonjour Emmanuel et merci pour ces compléments très riches et fort justes que je n’ai aps développé dans mon article.
        Je vous rejoins totalement sur de nombreux points.
        - La situation économique a poussé certains acteurs-entreprises recourant aux services de bases de données d’articles de presse à essayer d’imaginer des moyens plus économiques pour avoir accès aux articles de presse. Le presse et les BDD voyant cela sont bien forcées de réagir. Et il s’agit là à mon avis d’une première réaction qui était toutefois prévisible et il est même étonnant qu’elle ne soit pas arrivée plus tôt.
        - Concernant les Google Alertes toutefois je ne vous rejoins pas : le service ne peut plus du tout être considéré comme opérationnel. Cela fait de nombreux mois, et ça n’évolue pas dans le bon sens, que ce service est bon à mettre aux oubliettes.

        - Les agrégateurs de presse devraient s’attendre un jour ou l’autre à c que les blogueurs ne s’en tiennent pas là. Forcés à intégrer le web “social” dans leurs packages ils le vendent en option (quelques dizaines d’euros) voire l’offrent dans leur services. Or il s’agit bien là de données protégées par la propriété intellectuelle et si jusque là ils s’en tirent bien c’est car le droit français à l’habitude d’évaluer le préjudice et dur d’évaluer un préjudice lorsqu’un individu décide de publier gratuitement son contenu… A ce sujet je fais référence à l’un de mes vieux articles abordant ce sujet “Auteur et blogueur : où est le droit ?”

        - La décision de la CJUE sur le cas Meltwater portait sur les titres des articles uniquement… et ce qui a été défendu c’est le droit de faire un lien sur Internet. Cela a été également confirmé dans la décision Dijonscope.com avec une petite ouverture supplémentaire dans laquelle je suis d’ailleurs surpris de n’avoir pas vue les éditeurs de veille s’engouffrer : la possibilité d’inclure la page de destination dans une frame en étant toutefois rigoureux sur les mentions obligatoires. Ouf ! La Cour de Justice a considéré par ailleurs le procédé qui permettait de diffuser ces titres et les envoyer à ses clients et a pris en considération le fait qu’à aucun moment l’utilisateur-client de Meltwater n’avait accès à la copie de cet article en dehors du site propriétaire du contenu. Nous sommes dans le cas que je liste, j’en suis persuadé, assez loin de ce cas de figure ! :)

        - Si je peux conclure le robots.txt offre un angle d’attaque juridique bien plus intéressant : celui de la perturbation d’un système de traitement automatisé des données… :) Cas par ailleurs ayant déjà été tranché en faveur du site qui est surveillé.

  3. Omnireso 9 juillet 2014 à 11 h 45 min #

    Il s’agit ici de contre-mesure technologique bien limitée… Car effectivement libre au robot (de veille) de respecter ces règles, de se faire passer pour ce qu’il n’est pas, de se cacher derrière un serveur proxy, etc…
    Il faut alors engager des mesures plus drastiques si l’on souhaite filtrer un peu plus sérieusement l’accès à ses ressources. Ces mesures incluent le mimétisme d’un comportement humain (passage d’une page à une autre selon une cadence non linéaire, retour sur certaines pages, etc)

    • Frédéric Martinet 10 juillet 2014 à 13 h 03 min #

      Bonjour Yann,

      Il n’y a ici absolument aucune mesure technologique, le robots.txt n’étant qu’un avertissement.
      Quant aux possibilités de se dissimuler, de se cacher, de se faire passer pour un autre, elles sont nombreuses t d’ailleurs certains éditeurs utilisent déjà une ou plusieurs es mesures que vous évoquez.
      Comme je le mentionnais toute à l’heure la mise à jour de ce fichier fait toutefois monter la pression d’un cran sur un autre axe d’attaque qui est atteinte au bon fonctionnement d’un système de traitement automatisé des données… (en plus de l’axe évident sur la contrefaçon / propriété intellectuelle.)

      Sur le comportement humain que vous évoquez cela est également mis en place chez de nombreux éditeurs (URLs mélangées dans la file d’attente, délais aléatoires voire même variation des variables d’environnements et / ou des proxys…) Toutefois les articles “extraits” sont souvent mis à disposition à l’intérieur de la solution de veille et le clic du client génère un referer qui est lui beaucoup plus difficilement dissimulable (cf mon article sur la furtivité des logiciels de veille)…

  4. Marion Perrin 10 juillet 2014 à 11 h 01 min #

    Petite précision : Prisma Presse a attaqué la CCI Paris pour avoir publié des RESUMES des articles parus dans Capital, et non pour avoir publié des copies d’articles…. c’était pousser le bouchon un peu loin. Par ailleurs, la CCI de Paris fournissait des copies papier des articles en cas de demande et payait pour cela des royalties…

    • Frédéric Martinet 10 juillet 2014 à 12 h 42 min #

      Bonjour Marion,
      Je suppose que votre vision ne peut-être foncièrement objective étant donnée votre situation.
      De mon point de vue je me base sur le jugement rendu qui stipule clairement que la CCIP a été codamné pour avoir copié et revendu des articles publiés dans Management et Capital, édités tous deux par Prisma Presse.
      La copie de ce jugement est accessible sur le site Legalis.
      Je suppose que le juge a estimé que la copie devait être suffisamment “copiante” si je puis me passer l’expression pour la condamner pour contrefaçon.
      Pour bien connaître Delphes, la CCIP et différentes CCI régionales réalisent des preuves de presse et des synthèses d’articles qui sont mis en communs et revendus à travers leur base de données même.
      Finalement de la “curation” avec résumé. Condamnable visiblement du point de vue du juge. Semble-t’il pas du votre.
      Rappelons le toutefois, justement la propriété intellectuelle s’applique à toute création de l’esprit originale. C’est à l’appréciation du juge de définir si les résumés produits sont la manifestation d’une oeuvre originale de de l’esprit ou bien une simple reformulation. Visiblement son avis était assez tranché pour condamner la CCIP… Un jugement qui donc est particulièrement intéressant et peut permettre de rappeler des principes fondamentaux de la propriété intellectuelle.
      Maintenant je ne suis pas juriste donc je suppose que mon avis pourrait être discuté. Le jugement rendu par un homme de loi peut l’être plus difficilement.

  5. Emmanuel Barthe 10 juillet 2014 à 13 h 20 min #

    Reste un angle d’attaque que je m’étonne de ne pas avoir vu citer dans les comptes rendus de ces affaires médiatisées : la concurrence déloyale et le parasitisme. Très français et preuve pas facile certes http://leconcurrentialiste.com/2014/05/02/les-relations-entre-contrefacon-et-parasitisme/

    • Frédéric Martinet 10 juillet 2014 à 13 h 33 min #

      Le parasitisme est encore peu prononcé et utilisé par les juges et procureurs. Il nécessite alors un faisceau d’éléments de preuve convergents tendant à démontrer qu’une société vit dans les traces d’une autre et est alors souvent associé à un autre motif de poursuites qui lui est plus “tangible”. La concurrence déloyale est elle plus souvent utilisée ça c’est sur mais lorsqu’il s’agit de propriété intellectuelle le cadre juridique de la contrefaçon est souvent plus facile à utiliser en tout cas à l’intérieur d’un même pays.

  6. Stéphane 17 juillet 2014 à 9 h 28 min #

    Le débat est difficile effectivement. Cela dépend surtout de la façon dont les informations sont restituées à l’utilisateur. Reprendre tel quel un contenu va à l’encontre des droits d’auteurs mais analyser une information pour la donner à l’utilisateur de façon utile, sans bruit pouvant la compliquer ou la dénaturer, c’est un autre travail, un travail d’analyste.

Trackbacks/Pingbacks

  1. Les sites de presse contre les logiciels de veille | e-documentaliste - 9 juillet 2014

    […] de semonce chez les utilisateurs des logiciels de veille. Sur son site, Frédéric Martinet évoque les fameux fichiers robots.txt de sites de presse (Le Monde, Les […]

Laisser une réponse