Dans les processus de veille et au sein des entreprises, la question de la légalité de la veille est parfois abordée et cette dernière comporte des aspects complexes.
Au cours de cet été, de nombreux médias français en ligne ont apporté des modifications à la structure des fichiers robots.txt mentionnant explicitement de nombreux éditeurs de logiciels de veille et agrégateurs de contenus en leur interdisant tout crawl et toute indexation des contenus de leur site.
Une évolution forte de sens et qui doit pousser le responsable veille ou intelligence économique à se réinterroger sur la légalité de l’exercice des pratiques de veille.
La nature de l’information
Il est d’usage dans la littérature traitant de l’intelligence économique de parler de la nature de l’information en la segmentant en trois ou quatre parties :
- L’information blanche, qui est identifiable aisément, publique et accessible sans frein ; cela ne veut pas forcément dire gratuite ou libre de tous droits. Par ailleurs, une information blanche peut être une information commerciale et protégée par le droit d’auteur,
- L’information grise, dont l’accès est légal, cependant pas très facile et parfois peu éthique,
- L’information noire qui nécessite d’enfreindre la loi pour y avoir accès et que l’on peut appeler « espionnage économique » ou « espionnage industriel »,
- Enfin, les secrets qui ne sont ni exprimés ni partagés par l’individu qui les détient.
Il est donc évident que la légalité de l’action de veille s’apprécie au regard des moyens qui sont mis en œuvre pour collecter l’information, étant donné qu’il n’existe pas d’information d’entreprise bénéficiant à ce jour d’une classification stipulant explicitement sa nature confidentielle et légalement opposable au tiers (à la différence de certaines informations d‘Etat par exemple). Il y a eu, cependant, plusieurs projets pour protéger le secret des affaires par un label « confidentiel entreprise ».
Nous allons donc examiner plusieurs cas tangents d’identification et de collecte de l’information «borderline ».
« Se maintenir à l’intérieur d’un système de traitement automatisé des données »
Le fait de s’introduire sans autorisation dans un système de traitement automatisé des données (c.a.d. un système informatique), ce qui est aussi communément appelé piratage informatique, est de toute évidence illégal. Par contre, il est parfois possible, par le biais de failles informatiques ou d’erreurs lors de la mise en ligne, d’accéder librement à des espaces qui auraient dû être protégés. Pour ce faire, le veilleur un peu agressif pourra exploiter des requêtes de type « Google Dorking » qui visent à identifier ces failles afin de récupérer des documents.
La jurisprudence récente vient d’apporter un éclairage sans équivoque sur cette situation. En ayant accès à un système qui aurait dû être protégé, en le sachant, en demeurant à l’intérieur de ce système après avoir recouru à des procédés qui visent à identifier ces failles, le veilleur serait alors dans l’illégalité. En récupérant des documents et en les partageant, il l’est « encore plus (1)»… C’est ce qu’a rappelé l’arrêt de la cour d’appel du 5 février 2014 dans « l’affaire Bluetouff ».
S’il peut, de prime abord, paraître aberrant d’être condamné pour avoir été trop performant dans l’utilisation de Google et trouver ainsi des documents confidentiels, c’est bien ici plus la volonté de trouver ces données et les moyens mis en œuvre, conjuguée au fait d’avoir conscience d’utiliser un accès frauduleux, qui a été condamné.
Le veilleur devra donc clairement prendre conscience qu’il se trouve potentiellement dans l’illégalité si, de par les procédés qu’il utilise, il accède à des espaces mal sécurisés. Si son employeur est considéré comme responsable, ce dernier pourra alors se retourner contre son salarié pour « abus de confiance ». Le dilemme sera bien cruel pour le veilleur en tant qu’individu.
« Porter atteinte au bon fonctionnement d’un SATD (2) »
Dans le cadre d’une démarche de veille, il est possible d’automatiser le processus de collecte et d’extraction des données sur différents sites web. C’est l’objet de logiciels tels que Website Watcher, Digimind, Ami Enterprise Intelligence, Sindup, Qwam, Spotter, KB Crawl, etc (3) …
Le logiciel parcourra chaque site web régulièrement, pour en extraire les nouvelles informations.
Le problème est alors la charge que l’action de surveillance fait reposer sur le SATD. En faisant des requêtes trop régulières, trop lourdes (générant trop de documents) sur le SATD, le veilleur ou le système qui exploite le logiciel de veille tombe dans l’illégalité en perturbant ou en risquant de perturber le bon fonctionnement du site observé. (Dans la pratique informatique cela peut être assimilé à une attaque en déni de service – DoS).
C’est ici la jurisprudence Cédric M contre Cdiscount (Cour d’appel de Bordeaux 3ème chambre correctionnelle – Arrêt du 11 novembre 2011) qui précise clairement que l’utilisation abusive d’un logiciel de veille au regard des capacités du SATD à absorber cette charge, est condamnable et qu’il est de la responsabilité du « veilleur » de s’assurer qu’il ne porte pas atteinte au bon fonctionnement du SATD.
Là encore par la chaîne de responsabilité, l’abus de confiance peut être utilisé par l’employeur pour se dégager de sa propre responsabilité aux dépens de celle de son salarié.
Restera la question de la responsabilité du logiciel de veille. A ma connaissance, à ce jour, il n’y a pas de jurisprudence sur ce point dont le cadre juridique reste complexe. Si la Loi sur la Confiance en l’Economie Numérique permet à l’hébergeur (ici le logiciel de veille SaaS) d’être dégagé d’un certain nombre de responsabilités (particulièrement sur les contenus protégés par le droit d’auteur), la question sera plutôt de savoir si l’hébergeur du logiciel de veille est responsable de la gêne causée sur le SATD. Cela peut à mon avis s’apprécier au regard des mécanismes de paramétrage et des cadenceurs (fréquence de crawl entre les pages d’un site web), des plafonds (nombre de pages maximum ou taille des documents) et des avertissements fournis par le logiciel de veille à l’utilisateur.
Les Robots.txt
La modification récente des fichiers robots.txt sur les sites de presse francophones (4) offre une lecture fort intéressante de l’acte de veille à bien des égards. En effet le fichier robots.txt, standard international édicté par le W3C, peut être perçu à la fois comme une contrainte sur les aspects techniques de la veille mais aussi sur les aspects de propriété intellectuelle.
Par ce fichier, chaque possesseur d’un site web peut s’adresser à un moteur de recherche ou à un « crawler » afin de lui interdire l’accès à certaines parties du contenu de son site (sauf mention « disallow », le contenu est autorisé en consultation et indexation par les moteurs de recherche).
La mise à jour de ces fichiers constitue un message fort à portée juridique comme le rappelle l’arrêt Bluetouff : ici il sera désormais difficile de dire que « l’on ne savait pas ».
Tout éditeur s’estimant lésé pourra désormais opposer au tiers, qu’en dehors du cadre juridique sur la contrefaçon, en s’appuyant sur des standards internationaux, il a « protégé » son système vis-à-vis de logiciels qui pourraient provoquer des dysfonctionnements.
Ce fichier constitue également un rappel à l’ordre sur les droits d’auteur en interdisant toute indexation du contenu à certains acteurs.
Dans le cas où de tels fichiers robots.txt seraient amenés à se multiplier, les éditeurs de logiciels de veille pourraient se trouver dans une situation délicate, offrant un service technique à leurs clients mais qui ne pourrait s’appliquer à aucun site comportant un tel fichier correctement rédigé.
Rappelons par ailleurs que dans l’arrêt de la cour d’appel de Paris du 26 janvier 2011, opposant la « société des auteurs des arts visuels et de l’image » à Google Inc. et Google France SARL, la cour a rappelé que le fichier robots.txt était un moyen recevable dans le but d’interdire l’indexation de tout ou partie de son site (5) .
Et les droits d’auteur ?
A lui seul ce point pourrait nécessiter des pages et des pages de débats et d’analyse sur la loi et sur les usages.
Rappelons toutefois quelques grandes lignes qu’il semble à ce jour essentiel de rappeler pour tout procédé de veille.
- Tout contenu qui est une œuvre originale de création de l’esprit humain est protégé par le droit d’auteur, que le contenu soit commercialisé ou proposé à titre gratuit. Grossièrement cela veut dire que même un article de blog, mis à disposition en ligne gratuitement, ne peut librement être rediffusé à l’intérieur d’une entreprise. Seuls les contenus libres de droit (Creative Commons ou autres) peuvent être exploités librement (attention toutefois à certaines restrictions comme la réutilisation commerciale et l’obligation de citer l’auteur original selon un certain formalisme).
- La revue de presse ne saurait être une compilation d’articles en texte intégral, y compris si la société ou la personne constituant la revue de presse est citée. Toute revue de presse ne peut être composée que de courtes citations et d’extraits visant à l’analyse, la mise en perspective.
- L’exception de copie privée ne s’applique qu’aux particuliers (art. L. 122-5 2° CPI).
Rappelons également que la jurisprudence a rappelé à plusieurs reprises que ce qui prime sur Internet c’est la liberté de faire des liens (6) , et que l’indexation du contenu est libre tant qu’elle n’est pas assortie de faits de contrefaçon. Ainsi, indexer des sites web pour y trouver des contenus et pointer vers ces derniers sans en offrir sur son propre site (ou logiciel de veille) une copie servile est autorisée (7) .
C’est bien là où le fichier robots.txt apporte un point de blocage supplémentaire, interdisant même l’indexation, y compris pour les procédés nécessitant des « copies dites techniques (8) ».
Remettre en cause nos pratiques de veille
Si à ce jour les services de veille des entreprises sont, pour beaucoup, à la recherche du logiciel miracle permettant de collecter le plus de contenus possibles et d’offrir un accès élargi en contournant des services de bases de données plus onéreux, ils ne devraient cependant pas céder aux discours commerciaux parfois enclins à quelques raccourcis ou omissions coupables…
Il est légitime pour les auteurs et les éditeurs de contenus de protéger leurs droits comme il est légitime pour nous, veilleurs, d’imaginer un positionnement de notre métier et une offre de services allant au-delà de schémas éculés des « revues de presse ».
Il y a fort à parier que dans une ambiance économique morose où nos entreprises sont à la recherche des « optimisations de coût», les équipes de veilleurs vont être amenées à connaître un avenir délicat. Alors que les agrégateurs de presse tels que Factiva se lancent sur une sectorisation de leur offre en proposant des « analyses » issues de l’exploitation fine et privilégiée de leur corpus, le veilleur doit quant à lui repositionner son métier alors qu’il est face à la propagation des compétences individuelles de veille des salariés et qu’il est challengé par les cabinets spécialistes de la veille.
Imaginons un veilleur connaisseur du Web, de la culture de l’entreprise qui l’emploie, technicien averti des logiciels et des standards utiles aux veilleurs. Reconstruisons notre métier comme celui d’un animateur capable d’apporter des solutions concrètes et personnalisées lorsqu’il s’agit de trouver de l’information et de maximiser son utilité.
N’hésitons plus à remettre au cœur du débat la valeur du dispositif de veille et celle du veilleur.
Identifions les schémas décisionnels de l’entreprise, les arbitrages et choix qui doivent être faits dans nos entreprises et intégrons l’information et la place du veilleur dans ces dispositifs pour enfin pouvoir parler de système d’information plutôt que de système informatique.
—
Le texte original de ce billet a été publié dans la revue NETSOURCES (n°112 de septembre/octobre 2014).
NETSOURCES est une publication bimestrielle dédiée à la recherche d’information sur internet (méthodologies de recherche, tendances dans les métiers de l’information, analyses d’outils performants, descriptions de sites à valeur ajoutée …)
Découvrir Netsources
—
[1] Plusieurs chefs d’accusation peuvent alors être retenus : délit d’extraction frauduleuse d’une base de données, délit de collecte de données à caractère personnel par moyen frauduleux, délit de contrefaçon.
[2] Système de Traitement Automatisé des Données
[3] Liste bien évidemment non exhaustive
[4] Dernièrement, les éditeurs de contenu de presse en ligne ont modifié un fichier sur leur site, le fichier Robots.txt, qui permet de communiquer avec les moteurs de recherche ou crawlers en leur indiquant le contenu dont l’accès est autorisé. Désormais de nombreux sites de presse français interdisent aux logiciels de veille l’accès à tout leur contenu. Pour plus d’information sur les robots.txt l’on pourra se référer à http://www.robotstxt.org/robotstxt.html ou au site du World Wide Web Consortium, w3c.org.
[5] « cet éditeur a en particulier la possibilité de poser des règles spécifiques pour chacune de ses pages et d’exclure de l’indexation les images représentées par l’utilisation de consignes (fichiers d’exclusion”robot.txt” et intégration de balises «Meta robots») ; qu’ainsi les titulaires de droits disposent de moyens de protéger les visuels fixes, l’automate d’exploration n’ayant accès qu’aux informations disponibles sur internet »
[6] Arrêt Swensson – Cour de Justice Européenne
[7] Le récent arrêt Meltwater ne fait que rappeler que la société Meltwater a payé des droits pour réaliser un service d’indexation et de courts extraits et pointer vers l’article original sur le site web de l’éditeur de contenu. Le client Meltwater en consultant le site original ne commet pas un acte contrefaçon, ne réalisant qu’une copie temporaire.
[8] Pour les copies techniques voir l’arrêt du 17 janvier 2012 de la Cour de Justice Européenne (Infopaq / Danske Dagblades Forening)