August 11, 2012

Observations sur le changement de l'algorithme de Google / Violations du droit d'auteur

Chez Google, le mois d'août semble propice aux changements de politique en matière de propriété intellectuelle ! Il y a deux ans, la société annonçait modifier son règlement AdWords pour laisser plus largement aux annonceurs la possibilité d'utiliser des marques. Elle vient cette fois d'annoncer une évolution du référencement naturel sur fond de protection du droit d'auteur.

De quoi s'agit-il ?
Google tient compte d'un certain nombre de critères (200, selon ses propres dires) pour classer les sites : fraîcheur du contenu, ancienneté du nom de domaine, etc. Certains de ces paramètres sont connus pour être communiqués par Google (en particulier via Matt Cutts, devenu le porte-parole auprès des webmasters). Le plus célèbre est celui décrit par les concepteurs de l'algorithme dans un article scientifique : le nombre de liens pointant vers une page (Sergey Brin and Larry Page, The Anatomy of a Large-Scale Hyper-textual Web Search Engine, 1998). D'autres critères de pondération sont devinés empiriquement par des spécialistes de SEO.
Google vient d'annoncer qu'un nouveau critère sera désormais pris en compte pour classer un site : le nombre de notifications pour violation du droit d'auteur visant ce site.

Contexte
Depuis la création de la méthode de classement des sites, l'algorithme a beaucoup évolué. Parmi les changements notables, l'analyse et le traitement des milliards de requêtes effectuées sur le moteur, intelligence collective permettant  à Google d'affiner les résultats qu'il fournit.
Google a annoncé en mai 2012 qu'il recevait plusieurs millions de demandes de retrait de contenus, ou de suppression de liens vers ceux-ci. Ces notifications de violation de droit d'auteur sont publiées par le géant californien.
Trois mois plus tard, alors que Google indique que ces éléments vont jouer dans le classement des sites concernés, on peut faire un lien entre ces deux annonces : le moteur dispose d'une base de données qualifiées (les sites présumés coupables de violations massives du droit d'auteur) dont il est logique qu'il l'exploite pour affiner un peu plus encore son algorithme. La société est un modèle de compréhension et d'analyse des big data, et la démarche s'inscrit mécaniquement dans ses processus de traitement.
Néanmoins, cette évolution n'est pas anodine sur le plan juridique.

En quoi est-ce important ?
Jusqu'ici, tous les critères dont Google semblait tenir compte pour établir son classement n'étaient que de nature technique ou éditoriale. La contrainte juridique ne pesait pas sur la structure même de l'algorithme : quand une décision de justice ici, une injonction là, une notification de retrait ailleurs, obligeait Google à supprimer de son moteur de recherche un lien, ce lien était exclu des résultats, mais sans modification de l'algorithme lui-même.
Les choses ont désormais changé : le non-respect d'une règle de droit devient un critère d'appréciation de la valeur d'un site. Le code intègre donc le droit.

Pourquoi ce changement ?
Google indique avoir procédé à cette modification afin d'aider les utilisateurs à trouver des ressources de qualité, qui soient aussi "gitimes" ("This ranking change should help users find legitimate, quality sources of content more easily"). De mémoire, jamais encore Google n'avait pas parlé de "légitimité" dans l'appréciation qu'il fait d'un contenu, son discours tournant toujours autour de la qualité et des attentes des utilisateurs. 
La légitimité peut être une attente des internautes, mais elle constitue d'abord une question de jugement, délicate à apprécier.

Qui Google va-t-il pénaliser et comment ?
Comment une société privée opérant globalement peut-elle établir un critère de "légitimité" d'un site ? Google indique le faire au regard du nombre de notifications de violation de droit d'auteur visant un site ("Sites with high numbers of removal notices may appear lower in our results"). Cela appelle un certain nombre d'observations.

Existence de notifications : Google va donc tenir compte des requêtes destinées à obtenir la suppression de contenus violant le droit d'auteur. Mais il ne va, par hypothèse, tenir compte que des requêtes qu'il a lui-même reçues : soit celles visant le moteur et destinées à obtenir la suppression d'un lien, soit celles visant des contenus des sites qu'il administre (YouTube, Blogger...). Un site illégal dont l'hébergeur aurait plusieurs fois été invité à supprimer des pages ne serait donc pas affecté, les notifications ayant été faites à un tiers à Google. L'effet mécanique de la mesure annoncée par Google pourrait donc avoir pour effet d'inciter les ayants droit à adresser leurs notifications à Mountain View plutôt qu'aux auteurs des infractions. Le volume de requêtes reçues par Google pourrait donc augmenter (et parallèlement nourrir sa base de données désormais intégrée à son algorithme, et donc amplifier le mécanisme mis en place...).

Notifications pour violation du droit d'auteur : le changement de politique ne touche qu'au droit d'auteur. Un site parking sous un nom de domaine contrefaisant une marque n'est donc pas visé, par exemple, pas plus qu'un site diffusant des épreuves sportives ou appelant à la haine.
Pourquoi seulement le droit d'auteur ? Parce qu'en ce domaine, les règles internationales applicables permettent au détenteur d'un droit d'en jouir - je simplifie - à l'identique partout dans le monde ou presque (article 5 de la Convention de Berne). Il existe donc un standard unique et global - ce qui viole le droit d'auteur dans un pays le viole aussi dans d'autres pays - qui peut facilement être utilisé par un opérateur global comme Google.
Ce n'est pourtant qu'un trompe l'oeil... Car si le droit d'auteur est harmonisé internationalement, ce n'est pas le cas des procédures de notification de violation de ce droit. En droit américain, c'est le DMCA qui s'applique, en France le fameux article 6 de la LCEN, etc. : chaque pays dispose en droit interne d'un mécanisme de notification. Or, à lire le communiqué de Google, il semble que seules les notifications fondées sur le DMCA seront de nature à affecter le classement des sites : en effet, ce communiqué renvoie au Transparency Report qui ne fait a priori que recenser les requêtes reçues sur le fondement de ce texte.
Si cela est avéré, les notifications faites à Google sur la base de la LCEN ne priveront pas les sites visés dans ces notifications de leur rang dans les résultats. Une clarification de la part du moteur pourrait être bienvenue à cet égard.
Autre conséquence, toujours si cela est avéré : une notification faite sur le fondement du DMCA ne peut être relative qu'à la version américaine du droit d'auteur. Un régime qui ne connaît pas le droit moral, et est surtout bien plus souple que le régime français : le fair use permet des utilisations d'oeuvres interdites par le code de la propriété intellectuelle en France. Dans cette optique, il est des pratiques illégales au regard du droit français qui n'auraient pas pour conséquence de pénaliser le classement des sites (français) sur lesquels elles ont été constatées. 

Validité des notifications : Google ne tiendra compte - et heureusement ! - que des notifications valablement effectuées. Elles devront donc respecter les formalités du DMCA. Surtout, elles ne devront pas être suivies de contre-notifications - mécanisme du DMCA permettant d'obtenir le retour au statu quo ante quand la demande de retrait formulée était irrégulière.

Caractère répété : ce n'est pas la présence d'un contenu illicite qui pourrait affecter le classement d'un site, mais le fait qu'il ait été maintes fois visé par un demande de retrait. Autrement dit quand il y a violation manifeste. Google ne communique pas sur le nombre à partir duquel le risque de de-ranking existe : s'agit-il d'un plancher identique pour tous les sites, le nombre est-il fonction du nombre de pages du site en question (YouTube pourrait-il voir son PageRank baisser ?), etc. ? L'algorithme de Google étant protégé par le secret des affaires, on imagine mal que ce nombre-plancher soit connu... et l'on imagine encore moins un site ayant régulièrement violé le droit d'auteur engager une action en justice contre le moteur pour se plaindre de n'avoir pas connu le seuil à partir duquel la pénalité s'applique.

Effets de ce changement ?
C'est à partir de ce lundi que le changement sera mis en oeuvre. Les fins observateurs devraient bientôt faire part des évolutions qu'ils constatent dans les classements de Google : certains sites reculent-ils, et de combien de places ? L'effet est en tout cas immédiat chez les titulaires de droits, qui saluent l'initiative de Google.
Sur le plan de la circulation de l'information - une liberté à laquelle Google clame constamment son attachement... -, l'effet sera aussi à mesurer : est-ce que ce sont seulement les pages d'un site qui seront moins bien classées, ou le site en son entier ? Dans le cas des sites hybrides, sur lesquels coexistent des contenus illicites et d'autres licites, la politique de lutte contre les premiers pourraient affecter substantiellement la visibilité des seconds.
Autre conséquence : quand un lien était manuellement retiré de l'index, Google en informait les utilisateurs (voir l'illustration plus haut). Cette pratique va-t-elle perdurer ? Si oui, ces informations seront probablement rejetées au-delà de la première page de résultats, et donc moins visibles pour les utilisateurs.





No comments: