Cookies, fingerprinting : bientôt une plateforme ouverte pour traquer les trackers ?

Rédigé par Régis Chatellier

 - 

19 août 2016


Deux chercheurs de l’université de Princeton, Steven Englehardt and Arvind Narayanan, ont « tracké les trackers » sur plus d’un million de sites internet, à la recherche des cookies et autres « fingerprints ». Un premier jalon vers le développement d’une plateforme de recherche de trackers.

pixabay-cc-by-markuspisske.jpg

Durant le mois de janvier 2016, ce sont plus de 90 millions de requêtes qu’ils ont effectué vers ces sites avec OpenWPM, afin de constituer la plus grande base de données dédiée à l’étude du tracking sur le web. L’objectif était d’abord de repérer les cookies pour chacun des sites, mais aussi d’analyser les nouvelles méthodes de suivi en ligne au travers du fingerprinting (le repérage de l’empreinte digitale des navigateurs sans implémentation de fichier sur l’ordinateur).

La « longue traîne » des cookies

Sur un millions de sites web, ce sont 81000 cookies différents que les requêtes ont pu repérer, dont seulement 123 sont présents sur plus de 1% des sites. Le nombre de cookies rencontrés par un internaute reste ainsi « relativement » restreint. Sans surprise, 12 parmi les 20 cookies les plus présents sont la propriété de Google. Et les plus fréquemment rencontrés sur la toile sont ceux de Google, Facebook et Twitter, que l’on retrouve sur plus de 10% des sites requêtés pour l’étude, certainement dû à l’omniprésence des boutons de partage sur les réseaux sociaux. Comme le remarque Libération dans son édition du 4 août 2016, ce ne sont pas les sites pornos qui pistent le plus les internautes - ils arrivent même en dernier du classement - mais bien les sites d’information générale. Plus généralement, on constate sans surprise que les sites dont le modèle économique est basé sur la publicité sont les plus partageurs/diffuseurs de données personnelles. Les sites de vente en ligne sont pour leur part tout juste « au-dessus de la moyenne ».

Le G29, groupement des CNIL européennes avait mené une opération similaire en septembre 2014, dans le cadre des Cookies Sweep Day. Sur 478 site de e-commerce, de médias et du secteur public de huit pays européens, une centaine en France, ils avaient pu identifier 16555 cookies, 70% étaient des cookies tiers, dont certains avaient des durées potentielles de conservation allant jusqu’à 8000 ans !

 

Des nouvelles méthodes de suivi des internautes

Le fingerprinting se développe tant par le nombre de sites qui y ont recours que par leur diversité. Ces méthodes de reconnaissance de l’empreinte digitale des navigateurs, qu’avait déjà analysée une équipe de chercheurs de Princeton et de l’Université de Louvain en 2014, tendent à se répandre, utilisée sur de nombreux sites de médias, mais aussi des sites de e-commerce ou le service Dropbox. La plus connue et la plus répandue des méthodes reste le « canvas fingerprinting » : lorsque l’internaute ouvre un site, celui-ci lance un script contenu dans la page en faisant appel au navigateur, aux caractéristiques du système d’exploitation, à la carte graphique, etc. pour générer un dessin, invisible pour l’utilisateur. Ce dessin, unique à chaque ordinateur, est stocké par le site en question afin de permettre la reconnaissance du visiteur lors de ses visites suivantes, sans laisser aucun cookie sur son navigateur. A noter que l’un des services utilisant le Canvas Fingerprinting que l’on retrouve le plus souvent est Liverail, propriété de Facebook.

De nouvelles méthodes sont apparues pour parvenir à des résultats similaires : l’ « Audiocontext Fingerprinting » fait appel à l’empreinte sonore de l’ordinateur et à ses caractéristiques (que chacun peut tester ici), le « WebRTC Local IP Discovery » reconnaît pour sa part toutes les connexions réseau de l’ordinateur, le « Canvas-Font Fingerprinting » recense les différentes polices de caractères installées et utilisées par le navigateur, si a priori cette information paraît anodine, il faut savoir qu’il est très peu probable que deux ordinateurs aient la même liste de polices. Chacune de ces techniques, utilisées seules ou couplées à une autre, permet de lister et reconnaître les internautes et/ou client sans cookies tiers. Les services d’anti-tracking (tel Ghostery ou Easy Privacy) sont en mesure de bloquer certaines de ces techniques de suivi, mais restent pour le moment moins efficaces que pour le blocage de cookies, d’où l’intérêt pour Steven Englehardt and Arvind Narayanan de développer de nouvelles stratégies. A noter que le groupement des CNIL européennes (G29) considère, dans un avis de novembre 2014, que le fingerprinting est soumis aux mêmes règles de consentement que les cookies : l’article 5.3 de la directive 2002/58/CE telle que modifiée par la directive 2009/136/CE s’applique ainsi aux cookies et aux « technologies similaires ». L’avis considère en outre que l’empreinte digitale des appareils (et des navigateurs) constitue une donnée à caractère personnel.

Vers une plateforme d’analyse des trackers

Bien plus qu’une analyse « one shot », les chercheurs souhaitent créer un outil de mesure du respect de la vie privée qui puisse être utile non seulement aux chercheurs, mais aussi « aux régulateurs, aux personnes soucieuse de leur protection, aux journalistes, activistes et opérateurs de sites web », une plateforme « robuste et modulaire » qui permette des analyses récurrentes. Quand aujourd’hui ce sont des listes de trackers créées et mises à jour manuellement qui sont utilisées par les services d’anti-tracking, les chercheurs souhaitent utiliser le machine learning (apprentissage automatique) pour repérer et classer les trackers. La base de données déjà constituée devra permettre l’entrainement des algorithmes.

L’ensemble de ces travaux devra plus tard prendre la forme d’une plateforme web ouverte, accessible à des non spécialistes qui pourront eux-mêmes effectuer des recherches et des requêtes afin de vérifier si un site est respectueux de la vie privée.

 


 

Illustration : Pixabay-cc-by-markuspisske

 


 

Texte reference

Régis Chatellier
Article rédigé par Régis Chatellier, Chargé des études prospectives