Geo Trouve-Tous - La réidentification des données : de la théorie au cas pratique

Rédigé par Cyril Miras

 - 

13 juillet 2022


Le LINC a obtenu d’un courtier en données un échantillon gratuit de données de géolocalisation présenté comme anonyme. Afin d’expérimenter et tester  les critères d’anonymisation, le LINC lance sur l’année 2022 un projet d’évaluation du risque de réidentification à partir de ces données mal anonymisées. Il testera ensuite des méthodes d’anonymisation qui permettraient d’utiliser les informations qu'elles contiennent tout en limitant les risques pour la vie privée des personnes.

En quoi consiste ce projet ?

 

Enjeux autour des données de géolocalisation

 

Les données de géolocalisation d’utilisateurs de smartphones présentent un intérêt pour de nombreux acteurs du numérique : elles peuvent être utilisées dans de nombreux contextes, pour lutter contre les épidémies ou optimiser le trafic routier, mais aussi à des fins de traçage publicitaire ou de surveillance du comportement, ainsi que de nombreuses autres applications. Le LINC s'interrogeait en 2017 dans son Cahier IP, La plateforme d'une ville (page 32), si les données de géolocalisation n'étaient pas de "nouvelles données sensibles" ? : "Les données de localisation et de flux sont aux données personnelles ce que les cellules souches sont à la biologie cellulaire : « totipotentes », elles permettent par leur richesse contextuelle d’inférer d’innombrables autres données sur les comportements, les habitudes, les modes de vie d’une personne. Savoir où vous habitez peut permettre de déduire vos revenus, savoir où vous vous déplacez, de déceler votre mode de vie (loisirs, situation familiale …), vos pratiques religieuse ou orientation sexuelle, voire votre état de santé." A titre d’exemple, le chercheur Yves-Alexandre de Montjoye a démontré dès 2015, à partir de l'étude des données de cartes bancaires, produites sur trois mois par 1,1 million de personnes, que seuls quatre points "spatio-temporels" (coordonnées géographiques, date et heure) suffisent pour isoler la trace de 90% des individus dans un jeu de données de 1,1 millions de personnes. Cette manne d’information est convoitée par des courtiers en données, qui se spécialisent dans la collecte et la revente de données de géolocalisation, d’autant plus valorisables qu'elles sont nombreuses et précises.

 

Cependant, l’ambition de collecter et revendre des données extrêmement précises pose la question du respect de la protection des données des personnes qui contribuent – souvent sans le savoir - à ces jeux de données. En effet, dans certains cas, des entreprises ont érodé la confiance de leurs utilisateurs en revendant les données de localisation concernant des enfants, en dévoilant publiquement l’orientation sexuelle d’une personne ou en transmettant les données de personnes visitant des centres d’avortement aux Etats-Unis. Dans ce dernier cas, de nombreuses personnes ont exprimé leur crainte que ces données puissent être utilisées pour poursuivre des femmes étant allées dans un centre d’avortement, suite à l’annulation de l’arrêt Roe v. Wade. Peu après cette décision, Google a ainsi annoncé mettre en place la suppression automatique des entrées correspondant à ces visites, ainsi qu’à d’autres endroits considérés comme « particulièrement personnels ». Dans l’Union Européenne, la donnée de géolocalisation associée directement ou indirectement à une personne est une donnée personnelle, les responsables de traitement ont dès lors à appliquer les obligations sur le traitement de ces données et à respecter les droits des personnes dont la position est ainsi collectée.

 

 

La revente de données de géolocalisation en revues

En février 2021, un data-broker était pointé du doigt pour avoir récupéré les données de localisation des utilisateurs de l’application Salaat First (une application de prière) et les avoir transférées à une agence qui les revendait au gouvernement américain. Suite à cela, les applications utilisant ce SDK ont été bannies du Play Store.

 

Début juillet, le média Danois TV2 annonçait avoir pu acheter les données de localisation de 60.000 smartphones pour 4.800€. L’autorité Danoise a ouvert une enquête sur le data broker concerné.

 

Fin juillet, le journal The Pillar récupérait les données de localisation Grindr du prêtre Jeffrey Burrill et s’en servait pour dénoncer son orientation sexuelle. Cela a fait l’objet d‘une brève sur le site LINC et a motivé une étude de cet écosystème.

 

En septembre, le journal The Markup publiait une première enquête sur le marché des données de localisation. L’enquête mettait en lumière le rôle de nombreux data brokers.

 

En octobre, le site Vice indiquait qu'un data broker revendait des données collectées sans consentement des utilisateurs. Suite à cette publication, en décembre Google a imposé aux applications utilisant ce SDK  de demander un consentement sous peine d’être bannies du Play Store.

 

Enfin, le 6 décembre 2021, The Markup révélait que l’application de protection familiale Life360 revendait les données de localisation de ses utilisateurs sans passer par un SDK (l’application revend directement les données qu’elle collecte).

 

Le 11 avril 2022, John Oliver consacrait son émission Last Week Tonight aux courtiers en données. Il y présente de nombreux cas où la revente de données personnelles a posé problème aux Etats-Unis et y démontre qu’il est possible de réidentifier des responsables politiques simplement à partir de données achetées en ligne.

 

La récente décision de la Cour Suprême des Etats-Unis a relancé la discussion sur les risques de réutilisation des données de géolocalisation. En mai 2022, alors qu'un draft de la décision avait été rendu public, The Vice montrait qu'il était possible pour 160$ d'obtenir des informations sur les personnes visitant des centres d'avortement.


Anonymisation ou de-identification ?

 

L’anonymisation des données, qui consiste à traiter les données de sorte à rendre impossible l’identification d’une personne en particulier, peut permettre d’assurer que leur partage se fait dans le respect des personnes. En effet, partager des données anonymisées permet de s’affranchir des contraintes imposées par le RGPD, dès lors que ce ne sont plus des données personnelles. De nombreuses techniques promettant de partager des informations issues de données de géolocalisation en diminuant les risques liés à la confidentialité ont été proposées, et un certain nombre d’exemples est cité dans les revues consacrées au sujet. Cependant aucune technique d’anonymisation ne permet de conserver l’intégralité des informations souhaitées tout en éliminant les risques de réidentification. Ainsi, un compromis doit souvent être trouvé entre les garanties d’anonymat des différentes techniques existantes et l’utilité des données en vue d’une finalité particulière.

 

La dé-identification consiste à simplement remplacer les informations directement identifiantes d’un jeu de données (comme le nom, le prénom, etc…) par des identifiants indirects (par exemple sous la forme d’un numéro ou d’un autre nom), elle est parfois utilisée pour limiter les risques liés au traitement de données personnelles. En revanche, contrairement à l’anonymisation, ce type de procédé peut être réversible, et il est parfois possible de réidentifier des personnes concernées en utilisant des données annexes. Pour cette raison, de telles données contenant des identifiants indirects restent des données personnelles, leur traitement et partage est soumis au RGPD !

 

Dans certains cas, ce risque s’est réalisé, des personnes ayant déjà été réidentifiées dans des jeux de données de géolocalisation en libre accès, à Melbourne ou à New York. Suite à ce dernier exemple, dans lequel plusieurs célébrités américaines ont été réidentifiées, le LINC avait illustré en 2017, dans le projet CabAnon, comment différentes techniques d’anonymisation pouvaient être appliquées sur les données publiées. Notre projet vise à continuer ces recherches, et à les appliquer au cas des données de localisation revendues en ligne.

 

Objectifs du projet

 

L’objectif de ce projet consiste à tester sur un exemple concret, et le cas échéant démontrer, les risques de réidentification liés à la revente, par un courtier, de données de géolocalisation dé-identifiées. Ce faisant, notre but est double : d’une part, il s’agit de sensibiliser le public aux risques posés par le partage et la revente de données personnelles ; d’autre part, nous souhaitons montrer que des techniques d’anonymisation plus poussées sont nécessaires pour assurer la protection des utilisateurs et le respect de la loi. Cette étude s’inscrit également dans l’une des thématiques prioritaires de contrôles  puisqu’en 2022 la CNIL « vérifiera la conformité au RGPD des professionnels du secteur [de la prospection commerciale], en particulier de ceux qui procèdent à la revente de données, y compris, des nombreux intermédiaires de cet écosystème (aussi appelés data brokers) ».   

 

Par ailleurs, la CNIL cherche également, à travers ce projet, à améliorer sa compréhension des canaux de collecte et de distribution des données de géolocalisation à partir des applications mobiles, ainsi qu’à développer, dans la mesure du possible, sa connaissance des méthodes pouvant conduire à une réidentification de personnes à partir d’un jeu de données de géolocalisation.

 

Quelles données seront utilisées ?

 

La base de données que le LINC a récupérée contient environ 100 millions de points de géolocalisation situés en France métropolitaine, récoltés sur une semaine (du 8 au 15 octobre 2021), et concernant 5 millions d’identifiants distincts. Il s’agit d’un échantillon obtenu gratuitement auprès d’un courtier de données (data-broker), qui loue l’accès à la base complète pour quelques milliers d’euros par mois. Les noms, prénoms et autres données directement identifiantes sont absentes de la base dans laquelle figure néanmoins les identifiants publicitaires des utilisateurs dont les données sont revendues. Nous avons filtré les données de sorte que seuls les identifiants ayant plus de 10 points de mesure pendant la semaine ont été conservés.

 

 

Carte france geoloc.png

Histogramme des points de mesure présents dans la base de données, sur une grille recoupant l’ensemble du territoire français Il n’y a pas de données dans les carrés blancs, la couleur des autres est définie par l’échelle à droite. La répartition des points reproduit la carte de densité de population du territoire métropolitain.

 

 

Pour aller plus loin

 

Sur le site de la CNIL :

RGPD : Comment recueillir le consentement des personnes ?, août 2018

L’anonymisation des données personnelles, mai 2020

Le G29 publie un article sur les techniques d’anonymisation, avril 2014

 

Sur le site du LINC :

Projet CabAnon :

Mobilitics, découvrir la partie immergée de l’iceberg des apps pour smartphone, novembre 2014

Nouvelles frontières des données personnelles, février 2016

C’est l’histoire d’un prêtre qui rentre dans un bar, de l’importance de l’anonymisation, juillet 2021

 

Réidentification à partir de données publiques à Melbourne:

Pursuit, université de Melbourne, Two data points enough to spot you in open data records, août 2019

Office of the Victorian Information Commissioner, Disclosure of myki travel information, août 2019


Crédit photo : Pixabay By_Me

 

 


Article rédigé par Cyril Miras , Stagiaire en analyse de données au LINC