Nouvelles frontières des données personnelles
Rédigé par Régis Chatellier
-
15 February 2016L'exponentielle collecte des données sur le web, les réseaux sociaux et les objets connectés, redéfinit et questionne l'idée même de données personnelles. Comment cette notion a t-elle évolué, qu'en sera-t-il dans le futur ?
Vit-on une évolution radicale de la notion de données personnelles ? Leur définition devient si mouvante, mobile et évolutive qu'il parait contre-productif de vouloir la figer. Les données personnelles sont de plus en plus subjectives, relatives et contextuelles.
Données de qualification, de vie, de personnalisation
Aux habituelles données de qualification (genre, âge, lieu de résidence), les marketeurs ont ajouté des informations ou "artefacts" (Antoinette Rouvroy) de la vie quotidienne, partagés sur les réseaux sociaux (où je suis, ce que je fais). Le développement des objets connectés contribue maintenant à créer des données toujours plus intimes et personnelles, des traces de vie produites à des niveaux suffisamment fins pour donner des indications sur la personne : les objets connectés du Quantified Self captent et partagent le nombre de pas, les pulsations cardiaques, la qualité du sommeil, voire le niveau de stress. Des données personnelles, voire de l'intime, qui deviennent des "données sensibles" dès lors qu'elles sont utilisées en tant que données de santé.
Les "données personnalisées" viennent encore enrichir ces données classiques. L'adresse IP utilisée pour s'inscrire à un service peut être utilisée pour définir et retrouver une personne. L’identité réelle importe assez peu dans ce contexte. Jean Frayssinet soulignait dans le cahier IP 1, Vie privée à l'horizon 2020, que "ces données posent le problème du contrôle sur l’assemblage et le profilage qui en résulte."
La facilité de ré-identification des personnes est croissante, même au sein de jeux de données supposés anonymisés. Daniel Le Métayer et Claude Castelluccia (Inria) expliquent, "c'est la capacité à combiner les données qui change tout, n’importe quelle donnée peut devenir identifiante une fois combinée. Par exemple une combinaison du salaire et du lieu de naissance peut permettre de « descendre » à l’identification d’un seul profil correspondant, une combinaison âge + école peut donner une approximation du salaire. On peut donc dorénavant inférer une donnée sensible de données qui ne le sont pas. Or la loi ne protège pas assez contre ces profils de groupe, qui peuvent conduire à de fortes discriminations. »
Question de l'anonymisation
Dans un article en 2009, Paul Ohm avait statué sur l'échec de l’anonymisation : "la confiance dans le pouvoir protecteur des techniques d’anonymisation a certainement été surévaluée, et si des techniques statistiques permettent de désanonymiser facilement des individus alors il faut cesser de faire passer la limite centrale de nos réflexions entre les données directement et indirectement identifiantes." Le chercheur du MIT Yves-Alexandre de Montjoye a démontré en 2015, à partir de l'étude des données de cartes bancaires, produites sur trois mois par 1,1 million de personnes, que seuls quatre points "spatio-temporels" (coordonnées géographiques, date et heure) suffisent pour retrouver l'identité de 90% des individus. Connaître le tarif des transactions permet d'augmenter encore le risque de ré-identification de 22%. Déjà, en 1997, la doctorante du MIT Latanya Sweeney, avait retrouvé les données de santé du gouverneur de l’État au sein des données anonymes publiques en utilisant d’autres données ouvertes (lui permettant de définir son âge, code postal et sexe).
Le G29 (groupement des CNIL européennes) a pris en compte cette question dès avril 2014, dans un avis portant sur les techniques disponibles et leur portée, prenant acte que l’anonymisation et la ré-identification sont des domaines de recherches très actifs ou de nouvelles découvertes sont régulièrement publiées, avait considéré l’anonymisation comme un exercice ponctuel qu’il convient de réévaluer régulièrement au regard des risques associés. Le projet de loi pour une République numérique prévoit de missionner la CNIL pour la certification, l’homologation et la publication de référentiels ou de méthodologies des processus d'anonymisation.
L’avènement de l’Internet des objets transformera peut-être tout objet communiquant en un producteur potentiel de données à caractère personnel par croisement, mélange, analyse, computation. Il y aura certes toujours une gradation : certaines données sont plus ou moins identifiantes, mais le monde des données personnelles et des traces devrait grandir au moins aussi vite que le monde des données en général, à vitesse exponentielle...
Image : Flickr-cc-by-SeeMingLee