[Privacy Research Day] Attaques par inférence et (ré)identification
Rédigé par Mehdi Arfaoui et Vincent Toubiana
-
14 juin 2023La deuxième édition du Privacy Research Day a eu lieu à la CNIL à Paris le 14 juin 2023. Mettant à contribution des experts de différents domaines, la CNIL souhaite ainsi renforcer les ponts entre le champ académique international et les régulateurs. Le LINC publie un retour sur cet événement ainsi qu'une synthèse des principales contributions de chacun des panels.
Sommaire :
- [Panel 1] Les effets de la régulation
- [Panel 2] Attaques par inférence et (ré)identification
- [Panel 3] Du point de vue de l’utilisateur
- [Panel 4] Peut-on faire confiance aux PETs ?
- [Panel 5] L’intelligence artificielle en pratique
Anonymiser correctement des données n’est jamais simple, en particulier les données de géolocalisation. Est-il vrai que la localisation de personnes ne crée aucun préjudice sérieux pour les utilisateurs ?
Pour ouvrir ce panel, Romain Pialat, ingénieur au LINC nous a proposé la présentation de l'enquête GeoTrouveTous. Cette enquête (re)pose la question de la réidentification des individus à partir d’échantillons de données de géolocalisation collectées via des smartphones et revendues par des data brokers. Les data brokers affirment que leurs bases de données sont anonymes et donc non couvertes par le RGPD. En développant une technique de clustering, le LINC est parvenu à estimer une adresse de domicile et de lieu de travail pour la quasi-totalité des 800.000 propriétaires des smartphones présents dans la base de données. Il n’y a cependant aucune garantie que ces adresses soient les bonnes, aussi un test a été effectué sur un petit échantillon de 20 identifiants pris aléatoirement pour voir s’il était possible de les réidentifier. Pour ces 20 identifiants, dans plus d’un tiers des cas il a été possible de remonter à une personne.
Après cette introduction, le premier intervenant de ce panel, Karel Dhondt (Doctorant en informatique, KU Leuven, Belgique), a montré, à partir d'une enquête déjà présentée à la Conference on Computer and Communications Security 2022, qu’en pratique les mesures mises en place pour publier des données de courses anonymisées sont loin d’être aussi efficaces qu’on pourrait le penser. Même lorsqu’on utilise des protections très sophistiquées, il reste possible de réidentifier des personnes à propos desquels on dispose de données de course. Karel a repris le cas des applications de fitness et de la faillibilité des zones de confidentialité mises en place par ces applis. Le cas de ces applications est d’autant plus intéressant que la pandémie de Covid-19 a engendré la fermeture des salles de sport, et par là même, une augmentation du sport en extérieur. Plusieurs scandales, notamment sur la propension de ces applications à permettre la localisation de bases militaires, ont toutefois attiré l’attention sur les attaques possibles sur la vie privée. Ces applications permettent en effet de partager un parcours, associé à un ensemble d’information sur le trajet et les performances. La fonctionnalité « Endpoint Privacy Zones » de ces applications permet en théorie de masquer les points de départ et d’arrivée exacts des trajets. Karel s’est ainsi demandé s’il est possible de retrouver les points de départ et d’arrivée exacts malgré cette fonctionnalité. Pour ce faire, différentes informations peuvent être utilisées, dont la distance totale du parcours fournie par toutes les applications, et la distance intérieure de la zone de confidentialité (inner distance) parfois fournie par certaines applications. Karel a ainsi démontré qu’en associant la distance intérieure avec la liste des trajets possibles au sein de cette zones (rues, impasses, zones impraticables, propriété privée) et les différents points d’entrées sur la zone, il est possible pour un attaquant de réduire fortement les localisations probables des points de départ et d’arrivée, avec dans de nombreuses situations, une sérieuse atteinte portée à la vie privée des sportifs. A cet égard, Karel a proposé plusieurs mesures de protection : notamment réduire la précision des distances affichées, réduire de façon générale la quantité d’information non nécessaire accessible, et accompagner les utilisateurs dans la configuration des options les plus respectueuses de la vie privée. Les utilisateurs peuvent en effet eux-mêmes déployer des techniques de protection, en s’assurant d’avoir activé les Endpoint Privacy Zones, efficace malgré les vulnérabilités, en rendant systématiquement leurs activités privées, et en commençant/interrompant leur course loin de leur domicile.
Alors que l’introduction et la première présentation du panel ont permis de rappeler qu’il n’est jamais simple d’anonymiser des données de localisation, la deuxième intervention traite des systèmes à base de requêtes (« Query Based System ») permettant en théorie d’interroger une base de données sans que des informations personnelles ne puissent en être déduites. Ana-Maria Cretu (Doctorante en informatique, Imperial College London, Royaume-Uni) montre toutefois dans son intervention que la promesse faite par les Query Based Systems n’est pas toujours complétement tenue et qu’il reste possible, en théorie, d’en extraire des informations et de retrouver (avec une certaine probabilité) les attributs d’une personne. Ana-Maria a d’abord rappelé qu’il y a une sorte de jeu du chat et la souris entre les attaques contre ces systèmes et les contremesures déployées. Ainsi, pour éviter que le système ne donne une réponse trop précise à propos d’un individu il est souvent recommandé d’ajouter un bruit aléatoire, mais les attaquants, en multipliant les requêtes, peuvent évaluer ce bruit et parvenir à le supprimer. Une contremesure est alors de conserver le même bruit lorsque l’on reçoit plusieurs fois la même demande. Mais, là encore, les attaquants peuvent contourner cette protection en posant des questions légèrement différentes et en jouant avec des effets de seuils. Même si les contremesures déployées rendent la tâche plus compliquée, attaquer les Query Based Sytems pour en extraire des informations à propos de personnes restent donc possible. Afin d’évaluer les risques de fuites d’informations de ces systèmes, Ana-Maria Cretu et ses co-auteurs ont développé QuerySnout, un outil qui soumet différentes requêtes au système et qui, en étudiant les réponses, optimise les requêtes permettant de déduire des informations. Le code de l’outil a été publié dans un article expliquant son fonctionnement afin de permettre aux concepteurs de Query Based Systems d’en évaluer la robustesse. Comme souvent lorsque des outils d’évaluation de la robustesse d’un système sont publiés, la question de leur potentielle réutilisation par des attaquants est soulevée. Il est possible d'approfondir ces questions en accédant aux résultats détaillés également publiés à la Conference on Computer and Communications Security 2022.
Pour autant, est-ce que ces attaques correspondent vraiment aux préoccupations des usagers ordinaires ? La troisième intervenante de ce panel, Laurianne Trably (Doctorante en sociologie Université Paris Cité, France), a contribué à répondre à cette question en présentant les résultats d’une enquête doctorale en cours sur ce que les personnes craignent quand elles partagent leurs données. Laurianne rappelle que la plupart des travaux sur les usagers du numérique et la protection de leur vie privée sont réalisés du point de vue des groupes sociaux les plus familiers du numérique, ou du point de vue des mineurs. Elle propose donc pour sa part d’observer à l'inverse les usagers adultes « ordinaires » de zones rurales. Cette population rarement étudiée est particulièrement intéressante puisque, tout en étant massivement connectée à internet, elle n’a parfois pas les outils et les compétences pour se protéger en ligne. Alors, comment est-ce que les usagers ordinaires appréhendent-ils leur vie privée sur internet et les réseaux sociaux ? En se basant sur 54 entretiens biographiques avec des adultes de zones rurales, Laurianne montre que ces usagers ne sont pas vraiment informés sur les standards de protection de la vie privée en ligne, ou sur ce qu’est la définition conventionnelle d’une donnée personnelle. Toutefois, les enquêtés développent une sensibilité et des stratégies propres. Concernant les risques perçus par les adultes de zones rurales, on compte l’exploitation des images de leurs enfants à des fins de harcèlement ou de pédopornographie, l’exposition de signes de richesse pouvant amener à des formes de contrôle fiscal, ou encore les signes d’absence au domicile pouvant informer de potentiels cambrioleurs. Tout en étant conscients de ces risques, les internautes des zones rurales souhaitent utiliser et communiquer activement sur les réseaux sociaux. Par conséquent, ils et elles développent un ensemble de stratégies pour exposer leur vie privée tout en la protégeant : le nom qui apparaît à l’écran est pseudonymisé ou abrégé (on utilise par exemple que les consonnes), la photo de profil n’est pas identifiante, les photos des enfants ne montrent qu’une partie du corps (les pieds d’un nouveau-né par exemple). En conclusion, les utilisateurs des zones rurales n’ont pas nécessairement des compétences conventionnelles pour protéger leur vie privée en ligne, et ce niveau de compétence dépend en particulier de l’âge, du lieu de résidence et du métier. Toutefois, le fait d’être vu et reconnu en ligne est important. Ainsi, même dépourvu d’outils et compétences standardisées, les utilisateurs cherchent et développent des stratégies qui permettent de s’exposer à moindre risque.
Les discussions concluant la table ronde ont ensuite porté sur le cas de situations où le fait de n’être pas identifié peut tout de même porter atteinte à la vie privée. Dans l’ensemble, les intervenant.es étaient d’accord pour constater que le fait que les utilisateurs ne percevant pas concrètement le risque de réidentification ne sont pas encouragé à se protéger. Plus encore, le paradoxe de la vie privée (privacy paradox) pousse certains utilisateurs à accepter ces risques de réidentification, en échange de services rendus par les plateformes. Nous avons ensuite ouvert sur la possibilité de produire des outils fournissant non seulement des évaluations de risque comme QuerySnout, mais également des solutions pour se protéger des attaques.