[Privacy Research Day] Peut-on faire confiance aux PETs ?
Rédigé par Mehdi Arfaoui et Vincent Toubiana
-
14 June 2023La deuxième édition du Privacy Research Day a eu lieu à la CNIL à Paris le 14 juin 2023. Mettant à contribution des experts de différents domaines, la CNIL souhaite ainsi renforcer les ponts entre le champ académique international et les régulateurs. Le LINC publie un retour sur cet événement ainsi qu'une synthèse des principales contributions de chacun des panels.
Sommaire :
- [Panel 1] Les effets de la régulation
- [Panel 2] Attaques par inférence et (ré)identification
- [Panel 3] Du point de vue de l’utilisateur
- [Panel 4] Peut-on faire confiance aux PETs ?
- [Panel 5] L’intelligence artificielle en pratique
Les Privacy Enhancing Technologies (PETs) promettent aux utilisateurs de pouvoir garder le contrôle sur leurs données dans tous types de services numériques : messageries instantanées, recommandation et ou création de contenus basés sur l’IA. Ces technologies n’ont-elles que des vertus ? Les participants à ce panel ont présenté différents types de PETs, leurs principaux cas d’usage et leurs limites.
Le panel a commencé par une introduction aux Privacy Enhancing Technologies reprenant le rapport publié par l’OCDE en mars 2023. Cette introduction a permis de rappeler que les PETs n’ont pas pour objectif de remplacer les réglementations sur la protection des données, mais bien de les compléter. La variété des PETs présente aussi un défi dans la catégorisation que l’on souhaite en faire et sur la possibilité d’arriver à une définition commune.
La détection de contenus sur les terminaux (connu sous le nom de Client Side Scanning) a fait l’objet de débat suite à la proposition d’Apple de scanner les contenus sur les terminaux en 2021. La proposition qui avait été faite de détecter les contenus pédopornographiques sur les terminaux avait causé une levée de boucliers car même si elle était effectuée sur le terminal de l’utilisateur, cette détection se faisait sans action de l’utilisateur et posait la question du contrôle effectif des terminaux par les utilisateurs.
Les travaux de Shubham Jain (Doctorant en sécurité informatique, Imperial College London, Royaume-Uni) remettent encore plus en question la pertinence de la détection de contenus sur les terminaux des utilisateurs. D’une part, un premier article déjà présenté lors du 31st USENIX Security Symposium montre que ces dispositifs sont facilement contournables. En effet, la détection de contenus pédopornographique repose sur la base de « hash perceptuels » de photo connues. Pour contourner cette détection, il suffit de modifier sensiblement l’image pour que son hash perceptuel soit modifié et que l’image ne soit plus détectée. Ainsi, l’efficacité de l’attaque est largement remise en question. Une seconde contribution de Shubham a été de montrer que le client-side scanning, présenté comme une technologie ne permettant que de détecter des images précises, peut-être détournée de son usage premier pour faire de la reconnaissance faciale. Ainsi, il ne s’agira plus de détecter des photos précises présentes dans une base, mais toutes les photos d’une personne recherchée par exemple. Une telle modification ne serait pas forcément détectable par les utilisateurs finaux qui ont, en définitive, assez peu de visibilité sur la détection de contenus qui est effectuée sur leurs terminaux. Cette première présentation de la session a donc remis en question la confiance qu’on peut avoir dans certaines technologies présentées comme protectrices de la vie privée
D’autres technologies de protection de la vie privée s’appuyant sur la cryptographie cette fois-ci, ont été évoquées. Maryline Laurent (Telecom SudParis, Institut Polytechnique) a présenté les systèmes de portefeuilles qui permettent aux personnes de prouver qu’ils ont certains attributs sans divulguer d’information permettant de les réidentifier ni même de les tracer. Le déploiement de ces portefeuilles, porté par la révision du règlement eIDAS, est lié à une volonté de permettre la création de marchés de données fiables et sécurisés. Ils permettront notamment de prouver que les internautes ont l’âge requis pour accéder à un site ainsi que de prouver d’autres attributs certifiés (qu’ils sont bien abonnés à un service particulier, qu’ils ont un diplôme d’études supérieur et/ou permis, etc.). L’équipe de Maryline Laurent a ainsi exposé un projet de développement de l’un de ces « portefeuilles » avec des garanties de pseudonymat (non réversibles et non reliables), de vérification d’identité et de minimisation des données.
Le chiffrement homomorphe et la differential privacy sont deux concepts relativement récents de plus en plus mobilisés. Succinctement, la differential privacy va « bruiter » un jeu de données de sorte à ce qu’on ne puisse plus être certain que les données d’un individu particulier y figurent bien. Cette technologie est déjà déployée par le biais de certains outils largement répandus tels que les correcteurs orthographiques. En effet, ces derniers s’appuient sur les données remontées par les utilisateurs pour se mettre à jour et détecter de nouvelle expression. Le chiffrement homomorphe est pour sa part une technologie permettant d’effectuer des opérations sur des données chiffrées sans avoir à les déchiffrer. Avec le chiffrement homomorphe, l’opérateur qui effectue l’opération ne voit jamais les données en clair. Bien que très prometteuse, cette technologie très peu déployée en pratique compte tenu des coûts computationnels qu’elle requiert. Arnaud Grivet-Sebert (CEA List, Saclay) a expliqué comment ces technologies pouvaient être combinées, quels étaient leurs coûts et quels étaient les inconvénients tant en termes de temps de traitement que de précision. La difficulté résidant toujours en la définition du juste équilibre. Une des solutions proposées par le CEA-List consiste à ne recourir au chiffrement homomorphe que lorsque cela est nécessaire et en essayant de l’appliquer aux opérations les moins coûteuses. Lorsque cela n’est pas possible ou que le coût est prohibitif, la differential privacy est une bonne alternative.
Ces technologies sont présentées comme plus protectrices, mais comment sont-elles perçues par les utilisateurs ? La présentation d’Ero Balsa (post-doctorant, Cornell) a questionné dans un article publié à l'issue du 2022 Symposium on Computer Science and Law l’apport de ces technologies pour les utilisateurs qui, au final, en sont réduits à faire confiance aux fournisseurs de services ou de terminaux (comme dans le cas de la détection de contenu sur les terminaux). Que ce soit parce que les technologies sont trop complexes pour que les utilisateurs puissent effectivement les tester, ou simplement parce qu’elles requièrent de se fier au fournisseur de service pour les mettre en œuvre comme il le promet, les utilisateurs doivent faire confiance aux fournisseurs des PETs. Ero Balsa a illustré ce déplacement de la confiance avec des exemples concrets. Ainsi les messageries instantanées chiffrées de bout-en-bout apportent des garanties concrètes (protection contre des réquisitions ou contre des employés qui tenteraient d’accéder aux données) mais requièrent toujours de faire confiance à quelqu’un, même lorsqu’elles sont en code ouvert (on est alors obligé de faire confiance à la communauté qui audite le code). Au final, les PETs permettent principalement de passer d’un stade où l'on fait confiance à une organisation à un stade où l'on fait confiance à une technologie particulière et à sa mise en œuvre.
La question qui a ensuite animé la table ronde est justement celle de la transparence : comment rendre ces technologies plus transparentes pour permettre aux utilisateurs de les utiliser en ayant le maximum d’informations ? Différentes notions de transparences sont envisageables. La transparence par l’ouverture du code a été citée par tous les participants, mais d’autres modalités plus spécifiques à chacune des solutions ont été suggérées. Par exemple, pour le client side scanning, cela peut passer par la transparence de la base de données servant à retrouver les contenus, tandis que pour le chiffrement et la confidentialité différentielle cela peut passer par la publication des paramètres.