[Privacy Research Day] L’intelligence artificielle en pratique

Rédigé par Mehdi Arfaoui et Vincent Toubiana

14 juin 2023

La deuxième édition du Privacy Research Day a eu lieu à la CNIL à Paris le 14 juin 2023. Mettant à contribution des experts de différents domaines, la CNIL souhaite ainsi renforcer les ponts entre le champ académique international et les régulateurs. Le LINC publie un retour sur cet événement ainsi qu'une synthèse des principales contributions de chacun des panels.

Sommaire :

[Panel 1] Les effets de la régulation
[Panel 2] Attaques par inférence et (ré)identification
[Panel 3] Du point de vue de l’utilisateur
[Panel 4] Peut-on faire confiance aux PETs ?
[Panel 5] L’intelligence artificielle en pratique

Le dernier panel a permis d’aborder le sujet de l’Intelligence Artificielle sous l’angle des données.

En introduisant la notion de data altruism entrée en vigueur par le biais du règlement sur la gouvernance des données (DGA) le 23 juin 2022, Evgeniia Volkova (Doctorante en droit, Université Toulouse, France) a détaillé la façon dont les personnes peuvent volontairement partager leurs données pour entrainer des IA d’intérêt public et la façon dont ce partage volontaire s’articule avec le RGPD et l’IA Act. L’altruisme des données comprend en effet de nombreux avantages notamment pour alimenter des bases dédiées à l’apprentissage de modèles d’intelligence artificielle dans de multiples domaines (santé, transports, etc.). De même, en étant implémenté localement, l’altruisme des données peut permettre d’ajuster les infrastructures aux besoins des citoyens directement en prise avec l’espace et de renforcer la participation citoyenne. Dans sa mise en application, le principe de l’altruisme des données défendu par le DGA rentre en contradiction avec certains des principes du RDPD et du projet de règlement sur l’IA. À titre d’exemple, alors que le DGA défend le partage d’un maximum de bases de données au service de l’intérêt général, le RGPD défend la minimisation des données collectées et la limitation du traitement à des objectifs prédéfinis. Un ensemble d’enjeux sont également suscités par les effets de concurrence entre des PME et des collectivités locales pour lesquelles les coûts de mise en œuvre du data altruism seraient trop élevés, et des multinationales du numérique dont l’intention pourrait être de progressivement privatiser les données partagées. Evgeniia a ainsi conclu en incitant fortement les régulateurs à intégrer les autorités locales à la réflexion et à la mise en œuvre du data altruism au service de l’intelligence artificielle.

Les modèles d’IA entrainés sur des données personnelles sont-ils eux même des données personnelles ? La question reste largement ouverte et les travaux présentés par Florent Guépin (Doctorant en sciences informatiques à l’Imperial College London, Royaume-Uni) pourraient l’ouvrir encore plus. Dans un premier temps, Florent Guépin a rappelé les attaques qui permettent de retrouver des informations personnelles à partir d’un modèle d’IA. En effet, et c’est bien le but de l’entrainement, les modèles d’IA conservent une certaine connaissance des données qui ont servi à les entrainer. Ces connaissances se retrouvent dans les choix et décisions faites par les IA lorsqu’elles sont ensuite utilisées. De fait, les données utilisées pour entrainer une IA jouent un rôle prépondérant dans la conception des IA et sur leur efficacité. Différents schémas d’attaques abusent de cette « mémoire » pour retrouver des informations à propos des personnes dont les données ont servi à l’entrainement d’une IA. Les attaques par inférence d’attribut (attribut inference attacks) permettent ainsi de retrouver un attribut d’une personne dont les données ont été utilisées pour l’entrainement. Par exemple, dans la slide ci-dessous si on connait le coût de l’assurance de Bob, son âge et son poids, on pourrait essayer d’estimer son taux de cholestérol. Ces attaques étaient déjà connues, mais les travaux de l’équipe de l’Imperial College ont démontré que les modèles conservent également des informations sur les corrélations entre les différentes variables d’entrée. En s’appuyant sur ces corrélations, il est possible d’en déduire des inférences statistiques entre les différentes données d’entrée du modèle. Pour retrouver ces « connaissances » conservées par les modèles, les chercheurs recréent un « shadow model » en testant différents coefficients de corrélation et en conservant ceux qui mènent à un shadow model dont le comportement est le plus proche du modèle attaqué. Grace à cette approche, les auteurs retrouvent les corrélations entre les différentes variables avec un taux de succès assez élevé. Par conséquent, au-delà du fait de pouvoir réaliser des inférences à propos d’une personne, les modèles d’IA conservent des informations sur les dépendances entre les différentes variables sur lesquelles elles se sont entrainées.

Enfin Marvin van Bekkum (Doctorant en droit, iHub, Radboud University, Pays-Bas) nous a interrogé sur la nécessité de créer une exception au RGPD pour garantir que les IA ne (re)produisent pas de discrimination. En effet, dans un travail publié dans la Computer Law & Security Review, Marvin observe que les textes européens interdisent à plusieurs égards la collecte de certains types de données qui permettraient de tester les biais de discrimination des IA : différentes directives de la Commission européenne évoquent des caractéristiques protégées (l’âge, le genre, l’origine ethnique, le handicap, etc.), auxquelles l’article 9 du RGPD est venu ajouter des catégories spéciales de données (les opinions politiques, ou l’appartenance à un syndicat par exemple). Marvin a toutefois rappelé que des exceptions ont été énoncées pour permettre la collecte de ce type de données – en particulier le principe du consentement ou les lois nationales qui peuvent autoriser une dérogation. La présentation de Marvin a alors consisté à interroger la possibilité et l’intérêt d’étendre ces exceptions. Le principal argument en faveur d’une nouvelle exception est bien entendu la possibilité de tester les biais de discrimination et donc de construire progressivement des IA non discriminantes by design. Il existe néanmoins plusieurs arguments allant contre cette proposition : dans de nombreux cas, la simple collecte de données sensibles apparaît risquée, exposant les bases de données à de potentielles fuites ou attaques ; l’exploitation de ces données dans le cadre de tests pose également problème, puisque la notion même de biais de discrimination est récente et ne donne pas forcément lieu à un consensus sur la façon de les tester. Il est donc difficile d’anticiper une mauvaise utilisation ou une exploitation abusive de ces données. Marvin Van Bekkum conclut qu’il est difficile de se positionner en faveur ou contre une nouvelle exception pour la collecte de données spéciales ou protégées. De plus, à l’heure actuelle les garde-fous sont imprécis ou insuffisants : les bases de données synthétiques protègent les données mais en altèrent la qualité en effaçant certaines corrélations, la mise en place de tiers de confiance est intéressante mais coûteuse. De façon générale, peu de choses ont été mises en place pour permettre d’évaluer systématiquement la qualité des garde-fous. C’est dans cet esprit que le Parlement européen a voté en mai 2023 un texte posant les bases d’un compromis. En cas d’exception, plusieurs garde-fous devront être conjugués : la pseudonymisation des données, un niveau de cyber-sécurité élevé, l’interdiction de transmettre les données à des tierces parties, ainsi que l’obligation de documenter chaque étape de la collecte.

Les discussions ont ensuite porté sur le type d’indicateurs qui sont utilisés pour tester les systèmes d’IA, ainsi que la nécessité de cibler les tests sur certains systèmes d’IA. Une partie de la discussion est également revenue sur l’enjeu historique consistant à savoir s’il faut qualifier les données personnelles comme une propriété individuelles ou comme un bien commun pour répondre au conflit potentiel entre la vie privée considérée comme un droit fondamental et la donnée personnelle comme une ressource pour alimenter des systèmes d’IA.

Document reference