Nicolas Papernot : « Il faut capturer de façon globale les enjeux de performance ET de sécurité ET de vie privée ET d’équité ! »
Rédigé par Félicien Vallet
-
03 April 2022Dans le cadre de ses travaux sur les enjeux de régulation de l’intelligence artificielle, LINC s’est entretenu avec Nicolas Papernot, chercheur à l’Université de Toronto et au Vector Institute, dont le travail se situe à l'intersection des questions relatives à la sécurité, à la confidentialité et à l'apprentissage automatique (machine learning).
La régulation de l’intelligence artificielle (IA) est un sujet actuellement très discuté notamment avec la publication d’une proposition de règlement par la Commission européenne en avril dernier (au sujet de laquelle la CNIL et ses homologues européen ont émis un avis). Ayant récemment publié avec ses collègues un papier remarqué sur les questions de gouvernance de l’IA, LINC souhaitait s’entretenir avec Nicolas Papernot.
LINC : Votre article se démarque de vos autres productions en se focalisant sur les aspects liés à la gouvernance de l’IA. Pourquoi est-il essentiel selon vous de s’intéresser à cette question ?
Le papier que nous évoquons est un article « programmatique ». Il vise à faire un état des lieux des pratiques existantes et à formaliser des questions pour encourager des recherches dans les directions qui nous semblent d’intérêt à mes co-auteurs et moi, du point de vue scientifique et sociétal.
Depuis quelques années, de nombreux travaux ont été menés par la communauté scientifiques sur différents sujets liés à la sécurité et à la confidentialité des données [NDLR voir l’article LINC Petite taxonomie des attaques des systèmes d’IA] mais également à l’équité (fairness). Toutefois, il s’agit de travaux indépendants les uns des autres et qui ne permettent pas de saisir comment optimiser la gestion de ces différents risques de façon simultanée tout en maximisant les performances des algorithmes d’apprentissage automatique. A titre d’exemple, nos travaux sur des données médicales ont montré qu’il était très compliqué d’apprendre un modèle d’IA pertinent en utilisant des algorithmes de protection de la vie privée comme PATE (private aggregation of teacher ensembles) ou la descente de gradient utilisant la confidentialité différentielle (differentially private stochastic gradient descent) [NDLR voir l’article du NIST sur ces méthodes]. Les approches utilisant la confidentialité différentielle empêchent de « regarder » les points intéressants dans ces données médicales qui se situent généralement dans les queues de distributions. Il existe donc une tension entre le fait d’avoir un modèle qui a de bonnes performances et un modèle qui respecte la vie privée des individus. Ce problème est renforcé quand on rajoute la composante d’équité puisqu’on souhaite obtenir de bonnes performances et que cela soit aussi le cas pour les minorités (au sens statistique) présentes dans le jeu de données. La première observation de notre article est donc qu’il faut capturer de façon globale les enjeux de performance ET de sécurité ET de vie privée ET d’équité. Un problème qu’on ne sait pas résoudre aujourd’hui.
La seconde observation est qu’il existe une certaine déconnexion entre ce qui est mis en avant dans la règlementation sur la protection des données et les possibilités techniques explorées par les communautés de recherche. Au Canada par exemple, les techniques d’anonymisation sont très largement mises en avant. Toutefois, on sait d’un point de vue scientifique que l’anonymisation « véritable » est quasiment impossible et surtout contextuelle. Aujourd’hui, le paradigme quasi-exclusivement utilisé au niveau de la recherche scientifique est celui de la confidentialité différentielle (differential privacy). Malheureusement, celui-ci est complexe à aligner avec les enjeux de réglementation pour les organismes. Il est donc essentiel d’établir un dialogue entre communautés de recherche et régulateurs. Les chercheurs doivent influencer plus directement les évolutions du droit mais ils doivent également travailler dans le contexte imposé par celui-ci. Dans d’autres travaux [NDLR voir l’article Machine unlearning], nous sommes partis des contraintes imposées par la réglementation européenne – et notamment les droits à l’oubli et à s’opposer au traitement de ses données – pour réfléchir à la manière de les mettre en œuvre pour l’apprentissage automatique, une chose quasiment impossible sans réentrainement complet avec les réseaux de neurones qu’on utilise aujourd’hui. Partir de la règlementation a ainsi permis la formalisation d’un problème scientifique nouveau et en phase avec les enjeux de société.
Comment voyez-vous l’articulation entre les différents acteurs impliqués dans la chaîne de gouvernance d’un système d’IA ?
Ce que j’apprécie particulièrement dans notre article, c’est la définition des nombreux objectifs poursuivis par les différentes parties prenantes de cette chaîne de l’IA, allant de la conception à la régulation en passant pas la mise en production. Ainsi, si les utilisateurs finaux veulent minimiser les informations qu’ils partagent avec un système d’IA tout en en retirant une utilité maximale, l’entreprise conceptrice va elle s’intéresser à maximiser une mesure de profit. Enfin des régulateurs vont eux tenter de maximiser leur capacité à auditer et à s’assurer du respect de la règlementation, pas uniquement au niveau de l’individu mais également de la société.
Les acteurs de la chaîne de valeur d’un système d’IA poursuivent donc des buts différents. Nous proposons dans l’article de nous inspirer de la théorie des jeux pour prendre en compte ces différentes contraintes imposées, étudier les interactions entre les acteurs et tenter d’obtenir un équilibre avantageux pour toutes les parties et pour la société dans son ensemble. La poursuite de telles recherches me semble particulièrement importante car comme je le disais plus haut en évoquant nos travaux sur des données de santé, on ne sait pas aujourd’hui comment mettre en œuvre un système d’IA qui respecte toutes les contraintes imposées.
Pour vous les grands principes de la SSI (sécurité des systèmes d’information) sont-ils transposables à l’IA ? Si non, ou pas entièrement, quelles sont les questions spécifiques posées par l’IA ?
Si les systèmes d’IA présentent de nouveaux risques comme je l’ai indiqué avant, je pense que les principes fondamentaux de la sécurité leurs demeurent applicables. La sécurité d’un système est un socle nécessaire pour pouvoir avancer sur des questions complexes comme celle de confidentialité des données dans les systèmes d’IA. Dans tous les travaux scientifiques on fait l’hypothèse de départ que l’on dispose d’une trusted computer base, un environnement d’exécution de confiance.
Par exemple, si on met en œuvre des méthodes utilisant la confidentialité différentielle, il faut pouvoir monitorer le nombre de requêtes qui sont faites. Sans une telle mesure, il n’est pas possible de contrôler la dépense du « budget » alloué et de quantifier la perte de confidentialité (privacy leakage).
De façon similaire, il faut pouvoir empêcher les attaques permettant d’extraire des modèles d’IA par observation des sorties obtenues pour des entrées fournies au système [NDLR voir l’article LINC Petite taxonomie des attaques des systèmes d’IA]. Ou plus exactement, puisqu’il est complexe de discerner un utilisateur légitime d’un attaquant, de rendre compliqué la réalisation de telles attaques. Pour ce faire, nous avons proposé dans d’autres travaux de s’inspirer des techniques utilisées pour la détection de spams ou le déni de service (DoS, Denial of Service). L’idée est de donner à l’utilisateur un « puzzle » complexe à résoudre et qui lui demandera de dépenser des ressources calculatoires importantes. De tels mécanismes permettent de temporiser les attaques et modifier le rapport coût/bénéfice de les mener. Ces méthodes sont inspirées de ce qui se fait déjà depuis de nombreuses années en cryptographie avec les fonctions à dérivation de clé [NDLR par exemple Scrypt].
La Commission européenne a récemment proposé un Règlement pour l’encadrement des systèmes d’IA. Cette initiative va-t-elle dans le bon sens selon vous ? Quels sont les points d’attention à avoir ?
L’approche proposée par la Commission me semble intéressante. Il faut avoir une régulation spécifique à l’IA car les algorithmes d’apprentissage automatique se comportent différemment des systèmes classiques d’informatique. Le flot d’information est en effet bien plus complexe à suivre pour ces derniers. On ne sait pas bien comment une donnée d’entrainement influence les paramètres du modèle puis comment ces données d’entrainement influencent les prédictions une fois le modèle déployé. Ce qui me semble essentiel, c’est de clarifier comment on aide les entreprises et les organisations qui font de l’IA à mettre en place des audits, à enregistrer des logs pour ensuite pouvoir prouver le respect de propriétés comme l’intégrité de la procédure d’entrainement, la protection de la vie privée, l’équité, etc.
Par ailleurs, l’approche fondée sur les risques à du sens. Pour moi, elle est à rapprocher de la confidentialité différentielle qui est une bonne définition alliant un formalisme théorique solide et un aspect de compréhension intuitif de l’objectif (on ne doit pas être en mesure de pouvoir observer la contribution d’un individu). Ce formalisme permet de mesurer le risque et de le moduler dans un contexte où beaucoup de données sont déjà disponibles. On peut ainsi offrir des garanties sur le fait que les informations obtenues ne vont pas libérer plus de données personnelles.
Le souci avec la confidentialité différentielle est cependant qu’il faut quantifier et imposer des niveaux maximums de risques. Cela est complexe en pratique et souvent bloquant pour les organisations. Les organismes de régulation doivent se positionner par rapport à la façon de l’appliquer même si c’est difficile (par exemple en définissant la valeur de la borne epsilon qui mesure le niveau de bruit ou de confidentialité). C’est bien évidemment difficile d’établir une valeur uniforme pour toutes les utilisations mais l’avantage que je vois à la confidentialité différentielle c’est qu’on est en mesure de quantifier le risque, et cela apporte une information de connaissance et de compréhension essentielle !
Nicolas Papernot
Nicolas Papernot est professeur assistant à l'Université de Toronto, dans les Départements de génie électrique et informatique et d'informatique. Il est également enseignant au Vector Institute, où il est titulaire d'une Chaire en IA Canada-CIFAR, et à l'Institut Schwartz Reisman. Il est le co-auteur avec Ian Goodfellow du blog cleverhans consacré aux questions de sécurité et de protection de la vie privée appliquées à l’apprentissage automatique.
Illustration : Flickr - cc-by - Etienne Valois