[Algaudit] 1 - Choisir une solution d’audit algorithmique

Rédigé par Félicien Vallet & Clément Henin

 - 

18 septembre 2022


Avec le développement croissant de systèmes algorithmiques se pose la question de leur audit à des fins de régulation. Cette question, renforcée par la publication de la proposition de règlement de la Commission européenne sur l'IA, est particulièrement complexe. Dans le cadre du partenariat noué avec Inria, la CNIL a souhaité expérimenter les outils IBEX et Algocate développés par Clément Henin* pendant sa thèse.

Sommaire :

[Algaudit] 1 - Choisir une solution d’audit algorithmique

[Algaudit] 2 - Expérimenter une solution d’audit algorithmique

[Algaudit] 3 - Evaluer une solution d’audit algorithmique

L’explicabilité des systèmes d’IA est un champ de recherche qui s’est développé ces dernières années autour de ce qu’on appelle parfois XAI (pour eXplainable AI). Globales, locales, en boîte noire ou blanche, de nombreuses méthodes ont ainsi été proposées (et continuent de l’être !). La compréhension fine du fonctionnement des systèmes d’IA devient un enjeu essentiel pour les régulateurs du numérique. Toutefois, appréhender celui-ci n’a rien d’évident à la fois parce que ces systèmes sont complexes mais également parce que les régulateurs comme la CNIL évoluent dans un contexte contraint en ce qui concerne les moyens techniques et humains ainsi que le temps disponible pour ces activités.

Dans le cadre du partenariat qu’elle entretient avec Inria depuis 10 ans, la CNIL a souhaité mettre en œuvre l’expérimentation Algaudit pour (Algorithm audit ou audit algorithmique) avec Clément Henin et Daniel Le Métayer. En effet, dans ses travaux de thèse, présentés dans une interview pour LINC en janvier 2021, Clément Henin a développé deux outils – IBEX et Algocate – visant à faciliter la compréhension des systèmes algorithmiques. L’expérimentation Algaudit, en faisant tester ces méthodes à des utilisateurs professionnels de la CNIL, visait donc à répondra à plusieurs interrogations :

  • [Sur la pertinence des explications] Les explications fournies permettent-elles une compréhension effective du fonctionnement de l’algorithme ?
  • [Sur la présentation des résultats] Les explications concernant le fonctionnement du système audité sont-elles compréhensibles par les participants à l’expérimentation ? Les critères proposés répondent-ils aux souhaits des participants ?
  • [Sur l’application des méthodes] L’utilisation des méthodes d’audit pourrait-elle faciliter le travail d’auditeurs de la CNIL ? Sinon, des améliorations ou de nouvelles fonctionnalités doivent-elles être prévues ?

Dans cette série de trois articles, nous proposons i) de préciser la genèse du projet et les critères guidant le choix d’une méthode d’audit ([Algaudit] 1 - Choisir une solution d’audit algorithmique), ii) de détailler le protocole mis œuvre pour cette expérimentation ([Algaudit] 2 - Expérimenter une solution d’audit algorithmique) et iii) de décrire les résultats obtenus et les mettre en discussion ([Algaudit] 3 - Evaluer une solution d’audit algorithmique).

 

Vous avez dit contrôle ?

Depuis sa création en 1978, la CNIL est l’autorité en charge de s’assurer de la régulation des données personnelles contenues dans les fichiers et utilisées dans des traitements informatiques ou papier, aussi bien publics que privés. Ses activités s’inscrivent dans quatre grandes missions : 1) Informer et protéger les droits, 2) Accompagner la conformité et conseiller, 3) Anticiper et innover et 4) Contrôler et sanctionner.

Pour cette dernière mission, il s’agit donc d’observer les pratiques d’entités publiques ou privées et en cas de manquements constatés de mettre en œuvre une procédure de mise en conformité et/ou de sanction. Il existe quatre modalités de contrôle différentes :

  • Le contrôle sur place : les agents de la CNIL se rendent dans les locaux de l’organisme contrôlé, le plus souvent de façon inopinée. Il s’agit de prendre un « instantané » de la situation.
  • Le contrôle en ligne : les agents de la CNIL établissent des constats à partir de navigation en ligne sur le service contrôlé (sur ordinateur ou smartphone). Des environnements techniques dédiés permettent la réalisation de contrôles reproductibles.
  • Le contrôle sur audition : les représentants de l’organisme contrôlé sont entendus par les agents dans les locaux de la CNIL. Des pièces complémentaires peuvent être demandées.
  • Le contrôle sur pièces : les agents de la CNIL demandent à l’organisme contrôlé de leur fournir différents éléments sur le traitement de données en question.

En pratique, afin de mener à bien leur mission de contrôle, les agents des services dédiés ont développé un savoir-faire spécialisé impliquant la proche collaboration d’auditeurs des systèmes d’information (profil technique) avec des juristes spécialisés dans le droit de la protection des données. Quelle que soit la modalité de contrôle, ces agents sont amenés à prendre copie de pièces dont l’intégrité sera assurée par des scellés numériques. Elles feront ensuite l’objet d’analyses techniques qui permettront de préciser et valider le fonctionnement du traitement informatique contrôlé et de le rendre exploitable juridiquement pour d’éventuelles suites (mise en demeure, avertissement, sanction pécuniaire, etc.).

Le projet de règlement sur l’IA de la Commission européenne prévoit que les systèmes d’IA à « haut risques » devront faire l’objet d’audits, qui conduiront à un « marquage CE » attestant de leur conformité (certifiés par un organisme notifié ou par contrôle interne). Ces audits devront assurer, en amont de la mise en place des systèmes d’IA que leurs caractéristiques sont conformes avec les exigences inscrites dans la réglementation. Il s’agit entre autres de veiller à ce que l’impact sur les personnes soit correctement anticipé notamment sur les questions de biais et d’équité des droits. Les systèmes d’IA pourront ensuite être contrôlés par les autorités compétentes désignées par chaque Etat membre et sanctionnés en cas de manquements.

Le rôle que la CNIL sera amenée à jouer dans la régulation de l’IA n’est pas encore défini à ce jour et fait l’objet de discussions dans le cadre de l’examen du texte au Parlement et au Conseil européens. Toutefois, l’avis sur le règlement adopté avec ses homologues du Comité européen de la protection des données (CEPD) recommande que les autorités de protection des données soient désignées comme autorités de contrôle national de l’intelligence artificielle et en tout état de cause, cette nouvelle réglementation aura un impact sur l’application du RGPD. Enfin, l’essor des traitements de données personnelles fondés sur l’IA dans les prochaines années est un phénomène majeur qu’il convient d’anticiper. Par conséquent, afin de renforcer ses capacités de contrôle pour s’adapter aux nouvelles pratiques et afin de se préparer à d’éventuelles nouvelles missions, la CNIL s’intéresse aux outils d’audit des systèmes d’IA.

 

Boîte noire contre boîte blanche

Documents, code sources, données, etc., les contrôleurs de la CNIL sont ainsi souvent amenés à prendre copie de diverses pièces dans le cadre de leurs investigations. De ce fait, des méthodes d’audit en boîte « blanche » c’est-à-dire se fondant sur l’analyse du code du système et/ou ses paramètres (coefficients du modèle) et des données sont donc envisageables pour les algorithmes d’IA qu’aurait à analyser la CNIL. Cependant, si ces méthodes permettent d’avoir une vue complète et exhaustives du système contrôlé, elles sont par nature complexes à mettre en œuvre. En effet, elles sont bien souvent spécifiques à un système d’IA donné et requièrent d’être en mesure d’exécuter (« faire tourner ») celui-ci, ce qui s’avère bien souvent être une tâche délicate. Configuration à reproduire à l’identique, besoin de puissance suffisante, nécessité d’avoir accès à de nombreuses infrastructures techniques et d’être en mesure de les exploiter, etc. les obstacles sont nombreux. Enfin, les méthodes d’audit en boîte blanche demandent un temps conséquent pour leur mise en œuvre. Aujourd’hui, les agents de la CNIL disposent d’un temps limité pour l’analyse des éléments recueillis en contrôle et l’établissements de constats (généralement inférieur à 3 jours).

A contrario des méthodes d’audit en boîte blanche, la littérature scientifique propose une autre grande famille de méthode d’explicabilité du fonctionnement des systèmes d’IA : les méthodes en boîte « noire ». Celles-ci consistent à examiner uniquement les entrées et sorties d’un système sans connaissance préalable de son fonctionnement interne. A défaut de pouvoir capturer avec certitude les liens de cause à effet entre le code et le fonctionnement du système, celles-ci ont comme avantage d’être déployables de façon générique en réutilisant les mêmes ressources pour tous les contrôles, permettant ainsi des audits plus rapides avec des moyens maîtrisés. C’est donc ce type de méthode qui a été choisi pour l’expérimentation Algaudit.

 

Local vs global

Dans son rapport Gouvernance des algorithmes d’intelligence artificielle dans le secteur financier de juin 2020, l’ACPR présente une recension des méthodes explicatives en IA (et plus spécifiquement en apprentissage automatique) appliquées à ce domaine (page 69). Les méthodes « post-modélisation », c’est-à-dire opérant sur les systèmes d’IA préalablement entraînés sont les plus couramment utilisées. Il s’agit de fournir une explication « post-hoc », visant à motiver ou comprendre un résultat (ou un ensemble de résultats) produit par un système d’IA. Deux critères principaux permettent de distinguer les méthodes post-modélisation :

  • Leur applicabilité : soit à tout type de système d’IA utilisant des méthodes d’apprentissage automatique (model-agnostic) ou à un type de système en particulier (model-specific). Il s’agit de la distinction « boîte noire » / « boîte blanche » présentée précédemment.
  • Leur spécificité : les explications fournies peuvent être à caractère « local » ou « global ». Les méthodes explicatives locales fournissent une explication à une décision relative à un point de données particulier en entrée du système (par exemple : « Pourquoi telle demande de crédit a été octroyée à un individu donné ? »). Les méthodes explicatives globales tentent d’expliquer simultanément l’ensemble des décisions possibles (par exemple : « Quelles sont les caractéristiques générales des décisions d’octroi ou de refus des demandes de crédit par le système ? »).

Dans le cas d’une application de méthodes d’audit au cas particulier de la CNIL, le choix de privilégier les méthodes locales ou globales n’apparaît pas aussi clairement que celui entre boîtes noires et blanches pour une application. En effet, si des informations globales, c’est-à-dire concernant le fonctionnement du système dans son ensemble semblent en général mieux adaptées pour l’usage qu’en fait la CNIL (comprendre comment fonctionne ce système), des informations locales peuvent également s’avérer pertinentes et cela pour plusieurs raisons. Tout d’abord, parce que la CNIL peut souhaiter mettre en œuvre un contrôle suite à la saisie de plaintes relatives à des situations particulières. Si la compréhension du fonctionnement global du système audité est indispensable, une analyse de situation concrète s’avère également nécessaire et peut permettre de confronter un responsable concernant un fonctionnement particulier, notamment celui du cas d’espèce rapporté par un plaignant. Ensuite, il n’est pas évident que la portée d’un argument purement « statistique » décrivant le fonctionnement d’un système d’IA soit suffisant pour convaincre un juge ou une commission du bien-fondé d’une sanctions administratives (comme la formation restreinte de la CNIL par exemple). Par ailleurs, il semble aujourd’hui très difficile de fournir une explication globale à la fois précise et compréhensible d’un système complexe notamment s’il traite des données sous forme de texte, d’image ou de vidéo. A contrario, les méthodes locales, permettent – et même lorsque le système est complexe – de fournir des informations simples sur son fonctionnement au voisinage d’un point spécifique.

Pour ces différentes raisons, et partant du principe que des analyses individuelles peuvent permettre par extrapolation de saisir le fonctionnement d’un système d’IA (potentiellement de façon limitée), le choix a été fait pour l’expérimentation Algaudit de tester des méthodes explicatives locales. Notons toutefois que le choix de recourir à des explications globales à des fins de régulation par la puissance publique est également étudié, comme par le Pôle d’Expertise de la Régulation Numérique, PEReN, pour ses travaux sur les méthodologies d'audit des algorithmes de recommandation de contenus.

 

Des algorithmes pour en expliquer d’autres : IBEX et Algocate

Une fois établie la façon de mener un audit (ici en boîte noire et de façon locale), reste à choisir les méthodes à mettre en œuvre. Le choix s’est porté sur celles développées par Clément Henin dans le cadre de sa thèse : IBEX et Algocate.

  • IBEX
    IBEX (pour Interactive Black-box EXplanation) est un système d'explication en boîte noire, c’est-à-dire fonctionnant à partir des entrées et sorties et sans accéder au code du système. Sa particularité est de permettre à l'utilisateur de choisir le type d’explication qu’il souhaite obtenir. Cette liberté de choix et son fonctionnement en boite noire permettent à IBEX d’être utilisable avec une grande variété de situations et d'utilisateurs. Pour construire les explications, IBEX commence par sélectionner un ensemble d’entrées qui serviront d’échantillons pour analyser le fonctionnement du système. Les liens entre ces entrées et les sorties correspondantes sont ensuite analysés afin de générer l’explication finale. L’interaction avec l’utilisateur se fait grâce à un système à trois niveaux pour satisfaire aussi bien les profanes que les experts. Dans le cadre de l’expérimentation, c’est le niveau intermédiaire qui a été proposé aux professionnels de la CNIL. Il permet de choisir l’explication en fonction de ses caractéristiques (forme, simplicité, réalisme, etc.).
  • Algocate
    Algocate (concatenation de algorithm et advocate) est un système de justifications d’algorithme. À la différence des explications proposées par IBEX, dont le but est de faire comprendre le fonctionnement de l’algorithme, les justifications tentent de convaincre que la décision est bonne. Pour porter ce jugement, l’outil repose sur un ensemble de « normes » qui peuvent être employées pour justifier une décision (si le système respecte effectivement les normes affichées) ou pour la contester (si le système ne les respecte pas). Ces normes peuvent être de nature juridique, si une décision enfreint les règles anti-discrimination par exemple, mais d’autres type de normes sont envisagées dans Algocate comme la réalisation d’un objectif. Il faut comprendre ces normes comme des principes supérieurs que l’algorithme est censé invoquer pour justifier les décisions qu’il prend ou qu’il amène à prendre. C’est la référence à de telles normes qui rend le système acceptable par les parties prenantes. Algocate permet de confronter des décisions spécifiques avec ces normes, il s’agit donc de justifications locales. De plus amples détails sont fournis dans l’article consacré à l’expérimentation ([Algaudit] 2 - Expérimenter une solution d’audit algorithmique).

L’article suivant [Algaudit] 2 - Expérimenter une solution d’audit algorithmique, présentera la façon dont l’expérimentation Algaudit a concrètement été mise en œuvre et présentera plus en détail le fonctionnement des systèmes IBEX et Algocate.

 

*Clément Henin est conseiller référendaire en service extraordinaire à la Cour des comptes et auteur d’une thèse d’informatique portant sur les explications et les justifications des systèmes de décisions algorithmiques parue en 2021. 

Félicien Vallet est adjoint au chef du service de l’expertise technologique.



Article rédigé par Félicien Vallet & Clément Henin