Les techniques d’Explainable AI [2/3]

Rédigé par Nicolas Berkouk, Mehdi Arfaoui et Romain Pialat

07 juillet 2025

Pour répondre à l'opacité de l'apprentissage profond, cet article présente les principales méthodes du champ de l'IA explicable (xAI), en les organisant selon une distinction entre approches locales et globales. Tout en détaillant ces techniques, il souligne cependant leur manque de robustesse et l'absence de consensus scientifique sur ce qui constitue une explication valide, révélant ainsi l'hétérogénéité profonde du domaine.

Comme nous l’avons vu dans le précédent article, si les fondements de l’apprentissage profond (deep learning, IA connexionniste) datent des années 1950, ce n’est qu’au milieu des années 2010 que les conditions ont été réunies pour leur permettre de détrôner les systèmes techniques dits symboliques, en particulier dans l’analyse de données non structurées comme le texte, l’audio ou la vidéo.

Ce basculement change fondamentalement la compréhension de la logique de calcul des algorithmes : la logique de calcul et de développement des systèmes symboliques est, par définition, accessible à partir du code du système, tandis que la structure des opérations des algorithmes d’apprentissage profond se fait à partir d’un volume massif de données et sans a priori sur la façon d’aboutir au résultat, rendant ainsi opaque la logique de calcul.

Dans la deuxième moitié des années 2010, un domaine de recherche s’est structuré autour de la production d’explication des résultats des algorithmes d’apprentissage profond pour pallier cette opacité : l’Explainable AI (ou xAI). Les méthodes d’xAI ont donc pour objectif, dans leur grande majorité, de fournir des informations complémentaires à un modèle d’apprentissage profond afin de permettre de donner du sens et du contexte à ses résultats.

Nous nous proposons dans cet article une introduction aux grandes méthodes de ce domaine. Sans prétendre à l’exhaustivité, tant cette communauté de recherche est prolifique (5500 papiers publiés en 2024 – source : Semantic Scholar), nous viserons ici à donner quelques points de repères structurants dans cette littérature.

Pour catégoriser ces méthodes, nous proposons dans cet article de mobiliser un critère en particulier, à savoir, l’élément de l’explication, autrement dit ce qui est recherché par le biais de ces méthodes pour expliquer. A cet égard, deux catégories de méthodes peuvent être distinguées :

Les méthodes locales, c’est-à-dire celles qui mobilisent des éléments d’explication qui se rapportent à des caractéristiques d’une donnée d’entrée en particulier.
Les méthodes globale, c’est-à-dire celles qui mobilisent des éléments d’explication qui se rapportent au fonctionnement général du modèle, et dont les principes restent inchangés quelle que soit la donnée d’entrée.

Nous présentons dans les parties suivantes les principales méthodes selon cette distinction.

Les méthodes locales

Les méthodes locales visent à faire le lien entre une prédiction d’un modèle et l’entrée qui lui a été donnée. Ces explications sont donc singulières pour chaque utilisation, et diffèrent selon la nature de l’entrée, et la nature du modèle. Leur résultat ne s’applique ainsi qu’au comportement du modèle sur une donnée d’entrée en particulier.

Nous séparons dans cette partie les méthodes locales en deux catégories :

Les méthodes supposant un accès total ou partiel au fonctionnement interne du modèle (« white box ») ;
Et les méthodes agnostiques au type de modèle, c’est-à-dire qui prennent le modèle comme une boîte noire (« black-box »).

Les méthodes avec accès au modèle (« white-box »)

Nous présentons ici deux grands types de méthodes « white-box » (il y en a bien d’autres) :

D’un côté, des méthodes utilisant le gradient du modèle, c’est-à-dire la dérivée du modèle comme fonction depuis les entrées vers les sorties du système. On y trouve la méthode des cartes de saillances (ou Saliency Maps, K. Simonyan et. al.), ainsi que la méthode GradCAM (R. R. Selvaraju et. al.) pour Gradient-weighted Class Activation Mapping.
De l’autre, des méthodes dites « post hoc » (E. M. Kenny et. al.) qui fonctionnent en identifiant des parties de la base d’entrainement qui activent le modèle de façon similaire à l’entrée donnée concernée.

À la différence des méthodes « back box» que nous exposerons plus bas, ces deux types de méthodes white-box supposent un accès partiel (gradient) ou totale (c’est-à-dire à chaque étape intermédiaire de calculs effectués par le réseau de neurones) au fonctionnement interne du modèle.

Pour aller plus loin sur la notion de gradient du modèle

La dérivée d’une fonction en un point x permet de déterminer la pente (“l’inclinaison”) de la droite qui colle le mieux à la courbe de la fonction en x. La dérivée de la fonction permet donc de comprendre quelle est la meilleure approximation linéaire du comportement d’une fonction en un point x. Prenons le cas d’un réseau de neurones entraîné à prédire si le chiffre 0 est présent sur une image. Le modèle est entraîné sur une base sur d’images en noir et blanc de 28 x 28 pixels. L’espace des entrées (les images) est constitué de 784 (= 28 x 28) valeurs numériques, qui chacune encode l’intensité de chaque pixel dans une image. Le réseau prédit un score entre 0 et 1 qui indique à quel point il est probable que le chiffre 0 soit contenu dans une image. Ainsi, le réseau de neurone est une fonction f, qui prend en entrée des vecteurs constitué de 784 valeurs, pour prédire un score. Le gradient de f en une image fixe x permet de trouver la fonction linéaire qui approche le mieux f au voisinage de x, et ainsi de comprendre les variations locales de la fonction en ce point. En particulier, il est possible de regarder comment la valeur de f varie lorsque l’on change la valeur d’un pixel de l’image. Les pixels pour lesquelles cette variation est maximale, c’est-à-dire que le score de prédiction peut être modifié grandement en n’opérant qu’un petit changement de valeur d’un pixel de x, sont précisément ceux pour lequel la valeur du gradient de f est maximale.

Les méthodes par gradient

Dans les Saliency Maps, comme dans GradCAM, le gradient du réseau de neurone est calculé à partir d’une donnée d’entrée, permettant de passer d’un modèle complexe à une approximation linéaire, et de voir pour chaque zone ou pixel de l’image, comment celle-ci influe la prédiction du modèle. Les pixels pour lesquels une petite variation implique un grand changement dans la prédiction, c’est-à-dire ceux pour lesquels le gradient est élevé, sont considérés comme importants pour la prédiction et affichés sur l’image d’origine avec des zones de chaleur.

Dans les Saliency Maps, cette méthode est appliquée à chaque pixels de l’image, alors que dans GradCAM elle l’est sur des zones plus larges, afin que les zones d’intérêts mises en valeurs soient plus compréhensibles que des pixels.

Figure 1 - Explication fournie par l’algorithme GradCAM où nous pouvons voir la carte de chaleur pour les détections « Chien » et « Chat ». La subtilité présente dans le papier de recherche est que le chat est à vrai dire décrit comme un « chat tigré » par rapport à d’autres types de chats dans la base d’entrainement, et donc qu’une partie de ses rayures sont détectées comme influentes pour la prédiction par l’algorithme. (Figure extraite de R. R. Selvaraju et. al.)

Exemples de méthodes post hoc

Une autre manière de produire une explication de la sortie d’un réseau de neurones à partir d’une donnée d’entrée x, est de chercher à étudier le fonctionnement interne (« l’activation ») induite par cette entrée en la rapprochant des activations produites par les données d’entraînement, pour lesquelles est connue la valeur réelle ou la « vérité terrain » (« ground-truth »). Ainsi, ces méthodes visent à répondre à la question suivante : « quelles sont les données d’entraînement qui produisent un fonctionnement interne similaire à la donnée d’entrée x ? » ?

Par exemple, si notre modèle prédit la présence de chiffres sur une image, l’explication tiendra dans le fait que dans la base d’entraînement les images labelisées avec un même chiffre ont activé le réseau d’une manière similaire à notre entrée.

Nous voyons notamment dans l’illustration ci-dessous que cette technique peut permettre de comprendre certaines erreurs de l’algorithme.

Figure 2 - Pour chaque image en entrée (« query ») 3 images explicatives de la prédiction sont proposées. Nous voyons par exemple que sur les images de droite, les 8 et le 9 mal écrit se rapprochent d’un 3 et d’un 4. (Figure extraite de E. M. Kenny et. al.)

Explications agnostiques (« black box »)

A l’inverse des explications utilisant directement les poids du modèle, intéressons-nous maintenant à des méthodes d’explicabilités qui prennent les réseaux comme des boîtes noires, permettant ainsi d’expliquer en théorie n’importe quel modèle par la seule connaissance d’entrée et de sorties de celui-ci.

Deux méthodes sont très connues parmi celles-ci : LIME pour Local Interpretable Model-agnostic Explanations (M. T. Ribeiro et. al.), et SHAP pour SHapley Additive exPlanations (S. M. Lundberg et. al.).

La méthode LIME

La méthode LIME vise à adapter les méthodes par gradient à un contexte de boîte noire, c’est-à-dire, à chercher à trouver au voisinage d’une entrée x, une approximation linéaire du modèle f pour comprendre les variables d’entrées qui sont les plus influentes dans le calcul de f(x).

Dans ce cadre, seul un accès aux entrées et aux sorties du modèle sont possibles. L’idée alors est d’utiliser des entrées « au voisinage » de l’entrée à expliquer. Nous pouvons donc utiliser plusieurs fois le modèle pour voir quelles sont les prédictions qu’il fait sur des entrées « proches » de la nôtre. En fonction des sorties récupérées, il s’agit de recréer un modèle linéaire local à l’aide par exemple d’une régression linéaire. C’est cette régression locale qui fait office d’explication.

Figure 3 - Illustration schématique du fonctionnement de LIME. Figure extraite de M. T. Ribeiro et. al.)

Ici, le modèle cherche à prédire si un point est une croix ou un rond, et a appris pendant son entraînement à classifier tous les points de la zone rosée comme des croix, et tous les points de la zone bleu comme des ronds. Si nous nous intéressons à la donnée d’entrée symbolisée par la croix en gras, nous décidons de regarder les sorties au voisinage de notre entrée pour comprendre au voisinage de ce point comment le modèle opère pour distinguer les croix des ronds. Il est donc possible de tracer une ligne séparant ces deux catégories, et notre sortie se trouve du côté gauche de la ligne, donc du côté « croix » de la régression linéaire tout juste calculée. La ligne en pointillés de notre régression, représente une version locale du modèle.

La méthode SHAP

SHAP (SHapley Additive exPlanations) est une méthode d’explication locale qui repose sur les valeurs de Shapley, un concept issu de la théorie des jeux coopératifs, qui permet de quantifier la contribution de chaque caractéristique à une prédiction donnée.

Concrètement, SHAP évalue l’effet moyen d’une caractéristique sur la prédiction du modèle en comparant les résultats obtenus avec et sans cette caractéristique, dans différents contextes. Cela implique de considérer de nombreuses combinaisons possibles de caractéristiques pour estimer, de façon additive, l’influence marginale de chacune. Le résultat est un score attribué à chaque caractéristique, représentant sa contribution à l’écart entre la prédiction du modèle et une valeur de référence (comme la prédiction moyenne).

Les méthodes globales

Comme énoncé précédemment, les méthodes dites globales visent à dégager des caractéristiques de fonctionnement général du modèle, et d’en déduire, pour chaque entrée, des éléments de compréhension permettant d’expliquer comment le modèle est arrivé au calcul de sa sortie.

Dans l’ensemble, ces méthodes tentent de relier des zones de l’espace de calcul d’un réseau de neurones, à des concepts qui ont un sens pour les humains, de sorte à pouvoir donner un sens aux calculs effectués par un modèle. Nous présentons ici deux approches, de la plus simple à la plus sophistiquée.

Conceptualiser les neurones

Les réseaux de neurones sont des algorithmes qui mettent à la chaîne des unités de calculs élémentaires : les neurones. Au cours du calcul à partir d’une donnée d’entrée, les activations de chaque neurone sont calculées à travers les couches successives. L’activation de chaque neurone est une valeur numérique généralement positive plus ou moins grande.

L’approche la plus élémentaire pour tenter d’obtenir une compréhension globale du mécanisme du réseau de neurones consiste à tenter d’identifier si une forte activation de certains neurones peut être corrélée avec la présence d’un concept qui aurait du « sens » dans la donnée d’entrée.

Par exemple dans un réseau convolutionnel entraîné pour faire de la classification d’images, Yosinski et. Al. montrent qu’une des couches du réseau semble détecter les visages sur une image. Plus précisément, comme illustré dans la Figure 1, quand nous faisons passer une image dans ce réseau de neurones tout en regardant sa projection au niveau du canal 151 de la cinquième couche convolutionnelle, nous remarquons que les neurones qui sont les plus activés correspondent à ceux qui proviennent des pixels sur lesquels se situent les visages dans l’image d’entrée. Si cette observation se confirme sur un grand nombre d’images, il possible alors considérer que ce groupement de neurones de la 151^ème couche s’est spécialisé dans la détection d’un concept : le visage.

Ainsi, c’est ce travail de reverse-engineering sur les neurones du réseau qui constitue ici une méthode globale pour expliquer la façon dont le modèle a abouti à son résultat.

Bien qu’intéressante, cette approche possède de très nombreuses limitations, qui ont été rapidement identifiées par la communauté académique. Pour commencer, il est très difficile de caractériser rigoureusement et automatiquement les concepts que représenteraient un ou des neurones. De plus, il n’y a a priori aucune raison fondamentale pour qu’un neurone ne participe à encoder qu’un unique concept. En effet, puisque les neurones ne sont que des unités de calculs élémentaires, il peut tout à fait être possible qu’un neurone participe à détecter plusieurs concepts (polysémie), ou alors qu’un concept soit détecté à partir d’une combinaison (non nécessairement linéaire) des activations de certains neurones.

Nous le voyons, partir à la recherche des neurones pour lesquels il est possible de corréler l’activation à la présence d’un concept qui a du sens pour l’utilisateur n’est pas chose aisée. Si cette quête peut paraître vaine, c’est que c’est son objet même (les neurones), qu’il faut remettre en question.

Figure 4 - Adaptation d'une Figure de Yosinski et. Al.

Interprétabilité mécaniste (Mechanistic Interpretability)

Mais alors, si ce n’est pas parmi les neurones, où chercher des schémas d’activation du réseau qu’il est possible de relier à des concepts présents dans les données ? Sans chercher à les définir précisément, nous appellerons de tels schémas des features. Partant du principe que les neurones peuvent être polysémiques, la recherche des features ne peut se faire qu’en tentant de « démêler » ces caractéristiques qui pourraient être superposées au sein de plusieurs neurones. Une façon d’avancer dans cette direction, est de tenter de reproduire le fonctionnement du modèle en entraînant un nouveau modèle, que nous appellerons « modèle jouet », pour lequel les neurones ont des activations dites parcimonieuses, c’est-à-dire qu’ils sont forcés à ne pas s’activer tous en même temps. Nous pouvons alors espérer donner un sens plus facilement aux activations parcimonieuses de ces nouveaux neurones. Ces techniques d’explicabilité portent le nom « d’interprétabilité mécaniste » (mechanistic interpretation).

Ce travail a été mené par exemple par les équipes de l’entreprise Anthropic sur leur grand modèle de langage Claude Sonnet 3. Il faut bien noter qu’une grande partie de ces résultats, bien que prometteurs, doit être considérée avec mesure. Ce modèle n’est pas ouvert et par conséquent les conclusions de l’entreprise ne sont pas reproductibles. De plus Anthropic ne communique pas la proportion de features qu’elle a réussi à extraire à partir du modèle jouet, on sait simplement que ce dernier capturerait 65% du comportement de Claude.

Figure 5 - Représentation du "démêlage" de features d'un modèle. Extrait de Bereska et. Al.

Une fois que nous avons obtenu un modèle jouet avec des activations parcimonieuses pour chaque couche du réseau, et que nous avons réussi à donner un « sens » à certains des neurones de ce modèle jouet, il est possible de se demander comment ces neurones sémantiques interagissent entre eux à travers le réseau en formant des circuits, pour potentiellement retracer la mobilisation de tel ou tel feature pour formuler la réponse à un prompt.

Dans un autre article, Anthropic prétend également avoir réussi grâce à cette technique à identifier des raisonnements cachés d’une version de Claude entraînée spécialement pour « ne pas dire ce qu’elle pense ».

Une absence de consensus scientifique

Un enjeu de robustesse des méthodes

Sensibilité aux manipulations

Les techniques d’explicabilité font les frais de certaines critiques quant à leur robustesse, notamment en cas d’attaque ou de manipulation. En effet, dans un papier de Ann-Kathrin Dombrowski et al., les auteurs prouvent qu’il est possible de manipuler des explications sans altérer la prédiction de l’algorithme initial. Par exemple, en insérant des informations indétectables à l’œil nu dans une image, à la manière des techniques de stéganographie, nous pouvons leurrer l’algorithme d’explication et contraindre celui-ci à considérer que les pixels importants ne sont pas ceux qui influent le plus sur la prédiction de base.

Cela permet de faire dire ce que nous voulons aux explications tout en maintenant une bonne prédiction de l’algorithme de base.

Figure 6 - Le réseau de neurone fait ici la bonne prédiction, mais l’explication est truquée (auteurs).

La malédiction de la dimensionalité

Les méthodes black-box telles que LIME nécessitent d’estimer un modèle linéaire sur l’espace des données d’entrées. Dans beaucoup de situations, par exemple pour la classification d’images, cet espace est de très grande dimension (une dimension par nombre de pixels, à multiplier par trois si l’image est en couleur !). Cela nous confronte à un problème bien connu des statisticiens : la malédiction de la dimension (curse of dimensionality). En effet, quand la dimension d’un espace est très élevée, il devient très difficile d’estimer correctement des modèles (même linéaires), et il faut pour se faire un très grand nombre d’observations, ce qui peut devenir très coûteux en termes de ressources de calcul et engendrer des résultats instables.

Une grande hétérogénéité

Comme nous en avons donné un aperçu dans les deux précédentes parties, les techniques d’xAI sont nombreuses et diverses. Une observation importante, que nous sommes désormais en mesure de faire, est que ces techniques reposent sur des principes hétérogènes. En particulier, les ressorts sur lesquels reposent l’explication (l’élément qui fait explication) ne sont pas les mêmes pour toutes les techniques présentées ci-dessus.

Par exemple, les méthodes d’explication d’image par gradient fournissent une carte de saillance indiquant l’intensité de la corrélation de la variation de valeur d’un pixel avec la valeur de la sortie du modèle. Ainsi, on peut dire que le mécanisme de l’explication est corrélatif, puisque c’est une corrélation entre des variations de variables d’entrées et les valeurs de la sortie qui permettent de la produire.

En revanche, ce qui fait l’explication dans le cas des exemples post hoc, c’est le fait que l’entrée que l’on analyse active le réseau comme les exemples du jeu de données d’entraînement. Le ressort de l’explication est donc ici un principe d’analogie.

Nous l’avons vu, les techniques d’explicabilité se développent à très grande vitesse. Elles existent sous des formes techniques très différentes et souffrent d’un manque de robustesse, ou de vulnérabilité face à des manipulations. Mais sur un plan encore plus fondamental, nous avons vu que leur hétérogénéité n’est pas seulement technique mais également épistémologique : ce qui fait l’explication peut varier fortement d’une méthode à l’autre.

Dès lors que la production d’explication n’est pas qu’une bonne pratique, mais constitue un impératif juridique pour rendre légale l’utilisation de certains systèmes d’IA, comment choisir ce qui constitue une explication acceptable ? Pour pouvoir appréhender ces techniques, il convient de s’intéresser à leur mode de production, de décrire le fonctionnement et les intentions de la communauté de recherche qui travaille à ces questions. À ce titre, poser un regard plus sociologique sur la production de méthodes d’explicabilité permettrait d’éclaircir le rapport entre développement de l’IA, régulation, et production scientifique… C’est précisément ce que nous proposons dans le prochain article de ce dossier.

Article suivant [3/3] ⮕

⬅Article précédent [1/3]

Article rédigé par Nicolas Berkouk, Mehdi Arfaoui et Romain Pialat

VOIR PLUS D'ARTICLES DE L'AUTEUR

Contenu annexe

Atelier de réflexion sur le RGPD dans la recherche scientifique

30 juillet 2025

Retour sur le Privacy Research Day 2025

29 juillet 2025

Pourquoi faire une sociologie du domaine de l’xAI ? [3/3]

07 juillet 2025