Lancement d’un projet sur l’explicabilité dans le domaine de l’intelligence artificielle

Rédigé par Romain Pialat

01 août 2024

Les systèmes d’intelligence artificielle, et plus généralement les algorithmes, sont parfois opaques et leurs résultats peuvent être complexes à interpréter. Un champ de recherche, jeune mais prolifique, est dédié à leur explicabilité. L’objectif du projet est de comprendre la manière dont ces recherches sont structurées à partir d’analyses mathématiques des techniques utilisées, croisées avec des éléments quantitatifs et qualitatifs issues des sciences sociales. Dans le cadre de cette étude, la CNIL utilisera une base de données des publications scientifiques relatives à l’explicabilité de l’intelligence artificielle, obtenue via un moteur de recherche spécialisé dans la littérature scientifique.

Quel est l’objectif de cette étude ?

L’explicabilité de l’intelligence artificielle, explainable AI en anglais ou simplement xAI, est un champ scientifique développant des méthodes et techniques pour expliquer les informations, les prédictions ou les décisions générées par des systèmes d’intelligence artificielle. Cette explication est nécessaire lors d’utilisation de ces systèmes dans des contextes critiques (médecine, militaire, transports, …). Depuis 2016 et le lancement par la DARPA du Explainable AI Program, on observe une apparition soudaine et massive de publications scientifiques contenant le terme Explainable AI.

Cette discipline, encore majoritairement rapportée à l’informatique (ou « computer sciences »), ne fait pour autant pas consensus, tant sur le plan des techniques utilisées, que sur l’objectif de l’explication ou encore sur ce qui fait l’explication. Cette absence de consensus ne semble pas, ou peu, problématisée à l’intérieur du champ de l’xAI. Cette étude a donc pour but de mieux saisir les enjeux sous-jacents régulant le milieu de l’Explainable AI.

Quelles données pour quelles utilisations ?

Pour dresser une typologie des techniques d’xAI, et afin de ne pas nous retrouver avec une étude obsolète techniquement trop rapidement au vu de la rapidité de l’évolution de ce champ, nous nous intéressons ici aux principes et mécanismes sociaux à l’origine de l’organisation et de la production des techniques. Pour cela, nous souhaitons comprendre et identifier des régularités dans les positions institutionnelles, académiques ou sociales, des acteurs de l’xAI.

Semantic Scholar

Nous avons donc récupéré une large base de données, environ 16 000 publications thématiques de cette discipline, en utilisant le moteur de recherche de SemanticScholar. Cette base de données est composée des titres des papiers, des noms des auteurs, et d’autres caractéristiques inhérentes à une publication telles que l’année de publication, la revue ou la conférence dans laquelle la publication a été faite, les citations de la publication, etc.

Nous traiterons donc toutes ces données, ainsi que des données relatives à la vie professionnelle des personnes présentes dans notre base, et disponibles publiquement sur Internet, telles que :

La position académique.
L’université de rattachement.
Les précédentes publications ou précédents champs de recherche.

Nous procéderons à des études similaires dans d’autres champs de recherches moins jeunes, afin d’avoir des bases de données de contrôle pour comparer nos résultats. Pour le moment, un seul champ de recherche est concerné, celui de l’équité (ou « fairness ») dans l’intelligence artificielle.

OpenAlex

De plus, nous utilisons également la base de données du site OpenAlex afin de croiser nos sources. Ce site utilise un algorithme d’intelligence artificielle non supervisé pour classifier automatiquement ses papiers de recherches selon leur sujet. Nous récupérons ainsi deux groupes de papiers, les papiers concernant le sous-groupe xAI et ceux du groupe IA.

La base de données composées des papiers sur la thématique de l’IA en générale nous permet de visualiser l’articulation de la communauté de l’xAI vis-à-vis de celle de l’IA, et ainsi pouvoir décrire les relations qu’elles entretiennent.

Les données personnelles traitées dans ces groupes sont les mêmes que celles de la base Semantic Scholar.

Licéité des sites web

Conformément aux recommandations de la CNIL nous avons vérifier l’utilisation faite par ces sites des outils de scrapping, et leurs déclarations concernant les sources utilisées.

Semantic Scholar compose sa base de données en partenariat avec différentes universités, instituts de recherche et revues scientifiques, ainsi que par moissonnage sur des sites académiques ou de conférences scientifiques. Le robot de Semantic Scholar s’identifie comme tel en allant sur un site, respectant donc les protocoles mis en place avec les fichiers « robot.txt ».

OpenAlex utilise le Microsoft Academic Graph (MAG) et moissonne des papiers dans des registres comme CrossRef ou HAL. Chaque papier est relié à une source parmi les 240 000 sources différentes listées sur le site, permettant de savoir facilement où une référence a été récupérée. Une liste des principales sources utilisées se trouve ici.

Comment les droits des personnes sont-ils respectés ?

Les données traitées durant ce projet sont obtenues des manières suivantes :

1) Sur OpenAlex en téléchargeant le « Topic » Explainable Artificial Intelligence (~18 500 papiers)

2) Sur OpenAlex en téléchargeant le « SubField » Artificial Intelligence (~3 500 000 papiers)

3) Sur OpenAlex et Semantic Scholar en effectuant la requête suivante par API :

query = '"Model interpretability" | "Models interpretability" | "model explanations" | "models explanations" | "explanations of models" | "explaining models" | "Explainable Artificial Intelligence" | "XAI" | "explainable AI" | "interpretable AI" | "interpretable artificial intelligence"'

fields = "paperId,corpusId,url,title,venue,publicationVenue,year,authors,externalIds,abstract,referenceCount, citationCount,influentialCitationCount,isOpenAccess,openAccessPdf,fieldsOfStudy,s2FieldsOfStudy, publicationTypes, publicationDate, journal,citationStyles"

url=“http://api.semanticscholar.org/graph/v1/paper/search/bulk?query={query}&fields={fields}&year=1970-"

Les requêtes par API sur ces sites étant aveugles aux mots de liaisons (tels que « of » ou « or »), une partie non négligeable des articles obtenus sont sans liens avec notre étude. Nous avons donc effectué un second traitement utilisant des regex afin de ne garder que les papiers comportant les mots exacts de notre requête.

Vous pouvez accéder et obtenir une copie de vos données, vous opposer au traitement de ces données, les faire rectifier ou effacer. Vous disposez également du droit de limiter le traitement de vos données.

Vous pouvez contacter le Laboratoire d'innovation numérique de la CNIL ([email protected] ) ou le délégué à la protection des données (DPO) de la CNIL pour toute demande d'exercice de vos droits sur ce traitement. Les coordonnées du DPO sont au bas de la page.

Si vous estimez, après nous avoir contactés, que vos droits « Informatique et Libertés » ne sont pas respectés, vous pouvez adresser une réclamation à votre autorité de protection des données.

Comment ce projet est-il encadré ?

Ce projet relève de la mission d’intérêt public dont est investie la CNIL en application du règlement général sur la protection des données et de la loi Informatique et Libertés modifiée. Il s’inscrit dans la mission d’information de la CNIL telle que définie dans l’article 8.I.1 de la loi Informatique et Libertés mais également dans la mission de suivi de l’évolution des technologies de l’information telle que définie dans l’article 8.I.4.

Seuls les membres du Laboratoire d’innovation numérique de la CNIL (LINC) et du service de l’intelligence artificielle (SIA), en charge de cette étude, auront accès aux données personnelles collectées puis traitées dans le cadre de l’expérimentation.

Combien de temps durera cette étude ?

Ce projet prendra fin en décembre 2026. Á l’issue du projet les données traitées seront supprimées. Il donnera lieu à plusieurs publications sur le site du LINC.

Article modifié le 17/09/2025