[3/3] Prédire sans expliquer, ou quand l’opacité algorithmique brouille les cartes

Rédigé par Charlotte Barot

 - 

16 octobre 2024


Alors que les systèmes d’aide à la décision se répandent, leur usage dans des contextes décisionnels critiques soulève des problèmes éthiques et juridiques profonds. Contre les principaux risques identifiés dans le domaine de la prise décision, les textes de loi demandent une intervention humaine ou un contrôle humain intégré dans la procédure de décision, aboutissant à des dispositifs « hybrides », combinant puissance de calcul et discernement humain. Dans cette série d’article le LINC explore, d’après la littérature scientifique, deux obstacles à l’effectivité de tels dispositifs : les biais de confiance des utilisateurs vis-à-vis du système et l’opacité des suggestions du système.

Cet article est le troisième (et dernier) d’une série de trois :

Le second article de cette série illustrait les biais de confiance à l’œuvre dans un contexte de prise de décision assistée, et en quoi ils constituent un obstacle au libre exercice du jugement humain dans un dispositif hybride. Si ces biais reposent sur des aptitudes particulières et des éléments de contexte propres à la prise de décision, ils sont aussi symptomatiques d’une difficulté intrinsèque au fonctionnement du système : la possibilité d’interpréter les sorties. En effet, lorsque la personne en charge de prendre la décision ne parvient pas à évaluer la suggestion du système, elle ne peut qu’avoir recours à sa propre intuition ou décider de suivre une heuristique de remise en doute ou de confiance. Même la condition minimale exigible d’un contrôle humain, qui serait celle d’écarter les cas évidents d’erreur, n’est pas toujours réaliste dans un contexte où certaines sorties sont complexes à évaluer. D’une part, des réponses absurdes se présentent parfois comme des faits vraisemblables : c’est le cas des systèmes d’IA génératives de texte qui peuvent insérer dans un texte correct un nom ou un fait inventé. D’autre part, le format même de la sortie peut le rendre étanche à l’évaluation : juger du bien-fondé d’un score numérique pour proposer une alternative supposerait dans la plupart des cas de refaire l’inférence qui a abouti à ce score.

Prédire n’est pas expliquer

En 1999, dans une étude comportementale, Goodwin et Fildes établissent que, lorsqu’on leur soumet des prédictions de tendances dans le domaine du marketing, les décisionnaires tendent à, au mieux, ignorer des prédictions fiables, voire à les dégrader en tentant de les modifier. Ils ont donc tendance à montrer un biais de méfiance envers l’algorithme. Or, les auteurs relèvent que les sorties sont difficiles à évaluer par les décisionnaires car leur format, donné sous la forme d’un score ou d’un pourcentage, n’est pas facilement contestable. Si les utilisateurs montrent de telles attitudes inadaptées, c’est parce qu’ils ne sont pas capables de déchiffrer le score qui leur est donné, et qu’ils préfèrent donc l’ignorer la plupart du temps. Lorsqu’ils tentent, cependant, de proposer une alternative, ils ne parviennent pas à faire mieux que le système.

Comme le montre cet article, les personnes chargées d’évaluer les sorties sont finalement chargées de deux sous-tâches : comprendre et évaluer. D’une part, l’utilisateur doit donner du sens à la suggestion produite : par exemple, si cette sortie est un score, comprendre sur quelle échelle figure ce score et quels sont les seuils considérés comme critiques. L’utilisateur doit pouvoir lire le message global envoyé par le système (chiffre), dans son contexte (ici l’échelle, et les seuils).

Ensuite, l’utilisateur doit l’évaluer, c’est-à-dire produire un jugement sur sa pertinence, pour l’accepter, ou la rejeter au profit de sa propre opinion ou d’une version corrigée. Dans des contextes d’utilisation de systèmes d’apprentissage machine, évaluer les sorties n’est pas trivial car ces modèles opèrent en boîte noire. Lorsque l’on ne peut pas retracer et décortiquer l’inférence qui a produit la suggestion du système, il faut tout de même trouver des moyens d’interpréter les sorties.

Vers des systèmes introspectifs

Une option pourrait être de poser la question au système lui-même, afin qu’il produise des justifications permettant à la fois de comprendre sa sortie et d’évaluer sa propre fiabilité. Malheureusement, les justifications et les scores de confiance accompagnant les réponses ne sont pas toujours fiables, même lorsque les sorties sont correctes.

Ainsi Jin et al. 2024,  analysant les performances d’un modèle chargé de résoudre des cas cliniques à partir de lecture d’images, ont-ils constaté les faibles compétences du modèle pour justifier ses réponses. Le modèle a été testé en utilisant des prompts structurés en trois parties : il devait d’abord décrire l’image médicale fournie, rappeler des informations médicales pertinentes pour répondre à la question posée, produire un raisonnement médical et enfin choisir un diagnostic parmi un ensemble d’options. Si le modèle montrait une grande précision -parfois supérieure à celle des médecins- dans ses diagnostics finaux, il était mis à rude épreuve dans sa compréhension des images médicales, ce qui le poussait à fournir des raisonnements bancals pour appuyer un diagnostic pourtant correct, produisant ainsi des justifications trompeuses.

Ces limites rendent son utilisation en milieu clinique encore prématurée, car ces faiblesses menacent une potentielle intégration dans la pratique médicale. Le risque d’introduire des justifications trompeuses, par exemple dans un cas où l’expert humain n’aurait pas accès à l’image, ou se reposerait sur la fausse lecture de l’image produite, serait d’induire en erreur la personne prenant la décision, pouvant même conduire à rejeter la suggestion finale correcte.

Analyse comportementale des systèmes

En somme les systèmes n’ont pas toujours de bonnes capacités d’introspection : ils ne sont pas toujours capables d’analyser eux-mêmes leur propre comportement, qu’il soit bon ou mauvais. En revanche, on peut toujours se guider sans tenter d’ouvrir la boîte noire : à l’aide d’une analyse comportementale du modèle.

C’est à ce titre qu’intervient le développeur d’un système dans la bonne intégration du modèle dans un processus d’expertise métier. Il peut fournir plusieurs éléments de contexte donnant une idée plus précise des conditions dans lesquelles le modèle a été « élevé », aidant à interpréter son comportement :

  • sur le contexte dans lequel l’algorithme a été conçu,
  • sur ses limites connues,
  • sur des tests effectués avant la mise sur le marché,
  • sur des tâches sur lesquelles il se montre typiquement moins performant, etc.

Les informations sur les données d’entraînement, le comportement en situation et les marges d’erreurs associés aux tests, permettent d’éclairer également les sorties.

Apprentissage par renforcement des utilisateurs

Des recherches exploratoires développent en profondeur cette notion d’analyse comportementale des modèles en proposant aux utilisateurs des modèles « d’entraînement » des décideurs humains pour les familiariser avec le comportement du système utilisé (Lian et Tan 2019, Suresh et al.. 2021, Wortman Vaughan et Wallach 2021). L’objectif est d’apprendre aux utilisateurs par un certain nombre d’essais à se familiariser avec le comportement du système et ainsi de savoir détecter quand suivre ses suggestions, ou quand les rejeter, et auquel cas creuser le problème en profondeur.

Dans leur dispositif expérimental, Mozannar et al. 2022 explorent l’optimisation de la collaboration entre humains et systèmes d'intelligence artificielle sur des tâches de réponses à des questions basées sur des passages de textes (basé sur le jeu de données HotPotQA). L'article propose une méthode pour aider les utilisateurs à collaborer avec différents modèles d’IA : au terme de l’entraînement, ils doivent parvenir à décider quand il est préférable de délèguer la réponse au modèle, et quand ils devraient intervenir.

Cette méthode s'inspire de recherches en éducation soulignant l'importance du retour sur expérience dans l'apprentissage. Elle se base sur le principe des exemples spécifiques, qui sont des cas-type destinés à illustrer les situations où l'algorithme est fiable et celles où il ne l'est pas. Les exemples sont choisis pour représenter différents scénarios : certains où l'algorithme présente un haut niveau de confiance et est correct dans sa prédiction, d'autres où le niveau de confiance est élevé mais la prédiction fausse, ainsi que des cas où le niveau de confiance est incertain, que la prédiction soit correcte ou non.

L’objectif est d’améliorer le « modèle mental » que les humains se font des capacités de l'algorithme, c’est-à-dire de les amener à comprendre les cas sur lesquels il est susceptible de faire des erreurs, y compris sur ses propres estimations de confiance. Ce processus d'apprentissage permet aux utilisateurs de mieux comprendre les situations dans lesquelles ils peuvent faire confiance à l'algorithme et celles où, au contraire, il est nécessaire de vérifier les résultats plus attentivement.

Les expériences montrent que les utilisateurs formés avec cette méthode sont plus efficaces pour décider quand déléguer les décisions au classificateur, améliorant la collaboration entre systèmes de décisions et humains et améliorant les erreurs de jugement.

Conclusion générale

La littérature scientifique montre que la mise en œuvre de systèmes de décision hybrides présente deux types d’enjeux : d’abord permettre au décisionnaire d’exercer un jugement en principe éclairé et impartial, ce qui relève de conditions exogènes de prise de décision, et ensuite permettre au décisionnaire de lire correctement les sorties, ce qui relève de conditions intrinsèques de lisibilité du système. Au fond, les attitudes de confiance du décisionnaire ne sont que le reflet de ces conditions initiales dont il hérite. Finalement, ces deux types d’obstacles sont donc signe que la responsabilité de la décision hybride est une charge à répartir entre le déployeur du système, qui a en charge le risques métier, et le concepteur du système, qui doit répondre du bon fonctionnement de son système et fournir un certain nombre de clefs pour apprendre à l’utiliser.

En effet, si l’intervention humaine requiert une marge de manœuvre importante du décisionnaire, le risque est d’augmenter, par symétrie, sa responsabilité individuelle dans la prise de décision : plus sa liberté est grande, plus on fait peser sur lui les coûts associés. Au-delà de la procédure de décision en elle-même, il faut donc élargir l’échelle et penser ces nouvelles procédures dans l’ensemble du contexte de travail pour intégrer de la meilleure manière les suggestions des machines aux décisions des humains.