[itw Chloé Clavel] Les machines ne font « pas encore » mieux que les humains pour interpréter les émotions

Rédigé par Félicien Vallet

15 octobre 2018

LINC s’est entretenu avec Chloé Clavel, professeure associée en affective computing à Télécom ParisTech. Spécialiste des systèmes d’interaction humain/agent, elle nous présente ce champ de recherche et nous en expose les différents enjeux.

LINC : Comme nous le pointons, dans notre série d’articles dédiés à ce sujet (voir par exemple ici et là), la question de la détection des émotions est dans l’air du temps et nourrit de nombreux fantasmes. Pourtant, ce champ de recherche scientifique est déjà ancien et bien structuré. Comment s’explique l’engouement actuel ?

L’intérêt des grands dépositaires d’enjeu tels qu’Amazon, Microsoft, Google et Apple vers les assistants virtuels interactifs et la montée du domaine de la robotique sociale mettent actuellement les recherches en informatique affective et sociale sur le devant de la scène. En effet, la prise en compte de la composante socio-émotionnelle dans l’interaction humain-agent a pour vocation de rendre les interactions plus fluides, plus naturelles et de renforcer le sentiment de proximité entre l’utilisateur et l’agent ou encore de favoriser l’engagement de l’utilisateur.

Affective computing, opinion mining, sentiment analysis, social computing, etc. il existe de nombreux mots et expressions fréquemment utilisés par les professionnels, les journalistes et le grand public et cela de manière interchangeable. Pouvez-vous préciser comment s’articule cette terminologie ?

Emotion, opinion, sentiment, humeur, attitude, positionnement interpersonnel, trait de personnalité, affect, jugement, appréciation, argumentation... La pluridisciplinarité du domaine a entraîné d’un côté l’utilisation de terminologies différentes pour désigner des phénomènes similaires et d’un autre côté, l’utilisation d’une même terminologie pour désigner des phénomènes différents. La communauté de l’opinion mining a tendance à utiliser des termes comme opinion, sentiment et affect qui réfèrent à des phénomènes différents. Cependant, les travaux existants présentent rarement des définitions approfondies des phénomènes associés à ces termes.

La communauté de l’interaction humain-agent s’appuie, elle, sur des théories issues de la psychologie mais pour modéliser des phénomènes plutôt centrés sur l’émotion, l’affect et l’humeur et plus récemment sur les interactions sociales. Dans un de nos articles, nous présentons avec ma coauteure les recouvrements et les différences qu’il existe entre les différentes terminologies, ainsi que les différents modèles théoriques sous-jacents [Clavel et Callejas, 2016].

L’affective computing se repose donc sur des travaux pré-existants de sciences humaines pour proposer de capturer les signaux physiologiques émis par un sujet : expressions, sons, parole, gestuelle, etc. Comment en pratique encode-t-on les émotions et s’assure-t-on de leur correspondance avec un phénomène physique ?

En quoi consiste le phénomène émotionnel ? La réponse à cette question est un sujet de controverse sur lequel se sont penchés de nombreux psychologues. Doter la machine des capacités de compréhension des comportements humains : tel est le défi scientifique autour duquel se rassemblent différentes communautés scientifiques (traitement du signal, traitement automatique du langage, intelligence artificielle, robotique, interaction homme-machine, etc.). Les informations disponibles sont les signaux acquis par le système via des capteurs (image, son, capteurs physiologiques). Les données manipulées sont donc de très bas niveau : les échantillons sonores ou encore les pixels des images. Prenons l’exemple de la voix. Une grande partie des descripteurs acoustiques utilisés pour caractériser les différents états émotionnels est destinée à modéliser les modifications du signal acoustique liées à des modifications physiologiques à la base de la glotte. C’est le cas des descripteurs de la qualité de voix (voix soufflée, voix grinçante, voix dure, voix tendue) et des descripteurs prosodiques. Les modifications physiologiques se produisent à deux niveaux : sur les organes intervenant au niveau de la source (par exemple : poumon, trachée, muscles de la respiration, glotte, larynx, cordes vocales) et sur les organes intervenant au niveau du filtre (par exemple : conduit vocal, fosses nasales, langue, muscles des mandibules, lèvres). Les modifications corporelles/physiologiques qui accompagnent certains états émotionnels, vont fortement influer sur le mode de production du message oral du locuteur [Picard, 1997]. Par exemple, dans le cas de la peur, les modifications physiologiques typiques sont l’augmentation du pouls et de la pression du sang et la sécheresse de la bouche, et se manifestent par une voix plus forte, et plus aigüe et un débit plus rapide, au contraire de l’ennui et de la tristesse qui sont corrélés avec un abaissement du rythme cardiaque et se manifestent par une voix plus grave, moins intense et un débit plus lent.

L’idée que des systèmes techniques puissent extraire des connaissances sur nos états émotionnels les plus intimes – potentiellement mieux que nous n’en sommes nous même capables – semble particulièrement polarisant pour le grand public. En quoi ces questions touchent-elles à l’intime ?

Tout d’abord, je tiens à préciser que notre travail concerne les signaux socio-émotionnels tels qu’ils sont exprimés par l’humain – c’est-à-dire sans s’appuyer sur la capture de signaux physiologiques tels que la transpiration, les battements de cœurs, les signaux électro-encéphalogrammes, etc. Nous ne prétendons pas encore pouvoir faire mieux que l’humain dans la détection et l’interprétation de ces signaux. Cependant la question de la transparence du fonctionnement des méthodes de détection est une question importante. Comment proposer des systèmes de détection dont on puisse expliquer, retracer le fonctionnement ? Cela est notamment indispensable dans les cas (encore très fréquents) où les systèmes se trompent. Cela l’est également afin d’interpréter les sorties (résultats) de ces systèmes qui sont forcément sujettes à la subjectivité (nous n’avons entre humains pas forcément la même perception de l’émotion d’autrui).

Alors que les promesses faites par les promoteurs technologiques sont nombreuses, comment voyez-vous l’évolution des technologies d’affective computing ?

Les manifestations des opinions sociales, culturelles et politiques dans les médias sociaux comportent une forte composante affective. Par exemple, le discours de haine peut être considéré comme une manifestation extrême, mais typique, de l'expression des opinions. Un des défis de l’affective computing est de travailler sur ces phénomènes émotionnels et de réfléchir sur la façon dont les algorithmes développés peuvent permettre de modéliser de tels phénomènes dans leur complexité et leur ambiguïté afin de mieux pouvoir gérer les conflits émergents dans les médias sociaux ou dans les interactions humain-humain et humain-agent, en général.

Pour aller plus loin :

[Clavel et Callejas, 2016] Chloé Clavel et Zoraida Callejas, Sentiment analysis: from opinion mining to human-agent interaction, IEEE Transactions on Affective Computing, 7.1, 2016.
[Picard, 1997] Rosalind W. Picard, Affective Computing, MIT Press, Cambridge, MA, USA, 1997.

Chloé Clavel

Chloé Clavel est professeure associée en Affective Computing à Telecom-ParisTech, et coordonne la problématique Social Computing. Sa recherche porte sur deux questions principales : l'analyse acoustique du discours émotionnel et l'exploration de l'opinion par le traitement du langage naturel.

Illustration - Flickr-cc-by-Jeff Hitchcock

Article rédigé par Félicien Vallet , Responsable IA de la CNIL

VOIR PLUS D'ARTICLES DE L'AUTEUR

Contenu annexe

Atelier de réflexion sur le RGPD dans la recherche scientifique

30 juillet 2025

Retour sur le Privacy Research Day 2025

29 juillet 2025

L'explicabilité de l'IA : un problème renouvelé par le succès du deep learning [1/3]

07 juillet 2025