Captation des émotions : comment vous le direz pourra être retenu contre vous…
Rédigé par Régis Chatellier
-
04 April 2018[Dossier assistants vocaux] Les applications d’analyse de la voix et de captation des émotions sont de plus en plus nombreuses sur le marché. Quelle est leur fiabilité et qu’en est-il de la protection de la vie privée et des libertés ?
On peut déjà commander des pizzas ou acheter des chaussures sans avoir recours à aucune autre interface que la voix, demain peut-être sera-t-il courant de demander à notre assistant vocal de nous préparer le café, ou mieux, de nous « passer le sel ». Mais la vraie révolution à venir sera quand il nous répondra : « Hey ! Pas sur ce ton s’il te plait ». Demain, les assistants vocaux et plus largement des technologies de traitement de la voix ne se contenteront plus seulement de déchiffrer nos paroles, mais sauront discerner notre humeur et nos émotions.
Du signifié au signifiant
La mise en équation et la quantification des émotions sont des sujets déjà largement explorés par l’analyse des expressions de notre visage, par la manière dont nous interagissons avec nos "amis" sur Facebook, voire par des technologies de captation des ondes cérébrales ou par nos choix d’émoticônes (tel que le décrivent Camille Alloing et Julien Pierre). Alors que le Graal de nombreuses startups et entreprises du numérique reste encore de comprendre et anticiper les réactions de leurs clients, la voix ne pouvait pas rester en dehors de cette quête.
Dans un article de Tom Simonite sur Wired (repris et commenté en français sur Internet Actu), on apprend qu’une startup développe, avec le concours d’une équipe de chercheurs du MIT, un assistant intelligent qui devra permettre aux téléconseillers de connaître et analyser l’humeur de leurs interlocuteurs en temps réel, en se basant sur le rythme et les propos qu’ils tiennent. L’objectif est que les téléconseillers puissent mieux adapter leurs réponses, diminuer leur fatigue, et in fine répondre à un nombre plus important d’appels chaque jour. Le même système pourra également être utilisé par les employeurs pour analyser la voix et les propos des téléconseillers. Un système qui pose, comme le souligne justement Hubert Guillaud, la question de l’information des clients au téléphone. S’il existe bien une mention d’information sur l’enregistrement des conversations (et donc de la parole), il faudra prévoir à l’avenir l’information quant à l’analyse de la voix elle-même. Le linguiste Ferdinand de Saussure, dans son Cours de linguistique générale (1916), décrit la parole et la voix comme les deux constituants d’un signe linguistique : la parole composant le signifié et la voix, le signifiant. Nous analysons tous, en plus de la compréhension du sens du message (de la parole), la manière dont celle-ci nous est délivrée (la voix), qui nous révèle des informations plus riches que les seuls mots prononcés. Si l’on en vient à automatiser l’analyse de la voix il s’agira d’ informer les personnes qu’elles ne s’adressent plus seulement à une personne, mais à une personne et une machine. Une question que nous posions déjà il y a un an pour le test de Turing appliqué aux chatbots.
Automatisation et vigilance
Cette course à la reconnaissance des émotions ne date pas d’hier. Dans un article du New-York Times publié en 2013, on apprenait qu’une startup israélienne, Beyond Verbal, se vantait de pouvoir déterminer les émotions les plus intimes dans le timbre et les intonations de la voix. L’exemple porte en lui les risques d’une trop grande confiance en à des systèmes automatiques qui seraient à l’origine de prises de décisions, comme le signalait dès 2013 George Loewenstein, professeur d’économie et de psychologies à la Carnegie Mellon University : « Il me semble que le plus grand risque de ces technologies n’est pas la violation de la vie privée des individus [ndlr : cela reste un vrai risque], mais que les compagnies croient en ces technologies et établissent leurs jugements à partir de celles-ci, pour leurs clients où leurs employés. Il pourrait en résulter la prise de décisions arbitraires et potentiellement discriminatoires ». La loi n’a pas attendu 2012 pour réguler ce genre de questions : la prise de décision de décision automatisée était déjà encadré par l’article 10 de la Loi Informatique et Libertés puis par le RGPD, qui dans son article 22, précise que la « personne concernée a le droit de ne pas faire l'objet d'une décision fondée exclusivement sur un traitement automatisé […] produisant des effets juridiques la concernant ou l'affectant de manière significative de façon similaire. » Les algorithmes ne peuvent être utilisés que comme outil d’aide à la décision, ce qui implique que les personnes qui seraient amenés à les utiliser conservent un certain recul et un « principe de vigilance » quant aux résultats obtenus.
D’autres startups, comme Nemesysco, citée par Olivier Ezratty dans un article consacré à l’IA émotionnelle ont recours à ces technologies dans les call-centers, pour surveiller les téléconseillers, mais également dans le domaine de la sécurité, pour des interrogatoires, ou dans le domaine de l’assurance, pour repérer d’éventuelles tentatives de fraudes, à la manière d’un détecteur de mensonge. Le champ des applications possibles est très large et pose la question de l’information et du consentement des personnes à de tels systèmes autant que de la fiabilité de la technologie et des algorithmes utilisés.
Jean-François Bonastre, professeur au Laboratoire d’Informatique d’Avignon et spécialiste du traitement de la parole et de l’authentification vocale, que nous interrogions pour LINC à propos de la biométrie vocale, précisait que ce secteur est très porteur : "même si la rigueur scientifique et les résultats ne sont pas toujours présents, des sessions sur ces sujets sont régulièrement proposées lors des grandes conférences scientifiques du domaine, souvent autour de « challenges » mettant en compétition des systèmes et donnant l’impression que tout est résolu…", il ajoutait qu’il "n’est pas dit que […] les avancées de la recherche permettent de mettre en place toutes ces applications à court ou moyen terme. Certaines sont certainement improbables, voire impossible, comme la détection de mensonge. Mais ces exemples illustrent pour moi l’attention qu’il faut accorder aux données vocales et à leur exploitation !"
IA et discrimination
La captation des émotions par la voix reste un champ à surveiller, il porte en lui les risques et interrogations que nous publiions en décembre 2017 dans notre rapport sur l’éthique des algorithmes, et notamment pour les applications basées sur l’IA et le machine learning : discrimination et exclusion constituent des effets clairement identifiés dans les algorithmes et l’intelligence artificielle. Le rapport de l’IEEE, Ethically Aligned Design, précise dans le chapitre consacré à l’affective computing qu’il est nécessaire de prendre en compte les artefacts culturels, c’est-à-dire que certains signes peuvent être interprétés différemment selon les cultures : "les sociétés et les individus à travers le monde ont différentes manières de maintenir le contact visuel, exprimer des intentions dans la gestuelle, interpréter les silences" mais aussi d’exprimer des signes dans les intonations de voix. Ainsi, "un système basé sur l’intelligence artificielle entrainé à partir d’une base de données d’une zone culturelle ne sera pas directement utilisable dans une autre culture", ou pour une personne issue d’une autre culture.
L’utilisation sans précaution de telles technologies, au-delà des notions de consentement des personnes à s’y soumettre, pourraient avoir pour conséquence de nuire à des individus pourtant honnêtes ou sincères, qu’ils soient des particuliers qui cherchent à obtenir un crédit immobilier, ou des salariés en centre d’appel dont le timbre de voix ne correspondrait pas aux canons et stéréotypes des algorithmes d’analyse vocale. Là comme ailleurs, le principe de vigilance doit et devra s’appliquer.
Illustration : "The Edison Phonograph". 1905 promotional postcard, domaine public (Wikimedia Commons)