Nicolas Obin : “La voix artificielle rend la machine plus humaine”

Rédigé par Félicien Vallet

27 mars 2019

Où en sont les technologies de synthèse vocale, les défis restant à relever et dérives potentielles ? LINC s’est entretenu avec Nicolas Obin, chercheur à l’Ircam, CNRS, Sorbonne Université et spécialiste du domaine.

LINC : La synthèse vocale (text-to-speech) est une discipline déjà ancienne. Quels ont été au cours du temps les grandes évolutions en la matière ?

L’évolution de la synthèse vocale a suivi les grandes révolutions dans l’histoire des sciences : depuis les automates et la « speaking machine » de Von Kempelen au XVIIIème siècle, en passant par le Voder des laboratoires Bells au début du XXe siècle, jusqu’à l’arrivée de l’informatique dans les années 1950-1960 qui a produit les premières voix de synthèse numérique à la manière de la fameuse voix de Hal dans le film 2001, l’Odyssée de l’espace. Dans les années 1990, l’avancement des capacités de stockage et de calcul a permis la réalisation de la synthèse dite « par corpus », et les débuts de l’ère moderne de la synthèse vocale. Parmi les premiers essais, la synthèse dite par concaténation d’unités. Cette technique consiste à sélectionner, dans l’ensemble des enregistrements d’un acteur préalablement transcrits en phonèmes, syllabes et mots, les « briques » de son qui correspondent aux mots que l’on souhaite faire prononcer par la voix et à les assembler les uns à la suite des autres pour former une phrase intelligible et avec une diction naturelle. L’avantage de cette synthèse était d’être exclusivement basée sur la réutilisation de briques réelles et donc de garantir le naturel de la voix de synthèse ; son désavantage est d’être limité à la voix de la personne, et à son contenu stylistique et expressif. La synthèse dite statistique ou paramétrique est apparue dès la fin des années 1990 avec les premières tentatives de modéliser les paramètres d’une voix comme l’intonation, le rythme, et le timbre, par des modèles statistiques génératifs comme les chaînes de Markov cachées. Ces modèles ont notamment été utilisés pour apprendre l’intonation et le rythme de la voix et par voie de conséquence améliorer la diction et le naturel de la voix de synthèse : c’est ainsi que j’ai contribué, avec les travaux réalisés au cours de ma thèse, à la création dès 2011 d’une voix de synthèse extrêmement réaliste du comédien André Dussollier. Depuis le milieu des années 2010, nous sommes entrés dans la révolution de l’intelligence artificielle (IA) et à une certaine forme d’apogée du « machine learning » : des algorithmes à base de réseaux de neurones permettent d’apprendre directement la manière de synthétiser des voix extrêmement réalistes. Par analogie avec la génération ou la manipulation hyperréaliste d’images, il va bientôt devenir extrêmement difficile de distinguer une voix réelle d’une voix de synthèse ou d’une voix trafiquée.

Les GAFAM (Google, Amazon, Facebook, Apple, Microsoft) et leurs homologues asiatiques les BATX (Baidu, Alibaba, Tencent, Xiaomi), sont des acteurs majeurs de la synthèse de la parole, en particulier par le biais de leurs assistants vocaux pour smartphones, enceintes ou véhicules. Aujourd’hui, il semble que ce sont eux qui font avancer l’état de l’art, qu’en est-il ?

Les acteurs majeurs de l’industrie numérique ont tout d’abord été bénéficiaires des avancées et sont aujourd’hui devenus des acteurs de R&D extrêmement dominants dans le domaine de la reconnaissance et de la synthèse de la parole. Aujourd’hui, ces acteurs établis ou émergents ont radicalement changé le paysage de la R&D dans les domaines de l’IA et de ses applications, en particulier à travers le développement des assistants personnels.

Que ce soit avec les smartphones ou les « home assistants » comme Alexa, Google Home, Siri, ou Watson, la voix est devenue la modalité privilégiée d’interaction de l’humain avec la machine. La voix de synthèse permet dès lors de conférer une incarnation humaine à la machine et de faciliter le rapport que nous avons avec elle. Ces acteurs dominent aujourd’hui la R&D sur la synthèse vocale, et présentent régulièrement des avancées spectaculaires. Rien que pour ces deux dernières années, l’on peut citer WaveNet, Tacotron, DeepVoice, ou encore la démonstration de Google Duplex où la voix de synthèse prend un rendez-vous chez le coiffeur. Cette position hégémonique pose clairement la question de l’investissement public et de la stratégie pour les technologies numériques. La France et l’Europe possèdent un vivier de laboratoires et d’entreprises qui doit être cultivé pour impulser des alternatives en conformité avec une vision Européenne de la société et des technologies.

A l’Ircam (Institut de recherche et coordination acoustique/musique), vous focalisez vos travaux sur d’autres aspects, notamment en mettant l’accent sur le caractère expressif de la voix. Pouvez-vous nous expliquer ce positionnement ?

L’Ircam, fondé en 1977 par Pierre Boulez, est un institut de recherche unique au monde dont la mission est de rassembler des chercheurs et des musiciens pour élaborer de nouveaux moyens de création sonore. La voix y tient une position centrale de la politique scientifique depuis ses origines : de par sa position à part comme instrument de musique et son potentiel expressif, la voix fascine les musiciens et les artistes. L’Ircam a aujourd’hui une expertise de plus de 40 ans sur la synthèse et la transformation de la voix, jalonnée de succès comme l’air de la reine de la nuit par une voix de synthèse, la re-création d’une voix de Castra dans le film Farinelli, et plus récemment la création de la voix de synthèse d’André Dussollier, ou la recréation des voix de Marilyn Monroe, du Maréchal Pétain, ou de Louis de Funès. Contrairement aux assistants dont les voix sont extrêmement neutres et normées pour remplir au mieux une fonction d’information, l’Ircam se démarque par une recherche depuis toujours orientée vers l’ expressivité de la voix, c’est-à-dire sa capacité à exprimer par le son des choses qui échappent au langage formulé, par exemple les émotions, ou l’interprétation d’un acteur ou d’un chanteur.

Par conséquent, vous avez recours à la conversion ou à la transformation vocale. Pouvez-vous nous préciser de quoi il retourne ?

De par son implication dans la création et la production artistique, l’Ircam s’est spécialisé dans la transformation vocale, c’est-à-dire pouvoir manipuler les attributs d’une voix à partir d’un enregistrement existant ou directement sur scène la voix d’un comédien ou d’un chanteur en temps-réel. Nous développons donc depuis 40 ans des algorithmes et des logiciels qui permettent de sculpter la voix, d’en modifier des attributs aussi variés que l’identité, l’âge, le genre, ou l’émotion. Par exemple, les logiciels AudioSculpt et ircamTools TRAX permettent de modifier l’intonation ou le timbre d’une voix. Nous avons de nombreuses demandes et applications en sound design au cinéma : pour modifier les inflexions d’un acteur, façonner une voix dans ses moindres détails, ou encore anonymiser l’identité vocale d’une personne de manière extrêmement réaliste (les documentaires Escort girl et Les guerriers de l’ombre). L’intelligence artificielle nous a permis de pousser plus loin les capacités de transformation en permettant d’apprendre à la machine à contrefaire l’identité vocale d’une personne et manipuler ses émotions. A ma connaissance, nous sommes les premiers au monde à avoir réussi à reproduire l’identité vocale de personnalités historiques à la télévision et au cinéma dès 2012 (Marilyn, Juger Pétain, Pourquoi j’ai pas mangé mon père ). Si le processus est encore largement imparfait et demande une grande part d’intervention humaine, nous sommes en mesure de contrefaire une identité vocale à partir de quelques minutes d’enregistrement de sa voix et de l’enregistrement de la voix d’un acteur. Les demandes ont littéralement explosé ces dernières années à la télévision et au cinéma pour reproduire la voix de personnalités extrêmement variées, françaises ou étrangères.

De plus en plus de sociétés (Lyrebird, Oben, VoxyGen, CandyVoice, Acapela, etc.) proposent des produits permettant de créer un clone numérique de sa voix ou de celle d’un tiers. Quels sont les usages commerciaux possibles ?

La possibilité de reproduire la voix d’une personne de manière naturelle et réaliste a ouvert de nombreuses applications possibles dans lesquelles les entreprises se sont engouffrées. Les voix de synthèse sont amenées à nous accompagner au quotidien que ce soit avec les smartphones, les assistants à la maison ou embarqués dans les véhicules, les agents d’accueil virtuels et les centrales d’appel automatisées, pour ne donner que quelques exemples. Des entreprises proposent aujourd’hui de pouvoir créer une voix de synthèse avec sa propre voix, au prix d’une certaine quantité d’enregistrements à réaliser. Des essais préliminaires ont été réalisés dès 2014 pour pouvoir parler dans une autre langue mais en conservant sa propre voix, avec comme application directe la traduction automatique. Sans doute à terme, il sera possible de créer des avatars vocaux pour les joueurs de jeux vidéo, pour créer la voix des personnages, ou pour réaliser le doublage automatique d’un acteur dans des langues différentes. Le clonage de la voix en synthèse vocale a également des applications médicales importantes, comme la « prothèse vocale ». Stephen Hawking est un exemple illustre de l’utilisation de la synthèse vocale pour des personnes qui ont perdu l’usage de la voix. Mais si Stephen Hawking utilisait un synthétiseur d’IBM avec une voix lambda, et y était attaché, il est désormais possible de cloner la voix de personnes perdant l’usage de la parole et collectant des enregistrements de leur voix avant que cette perte soit définitive. Il est alors possible de créer un synthétiseur vocal avec la voix de la personne : cette possibilité a un impact affectif énorme pour la communication du patient avec ses proches. D’autres entreprises proposent de créer un double numérique de soi-même. Aujourd’hui, cet avatar est censé pouvoir nous représenter virtuellement sur les réseaux sociaux à la manière d’un messager personnalisé. A l’avenir, l’idée est qu’il puisse se comporter et agir de manière autonome – à notre image – dans le monde numérique. Toutes ces possibilités, si elles sont fascinantes et annoncent le devenir de ces technologies, n’en sont néanmoins qu’à un état encore largement embryonnaire.

Au-delà de ces utilisations légitimes, faut-il s’inquiéter d’un risque de « deepfake » vocaux et de la possibilité que son identité soit usurpée (à l’image de ce qui a déjà été développé en vision par ordinateur) ?

Les avancées spectaculaires réalisées dans les domaines de l’IA et de la parole comportent forcément des risques de dérive et d’usages malintentionnés. Nous sommes tous confrontés au quotidien aux fausses informations (fake news) relayées massivement sur les réseaux sociaux. Si ces fausses informations sont aujourd’hui encore grossières et facilement contre-vérifiables, des logiciels de « deep fakes » librement accessibles permettent de remplacer le visage d’une personne dans une image ou une vidéo par celle d’un autre individu, ou de générer des visages extrêmement réalistes de personnes qui n’existent pas. Une étude a été menée en 2018 par un consortium de laboratoires internationaux pour déterminer s’il était possible de cloner une identité vocale avec les technologies existantes à partir de données récoltées sur Internet. S’il est techniquement possible de cloner une voix à partir d’une phrase ou d’une minute d’enregistrement, le rendu est encore très loin de porter à confusion avec la voix réelle. La possibilité de contrefaire des identités vocales pose évidemment la question de la propriété intellectuelle et des droits d’auteur sur cette voix. Moins évidente est la « neutralité » des voix de synthèse, c’est-à-dire la possibilité d’utiliser les assistants ou autres robots compagnons pour manipuler un individu avec sa voix. La voix de synthèse pourrait devenir suggestive, persuasive, ou culpabilisatrice pour manipuler les pensées ou le comportement d’une personne. Ceci est d’autant plus préoccupant que des études ont montré que les enfants pouvaient être influençables par des robots et faire plus confiance à un robot qu’à un humain. L’ensemble de ces dérives possibles doit dès aujourd’hui interpeler et appeler à une grande vigilance sur les exploitations de ces technologies.

Nicolas Obin

Nicolas Obin est maître de conférences au laboratoire des Sciences et Technologies de la Musique et du Son (STMS), Ircam – CNRS - Sorbonne Université. Il est spécialisé en traitement audio, linguistique appliquée, et apprentissage automatique, et a développé une expertise dans les méthodes de conversion, transformation et synthèse vocale. Il a ainsi notamment contribué à reconstituer la voix numérique de personnalités : André Dussolier (2011) Marilyn Monroe dans Marilyn (P. Parreno, 2012), le Maréchal Pétain dans le documentaire Juger Pétain (R. Saada, 2014) ou Louis de Funès dans Pourquoi j’ai pas mangé mon père (J. Debbouze, 2015).

Illustration : Flickr - cc-by - Bryan Rosengrant

Article rédigé par Félicien Vallet , Responsable IA de la CNIL

VOIR PLUS D'ARTICLES DE L'AUTEUR

Contenu annexe

Atelier de réflexion sur le RGPD dans la recherche scientifique

30 juillet 2025

Retour sur le Privacy Research Day 2025

29 juillet 2025

Les techniques d’Explainable AI [2/3]

07 juillet 2025