Emmanuel Vincent : "Il est nécessaire d’anticiper les fonctionnalités et les usages futurs afin de construire le cadre légal approprié"
Les assistants vocaux sont-ils condamnés à exposer la vie privée des utilisateurs ? Des implémentations protectrices de la vie privée sont-elles envisageables ? À l’occasion de la rédaction du Livre Blanc sur les assistants vocaux et dans le cadre du partenariat CNIL-Inria, le LINC s’est entretenu, avec Emmanuel Vincent, dont les travaux portent sur le développement de nouvelles interfaces vocales satisfaisants dès la conception les impératifs de protection des données.
Propos recueillis par Félicien Vallet et Martin Biéri.
LINC : De très nombreuses études annoncent une adoption massive des assistants vocaux dans les années à venir. Quels seront, selon vous, les enjeux pour leurs utilisateurs lorsque tous nos équipements en seront équipés ?
En permettant aux utilisateurs d’exprimer des demandes complexes, les assistants vocaux répondent au besoin d’interaction efficace avec les contenus Internet, les objets et les services du quotidien. Les entreprises de technologies vocales vont élargir les langues prises en charge et combiner la commande vocale à l’analyse d’autres aspects de la voix (âge, émotions, préférences, etc.) afin de mieux caractériser l’utilisateur et ses désirs. Les entreprises de toutes sortes vont à leur tour intégrer ces technologies dans un nombre croissant de produits.
Cela soulève de nombreux enjeux pour les citoyens, les entreprises utilisatrices et les pouvoirs publics. Par exemple, la prise en charge d’une langue a un coût qui n’est pas toujours commercialement rentable. Il est essentiel pour la diversité culturelle et l’égalité des chances de soutenir les initiatives de logiciels libres et de données ouvertes, afin que ces technologies deviennent accessibles à tous les citoyens, quelle que soit leur langue, leur dialecte ou leur accent. Il est aussi essentiel que les réponses apportées par les assistants soient équitables et explicables : en réponse à une question sur un produit, pourquoi mettre en avant les sites web de certaines marques plutôt que d’autres ?
Les usages doivent être contrôlés : une technologie comme l’analyse des émotions peut être à la fois bénéfique pour fluidifier l’interaction à un instant donné et éthiquement répréhensible si les émotions détectées sont conservées à des fins de profilage commercial. Même lorsque l’usage est acceptable, la collecte de données vocales pose des questions de sécurité et de confidentialité.
Il est donc nécessaire d’anticiper les fonctionnalités et les usages futurs afin de construire le cadre légal approprié et de permettre aux citoyens de devenir des utilisateurs avertis.
Le Règlement général sur la protection des données (RGPD) prône une approche de protection de la vie privée dès la conception (privacy by design). Comment un tel concept se traduit-il concrètement dans le cas des assistants vocaux ?
Selon le RGPD, la voix est une donnée personnelle. Elle véhicule en effet quatre types d’information de nature personnelle : les mots prononcés, les caractéristiques biométriques de la personne qui les a prononcés (identité, âge, genre…), la façon dont elle les a prononcés (émotions et pathologies se traduisant dans la voix) et l’environnement dans lequel elle les a prononcés (voix et bruits ambiants). Le RGPD va plus loin en catégorisant comme des informations de nature sensible les caractéristiques biométriques et les mots trahissant l’orientation sexuelle ou les opinions religieuses par exemple.
Concrètement, les assistants vocaux demandent l’autorisation expresse aux utilisateurs d’utiliser leur voix pour certains usages prédéfinis et leur offrent la possibilité d’accéder aux données enregistrées et de demander leur suppression. Cela est conforme à la loi, mais ne permet pas aux utilisateurs de contrôler finement les usages qui sont faits de leurs données, dans la mesure où les usages prédéfinis ne sont souvent pas aussi spécifiques que les utilisateurs avertis pourraient le souhaiter.
Faisant notamment suite aux travaux sur la théorie de l'information de Claude Shannon, la recherche dans le domaine du traitement automatique de la parole remonte aux années 1960 environ. Toutefois, il semble que le fait d'allier celle-ci à des techniques de protection de la vie privée soit encore très récent. Quelle en est la raison ?
Les technologies vocales fonctionnent par apprentissage automatique à partir d’enregistrements de voix retranscrits sous forme textuelle. Pendant longtemps, ces données étaient acquises auprès de sujets volontaires et les systèmes ne fonctionnaient de façon suffisamment fiable que pour la reconnaissance de chiffres ou de mots-clés, qui est peu critique pour la vie privée.
Le boom des assistants vocaux est dû à la conjonction de trois facteurs : l’émergence de méthodes d’apprentissage plus puissantes, l’augmentation de la capacité de calcul et l’explosion de la quantité de données. Certaines entreprises conservent toutes les commandes vocales envoyées à leur assistant dans divers cas d’usage et s’en servent notamment pour l’apprentissage. Cette augmentation de la quantité et de la diversité des données de chaque utilisateur associée à l’augmentation de la capacité à en extraire des informations accroît les risques pour la vie privée, que ce soit dans le cadre d’un usage légal ou illégal (cyber-attaque) : profilage, accès à des informations sensibles, usurpation d’identité, espionnage industriel, etc. Le profilage est une pratique courante, qui pourrait se voir renforcée par le recoupement d’informations issues de multiples cas d’usage. Les autres risques peuvent sembler exagérés aujourd’hui, mais constituent une menace probable à un horizon de quelques années.
Pour limiter ces risques, d’autres entreprises font le choix de ne pas conserver les commandes vocales effectuées et d’utiliser des données d’apprentissage acquises auprès de sujets volontaires, au risque que leurs produits soient moins efficaces.
Vous menez vous même des recherches sur le sujet. Pouvez-vous nous présenter comment vous en êtes arrivé à travailler sur ces objets et les défis que vous souhaitez relever ?
Mon intérêt découle du constat que, pour atteindre les bienfaits économiques et sociétaux attendus de l’intelligence artificielle et des assistants vocaux notamment, nous devons développer des outils d’apprentissage automatique efficaces capables de tirer le meilleur de données personnelles massives tout en garantissant la préservation de la vie privée, de l’équité et des autres valeurs auxquelles sont attachées nos concitoyens. Le déclic est venu du contact avec l’équipe Magnet (Université de Lille, CNRS, Inria), qui conçoit de tels outils et apporte des garanties formelles de confidentialité, et avec des entreprises européennes, qui ont exprimé leur intérêt.
Depuis fin 2018, dans le cadre du projet COMPRISE financé par le programme Horizon 2020 de l’Union Européenne, nous concevons un assistant vocal open source et une plateforme d’apprentissage fondés sur le principe de protection de la vie privée dès la conception . Pour cela, avant d’envoyer les données de l’utilisateur vers la plateforme d’apprentissage, nous transformons la voix et remplaçons certains mots afin que l’utilisateur ne soit plus identifiable. Nos premiers essais nous ont donné du fil à retordre car les outils de biométrie moderne sont extrêmement puissants pour ré-identifier l’utilisateur, même après transformation. Nos outils ne garantissent pas une anonymisation parfaite, mais fournissent un niveau de protection très supérieur à l’existant.
Mon équipe coordonne aussi le projet DEEP-PRIVACY financé par l’Agence Nationale de la Recherche, qui adopte une approche alternative d’apprentissage décentralisé. Dans cette approche, les données personnelles ne quittent pas le terminal de l’utilisateur, ce qui fournit une protection accrue mais a l’inconvénient de ne plus permettre leur retranscription manuelle. Pour susciter d’autres initiatives de ce genre, nous avons créé le défi VoicePrivacy dont les résultats seront présentés en septembre 2020.
Emmanuel Vincent
Emmanuel Vincent est Directeur de Recherche au sein de l'équipe Multispeech (Université de Lorraine, CNRS, Inria). Ses recherches portent notamment sur la commande vocale mains-libres et l’analyse des sons ambiants. Il développe des technologies d'intelligence artificielle peu gourmandes en données et respectueuses de la vie privée. Il coordonne le projet COMPRISE et est l’un des organisateurs du défi VoicePrivacy.