Julia Velkovska et Moustafa Zouinar : « Assistants vocaux : un véritable fossé entre les discours promotionnels et la réalité des usages »

Rédigé par Félicien Vallet

16 avril 2018

Dans le cadre de notre série consacrée au développement du marché des assistants vocaux, nous nous intéressons aux changements de paradigmes impliqués par l’utilisation de la voix comme interface homme-machine, et aux enjeux posés pour les usages du quotidien. Entretien croisé avec Julia Velkovska et Moustafa Zouinar, respectivement sociologue et ergonome au Laboratoire SENSE (Sociology and Economics of Networks and Services) d’Orange Labs.

LINC : Avant toute chose, quelle est la promesse des assistants vocaux ?

Moustafa Zouinar : Les assistants vocaux sont présentés par leurs promoteurs comme des systèmes qui vont faciliter la vie quotidienne des habitants du foyer grâce à une interaction vocale dite « naturelle ». Les discours promotionnels les présentent en effet comme capables d’établir une interaction, fluide, simple et sans effort, très proche de la conversation humaine.

La promesse, c’est donc la fluidité de l’échange avec l’utilisateur. Qu’en est-il en pratique selon vos observations ?

Julia Velkovska : Au-delà des discours publicitaires ce qui nous intéresse en tant que chercheurs en sciences humaines et sociales (SHS) c’est plutôt comment les personnes s’approprient ou non ces nouveaux systèmes, la manière dont elles interagissent avec eux, le sens qu'elles donnent à ces pratiques, ou encore la place qu’elles sont prêtes à leur aménager chez eux, dans leur vie de tous les jours. Pour explorer ces questions, nous menons depuis 2015 des enquêtes sur les usages réels des assistants vocaux par les familles sur la base d’observations vidéo et d’entretiens. Ces enquêtes portent sur une variété de dispositifs : anglophones (tels Amazon Echo ou Ivee) ou francophones (Google Home), déjà commercialisés ou encore à l’état de prototypes en cours de conception. On observe un véritable fossé entre les discours promotionnels qui vantent les capacités conversationnelles des assistants et la réalité des usages. Dans la pratique il n’est pas aussi simple de leur parler, cela demande souvent un effort de la part des utilisateurs quel que soit le système.

Tout d’abord la reconnaissance vocale, c’est-à-dire la retranscription de la parole humaine en texte exploitable par le système, n’est pas toujours efficace, y compris pour des requêtes simples comme demander la météo. Les utilisateurs doivent parfois répéter leurs énoncés plusieurs fois pour se faire comprendre, ce qui peut les conduire dans certains cas à abandonner l’usage du système. Dans les cas où ils persévèrent, ils s’engagent dans un véritable « travail de l’utilisateur », lié à la gestion de l’interaction et à son sens. Ce travail peut se traduire par une variété d’actions telles que reformuler les énoncés en les raccourcissant ou en les développant pour apporter des précisions, s’approcher de l’objet ou parler plus fort. Cet effort s’étend au-delà de la formulation des énoncés pour englober l’ensemble des activités accomplies par les personnes pour faire fonctionner le système, y compris celles visant à faire sens de ses réponses non pertinentes ou le travail d’apprentissage lié à la « structure » interactionnelle imposée (activer le système puis parler au bon moment, c’est-à-dire lorsqu’il est « en écoute »). Ce travail de l’utilisateur est un aspect majeur des usages actuels des assistants vocaux et il est très important de le décrire, de le comprendre et d’en tenir compte lorsqu’on pense les conséquences sociales de la diffusion de ces technologies à l’époque où elles sortent justement des laboratoires pour prendre place au cœur des foyers.

Moustafa Zouinar : Un autre point est que l’interaction avec ces systèmes engendre « l’illusion d’une conversation naturelle ». Les utilisateurs se trouvent en effet dans une situation paradoxale lorsqu’ils interagissent avec ces assistants : plus le système fonctionne correctement et mobilise des pratiques conversationnelles ordinaires, plus ils ont tendance à parler « naturellement » et plus cela risque de conduire à l’échec du dialogue. Par exemple, une pratique conversationnelle ordinaire consiste à utiliser des termes indexicaux comme « ceci, ici » qui nécessite de connaître le contexte de référence pour les comprendre. Or, les utilisateurs ont tendance à s’exprimer spontanément de cette manière avec les assistants en pensant implicitement qu’ils pourront les comprendre, ce qui crée des difficultés car ces systèmes n’en sont pas capables. Autrement dit, les assistants actuels engendrent l’illusion d’une conversation naturelle car ils créent des attentes chez les utilisateurs qui n’ont pas connaissance de leurs limites en termes de compréhension.

Il semble qu’on observe des différences dans l’expérience interactionnelle en fonction des personnes ? Quelles sont-elles et pourquoi ?

Moustafa Zouinar : L’efficacité du travail d’adaptation est variable selon les personnes, selon leurs façons de s’exprimer, selon leurs prononciations, accent, débit de parole, etc. Alors que les assistants vocaux sont destinés à un usage collectif et familial, les membres du foyer ne sont pas tous égaux face au « travail de l’utilisateur » requis pour une interaction réussie. Par exemple, nous avons observé que certains jeunes enfants ont beaucoup de mal à se faire comprendre, ce qui crée un sentiment de frustration collective qui touche également les parents et peut conduire à une situation d’exclusion. Mais cela peut également concerner des adultes qui s’expriment par exemple avec un accent particulier. Pour faire face à cette situation, les personnes tentent de s’entraider, par exemple en se donnant des conseils sur la manière de parler à l’assistant. Les usages des systèmes vocaux actuels impliquent ainsi, de la part des utilisateurs au sein des foyers, un travail d’ajustement aussi bien individuel que collectif sous forme d’entraide et d’accompagnement.

Comment les personnes qui ont participé à vos enquêtes perçoivent-elles le fait d’avoir un tel dispositif chez eux ?

Julia Velkovska : Les assistants vocaux soulèvent des interrogations importantes concernant la protection de la vie privée. Ils s’inscrivent dans une sorte de paradoxe. Pour les concepteurs ils sont appelés à prendre place au cœur de la vie familiale et des relations intimes. De plus, ils ont la particularité d’être en « écoute » permanente pour détecter le mot qui les active. Or, cet aspect est source d’inquiétudes. Pour fonctionner l’assistant vocal a accès aux conversations et aux activités dans la maison, mais les personnes ne disposent d’aucun moyen pour savoir ce qui est réellement écouté, traité et stocké.

Moustafa Zouinar Les assistants vocaux leurs apparaissent en effet comme des boites noires avec un fonctionnement opaque, en effet source d’inquiétudes voire de méfiance concernant les données conversationnelles qui sont collectées. Plus de transparence sur le fonctionnement du système pourrait favoriser la confiance. De façon générale, la question posée est celle de savoir comment donner aux utilisateurs une compréhension suffisante sur le fonctionnement du système.

Quelles évolutions sont selon vous à étudier dans la suite du développement de ces technologies ?

Moustafa Zouinar : De nombreuses questions restent ouvertes, notamment celles de savoir comment les utilisateurs vont se les approprier sur le long terme (est-ce qu’ils vont s’inscrire durablement dans la vie quotidienne des foyers ?), si les assistants vocaux vont transformer (ou pas) les activités domestiques des familles et comment, quels types de relation et d’attachement les utilisateurs vont développer avec eux. Cette question de la relation est importante car ces dispositifs peuvent induire de l’attachement en raison de leurs traits anthropomorphes qui passent aujourd’hui principalement par la voix.

Julia Velkovska : Par ailleurs, la diffusion de systèmes vocaux automatisés dans l’univers personnel et familial soulève des débats concernant leur encadrement sur le plan éthique, juridique et politique autour d’une série de questions, telles que par exemple la privacy, la confiance, l’autonomie et la délégation de décisions aux machines. Ces controverses méritent d’être analysées car elles font pleinement partie de la réception sociale des technologies conversationnelles.

Julia Velkovska et Moustafa Zouinar

Julia Velkovska, sociologue, et Moustafa Zouinar, ergonome, sont chercheurs au Laboratoire SENSE (Sociology and Economics of Networks and Services), Orange Labs, Châtillon.

Document reference

Pour aller plus loin

[Julia Velkovska et Valérie Beaudouin] « Parler aux machines, coproduire un service. Intelligence artificielle et nouvelles formes de contribution du client dans les services téléphoniques de l’après-vente », La Fabrique de la vente - Le travail commercial dans les télécommunications (Emmanuel Kessous et Alexandre Mallard), Paris, Presses des Mines, pp. 97-128, 2014.

Illustration : Flickr cc-by-ithinkx

Article rédigé par Félicien Vallet , Responsable IA de la CNIL

VOIR PLUS D'ARTICLES DE L'AUTEUR

Contenu annexe

CNIL public consultation on multi-terminal consent

24 avril 2025

Cookies and tracking devices, In english, Consultation, cookies

Launch of the CNIL-EHESS Award in Social Science

26 mars 2025

[3/3] Les applications pratiques de la cryptographie avancée

25 mars 2025