Ok Google et Siri ne suivent pas la même voie qu'Alexa ou Cortana

Rédigé par Olivier Desbiey

 - 

27 mars 2018


Nous inaugurons le premier billet d’une série consacrée aux assistants vocaux. Ces nouveaux services, qui font de la voix de l’utilisateur la principale interface d’interaction, soulèvent de nombreuses questions autour de la maitrise des données et leur monétisation.

Initialement cantonnés au smartphone, les assistants à commandes vocales sont progressivement en train de se déployer dans d’autres univers. Ils intègrent en premier lieu des enceintes connectées mais aussi des casques audio, l’habitacle des véhicules…et même des aspirateurs qui voient ainsi leurs possibilités d’interaction renouvelées.
Pour mieux saisir les enjeux en termes de vie privée, il est nécessaire de comprendre le positionnement des différents acteurs présents sur ces marchés.

 

Où, et comment imposer son assistant vocal ?

Si Facebook a annoncé en janvier 2018 couper la parole à « M », son projet d’assistant vocal, les autres GA(F)AM ont déjà commercialisé leurs solutions aux Etats-Unis. L’arrivée dans la langue de Molière d’Alexa – la solution d’Amazon lancée en 2014 –  est prévue dans les prochaines semaines en France pour venir concurrencer Siri (Apple) et Google assistant (Alphabet-Google).

En 2018, selon les projections de la Consumer Technology Association, il devrait se vendre plus de produits intégrant des assistants vocaux comme fonctionnalité principale que d'ordinateurs portables. Les grands acteurs du numérique s’engouffrent dans cette opportunité. Ainsi, Google, s’il est toujours challenger derrière Alexa aux Etats-Unis, dissémine son assistant « Ok Google » dans de nombreux objets. Il a développé une stratégie de prix très agressive sur le marché des enceintes connectées avec les Google Home, Google Mini et d’autres produits à venir, qui pourraient rapidement rendre obsolètes aux yeux des clients les enceintes plus traditionnelles. En y intégrant son assistant vocal, la société de Mountain View parvient à accroitre rapidement le nombre d’utilisateurs de son assistant, à récolter des données d’usage sur leurs activités, et à pousser les autres acteurs du marché à intégrer cette technologie d’assistant dans leurs solutions.

C’est bien sur ce point que les enjeux sont importants pour les GAFAM qui cherchent chacun à devenir la plateforme de référence fédérant l’écosystème le plus étoffé. En effet, l’intérêt de ces assistants pour les utilisateurs dépend directement du nombre de services tiers ou objets connectés qu’ils peuvent contrôler en donnant de la voix. En rendant compatible leurs systèmes respectifs Alexa et Cortana, la stratégie d’alliance d’Amazon et de Microsoft est d’élargir leur écosystème sur le marché grand public. Les deux assistants s’appuient sur Bing, le moteur de recherche de Microsoft, et auraient vocation à jouer la complémentarité sur les usages, avec un Alexa davantage focalisé sur les achats en ligne et Cortana autour des fonctionnalités professionnelles. Apple qui ne souhaite pas que la voix de Siri puisse se faire entendre en dehors des iphones a opté pour sa stratégie habituelle consistant à concentrer ses efforts sur le produit et sur une verticale spécifique : celle de la musique, avec Homepod.

 

Où cliquer pour en savoir plus ?

Au-delà des aspects traditionnels de la captation des données lors de l’utilisation active ou passive de l’assistant vocal (cf. la page du site de la CNIL sur le fonctionnement général d’une enceinte fonctionnant avec un assistant vocal et le déclenchement de l’enregistrement par le « hot-word »), ces nouveaux usages posent une série d’enjeux autour de la monétisation, du design d’interaction et in fine de la capacité de contrôle de l’utilisateur.

En effet, ce sujet croise des problématiques propres aux objets connectés et aux assistants personnels, à l’exception près qu’en sortant des smartphones, ces assistants ne sont plus tout à fait personnels, notamment lorsqu’ils investissent des espaces intimes comme le salon ou la chambre à coucher. Comment gérer le fait que des données de tiers puissent être captées sans qu’ils n’en soient nécessairement informés ? De même, comment sécuriser les informations de l’utilisateur principal si des tiers sont susceptibles d’interagir avec l’objet ? Paradoxalement, l’une des solutions peut consister à utiliser encore davantage de données pour sécuriser et personnaliser certaines interactions avec l’assistant en recourant à la reconnaissance du locuteur.

En outre, ce nouvel écosystème permet de capter encore plus de données: allumer des lumières, lancer l’écoute de ses musiques ou la diffusion de ses films préférés seront autant d’informations pertinentes permettant aux acteurs d’inférer les goûts culturels, les heures de lever et de coucher, la composition du foyer pour alimenter leur modèle économique.  

Plus largement, le fait de basculer dans des interactions qualifiées de plus "naturelles" par la voix, ou demain par d’autres modalités, renforce les questionnements sur la capacité de maitrise réelle des utilisateurs. Comment accéder aux autres résultats lorsque l’interaction avec l’assistant est désignée pour n’en renvoyer qu’un seul ? Comment l’information est-elle sélectionnée ? Où cliquer pour en savoir plus, à la manière des bannières à cookies ? Est-ce qu’une requête vocale conduit à abaisser le niveau de vigilance des utilisateurs ? D’autres informations transportées par la voix, telles que des émotions, sont-elles susceptibles d’être exploitées ?

Il est finalement question de savoir quelle grammaire nous devons inventer pour accompagner ces nouveaux usages.

Nous allons explorer des pistes de réponses dans les prochaines semaines, en nous intéressant tout d’abord aux spécificités de la voix, aux enjeux sociaux du déploiement des assistants vocaux dans le domicile et à l’encadrement juridique des données vocales.


crédits image :

Photo by Gritte sur Unsplash (CC0)


Article rédigé par Olivier Desbiey , Chargé des études prospectives