Chéri(e), mon smartphone m’écoute ?!

Rédigé par Félicien Vallet

 - 

02 juillet 2021


Nos téléphones nous espionnent ! La preuve, des annonces publicitaires d'une précision effrayante apparaissent alors que l’objet en question, un toboggan pour enfant, un voyage au Chili ou encore un barbecue n’a été évoqué – et c’est juré – que lors d’une banale conversation entre amis. Mais alors, qu(i) y a-t-il au bout du fil ?

Flickr cc-by- Bill Smith – Ears
Qui ne s’est jamais posé la question de la possibilité d’être écouté par l’un de ses appareils suite à l’affichage d’une publicité particulièrement pertinente ? Smartphones, enceintes et montres connectées, robots de cuisine, etc., la prolifération de dispositifs dotés de microphones pose de nouvelles questions comme nous l’avons indiqué dans notre livre blanc A votre écoute
 

De l’art de circonscrire le sujet

 
Comme en témoigne l’histoire de l’espionnage, l’intérêt de détourner des dispositifs équipés de microphones n’est pas nouveau. S’il était pendant longtemps nécessaire de se déplacer physiquement sur les lieux à surveiller pour « poser un mouchard », l’arrivée du numérique et l’intensification de l’interconnexion des réseaux et des dispositifs ont rendu possible la prise de contrôle à distance d’un grand nombre d’appareils. Les documents de la série Vault 7 publiés par WikiLeaks en 2017 ont ainsi révélé que la CIA avait développé en collaboration avec le MI5 anglais la suite logicielle Weeping Angel permettant d’accéder à des téléviseurs Samsung afin de les transformer, même éteints, en dispositifs d’écoute. De telles utilisations visent cependant à collecter des informations concernant un ou des individus bien identifiés et nécessitent une installation sur l’équipement de « la cible » (à l’image des logiciels espions proposés par la HackingTeam). Par conséquent, même si elles n’en sont pas pour autant plus rassurantes, ces pratiques doivent être dissociées de celles concernant une écoute indifférenciée des utilisateurs, à large échelle et à des fins publicitaires (mais également de suggestion de contact) sur laquelle nous proposons de nous pencher.
 
Ce sujet est également à distinguer de celui des écoutes clandestines, publicisées à l’été 2019, et qui a vu tous les grands acteurs du marché des assistants vocaux (Amazon, Google, Microsoft, Facebook, et Apple) révéler que les enregistrements audio réalisés par leurs dispositifs étaient pour une partie d’entre eux réécoutés par des individus, soit directement employés par ces sociétés, soit agissant comme sous-traitants. Ces écoutes réalisées à l’insu des utilisateurs d’assistants vocaux avaient pour but de catégoriser les énonciations, de perfectionner la qualité de la détection du mot-clé, d’améliorer les performances des systèmes de transcription et d’interprétation de la parole, etc. Le contrôle et l’annotation humaine sont en effet indispensables pour les systèmes d’apprentissage automatique (machine learning). Suspendues plusieurs mois à l’occasion du scandale, ces écoutes ont par la suite été reprises en s’assurant cette fois de la transparence de ce procédé auprès des utilisateurs et en recueillant leur consentement ou en leur permettant d’exercer leur droit d’opposition.
 

Aucune preuve scientifique tangible à ce jour

 
En premier lieu, on peut noter que les grandes entreprises du numérique visées par ces accusations d’écoutes utilisent de façon régulière des techniques de type A/B testing pour l’élaboration de leurs produits. Ces méthodologies de test rendent ainsi complexe le fait d’affirmer de façon catégorique que ce qui est observé sur un dispositif l’est également sur tous les autres. Toutefois, à l’image de l’étude Panoptispy menée par des chercheurs de Northeastern University, plusieurs recherches scientifiques ont été menées sur le sujet d’une écoute des utilisateurs à large échelle dans un objectif publicitaire et, à ce jour, aucune n’a mis en lumière que les microphones des téléphones étaient utilisés à l’insu de leur propriétaire de façon systématique. Kasperski, CNET, Wandera, Envoyé spécial, etc. différents journalistes et entreprises de sécurité informatique ont par ailleurs réalisé des tests visant à mettre en lumière de telles pratiques. Le protocole expérimental est similaire dans chaque cas. Pendant une période de temps définie (généralement de quelques jours à une semaine), une petite équipe de volontaires est rassemblée et est invitée à converser en évoquant des objets particuliers dont il n’a jamais fait état préalablement. Les téléphones sont posés sur la table autour de laquelle se déroule la conversation. On observe ensuite si au cours des jours suivants des annonces publicitaires spécifiques à ces produits sont proposées aux différents volontaires. La plateforme de Facebook (opérant entre autres le réseau social Facebook mais également WhatsApp et Instagram) est celle généralement visée par ces investigations. Cependant, suite aux différentes expérimentations réalisées, aucune pratique d’écoute clandestine n’a été mise en évidence par des affichages publicitaires, corroborant ainsi les déclarations de Mark Zuckerberg pour le compte de Facebook et de ses succursales devant le Capitole en avril 2018. 
 

Une faisabilité technique à démontrer

 
La réalisation d’écoutes à large échelle pose de nombreux défis scientifiques et d’ingénierie. En effet, celle-ci nécessite la mise en œuvre de très importantes capacités de traitement et de stockage des données. Il s’agit ainsi de détecter la présence de parole, de transmettre celle-ci, de la retranscrire - c’est-à-dire de passer d’un signal audio à une suite de mots - puis de l’interpréter, cela afin de catégoriser son contenu et de pouvoir ensuite (si cela s’avère pertinent) alimenter un profil utilisateur qui pourra être accessible à un annonceur souhaitant promouvoir un produit correspondant aux attentes supposées… De telles capacités semblent donc, même avec les moyens dont disposent certains très grands acteurs du numérique, complexes à mettre en œuvre. C’est d’ailleurs ce dont témoignait Antonio Garcia-Martinez, un ancien product manager de Facebook fin 2017 en précisant que : « Pour y parvenir, Facebook devrait enregistrer tout ce que votre téléphone entend lorsqu'il est allumé. Cela équivaut fonctionnellement à un appel téléphonique permanent entre vous et Facebook. Un appel vocal sur Internet prend en moyenne 24 kbps dans un sens, ce qui équivaut à environ 3 kBs de données par seconde. En supposant que vous ayez votre téléphone allumé la moitié de la journée, cela représente environ 130 Mo par jour et par utilisateur. Il y a environ 150 millions d'utilisateurs actifs quotidiens aux États-Unis, ce qui représente environ 20 pétaoctets par jour, rien qu'aux États-Unis. Pour mettre cela en perspective, l'ensemble du stockage de données de Facebook ne représente "que" 300 pétaoctets environ, avec un taux d'ingestion quotidien d'environ 600 téraoctets. En d'autres termes, une surveillance audio constante produirait environ 33 fois plus de données par jour que ce que Facebook consomme actuellement. » (traduction LINC).
 
On notera néanmoins que des chercheurs de l’Université technique de Berlin ne sont pas aussi catégoriques quant au caractère irréalisable de telles écoutes. Ainsi, s’ils reconnaissent qu’il n’y a effectivement pas de preuves empiriques confirmant les soupçons d’écoute d’utilisateurs à des fins publicitaires, cette possibilité ne peut pas être complètement exclue. Il demeurerait ainsi possible selon eux que des écoutes clandestines à grande échelle soient menées, les terminaux actuels permettant d’embarquer de nombreux traitements. Ainsi les étapes de détection de parole, détection de mot-clé, filtrage, etc. peuvent être opérées aux niveaux des équipements. Le recours aux technologies de détection de mot clé pour i) le passage à un mode d’écoute « actif » (à l’image de ce qui est réalisé par les assistants vocaux) ii) la détection de mots-clés « d’intérêt », noms de produits, de marques, etc. s'avère moins couteux d’un point de vue calculatoire qu’une retranscription de l’intégralité d’une énonciation.
 
Toutefois, comme nous l’indiquions dans notre livre blanc A votre écoute, même si ces dernières années ont vu d’importantes avancées scientifiques, les tâches de traitement automatique de la parole ( transcription, détection de mot-clé, reconnaissance du locuteur, etc.) et de traitement automatique du langage naturel (interprétation du « sens » des échanges humains) demeurent des sujets de recherche très actifs. L’analyse de signaux de parole enregistrés dans des environnements bruités (dans la rue, avec la TV en marche, alors que plusieurs personnes parlent à l’arrière-plan, etc.) est ainsi particulièrement problématique, de même que la capacité à « comprendre » le sens d’une énonciation en réalisant des analyses syntaxiques (segmentation en mots, phrases, etc.) et sémantiques (désambiguïsation, reconnaissance des entités nommées, etc.).   
 

Les SDK, maillons faibles de la protection de la vie privée

  
Comme le rappelait le LINC en mars 2019, les technologies numériques reposent désormais sur l’utilisation de SDK (Software Development Kits), ce qui n’est pas sans risque pour la protection de la vie privée. En effet, ces bibliothèques tierces partagent avec leur application hôte des permissions, comme l'accès au microphone, et bénéficient souvent d'un accès direct à Internet. Or les développeurs d’applications utilisant ces bibliothèques n’ont bien souvent qu’une connaissance très limitée du fonctionnement de celles-ci et peuvent donc n’être eux-mêmes pas au courant de potentielles failles de sécurité fondées sur l'abus des permissions accordées (et l’accès au microphone, ne serait théoriquement pas le seul à pouvoir permettre de collecter la parole comme l’ont montré des chercheurs de l’Université de Stanford). L’étude Panoptispy précédemment citée, si elle écarte la possibilité d’une écoute des utilisateurs, démontre cependant clairement à travers un audit de plus de 17 000 applications qu’un grand nombre d’entre elles dispose de permissions inappropriées et attentatoires à la vie privée (possibilité de prendre des captures d’écran, d’accéder à la caméra, etc.) avec dans certains cas des transmissions vers des acteurs tiers à l’insu des utilisateurs. 
 
Le chercheur spécialisé dans la protection des données personnelles Mathieu Cunche (INSA-Lyon/Inria) indiquait d’ailleurs récemment que le monde des applications mobiles est un peu « le Far West » et qu’ « il est possible que par des subterfuges bien enfouis dans l'architecture de nos applis préférées, des sociétés malveillantes ou avides de profit, aspirent nos données pour ensuite nous profiler et cibler leurs offres. »
 

Des explications nombreuses… et troublantes !

 
Malgré les vulnérabilités et les risques d’accès illégitimes aux capteurs de nos téléphones, il semble néanmoins raisonnable d’écarter la possibilité d’une écoute généralisée des utilisateurs au regard des arguments précédemment développés. Alors, comment ces publicités super ciblées se voient-elles proposées aux utilisateurs ? La réponse à cette question est multiple.
 
1) L’assistant vocal est activé par erreur
Outre la possibilité détaillée plus haut d’obtention d’une permission d’accès par l’exploitation d’une vulnérabilité, il existe d’autres possibilités pour voir sa parole collectée par son téléphone à son insu. Google Assistant (Google), Alexa (Amazon), Siri (Apple), Bixby (Samsung), etc. aujourd’hui, tous les téléphones embarquent un ou plusieurs assistants vocaux, parfois sans que l’utilisateur en soit pleinement conscient. Ces dispositifs passent en « mode d’écoute actif » lorsqu’un mot d’activation est détecté (wake-up word ou hot word). Or comme cela a été très largement documenté (voir page 31 du Livre blanc), la détection de ce(s) mot(s) repose sur des techniques d’apprentissage automatique (machine learning). En fonction du paramétrage réalisé, des erreurs de type « faux rejet » (l’utilisateur prononce le mot d’activation mais n’est pas reconnu) ou « fausse acceptation » (le mot d’activation est reconnu alors qu’il n’a pas été prononcé) peuvent être rencontrées. Dans le cas des fausses acceptations, un enregistrement d’un utilisateur pourrait alimenter son profil sans qu’il en soit conscient, de nombreux services d’assistants vocaux étant adossés à des logiques publicitaires. Pour cette raison, il est recommandé à l’utilisateur de consulter régulièrement l’historique de ses interactions avec son assistant vocal afin de se rendre compte d’éventuelles écoutes non souhaitées.
 
2) La voix n’est pas la seule donnée révélatrice !
Les grands acteurs de la publicité en ligne se basent sur la collecte de nombreuses données qui peuvent s’avérer tout autant (voire plus !) révélatrices que la parole. La capacité à suivre la navigation sur plusieurs sites web (à l’aide de cookies et autres traceurs), à collecter vos recherches en ligne, à mesurer le temps passé sur une page, à connaître les éléments cliqués et à le reconnaître sur différents appareils, à analyser toutes ces données via des algorithmes de recommandation sophistiqués, offre ainsi aux acteurs de la publicité en ligne, en plus d’informations tierces dont ils pourraient disposer (nom, prénom, adresse, profession, etc.), une vision très complète de l'utilisateur, de ses centres d’intérêt et de ses habitudes. Par ailleurs, le potentiel extrêmement révélateur de certaines données est parfois sous-estimé. C’est notamment le cas des données de géolocalisation comme nous le rappelle l’action en justice intentée par le procureur général de l'Arizona contre Google et dans laquelle il est reproché à la société d’avoir illégalement collecté les données de localisation des utilisateurs d'Android sans leur consentement. Cela est corroboré par des documents internes qui indiquent en particulier que celles-ci l’étaient même après la désactivation du partage. Google est également accusé d’avoir rendu les paramètres de confidentialité difficiles à trouver pour les utilisateurs et d’avoir fait pression sur les fabricants de téléphones pour que les paramètres de confidentialité restent cachés. 
 
3) Les modèles publicitaires sont précis
Les grandes entreprises auxquelles il est fait référence ici – en particulier Google et Facebook – ont bâti leurs empires sur le développement du marché de la publicité en ligne. A l’image de Tristan Harris, d’anciens employés de ces compagnies indiquent que des profils « fantômes » sont utilisés pour anticiper les comportements des utilisateurs : « C'est parce qu'à l'intérieur d'un serveur de Google ou d'un serveur de Facebook se trouve une petite poupée vaudou, une version avatar de vous. Et je n'ai pas besoin d'écouter vos conversations parce que j'ai accumulé tous les clics et les likes que vous avez faits, et cela fait que cette poupée vaudou se comporte de plus en plus comme vous. Tout ce que j'ai à faire, c'est de simuler la conversation de la poupée vaudou, et je connais la conversation que vous venez d'avoir sans avoir à écouter le micro. » (traduction LINC). Par conséquent, et même s’ils ne se basent pas sur des enregistrements audios, les grands acteurs du numérique disposent – en se basant sur une très large collecte de données à caractère personnel – de profils suffisamment fouillés pour adresser des publicités pertinentes aux utilisateurs (âge, centre d’intérêt, activité professionnelle, localisation géographique, etc.). Par ailleurs, ces grandes sociétés offrent à leurs utilisateurs de nombreux services et en extraient des connaissances qu’elles ne manquent pas de lier entre elles. Google mobilise ainsi les informations issues de Gmail, YouTube, Drive, Shoping ou encore Maps alors que Facebook opère outre le réseau social du même nom Instagram et WhatsApp. Dans ce dernier cas, si le contenu des messages est chiffré de bout en bout et théoriquement visible des seuls utilisateurs, les métadonnées associées sont informatives (contacts, horaires des échanges, fréquence, type de messages, etc.).
 
4) Nous évoluons au sein de réseaux d'interconnaissances
Autre raison qui peut expliquer l’affichage sur l’écran personnel d’un utilisateur d’une publicité particulièrement ciblée sans que celui-ci n’ait jamais montré un quelconque intérêt (clic sur un bandeau, like d’une page, recherche sur un moteur, etc.), les informations partagées par nos cercles de connaissances. En effet, nous évoluons tous au sein de différents réseaux (familial, amical, professionnel, etc.) et la connaissance même des liens entre les individus est une source essentielle d'information. Vous n’avez ainsi peut-être jamais évoqué en ligne ce modèle de vélo Gravel que vous avez repéré chez un marchand, mais votre meilleur ami à qui vous vous en êtes ouvert peut-être… Là encore la donnée de localisation (qui peut par exemple être caractérisée par la connexion au même point d’accès) peut s’avérer extrêmement utile pour caractériser le profil d’un individu en identifiant les habitants d’un même foyer, d’une même entreprise, etc., réconciliant ainsi monde physique et monde numérique.  A titre d’exemple, le défenseur de la vie privée Robert G. Reeve explique de façon très pédagogique et détaillée comment, suite à un séjour chez sa mère, il s’est vu proposé la marque de dentifrice utilisé par celle-ci sur son compte Twitter !
 
5) La chance, ça existe !
Dernière raison permettant d’expliquer le phénomène : la chance. En effet, nous sommes tous habitués à nous voir proposer des publicités lors de nos navigations en ligne. Dans de nombreux cas (par exemple : équipements de sauna, tests de grossesse, voyages à Istanbul, etc.) nous ne les remarquons même pas celles-ci étant tellement éloignées de nos centres d’intérêt du moment. Cependant, les campagnes publicitaires étant destinées à de TRES nombreux individus, il est tout à fait normal, statistiquement parlant, que celles-ci tombent juste de temps à autre.  Il s’agit alors purement et simplement d’une coïncidence. Cependant, dans ces rares cas, notre attention est aiguillonnée. Il s’agit là d’un biais cognitif bien connu, l’illusion de fréquence (encore appelé phénomène Baader-Meinhof) qui se produit lorsque le fait d'avoir conscience de quelque chose crée l'illusion qu'elle apparaît plus souvent.
 
 
Ainsi, l’hypothèse selon laquelle les utilisateurs se verraient systématiquement écoutés par leurs téléphones afin de leur adresser des annonces publicitaires semble devoir être écartée (du moins pour le moment). Celle-ci présente en effet des défis techniques (scientifiques et d’ingénierie) trop importants. Par ailleurs, des acteurs qui décideraient de mettre en œuvre de telles pratiques courraient d’énormes risques juridiques et d’image s’ils étaient découverts et/ou dénoncés par un employé. Toutefois, s’il n’y a pas nécessairement de collecte et traitement des conversations audio, il existe malheureusement de nombreux autres moyens tout aussi intrusifs de collecter des données sur les individus en vue de leur proposer des annonces publicitaires particulièrement ciblées. Autant de raisons pour encourager les utilisateurs à veiller à protéger leur intimité autant que possible en désactivant les paramètres de collecte qui ne sont pas nécessaires (autorisation de géolocalisation, dépôt de cookies, etc.) et pour continuer à développer les actions de régulation.


Félicien
Article rédigé par Félicien Vallet, Ingénieur au Service de l’Expertise Technologique de la CNIL