Al(t)gorithmes (1) : Des recommandations toujours plus gourmandes en données personnelles ?
Rédigé par Octave Aribaud
-
17 December 2022En 2015, la CNIL publiait son troisième Cahier IP - Les Données, Muses et Frontières de la Création. Dans le prolongement des thèmes qui y étaient abordés et au prisme des données personnelles, ce présent dossier plongera à nouveau dans le monde des plateformes de streaming et de leurs algorithmes de recommandation.
- Article 1 : Al(t)gorithmes (1) : des recommandations toujours plus gourmandes en données personnelles ?
- Article 2 : Al(t)gorithmes (2) : Perceptions des utilisateurs de streaming
- Article 3 : Al(t)gorithmes (3) : Streaming, des algorithmes pas toujours responsables
- Article 4 : Al(t)gorithmes (4) : Musiconomics et protection des données personnelles
Pour contrer le succès de TikTok, Mark Zuckerberg annonçait le 22 juin 2022 dans une interview à CNBC, vouloir rapprocher ses réseaux sociaux du modèle qui fait la popularité de la plateforme chinoise. En effet, depuis quelques temps, Instagram et Facebook laissent davantage de place à des contenus suggérés par des algorithmes au détriment des publications partagées par vos amis. Alors que les réseaux sociaux usent (voire abusent ?) de ces algorithmes, les plateformes de streaming en font aussi très largement usage. A ce titre, d’après les travaux réalisés par J-S. Beuscart, S. Coavoux et S. Maillard en 2019 sur les plateformes de musique en streaming, 41% des musiques écoutées seraient des recommandations algorithmiques. Sur YouTube, ces mêmes recommandations représenteraient 70% des vidéos consommées et ce chiffre montait à plus de 80% sur Netflix en 2016. Au cours d’une série de cinq articles nous évoquerons tantôt le futur de la recommandation, ses grands défis, la perception que les algorithmes ont des utilisateurs, l’importance du design et des interfaces ainsi que les enjeux politiques et économiques au centre desquels se situe le recours à la recommandation. Nous nous appuierons plus particulièrement sur l’étude de la plateforme suédoise Spotify, leader mondial du streaming musical. Créée en 2007, cette plateforme est à la fois la plus avancée dans les technologies auxquelles elle recourt, celle qui documente le plus ses propres recherches ainsi que celle qui fait l’objet du plus grand nombre de travaux académiques.
De l’utilisation des algorithmes de recommandation sur les plateformes de streaming
Au début des années 2000, la diffusion de l’Internet Haut Débit puis de la 3G, combinée à l’augmentation des capacités de stockage des appareils accélèrent la diffusion du streaming – un nouveau protocole qui permet la lecture instantanée de vidéos ou de musiques, directement depuis un navigateur Web. Le streaming permet aux plateformes balbutiantes de proposer des catalogues de contenus d’une taille encore inédite. Mais, ces bibliothèques étant de plus en plus vastes, les utilisateurs vont bientôt se trouver perdus dans l’immensité des possibles. Pour faire face à cette difficulté, les plateformes de streaming vont commencer à faire de la curation, terme que S. Rosenbaum définit comme un moyen d’accorder une certaine confiance dans un contenu en mettant un filtre humain entre le consommateur et la surabondance de contenu. Un des avatars de cette curation sera bientôt les systèmes de recommandation dont le premier a été inventé en 1992 par deux chercheurs en informatique, Paul Resnick et John Riedl, pour guider les utilisateurs dans leurs recherches sur Usenet (qui est un système de réseau en forum inventé en 1979 servant à générer, stocker et récupérer des « articles » entre les membres d’une communauté).
Alors que les plateformes de streaming proposent principalement les mêmes contenus culturels, en fonction de leur secteur, à un prix plus ou moins identique – B.J. Hracs et J. Webster nomment cette caractéristiques « platform parity » – les systèmes de recommandation vont être utilisés par les plateformes comme des moyens de se distinguer. Ainsi, comme en témoigne les graphiques suivants, la recommandation est le deuxième poste de recherche et développement de Spotify. Les algorithmes sont d’ailleurs une des principales raisons de la domination de cette plateforme sur ses concurrents. En témoigne qu’en 2020, 62% des consommateurs de Spotify estimaient que les algorithmes de recommandation étaient leur première source de découverte de musique.
Depuis 1992, les algorithmes de recommandation ont fait l’objet de nombreuses avancées. Pour comprendre leur fonctionnement, intéressons-nous au système de recommandation de Spotify qui est un des mieux renseignés (voir notamment le Cahier IP 3 aux pages 51 à 54). Ce système repose sur deux logiques complémentaires. D’abord, la compréhension de la musique qui s’effectue à la fois via l’analyse du contenu – reposant sur l’analyse des métadonnées du morceaux, du signal audio mais aussi du langage – et du filtrage collaboratif, qui consiste en la comparaison de l’historique des utilisateurs de musique afin d’observer la similarité entre deux musiques ou deux utilisateurs. Les systèmes de recommandation étudient ensuite les auditeurs via l’analyse du retour de leur écoute pour interpréter leur goût. Ce retour est à la fois actif et explicite – l’algorithme observe les musiques sauvegardées dans les playlists créées, les partages, les playlists écoutées… – mais aussi passif et implicite – l’algorithme observe le temps des sessions d’écoute, le nombre de musiques répétées… Enfin, il distribue les musiques recommandées parmi les différents emplacements de recommandation proposés par la plateforme. Pour cela, Spotify a entrainé un modèle de machine learning qui attribue les chansons aux différentes listes de lecture générées automatiquement telles que Discover Weekly, ou encore les différentes radios et Daily Mix.
Graphiques illustrant l’importance de la recherche en algorithmes de recommandation chez Spotify
Source : GreyB
A l’occasion de la 30ème conférence ACM sur la gestion de l’information et des connaissances (CIKM, 2021), Rishabh Mehrotra tente de définir ce qu’est un bon algorithme de recommandation. Il parvient à la conclusion qu’un bon système de recommandation repose sur trois aspects. Tout d’abord la « similarité » qui propose aux utilisateurs un contenu adapté sur la base de leurs préférences et de leur comportement. L’évaluation de la similarité repose sur la pertinence du contenu proposé, soit sur la similarité de la proposition avec le goût de l’utilisateur. On considère ainsi qu’une recommandation est similaire si elle ressemble de près au contenu habituellement écouté par l’utilisateur. Il y a ensuite la « familiarité » qui fait référence à l’état d’exposition antérieure et à la bonne connaissance du contenu par l’auditeur : ainsi, la familiarité est utilisée pour recommander certains contenus dont on sait que l’utilisateur les apprécie, alors que la similarité est utilisée pour faire découvrir de nouveaux contenus proches de ceux envers lesquels il est familier. La familiarité permet de connaître les attentes de l’auditeur via une compréhension des écoutes passées. Un titre sera donc vu comme familier s’il correspond aux genres ou aux styles musicaux habituellement écoutés par un utilisateur. L’exposition préalable répétée à un certain contenu musical augmente la familiarité des utilisateurs avec ce contenu, ce qui peut à son tour impliquer une affinité – positive ou négative – entre l’utilisateur et son contenu. La familiarité permet aussi de renforcer la confiance des utilisateurs dans la compétence d’un système de recommandation. Finalement, la « découverte » qui représente l’expérience de trouver et d’écouter un contenu auparavant inconnu de l’utilisateur. La découverte permet aux utilisateurs de trouver un nouveau contenu et ainsi de réduire la stagnation de la recommandation. Elle est très importante pour les plateformes de streaming car de bons résultats dans ce domaine permettent de fidéliser les utilisateurs.
Le futur des algorithmes de recommandation repose sur la collecte de toujours plus de données
Une bonne recommandation – au sens de l’industrie du streaming – repose donc sur la connaissance la plus fine possible des utilisateurs. Pour connaître au mieux leurs utilisateurs, les plateformes de streaming cherchent à récolter un maximum d’informations sous la forme de données qui seront ensuite interprétées par les systèmes de recommandation afin de construire le profil utilisateur le plus précis possible. Nous insistions déjà dessus dans le chapitre « De la Playlist à la Contextualisation et à la Musicalisation du Quotidien » de notre troisième Cahier IP (p.32 à 34). A titre d’exemple, à partir de 2014 se déroule ce que Eriksson et al. nomment « contextual turn ». A partir de ce moment, les plateformes de streaming commencent à prendre conscience de l’importance du contexte dans lequel les utilisateurs écoutent de la musique. Et, en effet, les préférences d’une personne en termes de musique varient en fonction de son activité, de son humeur, de l’heure de la journée. Les sources via lesquelles les plateformes récupèrent des données utilisateurs vont être de plus en plus diverses. A titre d’exemple, début 2018, Spotify a déposé un brevet relatif à la reconnaissance vocale pour analyser l’environnement sonore de l’utilisateur et connaître plus précisément le contexte dans lequel l’utilisateur écoute sa musique. Aux Etats-Unis, en 2021, ce brevet connaissait sa première application avec le lancement de son assistant vocal qui permet notamment de lancer un morceau à partir d’une simple commande vocale à la manière de Siri ou d’Alexa.
Le brevet mentionné ci-dessus devrait aussi permettre à Spotify d’identifier « l’état émotionnel » des individus, et tout en l’associant à d’autres métadonnées (telles que la géolocalisation) de proposer des contenus plus adaptés à leurs goûts. Comme l’envisagent M. Pagnano et al., l’état affectif de l’utilisateur peut être défini par un ensemble d’émotions (par exemple, la joie, la surprise), qui devrait être pris en compte lors de la modélisation des préférences de l’utilisateurs. L’analyse des émotions et des traits de personnalités des utilisateurs est un domaine de recherche crée en 1997 par R. Picard, selon qui « les ordinateurs qui interagiront naturellement et intelligemment avec les humains doivent être capables de reconnaître et d’exprimer l’affect ». Mais, alors que l’informatique des émotions est aujourd’hui une des possibilités les plus investies par les chercheurs en algorithmes de recommandation, un problème subsiste selon les auteurs. Les utilisateurs ne veulent pas nécessairement écouter les mêmes types de musique quand ils ressentent certaines émotions. Il faut donc aussi essayer de comprendre quel est l’attente des utilisateurs en fonction de leur état émotionnel.
Si les plateformes de streaming sont de plus en plus gourmandes en données utilisateurs, les informations collectées sont de plus en plus rares et sensibles pour permettre une personnalisation toujours plus précise. D’ailleurs, les travaux de Ian Anderson et al. montrent que l’analyse de la musique écoutée par les utilisateurs est un meilleur indice de la personnalité ou de l’état émotionnel des individus que l’analyse de leur profil sur les réseaux sociaux. Utiliser ces données sensibles à des fins de recommandation est donc potentiellement problématique. A ce titre, Netflix, qui – pour des raisons de profilage – utiliserait les goûts cinématographiques des individus comme proxy pour collecter des informations sensibles sur ses utilisateurs, a été soupçonné à multiples reprises de fonder en partie ses recommandations sur la couleur de peau des individus ainsi que sur leur orientation sexuelle. En 2016, l’écrivaine April Joyner dénonçait ce biais raciste en affirmant "Just because I'm black—and even though I am keen to support black filmmakers—doesn't mean every single movie or show I watch needs to feature black actors” (« Ce n’est pas parce que je suis noir – et même si je soutiens des réalisateurs noirs – cela ne veut pas dire que chaque émission que je regarde doit comporter un acteur noir »).
Quels risques pour nos droits et libertés ?
De plus, s’il peut sembler que les données récoltées par les plateformes de streaming sont seulement utilisées à des fins de recommandation, il n’en est rien. Rappelons que les plateformes de streaming sont avant tout des entreprises et que la fourniture de leurs services n’est pas gratuite. La plupart des plateformes de streaming partagent aussi ces données, parfois très personnelles, avec des tiers. Notamment des annonceurs qui sont parfois prêts à payer très cher pour fournir des publicités ciblées qui ont le plus de chance possible de déclencher un achat. Un des principaux problèmes est que les données déduites par les machines sont souvent bien plus exhaustives que les données que l’utilisateur pense avoir consenti à partager avec l’application. Par exemple, par l’analyse de données comportementales, il serait possible pour une plateforme de streaming de déterminer la couleur de peau d’un utilisateur ou d’une utilisatrice.
Dernièrement, la Cour de Justice de l’Union Européenne a cependant réalisé une interprétation contraignante du RGPD dans une décision datant du 1er août 2022. Dans cette décision, elle confirme que les données susceptibles de révéler l'orientation sexuelle d'une personne physique « au moyen d'une opération impliquant une comparaison ou une déduction » sont en fait des données sensibles protégées par l'article 9 du RGPD. Si cette décision était étendue aux plateformes utilisant des algorithmes de recommandation, cela pourrait les forcer remettre en cause de telles opérations. Surtout que, selon Dr. Michael Veal, professeur en droit des données personnelles à l’University College London, les plateformes pourraient être dans l’obligation de recueillir le consentement explicite des utilisateurs, qui par nature, peut être refusé.
Selon Eric Drott, dans un article intitulé Music as a Technology of Surveillance et publié en 2018 , la collecte, l’agrégation et l’échange de données fait de plus en plus partie de l’activité des plateformes de streaming qui essaient d’extraire un maximum de valeur ajoutée de leurs utilisateurs. Pour cela, les plateformes construiraient des stratégies pour les retenir le plus longtemps possible. Selon L. Pelly, les plateformes de streaming musical auraient par exemple poussé à la création d’un nouveau genre de musique – le Spotify Core (aussi appelé StreamBait ou encore Normcore). Elle le décrit comme un style de musique facilement recommandable par les algorithmes de recommandation et qui vise à transformer la musique en un papier peint émotionnel optimisé pour une écoute en continu. Les plateformes de streaming facilitent aussi le partage entre les utilisateurs afin de générer le plus de données possibles. Pour toutes ces raisons, Eric Drott se demande si le streaming ne serait pas devenu un outil de surveillance. On peut notamment s’inquiéter d’un éventuel détournement d’une telle collecte de donnée. Si S. Cardorelle s’amuse à créer des modèles de machine learning permettant d’inférer l’humeur d’un utilisateur en fonction de ses données musicales, appliquer un tel procédé sur une échelle plus large et en s’appuyant sur les listes de lectures publiques des utilisateurs pourraient très largement porter atteinte à leur vie privée. Surtout que certains travaux ont montré qu’une rétro-ingénierie de certains algorithmes de recommandation pourrait permettre de récupérer des données utilisateurs (pour plus d’information, consulter l’article 4 de ce dossier).
En somme, il semble qu’à moins d’interroger le rôle et la nécessité de la personnalisation, le futur sera de plus en plus gourmand en données personnelles pour les algorithmes de recommandation. Des méthodes qui pourront notamment impacter la vie privée des utilisateurs de streaming. Les articles proposés dans ce dossier s’attachent à observer les différents enjeux liés à l’utilisation des algorithmes de recommandation, notamment en termes de protection des données.