« Les chiffres ne mentent pas » : mythe d’objectivité et construction des données (Le travail des données 1/3)

Rédigé par Camille GIRARD-CHANUDET

 - 

08 décembre 2020


Les données sont souvent considérées comme le reflet autonome, neutre et objectif des réalités qu’elles décrivent. Elles sont pourtant le fruit d’un travail de construction complexe, auquel participent de nombreux professionnels. La prise en compte et l’étude de ces activités, réalisées en back-office des plateformes du web par des data scientists ou des microtravailleurs et travailleuses du clic, peut permettre de poser un regard différent sur les enjeux de protection de la vie privée des internautes.

« Votre genre préféré de musique est Électronique. Il représente 27% des artistes que vous écoutez le plus » ; « 63% des titres que vous écoutez sont dansants. C’est vous qui mettez l’ambiance, non ? ». Sur la page Spotify for Brands, tout membre de la grande plateforme de streaming musical pouvait découvrir son « profil d’écoute » et les conclusions qui en sont tirées, le tout étant issu des données d’utilisation collectées sur son interface. C’est parce que Spotify (dont les algorithmes de recommandation avaient déjà attiré l’attention du Linc) considère que « vous êtes ce que vous streamez » que la plateforme fait de ces données le socle de stratégies de marketing ciblées, visant les individus en fonction de leur personnalité supposée et de leur état émotionnel.

Mais au-delà de l’effet d’affichage savamment mis en scène par la plateforme, que se cache-t-il derrière ces chiffres et ces affirmations ? Que signifie ce « 27% » d’artistes « électroniques » écoutés, qui fait de ce genre le « préféré » de l’utilisatrice concernée, et la conduira peut-être à se voir présenter des publicités pour le Sonar Festival de Barcelone ou pour le nouveau disque de Rone ? Le caractère décontextualisé de ce chiffre contribue à le doter d’une force d’action, tout en rendant difficile sa mise en question. Nu, il apparaît comme l’expression d’un fait objectif dont il s’agirait simplement de tirer les conséquences logiques (notamment en termes commerciaux). Pourtant, de nombreux parti-pris et arbitrages ont contribué à sa construction : combien et quels genres prendre en compte pour la classification des musiques ? Selon quels critères assimiler un titre à l’un plutôt qu’aux autres ? À partir de combien de titres d’un même genre un artiste est-il labellisé ainsi ? Comment mesurer et caractériser les écoutes ? Ces choix, parmi de nombreux autres – parfois implicites, parfois mûrement réfléchis –, ont contribué à la construction de ce chiffre, « 27% », et de cette qualification, « genre préféré ».

  


Les données sont toujours des « obtenues »

 

Il aurait pu en être autrement. À l’instar de ce « profil d’écoute », chaque donnée est le résultat d’un processus de construction auquel participent de nombreux acteurs. Les données n’existent pas en elles-mêmes comme des réalités autonomes qu’il s’agirait simplement de « mettre en boite ». Elles s’obtiennent par le biais de successions d’opérations (de cadrage, de standardisation, de mesure) qui permettent de convertir des réalités subjectives et sensibles (« un genre préféré », par exemple) en entités informationnelles numériques commensurables, stockables et calculables. Dans les mots du sociologue Bruno Latour, « on ne devrait jamais parler de ‘données’, mais d’‘obtenues’ ». 

En choisissant des critères différents pour la classification des musiques (le tempo, l’énergie, la « dansabilité » et l’ « acousticité » font actuellement partie des principales variables de classification), en modulant l’importance de chacune de ces variables dans le calcul, en faisant glisser de quelques dizaines de titres le curseur du seuil d’appartenance d’un artiste à une catégorie spécifique ou en décidant de ne comptabiliser que les écoutes uniques dans son calcul des préférences individuelles, Spotify construirait des profils d’écoute différents de ceux qu’il présente actuellement – mais qui seraient tout aussi acceptables et acceptés. Sans changer de pratiques d’écoute, l’utilisatrice qui nous intéresse pourrait par exemple voir son style de musique « préféré » devenir la « House », avec une prévalence de 19% pour ce genre.

Cette labellisation n’est pas neutre, ni pour les utilisateurs et utilisatrices de Spotify, ni pour les artistes qui y diffusent leur musique. Elle oriente en effet les recommandations algorithmiques proposées par la plateforme, qui constituent le socle du service qu’elle propose. L’étiquetage dans un certain genre conduit les titres à figurer dans certaines playlists plutôt que dans d’autres, et à être recommandés à certains individus plutôt qu’à d’autres. Les choix de catégorisation influencent donc à la fois les schémas d’écoute des internautes et les espaces de visibilité des artistes sur la plateforme.

La méthodologie qui guide les opérations de classification des musiques, contribuant ainsi à les transformer en données numériques exploitables, n’est ni stable ni universelle. Si elle évolue régulièrement au sein d’une même entreprise au gré de l’évolution de ses objectifs et stratégies (certains genres sont régulièrement ajoutés ou supprimés, et parfois uniquement dans des régions spécifiques), on comprend d’autant mieux qu’elle diffère largement d’une plateforme à l’autre. La catégorisation d’une musique n’est pas toujours la même sur Spotify que sur les plateformes concurrentes, comme par exemple Deezer, chacune disposant de ses propres méthodes et critères de classification. Cet inévitable décalage, lié à l’importance du rôle que jouent ces plateformes dans la construction des données musicales circulant sur leurs interfaces, pose notamment question dans le cadre de la portabilité des données, droit garanti par l’article 20 du Règlement Général sur la Protection des Données (RGPD). Dès lors que les données sont construites au moins en partie par les plateformes d’après des standards propres à chacune d’entre elles, comment garantir la conversion effective des informations d’un système à l’autre ?

Il apparaît en effet clairement que les données personnelles numériques ne sont pas des entités autonomes indépendantes de leur contexte de création. Elles sont au contraire construites au point de rencontre des actions des internautes et de celles des structures participant à la création de données (plateformes, entreprises du web, administrations…). Les premiers réalisent une multiplicité d’activités en ligne (écouter de la musique, rechercher des billets d’avion, discuter sur des sites de rencontre…), et, ce faisant, se laissent observer – sans toujours en avoir conscience. Les secondes captent la trace de ces actions par l’intermédiaire de dispositifs techniques dédiés (cookiesweb beacons ou autres méthodes de traçage), et les transforment en objets quantifiables dont elles déterminent les contours, qu’elles stockent et utilisent ensuite. C’est de la conjonction de ces deux mouvements, et de l’entremêlement des activités et des choix de ces deux groupes, qu’émergent les données.

 


Invisibilité du travail de construction et solidité des données

 

Le versant « plateformes » du travail de construction des données, basé sur la captation, le formatage et la quantification d’informations personnelles, est largement invisibilisé. Les discours sur les données personnelles sont souvent orientés vers le rôle des individus (leur « agentivité ») dans le « partage » des données les concernant (quelles informations partagent-ils et elles et pourquoi ? Comment s’assurer de leur consentement dans cette démarche ? …). A mots couverts, on imagine donc des plateformes qui se contenteraient de recueillir (de « collecter ») des données déjà-là, dont elles feraient ensuite des usages divers.

Il devient ainsi facile de se représenter les données, en particulier lorsqu’elles sont quantifiées, comme des informations neutres et objectives. Affichés en tête du profil personnel de Spotify, les « 27% » de musiques électronique écoutés apparaissent comme un reflet réel des pratiques de streaming de l’utilisatrice, plutôt que comme le résultat d’arbitrages calculatoires réalisés au sein de l’entreprise. « Durcies » dans un moule à données chiffrées, les préférences musicales (ou toute autre réalité subjective et mouvante liée à une personne) deviennent des objets que l’on peut aisément identifier, qualifier et faire circuler. Elles peuvent ainsi faire l’objet d’usages multiples, comme servir de base à un échange économique entre Spotify et les annonceurs présents sur la plateforme – pour une analyse des implications économiques et politiques de la construction de chiffres, on peut lire par exemple les travaux des sociologues Theodore M. Porter et Alain Desrosières

Ce que les données représentent et signifient est d’autant plus difficile à questionner que les moyens de leur construction restent généralement dans l’ombre. Les façons dont les informations personnelles - rendues visibles par les usages sur les interfaces - sont enregistrées puis modelées en back-office par les plateformes, sont largement absentes de l’espace public. Pourtant, la construction des données requiert le travail quotidien de nombreux individus que l’on pourrait qualifier de « professionnels et professionnelles de la donnée ». Data scientists, data architects, data analysts, micro-travailleurs et travailleuses du clic… Les données sont le fruit des tâches de conception et de façonnage qu’ils et elles mènent à bien, et qui feront respectivement l’objet des deux prochains billets de cette série.

 


Prendre en compte le travail de construction des données pour la protection de la vie privée

 

Cette orientation de l’attention vers le travail de construction des données par les plateformes, associée à un effort de visibilisation des travailleurs et travailleuses qui le réalisent, s’inscrit dans une préoccupation plus large pour la protection de la vie privée des internautes. 

Prendre en compte l’importance du rôle joué par les plateformes dans le façonnage et le cadrage des données (y compris personnelles) permet d’ouvrir des pistes de réponse nouvelles au principe de transparence des traitements de données personnelles garanti par les articles 12, 13 et 14 du RGPD, ainsi qu’à l’impératif d’explicabilité des algorithmes posé notamment par le rapport AI For Humanity de 2018. Si la difficulté à entrer dans la « boite noire » que représentent nombre d’algorithmes a souvent été soulignée – tant pour des raisons de complexité technique des outils que de protection du secret d’affaires qu’ils représentent –, la façon dont sont construites les données traitées peut constituer un point d’entrée en matière. Faire apparaître sur les interfaces des informations sur les façons dont des éléments sensibles (musiques) ou des traces d’activités numériques (pratiques d’écoute) sont converties en données standardisées (genre musical, profil d’utilisation…) permettrait à la fois de mettre en lumière et d’expliciter le rôle des plateformes dans la construction des données, et, le cas échéant, de donner aux internautes les moyens de questionner et de critiquer les résultats de ces processus.



Article rédigé par Camille GIRARD-CHANUDET , Chargée d'études prospectives