Façonner les données : le travail à la chaine du numérique (Le travail des données 3/3)
Rédigé par Camille GIRARD-CHANUDET
-
14 December 2020Les algorithmes et autres intelligences « artificielles » fonctionnent sur la base du traitement automatique de grandes bases de données. Cette matière première informationnelle est le résultat de l’activité de nombreux individus réalisant quotidiennement les tâches minutieuses de tri, d’annotation et de classement. Le travail souvent précaire de ces « petites mains du numérique » contribue à donner forme aux données personnelles et à déterminer les usages qui pourront en être faits. Il se trouve de ce fait au centre des enjeux de protection des données et de la vie privée.
[série] Le travail des données
En juillet 2019, le monde numérique est secoué par une « révélation » : « Apple laisse des employés écouter [n]os conversations » par l’intermédiaire de son assistant vocal, Siri. Google et Amazon sont contraintes d’admettre peu après les mêmes pratiques au sujet de leurs assistants vocaux respectifs, Home et Alexa. Le scandale médiatique qui a suivi a conduit les entreprises à s’engager dans un travail d’explication du fonctionnement de la technologie sous-tendant leurs assistants, et Apple annonça suspendre temporairement le contrôle humain des requêtes formulées par ses utilisateurs et utilisatrices.
Une telle mise à l’arrêt est peu susceptible d’être durable. Le fonctionnement d’un assistant vocal, comme de tout autre outil algorithmique d’apprentissage automatique, dépend d’une charge très importante de travail humain. La série documentaire Invisibles de France Télévisions dédiée au travail du clic le montre bien : les milliers d’employés et employées des entreprises sous-traitantes d’Apple qui écoutent les enregistrements réalisés par les appareils de la marque sont essentiels pour la classification des demandes, le repérage des erreurs de la machine et l’amélioration de son fonctionnement. Nous en parlions dans le livre blanc sur les enjeux techniques, éthiques et juridiques des assistants vocaux : les activités humaines de traitement, de tri, et d’organisation des bases de données sont l’une des faces cachées des outils algorithmiques et autres « intelligences artificielles », qui sont loin d’être complètement automatiques.
Bande annonce de la série documentaire Invisibles
Labellisation, tri, classification : le travail essentiel des « petites mains » de la donnée
En effet, il ne suffit pas de déterminer la forme que les données ont vocation à prendre – travail réalisé par les différentes professions d’« architecture des données » auxquelles nous avons consacré les précédents billets de cette série – pour que celles-ci existent et deviennent utilisables. Reste encore une partie essentielle du travail à accomplir : celle de la transformation effective de chaque objet informationnel en donnée prête à l’emploi, c'est-à-dire correctement répertoriée, labellisée et classifiée.
Une donnée est une représentation standardisée d’une certaine réalité. Cette standardisation passe par la description formatée et l’attribution de caractéristiques spécifiques à chaque élément concerné. Ce processus est essentiel pour la constitution de bases de données homogènes, à-mêmes de nourrir la conception et le fonctionnement de divers outils algorithmiques (voir encadré sur le fonctionnement des algorithmes d’apprentissage automatique en bas de l'article).
Le travail de construction des données par la standardisation des différents objets informationnels concernés est répétitif et minutieux. Celles et ceux que le sociologue Jérôme Denis appelle les « petites mains de l’information » effectuent à la chaine des suites de tâches similaires et fractionnées, durant en moyenne quelques secondes chacune : retranscrire des fragments de pistes audio, indiquer si les réponses apportées par la machine semblent adéquates, saisir un texte présent sur une image (c’est le principe des Captcha), attribuer des labels émotionnels à de courts textes…
Sur l’exemple suivant (voir illustration) tiré de la plateforme française de micro-travail Foule Factory – à laquelle les sociologues Pauline Barraud de Lagerie et Luc Sigalo Santos se sont intéressés –, il est ainsi demandé aux « fouleurs » de saisir des adresses postales en identifiant précisément les différentes informations contenues (numéro, type de voie, ville…). Ce faisant, ils et elles transforment un texte « brut » en donnée structurée, constituée de différents fragments informationnels facilement traitables automatiquement.
Externalisation et précarité du micro-travail de la donnée
Comme en témoigne la surprise qui a suivi la « révélation » de l’écoute humaine d’enregistrements vocaux d’utilisateurs et d’utilisatrices d’iPhones chez Apple, le travail quotidien de façonnage des données est encore largement invisible pour le grand public. Comme l’explique Jérôme Denis dans son ouvrage Le travail invisible des données, « le travail des données est très souvent déconsidéré, [il s’agit d’un] "sale boulot" invisible aux clients et aussi aux collègues ».
De fait, ces tâches essentielles sont souvent déléguées, notamment par les entreprises du web, à des sous-traitants spécialisés, dont les activités sont rarement mises en avant. Ces structures (Amazon Mechanical Turk, CrowdFlower, ClickWork, Task Rabbit, Foule Factory…) ne réalisent pas les opérations de construction de données en interne. Elles fonctionnent plutôt, généralement, comme des plateformes mettant en relation les demandes des clients avec des « microtravailleurs » et « microtravailleuses » réalisant en ligne et pour leur compte les tâches en question.
Les individus qui traitent les informations et mettent en forme les données sont donc en grande majorité des travailleurs et travailleuses indépendants, réalisant ces tâches à distance depuis leurs appareils personnels. Ils et elles travaillent quelques minutes ou quelques heures par jour, en fonction de leur disponibilité et des missions proposées, pour quelques centimes par tâche – et un revenu horaire souvent inférieur au minimum légal. Une étude sur le micro-travail dirigée par les sociologues Antonio Casilli et Paola Tubaro a mis en évidence la précarité de ce secteur professionnel, qui serait constitué en France d’un noyau dur de 52 000 personnes et de près de 300 000 contributeurs et contributrices occasionnels. Il s’agit en majorité de femmes de 25 à 44 ans, réalisant ces activités dans l’espoir de compléter des revenus souvent modestes.
Circulation internationale des données
Si le travail du clic français est une activité en forte expansion, sous-tendant le développement d’une « IA à la française » gourmande en données structurées et organisées, la mise en forme des données ne s’arrête pas aux frontières nationales.
La France ne compte en effet que peu de plateformes crowdsourcing (externalisation de tâches confiées à un grand nombre d’individus), et ces missions sont donc le plus souvent réalisées par des entreprises étrangères, pour beaucoup basées dans des régions où le coût du travail est peu élevé (la plateforme chinoise Zhubajie a longtemps été considérée comme l’une des structures les plus puissantes dans ce domaine). Les plateformes étasuniennes, souvent plus en vue, recrutent également largement en dehors de leurs frontières nationales d’implantation. Près de la moitié des Turkers d’Amazon seraient ainsi basés en Inde, d’après une étude conduite à l’université de New-York.
Ces pratiques de délocalisation du travail de formatage des données, parfois qualifiées de « webshoring », ne sont pas nécessairement incompatibles avec les réglementations européennes en vigueur, en particulier parce qu’elles concernent souvent des données ne présentant pas de caractère personnel. Dans le cas où les informations concernées ont effectivement trait à des personnes physiques, le Règlement Général sur la Protection des Données (RGPD) autorise le transfert international de données personnelles depuis l’Union Européenne vers des États garantissant un « niveau de protection adéquat », ou, le cas échéant, si des garanties appropriées de protection des données ont été mises en place par le ou la responsable de traitement (articles 45 et 46 du RGPD). Toutefois, si ces conditions ne peuvent être réunies, le consentement explicite de la personne concernée peut également servir de base légale au transfert international des données la concernant (article 49 du RGPD). Concernant les transferts vers les États-Unis, les règles applicables restent (en novembre 2020) en suspens après l’invalidation en juillet 2020 par Cour de justice de l’Union européenne (CJUE) du Privacy Shield, adoptée en 2016 par la Commission européenne, qui permettait le transfert de données entre l’Union européenne et les opérateurs américains adhérant à ses principes de protection des données sans autre formalité.
Travail du clic et protection de la vie privée
Quel que soit le pays dans lequel le traitement des informations personnelles est réalisé, la nécessaire implication de nombreuses « petites mains » humaines dans la constitution de bases de données opérationnelles pose de nombreuses questions en termes de protection de la vie privée des individus.
Les réactions entourant les révélations médiatiques concernant le travail humain de traitement des données personnelles (que ce soit chez Amazon, Google ou encore, comme nous l’avons vu, Apple) le montrent bien : le sentiment de violation de l’intimité est différent lorsqu’on sait que nos informations personnelles sont traitées par des humains de chair et d’os plutôt que par des machines – en particulier lorsqu’il s’agit de données vocales, particulièrement personnelles.
Dès lors, il semblerait légitime que le consentement libre et éclairé à la collecte et au traitement des données personnelles, défini par l’article 4 du RGPD, implique la mise à disposition d’informations claires concernant les modalités de travail humain réalisé sur ces informations (dans quelle mesure les données sont-elles traitées par des humains ? de quelle façon ? sous quelle forme ? ...). Cet impératif de transparence devrait également s’appliquer dans les cas où les entreprises procèdent à l’anonymisation préalable des enregistrements, l’anonymisation étant en soit un traitement de données – et ce d’autant plus sur une matière pour laquelle ce processus serait complexe pour répondre aux critères strictes d’anonymisation du Comité Européen de la Protection des Données. On peut en effet concevoir qu’il soit gênant de savoir qu’une micro-travailleuse employée par une entreprise sous-traitante de Amazon nous écoute chanter sous la douche, bien que celle-ci n’ait aucun moyen de remonter à ni à notre nom, ni à notre adresse…
Dans son livre blanc sur les enjeux techniques, éthiques et juridiques des assistants vocaux, la CNIL a ainsi recommandé aux entreprises conceptrices d’applications la limitation de la collecte de données vocales aux seules informations strictement nécessaires, ainsi que la transparence sur les modalités de collecte, de traitement et d’utilisation de ces données. Elle conseille également aux utilisateurs et utilisatrices de dispositifs connectés préoccupé·es par l’analyse humaine de données personnelles les concernant, de vérifier régulièrement la liste des services auxquels l’assistant vocal est relié, ainsi que de désactiver l’analyse des interactions et des données techniques.
Fonctionnement des algorithmes d’apprentissage automatique supervisé
Published on 14 December 2020
Prenons l’exemple d’un algorithme d’apprentissage automatique capable de distinguer un chien d’un chat sur une photo. Celui-ci parvient à ce résultat grâce à un entrainement réalisé sur des jeux de données de photos de chiens et de chats correctement étiquetées. Après avoir « vu » des centaines de photos de chiens et de chats labellisées comme telles, la machine apprend à reconnaître les caractéristiques propres à chaque espèce, et ainsi à classer de nouvelles photos inconnues dans la bonne catégorie. Un mode de fonctionnement valable également pour la reconnaissance des modèles de véhicules automobiles.
Les jeux de données à partir desquels la machine apprend puis s’entraine sont le fruit d’un travail important. Ce sont des humains qui attribuent à la main, préalablement à tout usage algorithmique, le label « chien » ou « chat » à chacune des photos (et éliminent, le cas échéant, celles ne correspondant pas aux catégories souhaitées). Ces jeux de données annotés sont la base du fonctionnement des algorithmes d’apprentissage automatique supervisés, et leur construction représente une part prépondérante du travail de conception algorithmique.