Depuis la création du cookie, le domaine de la publicité en ligne n’a cessé d’utiliser de nouvelles techniques afin d’améliorer les systèmes publicitaires. Ainsi dans le domaine de l’affichage dynamique de contenus publicitaires en ligne, un des précurseurs est Oingo qui, en 1998, propose une méthode dite de publicité contextuelle. Leur algorithme analysait les contenus des pages pour sélectionner les publicités relatives à ce contenu et ainsi en optimiser l’impact sur les lecteurs, de la même manière qu’un magazine papier spécialisé imprimera majoritairement des publicités relatives au domaine qu’il traite. En 2003, Google achète Oingo et renomme le système « AdSense ».
Les systèmes d’enchères en temps réel (ou Real-time Biding, RTB) sont un développement relativement récent de l’industrie publicitaire en ligne. La mise en service de ce type de système commence vers 2005 avec l’arrivée d’un ensemble de plateformes (ASDAQ, DoubleClick Ad Exchange, adBrite, etc.) visant à changer le paradigme de la publicité contextuelle vers celui de la publicité ciblée. Contrairement à la publicité contextuelle, qui s’accordait au contenu de la page sur laquelle elle est affichée, la publicité ciblée utilise des informations sur l’utilisateur qui consulte le site pour évaluer l’intérêt de lui présenter une publicité, et ainsi valoriser au mieux l’emplacement publicitaire pour cet utilisateur particulier, et ce pour chaque annonceur. Cette différenciation par utilisateurs et par annonceur a conduit au développement de systèmes permettant de mettre en relation des annonceurs et une impression (espace publicitaire affiché à un utilisateur) dans un délai très court correspondant au temps de chargement d’une page web (inférieur à 100ms). Durant ces 100 ms les impressions sont proposées à de nombreux services publicitaires via un système d’enchère fournissant des informations sur l’utilisateur (catégorie d’âge, profil, centres d’intérêt) afin de leur permettre de faire une offre éclairée.
La promesse faite aux éditeurs est de pouvoir mieux valoriser leurs espaces publicitaires en les rendant disponible à des acteurs disposant de l’information nécessaire sur leurs utilisateurs pour identifier avec précision les contenus le plus susceptibles de provoquer un clic. Cela veut également dire qu’un gain de précision en ciblage est un avantage concurrentiel primordial dans la mesure où la publicité est vendue dans ce type de système au coût par clic. Ainsi une publicité mieux ciblée a une espérance de retour plus importante et donc plus de chance de remporter l’enchère, provoquant le développement d’un ensemble d’intermédiaires proposant des technologies de plus en plus complexe pour affiner le ciblage utilisateur.
Le mécanisme du RTB
Le principe général du RTB est assez simple. Une page web contenant un emplacement publicitaire spécifique est visualisé par un utilisateur. Les informations sur l’utilisateur et sur l’emplacement publicitaire sont diffusées à des régies publicitaires. Chacune enchérit pour le compte de ses annonceurs, celui qui gagne envoie le contenu publicitaire à afficher. L’écosystème du RTB est cependant assez complexe, notamment du fait de la multiplicité des réseaux publicitaires, qui provoque l’émergence de nouveaux intermédiaires voulant proposer des offres complètes à leurs clients.
On retrouve ainsi dans l’écosystème des acteurs historiques, et des nouveaux entrants :
Acteurs historiques :
- Les annonceurs qui désirent afficher des publicités à des internautes répondant à certains critères.
- Les régies publicitaires, qui vont gérer le placement des publicités.
- Les réseaux publicitaires, proposant les systèmes RTB.
- Les éditeurs, qui ont des espaces disponibles.
- Les utilisateurs, consultant les sites des éditeurs et les publicités des annonceurs.
Nouveaux acteurs:
- Les Supply Side Platforms (SSP), qui permettent aux éditeurs de commercialiser leurs inventaires auprès de multiples réseaux publicitaires de façon simultanée.
- Les Demand Side Platforms (DSP), qui permettent aux régies publicitaires d’enchérir sur de multiples réseaux publicitaires en parallèle.
- Les Ad Exchange (ADX), qui combinent de multiples réseaux publicitaires, jouant à la fois le rôle de DSP et SSP, créant ainsi une plate-forme visant à se faire rencontrer l’offre et la demande, de façon similaire à un marché.
- Les Data Exchange (DX), parfois appelé Data Management Platform (DMP), fournissent aux DSP, SSP et ADX des informations sur l’utilisateur (en temps réel). Ces DX peuvent être indépendants, ou bien être opérés par l’un des maillons de la chaine.
Il est important de noter qu’en raison d’une forte croissance et rentabilité dans ce domaine, la plupart des acteurs cherchent à développer leurs activités transversalement, ce qui floute les distinctions entre les différents rôles. Par exemple, certains annonceurs décident d’internaliser l’activité de régie publicitaire pour directement s’interfacer avec les DSP, certains (les plus gros) vont même jusqu’à internaliser ce métier. Par souci de généralité, on utilise le terme de « Vendor » pour designer l’ensemble des acteurs de l’écosystème publicitaire qui travaillent du côté « demande » des réseaux publicitaires.
La viabilité économique d’un tel système repose sur deux postulats :
- La capacité à toucher un ensemble de Vendors le plus large possible pour valoriser au maximum l’emplacement.
- La capacité de chacun de ces Vendors à profiler l’utilisateur avec précision pour pouvoir augmenter au maximum la valeur de l’emplacement publicitaire.
Ces deux postulats ont des conséquences importantes en matière de vie privée.
Les problématiques posées par le RTB
La mise aux enchères de données très personnelles
Lors d’une enchère, le gérant de la plate-forme de RTB va diffuser à tous les enchérisseurs possibles des informations sur l’utilisateur afin de les aider à faire leur choix. La diffusion de ces informations est totalement inhérente au principe du RTB, et les données partagées peuvent être intrusives.
On trouve typiquement dans ces demandes d’enchères des informations telles que l’adresse IP de l’utilisateur, son modèle de téléphone ou d’ordinateur, sa localisation, son fuseau horaire, la langue, et une segmentation déduite de la page consultée.
Cette segmentation peut inclure des catégories de données sensibles. Par exemple pour Google, ces catégories incluent :
• 113 /People & Society/Ethnic & Identity Groups/Lesbian, Gay, Bisexual & Transgender
• 202 /Health/Reproductive Health/Male Impotence
• 238 /Health/Medical Facilities & Services/Medical Procedures/Surgery/Cosmetic Surgery
• 421 /Health/Reproductive Health/Sexually Transmitted Diseases
• 429 /Health/Health Conditions/Cancer
• 556 /People & Society/Ethnic & Identity Groups/Arabs & Middle Easterners
• 647 /Health/Reproductive Health/Infertility
• 1251 /People & Society/Religion & Belief/Scientology
Le mécanisme de cookie matching
L’intérêt du RTB est de pouvoir discriminer l’utilisateur en fonction des informations dont les différents maillons de la chaine publicitaire disposent. Il est donc logique que ce système repose sur des méthodologies de traçage des utilisateurs. La méthode la plus courante est celle du cookie. Un cookie est une petite quantité d’information, déposée par un serveur sur le terminal de l’utilisateur et qui peut être lue et modifiée uniquement par le serveur ayant déposé le cookie. Ce dernier point est crucial.
Par exemple si un site A.com reçoit une requête d’un utilisateur, il peut (techniquement) stocker sur son terminal un cookie contenant l’identifiant 123 lui permettant d’identifier l’utilisateur. Lors de visites subséquentes, il pourra lire le cookie à nouveau et relier les informations dont il dispose déjà sur cet usager à l’utilisateur 123. Par contre, si le même usager visite le site B.com, celui-ci n’aura pas accès au cookie 123, et ne pourra donc pas faire le lien avec l’utilisateur 123 du site A.com, même si celui-ci voulait le lui permettre. C’est une caractéristique fondamentale des cookies.
En revanche pour l’écosystème publicitaire, c’est une problématique majeure car chaque réseau ne peut avoir qu’une connaissance locale (limitée à un réseau) de l’utilisateur sans pouvoir partager ces informations.
En raison de cette limitation s’est développé le principe de Cookie Matching ou de Cookie Syncing. Cette méthode permet à deux régies de « synchroniser » leurs cookies pour identifier un unique utilisateur de façon conjointe. C’est une méthode extrêmement efficace permettant de faciliter le profilage des internautes à travers l’ensemble du web.
Le principe est assez simple. Imaginons un utilisateur ayant fait l’objet de dépôts de cookies à la fois par le site A.com et B.com.
1- sur une page web du site par A.com est inclus un lien lui indiquant la nécessité d’obtenir une ressource sur le serveur A.com
2- Le navigateur de l’utilisateur fait donc une requête en transmettant le cookie correspondant au serveur A.com
3- Celui-ci répond par une instruction de redirection (http 302) vers le serveur B en incluant dans l’url l’identifiant qu’il a lu dans le cookie transmis avec la requête entrante.
4- Le navigateur suit cette redirection, transmettant au serveur B le cookie lui correspondant. Le serveur B possède alors les deux identifiants et peut les faire correspondre car ceux-ci étaient présents dans la même requête.
5- De manière optionnelle, le serveur B peut de la même manière que ci-dessus transmettre en retour la valeur du cookie déposé sur le domaine B.com au serveur A
Un des usages typiques du cookie matching est le procédé nommé « retargeting ». Un annonceur va identifier un utilisateur avec une forte probabilité d’achat, par exemple s’étant arrêté au milieu d’un processus d’achat. L‘annonceur va alors « cookie matcher » avec une plate-forme de RTB sur sa propre page afin de pouvoir identifier celui-ci lors d’enchères futures, auquel cas il va fortement enchérir car il sait que cet utilisateur est proche de l’acte d’achat.
Le partage de ces informations se fait dans un écosystème de plusieurs milliers d’acteurs, dont certains proposent des mécanismes d’enrichissement de données (achat de données à des fournisseurs spécialisés).
Transversalité du traçage
Les problématiques décrites dans les paragraphes précédents sont particulièrement prégnantes du fait de la présence des mêmes traceurs sur de nombreux sites à travers le Web.
Une analyse du registre ads.txt (un fichier qui permet de déclarer aux éditeurs de sites Web les régies publicitaires présentes sur leur site) de trois des plus grands sites d’information français permet de constater que sur les 8 fournisseurs de RTB identifiés par Brave[2], tous sont implémentés sur ces sites, sauf un qui n’est présent que sur deux des trois sites. Si on le met de côté, on constate que tous les services de RTB ont un taux de couverture sur les sites ayant un registre ads.txt supérieur à 25%, allant jusqu’à 40% pour Appnexus et 98,15% pour Google (des sites déclarés).
Cela signifie qu’un même système d’enchère peut proposer à ses clients l’opportunité de tracer un utilisateur à travers sa navigation sur différents sites afin de le profiler le plus précisément possible. Combiné avec les méthodes de cookie matching, les acteurs du RTB disposent ainsi d’une solution de suivi des utilisateurs particulièrement efficace et globale.
Ainsi des profils très fins sont créés, dans bien des cas sans information de l’utilisateur, et/ou avec une information incomplète qui ne permet pas à l’utilisateur de se rendre compte de l’ampleur du processus. D’où l’importance pour ces acteurs de se mettre en conformité en proposant des mécanismes de recueil de consentement conformes aux textes et notamment son caractère éclairé. Ainsi, sur aucun des panneaux de configuration des préférences des trois sites testé n’est présent de description permettant à l’utilisateur de raisonnablement comprendre l’ampleur des opérations qui sont effectuées. Des méthodes qui expliquent la relative méconnaissance du public de ces techniques et démontre une nouvelle fois
l’importance de la manière dont est présentée l’information aux utilisateurs, si l’on souhaite qu’ils soient en mesure de consentir de manière réellement libre et éclairée.
Le RTB est finalement une méthode qui s’est développée afin d’optimiser techniquement l’affichage des publicités en ligne. Il convient aujourd’hui de se demander si le système tel qu’il est mis en œuvre n’est pas trop intrusif pour les utilisateurs, sa précision et sa complexité ne pouvant pas raisonnablement être compréhensible par un internaute lambda. La question se pose alors de la manière dont un tel système pourrait être construit avec une approche "privacy by design".