Le fichier
Ads.txt, un élément de lutte contre la fraude publicitaire sur le
web, contient les clefs pour visualiser les relations entre les différents
acteurs du milieu.
Ce contenu édité par le
Laboratoire d’innovation Numérique de la CNIL repose sur une analyse factuelle
basée sur des informations librement accessibles. Le résultat de cette analyse
ne constitue pas une analyse de la conformité des pratiques observées et ne
préjuge aucunement de la qualification qui pourrait être faite par la CNIL de
ces pratiques. La présente étude a été réalisée dans le cadre de la mission
générale de la CNIL de veille sur les technologies de l’information (Art 8-4 de
la Loi Informatique et Libertés).
Que sont les fichiers Ads.txt ?
Tout commence avec « l’inventaire ». La plupart
des sites web que vous visitez réservent sur leurs pages une ou plusieurs zones
pour l’affichage de publicité. Pour chaque internaute qui visite ces
pages, il y a donc une « impression » (c'est à dire un affichage) possible d'une
publicité dans cet espace pour cet internaute. Cette impression constitue un élément d’inventaire
commercialisé par l’éditeur du site.
Par exemple pour un site
avec 1 emplacement publicitaire et 1000 visiteurs journaliers, l'inventaire
du site est constitué de 1000 impressions publicitaires à vendre par jour.
L’éditeur va donc généralement utiliser les services d'un ou plusieurs SSP (pour
«
supply-side platform ») pour commercialiser ces impressions sur un
réseau d'échange publicitaire (ou
« ad exchange »). Chacun de ces SSP est
donc autorisé par l’éditeur à vendre de l’inventaire de son site sur un
certain nombre de réseaux d’échange publicitaire, que ce SSP soit directement intégré
sur la page de l’éditeur ou bien externe et donc simple revendeur.
Ce sont ces relations qui sont décrites dans le fichier Ads.txt, dans
le but de lutter contre la fraude publicitaire.
Quels types de fraude
les éditeurs cherchent-t-ils à éviter ?
Pour quelle raison les éditeurs de site rendent-ils volontairement
accessible à tous la liste des sociétés publicitaires avec qui ils
travaillent ?
Le but est d’éviter deux types de fraudes :
- La première est
assez simple : c’est l’usurpation de l’identité d’un site.
Imaginons que le SSP1 vende l’inventaire du site A
sur un réseau d’échange publicitaire. Ce site est de bonne
réputation, et l’inventaire se vend bien. Le SSP2 décide alors de
vendre sur le même réseau d’échange publicitaire de l’inventaire
pour un site B qui est lui moins valorisé en le faisant passer pour
le site A. Le SSP2 peut alors vendre son inventaire de moins bonne
qualité au prix fort ce qui a pour résultat de faire baisser la côte de l’inventaire
authentique (puisque les prix sont ajustés en fonction de l’offre et
de la demande. Ads.txt permet à tous les acteurs de l’écosystème de se rendre compte que le SSP2 n’a
pas l’autorisation de distribuer l’inventaire du site A et donc de
préserver la valeur de celui-ci.
- La seconde est plus subtile
: c’est la revente d’inventaire. Imaginons que l’inventaire du site A soit vendu sur deux
réseaux d’échange publicitaire différents, l’ADX1 et l’ADX2. Sur
l’ADX1 cet inventaire est vendu 1€ par impression. Sur l’ADX2 où il y a
moins de demande, il est vendu 0,50€ par impression. Un SSP peut se
rendre compte de cette variation et racheter de l’inventaire sur
l’ADX2 à bas prix pour le revendre sur l’ADX1 au prix fort. Bien que
cette pratique soit moins frauduleuse, elle peut faire baisser la
rentabilité moyenne de l’inventaire, d’où son interdiction. Avec les
fichiers Ads.txt il est possible de savoir que le SSP ne devrait pas
pouvoir revendre cet inventaire.
Pourquoi ça nous intéresse ?
Les fichiers Ads.txt permettent d’identifier les relations entre
les sociétés de la publicité en ligne et les éditeurs de sites web.
Il faut savoir que les acteurs de cette chaine ne se bornent pas à
organiser les ventes d’inventaires. A chaque élément d’inventaire
vendu est associé à un identifiant unique de l'internaute qui est généralement stocké dans un cookie. Cet
identifiant permet de construire des profils publicitaires des internautes,
par exemple en traçant la navigation de ceux-ci à travers le web.
Pour mieux comprendre ces pratiques,
lire
l'article sur le RTB, une des modalités de vente programmatique
les plus populaires.
En visualisant la prévalence de
chaque acteur sur le web Français, on peut donc se faire une bonne
idée de l’étendue de l’usage publicitaire des données de navigation de
leurs internautes, chaque service publicitaire utilisant généralement
des cookies pour suivre les internautes.
Méthodologie
Nous utilisons
le top 5000 Alexa Français pour identifier les sites
les plus visités par les internautes français.
Sur ces 5000 sites,
31,8% possèdent un registre Ads.txt (
en voir un au hasard).
Nous nous baserons sur cet échantillon, le relevé des valeurs étant
effectué le 26 Août 2020.
Attention: ces données sont basées
sur les valeurs déclarées par les différents acteurs étudiés, qui
ne sont pas vérifiées. Les résultats de cette étude sont donc
dépendants de l’exactitude de ces données déclarées.
Voici une visualisation des 400 sites français les plus visités
possédant des registres Ads.txt.
Chaque case représente un site et
la couleur est relative au nombre de services publicitaires déclarés utilisés. Passez votre
souris sur les cases pour plus d'information
La raison
pour laquelle il y a autant de services différents est simple : plus il y a d’échanges
sur lesquels est vendu l’inventaire, plus l’espérance du prix de vente
augmente, les éditeurs pouvant alors faire jouer la concurrence.
Cependant cela signifie qu'un nombre extrêmement important de tiers a
accès à la navigation web des Français, souvent sans qu'ils
s'en rendent compte.
Voici une visualisation des 400 sites français les plus visités
possédant des registres Ads.txt.
Chaque case représente un site et
la couleur est relative au nombre de services publicitaires déclarés utilisés. Passez votre
souris sur les cases pour plus d'information
La raison
pour laquelle il y a autant de services différents est simple : plus il y a d’échanges
sur lesquels est vendu l’inventaire, plus l’espérance du prix de vente
augmente, les éditeurs pouvant alors faire jouer la concurrence.
Cependant cela signifie qu'un nombre extrêmement important de tiers a
accès à la navigation web des Français, souvent sans qu'ils
s'en rendent compte.
Les réseaux publicitaires les plus
populaires sont présents sur une part extrêmement importante de sites
web.
Voici une visualisation de la proportion des sites sur lesquels
sont présents chacun des grands systèmes publicitaires.
Passez votre souris sur les cases pour connaitre la proportion de
présence de chaque réseau
Chaque bloc est constitué des
400 sites identifiés précédemment, et si une case est colorée, le
système publicitaire y est présent. Au-delà de la connaissance par les systèmes
publicitaires de la navigation des Français, la publicité programmatique
pour laquelle est utilisée Ads.txt est
pour
plus de sa moitié constituée par du Real-Time Bidding ou RTB
Dans le RTB, il peut y avoir sur chaque plateforme plusieurs
centaines d'acheteurs qui peuvent accéder aux données des internautes.
Ces flux de données incluent au minimum des identifiants de cookies et
en général l'URL (ou au moins le domaine) de la page sur laquelle la publicité sera affichée.
Il est parfois possible d’associer ces informations au contenu des
pages. De plus, les identifiants de cookies peuvent être synchronisés
entre les différents écosystèmes publicitaires pour mieux capter
l'intégralité de la navigation des utilisateurs.
Le nœud gordien de la publicité en ligne
Pour finir, visualisons les connexions entre les trente
premiers réseaux publicitaires et les 100 premiers sites français
ayant un registre ads.txt.
Si ce graphique n'est pas particulièrement lisible, il
montre la complexité d'un écosystème dont l'ampleur reste grandement inconnue du
grand public. Combien des sociétés de la colonne gauche
connaissez-vous ?
Cliquez sur les noms de société ou
bien de site web pour mieux visualiser les relations qui les
unissent.
Et si l'on devait représenter l'ensemble des acteurs ayant
accès à chacun de ces échanges publicitaires ?
Il convient
aujourd’hui de se demander si le système tel qu’il est mis en œuvre
n’est pas structurellement incompréhensible pour les utilisateurs, sa précision et sa
complexité ne pouvant pas raisonnablement être appréhendée par un
internaute lambda. Or ce système reposant sur le traitement de données
relatives aux individus (les identifiants de cookies généralement),
il est essentiel qu’il puisse être compris et maîtrisé par les
utilisateurs et qu’il intègre une approche
« privacy by design ».
Pour continuer à découvrir l'écosystème publicitaire en ligne, consultez notre étude sur les fichiers Sellers.json
Article sur la base d'un scan effectué le 26 Août
2020.
Cette étude repose sur la collecte d'URL et de données
exclusivement relatives à des personnes morales. Cependant, dans certains
cas, ces informations sont susceptibles de comprendre des données à
caractère personnel. Ce traitement est mis en œuvre par la
CNIL. Il est
fondé sur l’exercice de l’autorité publique et a
pour finalité la production d’études sur les usages des technologies. Les
données collectées sont relatives aux noms de domaines des sites web
publiquement accessibles via Internet. Ces données seront conservées pendant
une durée maximale de 5 ans. Pour en savoir plus sur les modalités de
gestion de vos données ou exercer vos droits, vous pouvez
pouvez consulter cette page.