Go Back

Visualiser le web publicitaire avec les fichiers Ads.txt

Le fichier Ads.txt, un élément de lutte contre la fraude publicitaire sur le web, contient les clefs pour visualiser les relations entre les différents acteurs du milieu.

Ce contenu édité par le Laboratoire d’innovation Numérique de la CNIL repose sur une analyse factuelle basée sur des informations librement accessibles. Le résultat de cette analyse ne constitue pas une analyse de la conformité des pratiques observées et ne préjuge aucunement de la qualification qui pourrait être faite par la CNIL de ces pratiques. La présente étude a été réalisée dans le cadre de la mission générale de la CNIL de veille sur les technologies de l’information (Art 8-4 de la Loi Informatique et Libertés).

Que sont les fichiers Ads.txt ?

Tout commence avec « l’inventaire ». La plupart des sites web que vous visitez réservent sur leurs pages une ou plusieurs zones pour l’affichage de publicité. Pour chaque internaute qui visite ces pages, il y a donc une « impression » (c'est à dire un affichage) possible d'une publicité dans cet espace pour cet internaute. Cette impression constitue un élément d’inventaire commercialisé par l’éditeur du site.

Par exemple pour un site avec 1 emplacement publicitaire et 1000 visiteurs journaliers, l'inventaire du site est constitué de 1000 impressions publicitaires à vendre par jour.

L’éditeur va donc généralement utiliser les services d'un ou plusieurs SSP (pour « supply-side platform ») pour commercialiser ces impressions sur un réseau d'échange publicitaire (ou « ad exchange »). Chacun de ces SSP est donc autorisé par l’éditeur à vendre de l’inventaire de son site sur un certain nombre de réseaux d’échange publicitaire, que ce SSP soit directement intégré sur la page de l’éditeur ou bien externe et donc simple revendeur.

Ce sont ces relations qui sont décrites dans le fichier Ads.txt, dans le but de lutter contre la fraude publicitaire.

Quels types de fraude les éditeurs cherchent-t-ils à éviter ?

Pour quelle raison les éditeurs de site rendent-ils volontairement accessible à tous la liste des sociétés publicitaires avec qui ils travaillent ? Le but est d’éviter deux types de fraudes :
  • La première est assez simple : c’est l’usurpation de l’identité d’un site. Imaginons que le SSP1 vende l’inventaire du site A sur un réseau d’échange publicitaire. Ce site est de bonne réputation, et l’inventaire se vend bien. Le SSP2 décide alors de vendre sur le même réseau d’échange publicitaire de l’inventaire pour un site B qui est lui moins valorisé en le faisant passer pour le site A. Le SSP2 peut alors vendre son inventaire de moins bonne qualité au prix fort ce qui a pour résultat de faire baisser la côte de l’inventaire authentique (puisque les prix sont ajustés en fonction de l’offre et de la demande. Ads.txt permet à tous les acteurs de l’écosystème de se rendre compte que le SSP2 n’a pas l’autorisation de distribuer l’inventaire du site A et donc de préserver la valeur de celui-ci.
  • La seconde est plus subtile : c’est la revente d’inventaire. Imaginons que l’inventaire du site A soit vendu sur deux réseaux d’échange publicitaire différents, l’ADX1 et l’ADX2. Sur l’ADX1 cet inventaire est vendu 1€ par impression. Sur l’ADX2 où il y a moins de demande, il est vendu 0,50€ par impression. Un SSP peut se rendre compte de cette variation et racheter de l’inventaire sur l’ADX2 à bas prix pour le revendre sur l’ADX1 au prix fort. Bien que cette pratique soit moins frauduleuse, elle peut faire baisser la rentabilité moyenne de l’inventaire, d’où son interdiction. Avec les fichiers Ads.txt il est possible de savoir que le SSP ne devrait pas pouvoir revendre cet inventaire.

Pourquoi ça nous intéresse ?

Les fichiers Ads.txt permettent d’identifier les relations entre les sociétés de la publicité en ligne et les éditeurs de sites web. Il faut savoir que les acteurs de cette chaine ne se bornent pas à organiser les ventes d’inventaires. A chaque élément d’inventaire vendu est associé à un identifiant unique de l'internaute qui est généralement stocké dans un cookie. Cet identifiant permet de construire des profils publicitaires des internautes, par exemple en traçant la navigation de ceux-ci à travers le web. Pour mieux comprendre ces pratiques, lire l'article sur le RTB, une des modalités de vente programmatique les plus populaires.

En visualisant la prévalence de chaque acteur sur le web Français, on peut donc se faire une bonne idée de l’étendue de l’usage publicitaire des données de navigation de leurs internautes, chaque service publicitaire utilisant généralement des cookies pour suivre les internautes.

Méthodologie

Nous utilisons le top 5000 Alexa Français pour identifier les sites les plus visités par les internautes français.

Sur ces 5000 sites, 31,8% possèdent un registre Ads.txt (en voir un au hasard).

Nous nous baserons sur cet échantillon, le relevé des valeurs étant effectué le 26 Août 2020.

Attention: ces données sont basées sur les valeurs déclarées par les différents acteurs étudiés, qui ne sont pas vérifiées. Les résultats de cette étude sont donc dépendants de l’exactitude de ces données déclarées.

Les résultats


Les sites visités par les utilisateurs français utilisent un nombre important de systèmes publicitaires différents

Voici la liste pour le top 25 des sites possédant un fichier Ads.txt, classé par popularité : Vous pouvez les classer par valeurs :

Un site moyen déclare utiliser les services de 38 sociétés différentes.

Le maximum est 188 et le minimum 1.

Voici une visualisation des 400 sites français les plus visités possédant des registres Ads.txt.


Chaque case représente un site et la couleur est relative au nombre de services publicitaires déclarés utilisés. Passez votre souris sur les cases pour plus d'information

La raison pour laquelle il y a autant de services différents est simple : plus il y a d’échanges sur lesquels est vendu l’inventaire, plus l’espérance du prix de vente augmente, les éditeurs pouvant alors faire jouer la concurrence.

Cependant cela signifie qu'un nombre extrêmement important de tiers a accès à la navigation web des Français, souvent sans qu'ils s'en rendent compte.

Voici une visualisation des 400 sites français les plus visités possédant des registres Ads.txt.


Chaque case représente un site et la couleur est relative au nombre de services publicitaires déclarés utilisés. Passez votre souris sur les cases pour plus d'information

La raison pour laquelle il y a autant de services différents est simple : plus il y a d’échanges sur lesquels est vendu l’inventaire, plus l’espérance du prix de vente augmente, les éditeurs pouvant alors faire jouer la concurrence.

Cependant cela signifie qu'un nombre extrêmement important de tiers a accès à la navigation web des Français, souvent sans qu'ils s'en rendent compte.

Les réseaux publicitaires les plus populaires sont présents sur une part extrêmement importante de sites web.

Voici une visualisation de la proportion des sites sur lesquels sont présents chacun des grands systèmes publicitaires.

Passez votre souris sur les cases pour connaitre la proportion de présence de chaque réseau

Chaque bloc est constitué des 400 sites identifiés précédemment, et si une case est colorée, le système publicitaire y est présent.
Au-delà de la connaissance par les systèmes publicitaires de la navigation des Français, la publicité programmatique pour laquelle est utilisée Ads.txt est pour plus de sa moitié constituée par du Real-Time Bidding ou RTB

Dans le RTB, il peut y avoir sur chaque plateforme plusieurs centaines d'acheteurs qui peuvent accéder aux données des internautes. Ces flux de données incluent au minimum des identifiants de cookies et en général l'URL (ou au moins le domaine) de la page sur laquelle la publicité sera affichée. Il est parfois possible d’associer ces informations au contenu des pages. De plus, les identifiants de cookies peuvent être synchronisés entre les différents écosystèmes publicitaires pour mieux capter l'intégralité de la navigation des utilisateurs.

Le nœud gordien de la publicité en ligne

Pour finir, visualisons les connexions entre les trente premiers réseaux publicitaires et les 100 premiers sites français ayant un registre ads.txt.

Si ce graphique n'est pas particulièrement lisible, il montre la complexité d'un écosystème dont l'ampleur reste grandement inconnue du grand public. Combien des sociétés de la colonne gauche connaissez-vous ?

Cliquez sur les noms de société ou bien de site web pour mieux visualiser les relations qui les unissent.

Et si l'on devait représenter l'ensemble des acteurs ayant accès à chacun de ces échanges publicitaires ?

Il convient aujourd’hui de se demander si le système tel qu’il est mis en œuvre n’est pas structurellement incompréhensible pour les utilisateurs, sa précision et sa complexité ne pouvant pas raisonnablement être appréhendée par un internaute lambda. Or ce système reposant sur le traitement de données relatives aux individus (les identifiants de cookies généralement), il est essentiel qu’il puisse être compris et maîtrisé par les utilisateurs et qu’il intègre une approche « privacy by design ».

Pour continuer à découvrir l'écosystème publicitaire en ligne, consultez notre étude sur les fichiers Sellers.json
Article sur la base d'un scan effectué le 26 Août 2020.
Retrouver une partie des données sources et le code de cette page sur le Github de la CNIL

Cette étude repose sur la collecte d'URL et de données exclusivement relatives à des personnes morales. Cependant, dans certains cas, ces informations sont susceptibles de comprendre des données à caractère personnel. Ce traitement est mis en œuvre par la CNIL. Il est fondé sur l’exercice de l’autorité publique et a pour finalité la production d’études sur les usages des technologies. Les données collectées sont relatives aux noms de domaines des sites web publiquement accessibles via Internet. Ces données seront conservées pendant une durée maximale de 5 ans. Pour en savoir plus sur les modalités de gestion de vos données ou exercer vos droits, vous pouvez pouvez consulter cette page.