Go Back

Visualiser le web publicitaire avec les fichiers Sellers.json

Le fichier Sellers.json, de la même manière que le fichier Ads.txt, est un élément de lutte contre la fraude publicitaire sur le web qui contient les clefs pour visualiser les relations entre les différents acteurs du milieu.

Ce contenu édité par le Laboratoire d’innovation Numérique de la CNIL repose sur une analyse factuelle basée sur des informations librement accessibles. Le résultat de cette analyse ne constitue pas une analyse de la conformité des pratiques observées et ne préjuge aucunement de la qualification qui pourrait être faite par la CNIL de ces pratiques. La présente étude a été réalisée dans le cadre de la mission générale de la CNIL de veille sur les technologies de l’information (Art 8-4 de la Loi Informatique et Libertés).

Que sont les fichiers Sellers.json ?

Comme expliqué dans notre étude de Ads.txt, les éditeurs utilisent des services que l’on nomme SSP (pour « supply-side platform ») pour commercialiser des éléments d’inventaire (c'est à dire des impressions publicitaires) sur un réseau d'échange publicitaire (ou « ad exchange »). Chacun de ces SSP est donc autorisé par l’éditeur à vendre de l’inventaire de son site sur un certain nombre d’échanges publicitaires, que ce SSP soit directement intégré sur la page de l’éditeur ou bien externe et donc simple revendeur. Parfois, un élément d'inventaire peut passer par plusieurs SSP à la chaine pour être commercialisé, ce qui n'est pas décrit dans les fichiers Ads.txt.

Le fichier Sellers.json décrit les relations commerciales entre les différents SSP et les éditeurs, permettant d'identifier tous les intermédiaires lors de la vente d'inventaire.

Quels éléments supplémentaires par rapport à Ads.txt

Les typologies de fraudes qui sont visées par le fichier Sellers.json sont assez similaires à celles visées par Ads.txt (c’est-à-dire l’usurpation de site et la revente d’inventaire), mais ce mécanisme apporte d'autres outils pour les détecter.

Ainsi, ils permettent :
  • Aux éditeurs de vérifier que le circuit de vente de leur inventaire correspond à leurs attentes.
  • Aux acheteurs d'identifier les tiers participants à la mise en vente d'inventaire, évitant ainsi les acteurs douteux.
  • Aux tiers de détecter, par des incohérences entre les registres Ads.txt et Sellers.json, des fraudes potentielles.

Pourquoi ça nous intéresse ?

Si les fichiers Ads.txt permettent d’identifier les relations entre les sociétés de la publicité en ligne et les éditeurs de sites web, les fichiers Sellers.json permettent de visualiser les acteurs intermédiaires intervenant lors de la vente d'inventaire. A chaque élément d’inventaire vendu est associé à un identifiant unique de l’internaute qui est généralement stocké dans un cookie. Cet identifiant permet de construire des profils publicitaires des internautes, par exemple en traçant la navigation de ceux-ci à travers le web. Pour mieux comprendre ces pratiques, lire l'article sur le RTB, une des modalités de vente programmatique les plus populaires.

En visualisant les relations entre les différents réseaux publicitaires qui prennent place lors de la mise en vente d'un élément d'inventaire, on lève le voile sur une industrie caractérisée par un haut niveau d'intermédiation.

Méthodologie

Nous utilisons le top 20 des acteurs publicitaires sur le web français utilisant un registre Sellers.json (en voir un au hasard) en se basant sur notre étude de Ads.txt. Pour chacun de ces acteurs, s'ils listent d'autres intermédiaires SSP, nous ajoutons ceux-ci à notre liste et ainsi de suite. Seuls les registres ayant une URL sont considérés comme valides.

Cette méthode nous a permis d'identifier 6017 SSP, présents sur 217 985 sites.

Nous nous baserons sur cet échantillon, le relevé des valeurs étant effectué le 14 Septembre 2020.

Attention : ces données sont basées sur les valeurs déclarées par les différents acteurs étudiés. Les résultats de cette étude sont donc dépendants de l'exactitude de ces données déclarées.

Les résultats


Les SSP n'ont en général qu'un nombre limité d'accords directs avec les éditeurs.

Voici la visualisation du nombre d’entités par typologie qui ont des liens avec le top 20 des SSP (ceux-ci ont été identifiés lors de l'étude sur Ads.txt). En utilisant Sellers.json, on voit que ces SSP peuvent en effet déclarer des relations avec 3 types d'acteurs :
  • des éditeurs ;
  • des intermédiaires ;
  • des acteurs mixtes, remplissant les deux rôles.
Cliquez pour grouper les valeurs par SSP : .

Comme on le voit dans la visualisation, même les plus grand SSP ont rarement des relations directes avec plus de 1000 éditeurs. Un SSP moyen parmi ceux ayant déclaré a des relations avec 671 éditeurs et 72 intermédiaires. Il y a bien sûr des exceptions à cette règle. Ainsi, un unique SSP propose de l'inventaire provenant de plus de 130 000 éditeurs.

Voici une visualisation des relations entre 20 des SSP les plus présents sur le web français.


Passez votre souris sur les liens pour voir les flux de données vers chaque SSP

Ceci permet de visualiser que les SSP sont caractérisés par un très fort taux d'interconnexion, permettant d'offrir chaque élément d'inventaire des éditeurs sur un nombre maximum d'échanges publicitaires. Il y a 51 accords d'interconnexion entre les 20 SSP les plus présents

Cela signifie qu'un nombre extrêmement important de SSP peut avoir accès à la navigation internet des Français par le jeu de ces interconnexions.

Voici une visualisation des relations entre 20 des SSP les plus présents sur le web français.


Passez votre souris sur les liens pour voir les flux de données vers chaque SSP

Ceci permet de visualiser que les SSP sont caractérisés par un très fort taux d'interconnexion, permettant d'offrir chaque élément d'inventaire des éditeurs sur un nombre maximum d'échanges publicitaires. Il y a 51 accords d'interconnexion entre les 20 SSP les plus présents

Cela signifie qu'un nombre extrêmement important de SSP peut avoir accès à la navigation internet des Français par le jeu de ces interconnexions.

En utilisant ces relations, les SSP les plus importants arrivent tous à atteindre la quasi-totalité des éditeurs

La principale différence entre eux est le nombre d'intermédiaires dont ils ont besoin pour atteindre chaque éditeur. Le graphe ci-contre comptabilise le nombre de domaines atteints en fonction du nombre d'intermédiaires, avec au maximum 3 intermédiaires.

Cliquez pour grouper les valeurs : .

On observe que la majorité des SSP peut atteindre et donc vendre de l'inventaire de plus de 240 000 éditeurs. La principale différence est qu'un SSP avec moins d'intermédiaires va pouvoir proposer l'inventaire de l'éditeur à moindre coût.

Un réseau de mise en vente dense et opaque

Au final, le marché des SSP est caractérisé par un haut niveau d'intermédiation, d'interconnexions et de redondance des acteurs. Ce réseau de mise en vente d'inventaire n'est en général pas connu des utilisateurs, et parfois même des éditeurs. En conséquence, même les éditeurs qui font le choix de n'autoriser qu'un nombre limité de régies publicitaires sur leurs domaines exposent potentiellement les données de leurs utilisateurs à des nombreux tiers, ces données accompagnant la plupart du temps la mise en vente d'espaces publicitaires dans le cadre de la publicité ciblée.

Vous pouvez ci-dessous visualiser ces réseaux potentiels de mise en vente d'inventaire pour des sites identifiés au cours de cette étude faisant partie du top 50 Alexa français.
Sélectionnez le nom du site dont vous voulez explorer les partenaires:
Vous pouvez ensuite cliquer sur les acteurs pour visualiser les liens qui les relient.


Article sur la base d'un scan effectué le 14 Septembre 2020.
Retrouver l'intégralité des données sources et le code de cette page sur le Github de la CNIL

Cette étude repose sur la collecte d'URL et de données exclusivement relatives à des personnes morales. Cependant, dans certains cas, ces informations sont susceptibles de comprendre des données à caractère personnel. Ce traitement est mis en œuvre par la CNIL. Il est fondé sur l’exercice de l’autorité publique et a pour finalité la production d’études sur les usages des technologies. Les données collectées sont relatives aux noms de domaines des sites web publiquement accessibles via Internet. Ces données seront conservées pendant une durée maximale de 5 ans. Pour en savoir plus sur les modalités de gestion de vos données ou exercer vos droits, vous pouvez pouvez consulter cette page.