[Dossier] S’opposer à la collecte de données par des robots moissonneurs

Rédigé par Romain Darous

 - 

02 juin 2026


Le développement de modèles d’IA à usage général nécessite la création d’immenses bases de données, souvent constituées de données publiques collectées en ligne. Les propriétaires de sites internet qui font l’objet de cette collecte disposent d’un ensemble de moyens pouvant les aider à maîtriser les données prélevées et les usages qui peuvent en être fait. Les articles de ce dossier introduisent tout d’abord les concepts relatifs au moissonnage de données en ligne, avant de présenter les méthodes qui peuvent être mises en place par l’éditeur du site internet pour maîtriser ce moissonnage.

 

 

 

Introduction

 

Lorsqu’un éditeur met son site internet en ligne, il le fait pour atteindre une audience et lui proposer du contenu (articles, vidéos, podcasts), vendre un produit, ou encore offrir des services en ligne. Or, les utilisateurs ne connaissent pas l’adresse exacte (appelée nom de domaine) de tous les sites qu’ils souhaitent visiter. Ils s’appuient donc sur un moteur de recherche, qui suggère des pages web à partir des mots-clés saisis. Pour fournir des résultats pertinents, les moteurs de recherche utilisent des programmes automatisés qui parcourent le Web, analysent les sites internet et les indexent. Ce processus est essentiel pour les deux parties : il permet aux moteurs de recherche de proposer des résultats de recherche utiles à l’utilisateur, et aux éditeurs de rendre leur contenu visible auprès de lecteurs, clients ou d’utilisateurs potentiels. Les entreprises qui développent des moteurs de recherche et les éditeurs de site peuvent donc chacun y trouver un bénéfice.

Aujourd’hui, certains grands modèles de langage peuvent perturber ce partage des bénéfices. Leur entraînement repose souvent sur une collecte massive de données en ligne, mais les bénéfices tirés par les propriétaires de ces sites internet sont souvent moins évidents. D’après The Wall Street Journal l’essor des agents conversationnels et des résumés générés par IA intégrés aux résultats de moteurs de recherche, qui donnent un accès à l’information sans cliquer sur les liens, entraînerait une baisse de la fréquentation des sites web. Cette collecte massive de données en ligne pose également la question de la licéité et des obligations de l’entité qui collecte ces données lorsqu’elles incluent des données à caractère personnel. La CNIL rappelle d’ailleurs les obligations du responsable de traitement dans le cadre du développement d’un système d’IA impliquant le traitement de données personnelles dans ses fiches pratiques dédiées.

Les éditeurs de ces sites internet disposent de moyens techniques pour encadrer cette pratique : ils peuvent choisir d’autoriser ou non l’accès à leurs données, en mettant en place des mécanismes permettant de bloquer les robots, ou en définissant explicitement les conditions d’accès via des fichiers spécifiques et consultés par les programmes informatiques qui procèdent à la collecte de leurs données.

 

Pourquoi encadrer les pratiques de moissonnage ?

 

Des risques pour le bon fonctionnement des sites, …

Les risques associés au moissonnage, surtout massif, sont nombreux. Non surveillées, ces pratiques représentent un danger technique pour l’hébergement de sites internet. Le moissonnage entraîne en effet une augmentation de requêtes effectuées sur un même serveur, ce qui peut conduire à des surcharges, voire des plantages de serveurs ayant des conséquences similaires à des attaques en déni de service (DDoS). La saturation récente du site de l’entreprise Triplegangers causée par les robots moissonneurs d’OpenAI en est un exemple.

 

… pour la propriété intellectuelle, …

Le moissonnage peut également porter atteinte à la propriété intellectuelle. Dans une note présentant un état des lieux des mécanismes d’opposition, le PEReN (service public qui accompagne les pouvoirs publics dans la régulation des plateformes numériques et de l’IA par la mise à disposition de compétences techniques) expose le problème des droits d’auteur en donnant l’exemple d’une sanction visant Google en 2024 pour avoir entraîné des modèles d’IA générative sur les données de sites et d’agences de presse sans les en avertir et sans fournir de mécanisme d’opposition à l’utilisation des contenus par l’IA de Google sans impacter l’affichage dans le moteur de recherche. Le PEReN discute plus généralement de la question du partage de valeur que pose la collecte de données publiquement accessibles en ligne, entre les développeurs de modèles de fondation et les propriétaires des sites internet dont les données sont utilisées pour l’entraînement.

 

… et pour la protection des données personnelles des personnes concernées

D’autre part, le moissonnage entraîne souvent la collecte de données personnelles. Il faut alors se conformer au RGPD et s’assurer que ce traitement de données est licite. La CNIL reconnaît par exemple la base légale de l’intérêt légitime (article 6.1.f du RGPD) comme valable pour collecter des données publiquement accessibles en ligne à des fins de développement de systèmes d’IA, sous réserve de la mise en œuvre de garanties fortes détaillées dans la fiche pratique IA dédiée.

 

Nous proposons ainsi une série de trois articles, visant à :

  • revenir sur les pratiques existantes de collecte de données accessibles en ligne ;
  • détailler les méthodes déclaratives qu’un éditeur de site internet peut mettre en œuvre pour les encadrer ;
  • explorer les mesures qui permettent de bloquer complètement l’accès au site internet lorsque l’utilisateur est détecté comme étant un robot moissonneur.

 

Faut-il moduler son opposition ?

 

Des méthodes faillibles, inadaptées aux données personnelles

Associer protocoles déclaratifs et méthodes bloquantes limite au maximum le risque de moissonnage non souhaité d’un site internet. Les premiers reposent sur des standards déjà existants et sur des initiatives conçues spécialement pour les robots moissonneurs. La question de leur respect systématique se pose néanmoins. Les mesures bloquantes permettent plus généralement un contrôle du trafic malveillant sur un site web, incluant la détection de robots moissonneurs qui ne respecteraient pas les protocoles déclaratifs. Si, de facto, elles permettent d’empêcher à un robot de moissonnage détecté de parcourir le site, elles peuvent nuire à l’expérience utilisateur, être intrusives et restent malgré tout faillibles.

D’autre part, ces méthodes ne sont pas conçues spécifiquement pour assurer l’exercice du droit d’opposition au sens du RGPD, lorsque cette collecte concerne des données à caractère personnel. Les méthodes déclaratives se limitant à des autorisations par page et/ou par type de contenu, une méthode d’opposition granulaire à l’échelle de chaque personne concernée reste à construire.

 

Moduler son opposition en fonction de la finalité du robot

Pour finir, il est intéressant de se demander quels types robots moissonneurs bloquer, car il en existe plusieurs sortes aux fonctions différentes. Dans sa note sur les mécanismes d’opposition, le PEReN propose de classifier les différents robots utilisés par des LLMs en quatre catégories : les « AI data scrapers », qui collectent des données à des fins d’entraînement de modèles de fondation, les « AI search crawlers » ou « AI assistants » qui se rendent sur internet pour alimenter les réponses en contenu à jour pour les utilisateurs des agents conversationnels et les « undocumented AI Agents », des robots moissonneurs non identifiés dont la finalité de collecte n’est pas connue.

Les agents conversationnels, bien que sujets à des hallucinations, s’imposent comme une source d’information majeure et parfois exclusive. Ils implémentent désormais presque systématiquement des fonctionnalités de recherche web (par l’intermédiaire des « AI search crawlers », ou « AI assistants ») pour avoir des réponses fiables et d’actualité, qui créditent donc les sites internet utilisés pour les générer. L’utilisateur peut se rendre sur les liens fournis pour vérifier les sources et approfondir ses recherches. Si cette pratique n’entraîne pas un clic systématique de l’utilisateur, elle en donne au moins la possibilité. Il est donc valable de questionner l’opposition de l’accès par ces robots au contenu d’un site internet, qui ne pourrait alors plus être utilisé comme référence dans une réponse d’un agent conversationnel.

La question est d’autant plus d’actualité que l’émergence d’IA agentiques implique que les modèles de fondation peuvent désormais effectuer des actions autonomes sur un navigateur virtuel à la demande d’un utilisateur. Bloquer ces robots, c’est bloquer l’utilisateur humain à l’origine de la requête.

 

Des alternatives à l’opposition au moissonnage

L’éditeur d’un site internet peut donc souhaiter rendre son contenu accessible à ces robots moissonneurs pour apparaître dans les sources des réponses fournies par les agents conversationnels aux utilisateurs finaux. Avec cette volonté émerge le concept de SAIO (Search AI Optimization), l’équivalent du SEO (Search Engine Optimization) appliqué au référencement conçu pour rendre son site internet visible et exploitable par les robots. Il est possible également de noter l’émergence de protocoles tels que « LLMs.txt », un fichier texte qui s’insère dans le code source du site internet et qui permet d’y écrire des informations facilement lisibles par un agent conversationnel pour lui donner directement accès au contenu d’intérêt sur le site internet. Des entreprises telles que Parallel AI ou Perplexity se spécialisent dans la recherche optimisée par IA, ce qui témoigne de l’importance que prend cet usage.

Enfin, il est possible d’établir des contrats avec les entreprises qui procèdent à la collecte de données en ligne. Le PEReN donne notamment l’exemple des partenariats entre OpenAI et Le Monde, Google et Associated Press, Perplexity Humanoid (Ebra) et Mistral et l’AFP. Reddit met également à disposition une API qui donne accès aux données publiques du forum en ligne mises en forme et nettoyées. Ces partenariats permettent de tirer une rémunération du moissonnage et participent à un rééquilibrage des bénéfices tirés par les deux parties de la collecte.

 

Document reference


Illustration : Nano Banana 2


Article rédigé par Romain Darous , Ingénieur au Service de l'Intelligence Artificielle