[Article 2/2] Des modèles de mondes avides de données, non sans risques

Rédigé par Régis Chatellier

25 March 2026

Comprendre le monde physique nécessite selon les concepteurs de modèles de monde des données plus riches que les seules données textuelles ou images, dont les sources ne sont pas toujours définies. Les conditions de leur collecte comme les usages des ces modèles lorsqu’ils seront en production posent de nouveaux enjeux pour les droits des personnes.

Les World Models comme les modèles de langage, ou les modèles multimodaux requièrent des stocks importants des stocks important de données pour leur entrainement. Le modèle V-JEPA2 a notamment nécessité plus d’un million d’heures de vidéos. A ce titre ils soulèvent des questions quant aux types de données collectées, leur provenance, et les questions de droits associés. Ces questions et ces risques se posent également après leur mise en production.

Quelles données pour les entrainer ?

Si l’apprentissage auto-supervisé non contrasté requiert moins de données, que les méthodes contrastées, les modèles de monde requièrent toujours une somme importante de données pour leur entrainement, potentiellement beaucoup plus importantes en volume que les données à mettre à profit pour l’entrainement des modèles de langage. Il ne s’agit plus seulement de données textuelles, ni même d’images « à plat », en 2D, mais aussi et surtout de vidéo et tout type de données de représentation du monde.

Dans son papier, Yann Le Cun précise quelles sont les sources et les modes d’acquisition nécessaires à l’entrainement des modèles :

Données textuelles : bien que le point de départ de l’article porte sur la limitation des modèles de langage, il reconnait que le texte reste une source importante de connaissance de haut niveau, même si non suffisante : « une grande partie des connaissances issues du « bon sens » (common sense) humain ne sont représentées dans aucun texte et résultent de notre interaction avec le monde physique. Comme les LLM n'ont aucune expérience directe de la réalité sous-jacente, le type de connaissances issues du bon sens qu'ils affichent est très superficiel et peut être déconnecté de la réalité. », c’est pourquoi il fait appel à d’autres données.

« Flux sensoriels » divers : vidéo, audio, toucher : les modèles nécessitent pour leur entrainement des flux provenant de capteurs, tels que la vidéo (pour apprendre la physique intuitive, la profondeur et la permanence des objets), l'audio, les signaux de toucher et la parole. Tous ces signaux que les humains (et non-humains) acquièrent dans les premiers mois et années de leur vie.

Ces données « sensorielles » ne doivent pas être seulement statiques, mais dynamiques, relevant de plusieurs types de sources et de modes d’acquisition :

D’abord par l’observation passive à travers de flux de données capteurs vidéo, ou audio ;
Par la « fovéation » active : diriger le regard, l'attention ou l'orientation des capteurs sans affecter l'environnement ;
L’observation passive d’un autre agent : agir sur l'environnement pour déduire les effets causaux des actions ;
L'égomotion active, soit le déplacement ou le mouvement d'un capteur, ou d'une caméra par rapport à un environnement réel ou virtuel sans affecter significativement cet environnement ;
L’agence active, apprendre à prédire les conséquences de ses propres actions en influençant directement les flux sensoriels.

C’est donc par l’observation du monde réel, à l'image des humains et des animaux, qu’une une grande partie de l'apprentissage se ferait par l'observation d'énormes quantités de connaissances de base sur le fonctionnement du monde, avec très peu d'interactions directes, surtout au début du développement. Se pose alors la question de la source des données pour alimenter et entrainer ces modèles de monde.

Dans l’article, ainsi que lors d’une intervention à l’occasion de l’événement AI-Pulse 2025, organisé à Paris en novembre 2025, Yann Le Cun précise le type de sources qui sont à mobiliser pour l’entrainement. Des plateformes comme YouTube fournissent d'énormes quantités de données visuelles de vidéo idéales pour l'apprentissage auto-supervisé. Ces vidéos présentent selon lui l’avantage d’être « facile à se procurer », d’être « publiques » (sic), elles permettent d’entrainer ces modèles sur de plus grandes quantités de données, des signaux continus, bruités, à haute densité (plus riches que des données textuelles), et redondantes. Meta avait par exemple utilisé l’équivalent de 100 ans de vidéos pour entrainer le modèle vidéo V-JEPA (voir plus bas).

En complément de ces sources, les modèles demandent à être entrainées par des données qui lient les perceptions aux actions. Celles-ci peuvent provenir de plusieurs sources :

Les jeux vidéo : des données d’interactions qui permettent de simuler des environnements où l’on peut agir et observer les conséquences ;
La robotique : les données provenant de simulations de robots ;
De données "réelles" capturant des interactions physiques (vision, toucher, proprioception).

A ce stade, peu d’information sont données sur les données sensorielles. Les lunettes connectées (Smart Glasses) sont envisagées comme des sources potentielles de données, dès lors que ces appareils permettent de filmer des tâches quotidiennes du point de vue de l'humain ("first-person view"), fournissant des données de perception au plus proches de la réalité de la perception humaine. Pour ce qui concerne les données relatives au toucher, par exemple, il n’y pas d’information sur les moyens à mettre en œuvre pour les collecter, quel type de données, alors même qu’il s’agirait de données personnelles, et potentiellement sensibles.

Quels enjeux en termes de protection des droits et des données ?

En février 2026, si de nombreux projets s’inscrivent dans la vague des modèles de monde, la plupart à ce stade restent des modèles génératifs « classiques ». Les modèles d’intelligence autonome restent encore au stade de modèles hypothétiques, sans qu’il soit possible de savoir vraiment si et à quel horizon ils seront véritablement sur le marché, et tiendront leurs promesses. Des chercheurs et experts de l’intelligence artificielle, cités par Libération, se disent dubitatifs sur le projet, a minima à court terme.

L’entrainement et la mise en production des World Models ne présentent pas moins de questions relatives à la protection des données, aux systèmes d’IA eux-mêmes et plus largement des questionnements éthiques.

Protection des données et des droits des personnes

L’ensemble des modèles de monde, qu’il s’agisse des modèles de génération vidéo, de jeu vidéo, ou les modèles d’intelligence autonome, se base sur l’apprentissage à partir de grandes masses de données, beaucoup plus larges que pour les modèles de langage « classiques ». A ce titre, la spécificité des World Models résident dans le caractère exponentiel de la masse de données mobilisées pour l’entrainement, bien supérieure que celle requise pour les modèles de langage.

Les risques décrits par la CNIL dans sa fiche relative à la collecte des données accessibles en ligne par moissonnage (web scraping) s’appliquent aux données « vidéo » utilisées pour l’entrainement de ces modèles.

La fiche rappelle que l’utilisation de ces outils porte des risques d’atteinte à la vie privée et aux droits garantis par le RGPD, pouvant entraîner des impacts importants sur les personnes, du fait notamment du « grand volume de données collectées, du nombre important de personnes concernées, des difficultés liées à l’exercice ultérieur du droit d’effacement, du risque que soient collectées des données relevant de la vie privée des personnes (par ex. utilisation des réseaux sociaux) voire des données sensibles ou hautement personnelles, en l’absence de garanties suffisantes. Ces risques sont d’autant plus importants qu’ils peuvent également concerner les données de personnes vulnérables, comme des mineurs, qui doivent faire l’objet d’une attention particulière et être informés de manière suffisamment adaptée. »

Il existe également un risque de procéder à une collecte illégale, dans la mesure où « certaines données peuvent être protégées par des droits spécifiques, notamment des droits de propriété intellectuelle, ou leur réutilisation conditionnée au consentement des personnes ». Plus largement, l’entrainement des modèles porte un risque d’atteinte à la liberté d’expression, dès lors qu’une « collecte indifférenciée et massive de données et leur absorption dans des dispositifs d’IA susceptibles de les régurgiter peuvent affecter la liberté d’expression des personnes concernées (sentiment de surveillance qui pourrait conduire les internautes à s’auto-censurer, d’autant plus au regard des difficultés à soustraire les données publiées aux pratiques de moissonnage), alors même que l’utilisation de certaines plateformes et d’outils de communication est nécessaire au quotidien. »

Risques spécifiques aux données « sensorielles »

Les modèles de monde, en particulier ceux qui correspondent à la vision proposée par Yann Le Cun, demandent à être entrainés sur de nouveaux types de données, qui ne sont plus que le texte, ou des vidéos partagées en ligne, mais des données qu’il qualifie de sensorielles. S’il ne donne de détails sur la manière dont pourraient être collectés des données relatives au toucher, il pointe le cas des lunettes connectés pour des données associant l’image et le mouvement, sur le mode « first-person-view ». Ceci dans un contexte où le marché des lunettes connectés est en plein développement, poussé notamment par Meta avec ses lunettes Ray Ban et Google, mais aussi par une myriade d’acteurs, Etasuniens et Chinois en particulier. Le journal Le Figaro titrait en janvier sur la spectaculaire renaissance des lunettes connectées au CES de Las Vegas.

Des données sensorielles, par définition, sont des données associées à une personne physique, qu’il s’agisse du porteur des lunettes connectées, où de tout autre type de capteur. Il s’agirait donc d’être vigilant sur les sources de ces données et les conditions dans lesquelles s’organise la collecte et le traitement de données.

L’approche maximaliste proposée pour les modèles de monde tend à rendre complexe la mise en œuvre du principe de minimisation pour le développement des systèmes d’IA. Il n’est pas interdit d’entraîner un algorithme avec des volumes très importants de données, mais, selon le principe de minimisation, il s’agit pour les développeurs de mener une réflexion en amont de l’entraînement pour ne pas recourir à des données personnelles qui ne seraient pas utiles au développement du système. Dans le cas des données dites sensorielles, la nature des données au sens du RGPD doit-être également abordée. En effet, des données « sensorielles » pourraient entrer dans la catégorie des données sensibles, ou « hautement personnelles », susceptibles d’engendrer des risques élevés.

Ces nouveaux modèles de monde, dans la manière dont ils sont présentés, donnent à voir une extension de la collecte des données, et de l’ensemble des enjeux associés et décrits depuis quelques années, qu’il s’agisse des questions relatives aux droits d’auteur, à la qualité des données collectées (et les biais qu’ils peuvent intégrer), ou des droits des personnes.

Risques associés à la génération de monde et aux prédictions

La capacité à générer des textes, des images et des vidéos hyperréalistes pour la propagation de fausses informations, ou pour la désinformation, est déjà l’un des grands défis à relever pour nos sociétés, et pour la démocratie. La capacité offerte par les modèles de génération notamment audio et vidéo tend à amplifier ce phénomène, et pose un défi pour la régulation. La détection des contenus générés par l'IA est devenue un enjeu de recherche majeur pour faire face à ces risques, « il devient de plus en plus difficile à résoudre en raison des progrès des IA génératives, et il le sera encore plus avec l'arrivé de modèles de mode capables de générer des résultats cohérents et multidimensionnels » (Ding, Zang, et al.). Le LINC avait publié un article en 2023 sur le tatouage numérique des contenus générés pas IA comme mesure de transparence.

Lorsqu’il s’agit d’avoir recours à des world models pour les véhicules autonomes, pour la robotique, ou tout autre application ayant un effet direct et concret dans le monde physique, les risques d’erreurs ou d’hallucination des nouveaux modèles sont très concret. Une erreur de prédiction pourrait produire des accidents. Il faut noter qu’en 2026, selon les calculs de Tesla, qui pourtant ne publie pas toutes ses information, ses robotaxis sont quatre fois moins performants que les humains en matière de conduite. L’utilisation de modèles prédictifs comporte des risques éthiques et juridiques dans d’autres champs d’application, par exemple s’il s’agit d’influencer des choix médicaux, ou militaires. Des modèles de langage sont déjà utilisés dans le cadre d’opération militaire. Selon le Wall Street Journal, cité par la Guardian, Claude, le modèle d’Anthropic a été utilisé dans le cadre de l’attaque mené par les Etats-Unis contre l’Iran, « à des fins de renseignement, ainsi que pour aider à sélectionner des cibles et réaliser des simulations de champ de bataille ».

Des mondes encore incertains

Les World Models constituent une nouvelle étape dans le développement foisonnant des intelligence artificielles depuis quelques années. Ils s’inscrivent dans une course au développement des modèles à l’échelle mondiale, alors même qu’un chercheur comme Yoshua Bengio, colauréat en 2019 du prix Turing avec Yann Le Cun, alerte sur les risques de l’IA, l’impact environnemental, l’importance d’avoir des comités d’éthique dans les projets. La startup AMI lancée et en janvier 2026 à déjà levé 1 milliard de dollars en mars 2026, sans qu’il n’y ait de dates pour le lancement de produits et services, ni pour leurs modèles économiques. Comme le précise au Figaro l’un de cofondateurs, Alexandre Lebrun, « Nous sommes sur un projet ambitieux à horizon long. La levée va financer ces recherches ». Sur les risques associés à ces nouveaux modèles, Yann le Cun estime dans les colonnes de Libération le 10 mars 2026 que, « à la fin, la décision de quelle est la meilleure utilisation de l’IA pour la société ne devrait pas être dans les mains de quelqu’un comme moi, ou comme mes collègues. C’est à la société et à ses institutions démocratiques de décider. »

Article rédigé par Régis Chatellier , Chargé des études prospectives

VOIR PLUS D'ARTICLES DE L'AUTEUR

Contenu annexe

[Article 1/2] Des modèles de langage aux modèles de monde

25 March 2026

Intelligence artificielle

[Dossier] Y a-t-il des humains dans les World Models ?

25 March 2026

Intelligence artificielle

Appel à communication – Journée de recherche sur la vie privée à Paris le 24 juin 2026

25 February 2026