S'inspirer du vivant pour stocker les données : l'ADN comme « nouveau » support
Rédigé par Martin Biéri
-
10 juin 2026La question du stockage des données, de sa durabilité et de sa soutenabilité se pose de manière de plus en plus prégnante, alors que les data centers se multiplient, pour des usages divers, notamment pour les ressources en IA. Une nouvelle technologie pointe le bout de son nez dans les discussions depuis quelques années : le stockage de données sur un support du vivant, l’ADN. Qu’en est-il de cette technologie et quelles nouvelles problématiques soulèvent-elles en termes d’usage et de protection des données ?
Comment et pourquoi stocker sur ADN ?
De récentes actualités reviennent sur le stockage numérique sur l’ADN, mentionnant notamment la startup française Biomemory qui propose ce nouveau type de stockage en remplacement des disques durs classiques. L’ADN évoqué dans ce cadre est de l’ADN « synthétique » et non « vivant ». Dans le vivant, l’ADN a du « sens », c’est-à-dire que sa structuration et ses séquences produisent des effets, des évolutions, etc. Ici, il s’agit de construire en laboratoire des séquences d’ADN qui n’ont aucun objectif de produire ce genre d’effets (il n’y a pas d’action du vivant), mais seulement de stocker de l’information. Les nucléotides (molécules constituant l’élément de base de l’ADN) ne seraient alors que des « briques » qui seraient mises ensemble afin « d’écrire » du code. Cette nouvelle technique s’inscrit directement dans le biomimétisme, à savoir s’inspirer du vivant dans l’innovation et l’ingénierie (et avec adaptation à la technique : les avions ne battent pas des ailes, par exemple).
Concrètement, il s’agit d’encoder les données en se fondant sur une base quatre (puisque l’ADN est composé de quatre nucléotides : A, C, G et T – pour adénine, cytosine, guanine et thymine). Le numérique, de manière générale, est fondé sur un système binaire (les fameux bits : 0 ou 1) – il s’agirait donc de transposer les informations dans ce nouvel encodage. Car il s’agit bien d’encodage et non de chiffrement : ce n’est qu’une manière de représenter l’information – la question de la sécurité reste la même que dans d’autres systèmes de stockage. Il faut noter également que cette technologie implique aussi des nouveaux dispositifs de lecture d’ADN – qui se sont un peu plus démocratisés dans les laboratoires, notamment avec les avancées technologiques telles que les fameux « ciseaux génétiques » CRISPR/Cas9, permettant de manipuler l’ADN.
L’idée de pouvoir stocker des informations dans du biologique s’ancre à la fin des années 1950, avec les différents travaux autour de la génétique et de la cybernétique, en particulier dans la comparaison homme/machine (dans les travaux de Norbert Wiener, par exemple). Cette idée va inspirer toute une partie de l’idéologie transhumaniste (voir l’ouvrage de Nicolas Le Dévédec sur le sujet). Les premières concrétisations des travaux sur le stockage dans l’ADN sont visibles depuis la fin des années 1980, avec une accélération des réalisations depuis le milieu des années 2010 et une amélioration des résultats :
- Une équipe de recherche a réussi à encoder un livre de 659 kilobits en 2011 ;
- Dans une autre recherche en 2012, c’est cette fois un document HTML comprenant un livre de 53 000 mots, sept images JPEG et un programme JavaScript qui a été encodé ;
- En 2019, ce sont 16 gigabits de données provenant de Wikipédia qui ont été encodés dans de l’ADN synthétique.
De sorte que plusieurs projets de recherche sur ces sujets ont été lancés depuis les années 2020, notamment à travers des consortiums comprenant des instituts de recherche, ainsi que des entreprises et startups spécialisées, à l’instar du DNA Data Storage Alliance ou dans le cadre de projets financés par l’Intelligence Advanced Research Projects Activity (IARPA), l’organe du renseignement étatsunien pour orienter la recherche sur des défis particuliers.
Une révolution… mais encore à venir, et d’abord pour un stockage statique
La technologie connait plusieurs limites pour l’instant :
- D’abord, elle n’est pas exempte d’erreurs lors des séquences d’encodage/décodage, notamment à cause des « règles » spécifiques à l’ADN (instabilité, contraintes de structure, etc.) ; mais ces erreurs semblent se réduire au fur et à mesure des travaux, avec la mise en place de processus de contrôle ;
- Il existe un certain coût temporel pour traiter les informations : la lecture et l’écriture ne sont pas encore « rapides », ce qui convient bien pour de l’archivage, moins pour de la base active ;
- Il y a aussi un fort coût financier, non négligeable pour l’instant (à titre d’illustration : « il en coûte 7 000 $ pour synthétiser 2 mégaoctets de données, et 2 000 $ pour les lire » en 2017 – ou cet article PhonAndroid de 2024 qui parle d’une offre autour de « 1 000€ le kilo-octet »).
En effet, l’ADN permet de stocker beaucoup d’information, dans de petits espaces et ce sans une grande dépense d’énergie (« Cette molécule ultra dense – 1 gramme d’ADN peut contenir 450 millions To – est à la fois stable et pérenne ») : c’est d’ailleurs ce qui en fait une promesse particulièrement opportune à l’heure d’un fort développement des datacenters, actuel et à venir. De la même manière, la question de la durée potentielle du stockage est un autre argument : l’obsolescence « rapide » des technologies numériques pose des problématiques de remplacement régulier des terminaux utilisés, quand le stockage dans l’ADN pourrait présenter une bonne tenue dans le temps et une résilience bien plus grande aux changements (thermiques, par exemple). En effet, l’ADN nous a transmis des informations sur un passé lointain, à travers les fossiles.
Le stockage sur ADN présente aussi d’autres avantages, comme le fait de pouvoir « lyophiliser » l’ADN une fois encodé, ce qui permet une réduction de place pour archiver un grand nombre de données. Ainsi, « les données des dix millions de centres de données recensés aujourd’hui dans le monde pourraient par exemple tenir sur seulement 200 grammes d’ADN », (voir l’article sur le site du CNRS ici). Il faut donc différencier la version liquide ou « mouillé » (on parle notamment de wetware, en s’inspirant des mots hardware et software) qui permet d’écrire et lire l’information, et la version « sèche » qui est donc sa transformation pour être stockée. Plus concrètement, la matérialisation de ce stockage se fait à travers des supports physiques qui peuvent prendre l’allure de « cartes » (de la taille et de la forme d’une carte de crédit, par exemple) et prenant comme support du silicium – ou encore dans des billes ou capsules de métal, qui peuvent ensuite être stockées dans des grandes armoires.
A noter ici, il s’agit bien de stockage à des fins d'archivage : les données sont « figées », et y avoir accès facilement et régulièrement ne semble pas être l’objectif ici, puisqu’il faudra repasser du « sec » au « mouillé » pour cela (peut-être plus tard, une fois la technologie plus mature et mieux maîtrisée ?). On peut donc rapprocher les enjeux de ces nouveaux supports avec des enjeux plus classiques d’archives (comme, par exemple, le microfilm, longtemps utilisé comme support analogique pour l’archivage). Les comparaisons avec les datacenters sont peut-être, dès lors, un peu trompeuses, puisque ces derniers peuvent être bien plus que des centres d’archives (mais permettent de l’accès à des données, de faire des calculs en temps réel, etc.). Il existe par ailleurs d’autres méthodes pour l’archivage « longue durée » (ou deep time archiving), mais pour des enjeux de conservation du savoir humain dans le temps (voir sur le sujet l’événement éthique de la CNIL air2025, et le cahier associé).
Et donc, des enjeux de protection des données… limités ?
Dans un premier temps, il est difficile d’y voir un véritable nouvel enjeu propre concernant les données à caractère personnel : d’abord, parce qu’il s’agit de stockage dans de l’ADN synthétique, et non dans un ADN « du vivant ». Ensuite, il s’agit avant tout d’une nouvelle manière d’encoder les données, notamment en passant d’une base binaire (celle du numérique, en bits) à une base quatre (cette fois fondé sur les nucléotides de l’ADN). Cette technologie pourrait simplement être le prochain support de stockage, après les films, les clés USB, les disques durs et les SSD.
Concernant la sécurité, finalement, s’agissant d’un nouvel encodage, la question de la sécurité reste la même que sur d’autres supports : nécessité de chiffrement des données, gestion des accès, etc. (voir le Guide de la sécurité des données personnelles de la CNIL). Cela étant, la forte résilience de ces nouveaux supports (lyophilisation, adaptation naturelle aux changements de température, etc.) semble pouvoir préserver plus facilement leur intégrité physique (et des données qu’ils stockent).
Comme tout stockage, ce nouveau support pourra contenir des données personnelles, et donc tous les enjeux qui sont liés à la protection des données en général. Pour autant, la question de l’exercice des droits pourrait soulever quelques questions de faisabilité : la question de l’accès à ces données d’archive ? La question de la capacité à rectifier des données une fois qu’elles sont encodées dans une structure ADN ? Faudrait-il, comme pour les chaines de blocs, restructurer l’ensemble et le réencoder pour effectuer une modification ?