Un nouvel E(D)Spoir ? Les dynamiques à l’œuvre dans le développement des entrepôts de données de santé en France

Rédigé par Martin Biéri, Audrey Pety et Romain Pialat

 - 

20 November 2024


La CNIL publie sa cartographie des entrepôts de données de santé en France, avec pour objectif de rendre compte de la diffusion et de l’implémentation de ces nouvelles bases de données, ainsi que des acteurs qui en ont la responsabilité. Pour accompagner la cartographie, cet article vise à apporter un éclairage sur les dynamiques – temporelles et spatiales – à l’œuvre.

Accéder à la cartographie

La cartographie des entrepôts des données de santé permet de voir plusieurs dynamiques à l’œuvre dans l’organisation de la recherche sur les données de santé en France. La notion d’entrepôt est assez récente : en 2017, la CNIL a affiné sa doctrine en opérant une distinction entre les projets de recherche (qui sont ponctuels et avec une finalité précise) et les entrepôts de données de santé (EDS), qui visent la création d’une base de données pérenne (souvent issues de différentes sources) en vue de sa réutilisation dans plusieurs études. En effet, différents organismes souhaitent, par exemple, rassembler leurs données à des fins de recherche, de pilotage de l’activité et d’amélioration de la prise en charge des patients. Pour plus de détail, voir notamment l’onglet « Qu’est-ce qu’un EDS » dans la cartographie.

Rappel méthodologique et de lecture de la cartographie

 

Pourquoi la CNIL publie cette cartographie ?*

La CNIL a un rôle de régulateur des données personnelles en général, et en particulier des données de santé. Devant la multiplication des EDS et des acteurs y prenant part, la création d’un outil permettant à la fois de comprendre les dynamiques à l’œuvre et d’améliorer la transparence de l’usage des données de santé dans le cadre de la recherche apparaît particulièrement utile.

En dehors des entrepôts fondés sur le consentement, qui ne sont pas soumis à autorisation, la CNIL dispose d’une vue d’ensemble des acteurs mettant en œuvre des entrepôts ayant fait l’objet d’une formalité auprès d’elle. Ces informations sont d’ailleurs publiques (voir la partie Méthodologie).
Cette cartographie répertorie les organismes mettant en œuvre un ou plusieurs entrepôts de données de santé. Elle permet de comprendre qui collecte ou regroupe massivement des données, et dans quel(s) objectif(s). Il s’agit d’observer la répartition spatiale des acteurs à partir de l’adresse de leur siège social, et non pas de proposer une cartographie des « serveurs » et de la localisation physique des données.

Catégorisation des organismes responsables d’entrepôts de données de santé

Les acteurs sont déclinés en huit grandes catégories :

- Agence publique (on y retrouve, par exemple, l’ARS Ile-de-France, mais également la Plateforme des données de santé ou Health data hub) ;

- Association ;

- Hôpital (centre hospitalier universitaire régional, etc.) ;

- Centre de lutte contre le cancer (CLCC) ;

- Clinique ;

- Enseignement – recherche ;  

- Entreprise ;

- Établissement de santé privé d'intérêt collectif (ESPIC).

Typologie des EDS

- Les entrepôts de données d’établissements de santé (ou entrepôts « généralistes ») : ce sont des entrepôts dont toutes les données viennent d’un même établissement (ou de plusieurs au sein d'un même groupe). Ils ont été développés dans le but de regrouper les données de précédentes recherches qui pouvaient être déjà existantes et des données de « vie réelle », c’est-à-dire recueillies dans le cadre de la prise en charge des patients (voir Qu’est-ce qu’un entrepôt de données de santé).

- Les entrepôts thématiques rassemblent des données sur une population spécifique, qu’il s’agisse des patients avec une pathologie particulière (atteints de VIH, de diabète, etc.), la population d’une région, une population de professionnels et/ou sa patientèle, de patients ayant passé un examen d’imagerie, etc.

- Enfin, les entrepôts regroupant des données issues des logiciels de gestion (cabinets médicaux, officines de pharmacie…).

Extraits des contenus accompagnant la cartographie, à lire in extenso sur https://carto-eds.beta.cnil.fr/

Un développement progressif et une diversification de plus en plus importante des sujets comme des acteurs mettant en place des EDS… 

L’analyse du développement des EDS année par année visible à travers le « curseur temporel » de la cartographie) permet de dégager quelques principales tendances et d’en montrer des grandes étapes. On pourrait alors les distinguer en trois phases : 

  • Un début assez lent, avec peu de projets sur les deux premières années (2017 – 2018) ; 
  • Une accélération à partir de 2020 avec une prépondérance des acteurs publics et un fort développement des entrepôts « généralistes » (regroupant les données d’un ou de plusieurs établissements d’un même groupe) ; 
  • Une diversification des acteurs et des projets : les entrepôts thématiques deviennent alors majoritaire à partir de 2022 – diversification facilitée notamment par la publication du référentiel entrepôt de données de santé l’année précédente (et donc la possibilité de se déclarer conforme), le secteur public se renforçant via des appels à projets et des mises en réseau. 

Ainsi, en 2017, plusieurs facteurs poussent la CNIL à modifier son accompagnement et les autorisations qu’elle délivre afin de bien distinguer les projets de recherche des projets d’entrepôts : la numérisation des dossiers médicaux, la volonté de les conserver dans la durée et de les valoriser pour des usages secondaires, l’augmentation de la capacité de stockage et de calcul, et, l’utilisation de plus en plus massive des données de « vie réelle » , les projets d’intelligence artificielle, etc. Cette même année, trois entrepôts appartenant à deux des catégories mentionnées ci-dessus sont autorisés : celui de l’AP-HP (Assistance Publique – Hôpitaux de Paris) et deux entrepôts mis en place par des sociétés privées (OpenHealth et IQVIA). 

L’année 2018 est à peu près similaire, avec cinq entrepôts autorisés par la CNIL :

  • Deux acteurs du soin (le CHU de Nantes et l’Institut de Cancérologie de l’Ouest) développant chacun un entrepôt pour son propre établissement, 
  • Trois acteurs privés développant chacun un entrepôt à travers la fourniture de services (notamment logiciels) à des professionnels de santé. 

En 2019, année pendant laquelle le nombre d’EDS double, peut être noté un fort développement des entrepôts « généralistes » par les acteurs du soin, qu’ils soient publics (à l’instar des hôpitaux – universitaires ou non) ou privés à but non lucratif (comme les Centres de lutte contre le cancer - CLCC - ou les Etablissements de santé privés d'intérêt collectif - ESPIC). Cette catégorie d’EDS devient la plus importante (huit), contre quatre pour les entrepôts thématiques et quatre pour les entrepôts liés à la fourniture de services aux professionnels de santé. 

L’année 2020, comme cela est visible sur le graphique, marque un certain tournant : c’est l’année qui compte le plus fort nombre d’autorisations délivrées pour développer des EDS (19). Le contexte de la Covid provoque notamment un traitement particulier des projets autour de la santé de la part de la CNIL, avec notamment un délai d’instruction des dossiers accélérés des demandes d’autorisation relatives à des traitements en lien avec l’épidémie. Les entrepôts thématiques se multiplient et deviennent majoritaires : ils composent 12 des 19 nouveaux entrepôts de l’année, au contraire des entrepôts privés (notamment des « courtiers »), qui ne comptent qu’un seul entrepôt de plus sur les deux années 2019-2020. Fait notable également : sur ces 19 nouveaux entrepôts, 12 sont à l’initiative d’hôpitaux (CH / CHU). Cela se traduit par le fait que certains des CHU ayant déjà un entrepôt hospitalier « généraliste » développent des entrepôts « thématiques », liés à des projets ou à des spécialités déjà existantes en leur sein – et deviennent, de fait, responsables de plusieurs entrepôts. De la même manière, les premières co-responsabilités commencent à apparaître : le CHU de Bordeaux avec l’Agence régionale de santé pour le registre des pathologies cardio-neuro-vasculaires en Nouvelle-Aquitaine ; ou Openhealth avec l’entreprise Altran et l’Institut Mines Telecom pour un projet d’EDS autour du diabète (projet non mis en œuvre selon les acteurs concernés). 

Si l’année 2021 connait une baisse significative en termes de création de nouveaux EDS, elle présente toutefois des particularités. En effet, elle marque l’élaboration d’un référentiel sur les entrepôts de données de santé qui formalise la doctrine élaborée par la CNIL dans le cadre de l’accompagnement des organismes souhaitant constituer des EDS depuis 2017. Ce référentiel a été adopté en octobre après une consultation publique. S’ils respectent les conditions juridiques et techniques prévues par le référentiel, les acteurs peuvent constituer un entrepôt de données de santé après la réalisation d’une déclaration de conformité à ce référentiel. S’ils doivent bien entendu documenter en interne la conformité à ce référentiel, ils ne sont plus tenus de solliciter une autorisation de la CNIL dans cette hypothèse. Certains acteurs développant de tels projets ont pu attendre sa publication en octobre avant de lancer leurs entrepôts, sans compter le temps de développement propre à une telle entreprise (gestion des systèmes d’information, infrastructures et stockage, etc.). La Haute autorité de santé (HAS), dans son rapport sur les entrepôts de données hospitaliers (c’est-à-dire ne comprenant que ceux des hôpitaux), indiquait déjà fin 2022 : « la mise en place d’un EDSH [entrepôt de données de santé hospitalier] constitue un projet complexe […] réunissant des compétences pointues dans les domaines médicaux, informatiques et règlementaires ». 

Sur l’année 2021, il n’y a donc qu’un seul entrepôt déclaré : celui du Giscop93, Groupement d'intérêt scientifique sur les cancers d'origine professionnelle en Seine-Saint-Denis, signe également d’une certaine diversification des acteurs privés à but non lucratif, qui voient s’ajouter aux ESPIC et CLCC des associations scientifiques (comme la Société française de cardiologie) ou des groupements d’intérêt scientifique. 

La courbe montre l’évolution du nombre d’entrepôts entre 2017 et 2024, avec une croissance assez progressive : l’on passe de 3 EDS en 2017 à 45 en 2021 puis 100 en 2024.

L’histogramme montre le nombre d’EDS par année depuis 2017 : les pics les plus visibles sont pour l’année 2020 et 2022 avec respectivement 19 et 21 EDS.

Courbe et histogramme de l’évolution des nombres d’EDS par année

 

La tendance change en 2022, puisque 11 déclarations sont recensées, soit plus de la moitié des nouveaux EDS (21). Ceci est évidemment à remettre en perspective avec la méthodologie de la cartographie : nous n’avons retenu dans les déclarations que les acteurs que nous considérions susceptibles d’avoir pu mettre en place un projet d’EDS conforme au référentiel – les autres apparaissant comme soit trop éloignés du sujet (et sont souvent le fait d’une erreur d’aiguillage) ou seront interrogés par la CNIL pour vérifier s’ils relèvent bien de cette catégorie (auquel cas, le nombre de déclaration pourrait légèrement évoluer à la hausse). Cependant, cela donne une visibilité « réduite » sur les projets, plusieurs entrepôts pouvant être constitués dans le cadre d’une déclaration de conformité au référentiel.  Si la CNIL a correspondu avec les responsables des EDS en amont de la publication de la cartographie, nous n’avons pas pu réunir toutes les informations (voir l’onglet Méthodologie). De fait, il reste quatre entrepôts déclarés que nous ne pouvons catégoriser correctement pour l’ensemble de la période, dont trois sur la seule année 2022. Les projets sont plus divers, que ce soit en termes d’acteurs (dix acteurs publics, six privés à but non lucratif et cinq privés) ou en termes de types d’entrepôts (dix entrepôts thématiques, quatre entrepôts généralistes et quatre entrepôts liés à la fourniture de services aux professionnels – et, donc, trois « inconnus »). Par ailleurs, le cas d’AgorIA est notable puisque les co-responsables sont deux entreprises pharmaceutiques, une entreprise de conseil et d’innovation dans le secteur de la santé et une entreprise du secteur numérique, soit une co-responsabilité de quatre acteurs distincts pour un même entrepôt. 

Si l’année 2023 semble être dans la même veine, avec une plus grande place au acteurs privés à but non lucratif (six nouveaux entrepôts contre quatre pour les entrepôts généralistes et quatre pour les entrepôts liés à la fourniture de services), elle montre toutefois un certain ralentissement : seuls 14 nouveaux entrepôts sont recensés. En comparaison, le recensement pour 2024 (seulement jusqu’à début octobre) en est déjà à 20. A noter également entre 2022 et 2023, l’appel à projets lancé par le Ministère de la santé et de la prévention ainsi que la Direction générale de l’offre des soins (DGOS) : « cet appel à projets de 50M€ vise à mettre en place et consolider un réseau des EDS afin de stimuler l’écosystème public et privé de la recherche et de l’innovation en santé ». Cet appel témoigne de l’intérêt de ces nouvelles « structures » que sont les EDS, mais également des enjeux qui y sont liés, notamment en termes de budget, de mise en réseau et d’interopérabilité – mais également d’une certaine limite pour la catégorie des EDS « généralistes », dont plus d’une quinzaine d’hôpitaux sont déjà équipés.

Enfin, pour contextualiser un peu plus cette dynamique temporelle, il est intéressant de relever la manière dont la HAS résume cette dynamique temporelle dans l’introduction de son rapport sur les EDS hospitaliers : « Les premiers EDSH ont été conçus pour faciliter la construction de l’information hospitalière pour le financement ou le pilotage des établissements et pour des usages proches du soin. C’est aujourd’hui la finalité de recherche qui motive la construction et le développement des EDSH ».

 

… doublée de « dynamiques » spatiales, entre mise en réseau fédéré et centralisation parisienne

La répartition spatiale des EDS en France est également intéressante à analyser, ne serait-ce qu’à travers la relation des patients avec les établissements de soins (lien de proximité entre lieu de vie et lieu de soins) – les « aires d’influence » des CHU étant déjà bien documentées dans la littérature (voir F. Tallet, (2010) ; S. Fleuret et V. Veschambre (1999)). D’un point de vue « grand public », cela permet également de « concrétiser » une hospitalisation dans un CHU avec une participation à la recherche, innovation, pilotage et amélioration des soins et de la prise en charge. La HAS rappelle également l’importance de ces différents niveaux de gouvernance concernant les hôpitaux : local (gestion et mise en œuvre de l’EDS) ; interrégional (collaboration) ; national (coordination et harmonisation). 

Pour d’autres projets d’EDS, cette composante géographique peut se voir différemment : à travers des rôles territoriaux et administratifs spécifiques (les Agences régionales de santé), ou via des sujets qui touchent à des espaces spécifiques (Réseau des urgences de la vallée du Rhône), quand d’autres visent des sujets nationaux (Banque nationale des maladies rares – BNDMR) pour lesquels le numérique fait disparaître les distances et la dispersion territoriale pour tout regrouper dans une même base de données. Enfin, certains projets interrogent aussi le croisement de données venant d’aires différentes, mais touchant à la « trajectoire des soins », en alliant données de médecine de ville et données hospitalières (projet P4PD).

La situation à la mi-2024 montre bien une répartition assez classique du territoire français : les acteurs responsables d’EDS en France sont localisés à 48,5% dans la région Ile-de-France, portée notamment par une présence plus grande d’acteurs privés (les sièges sociaux d’entreprises) et d’acteurs privés à but non lucratif (les sièges sociaux d’associations, de CLCC, etc.). Le secteur public y représente par ailleurs moins d’un tiers (27%), quand il représente pourtant 48% à l’échelle nationale. 

La deuxième région la plus importante est l’Auvergne-Rhône-Alpes, avec 9,5% des acteurs, porté par des organisations privées à but non lucratif, composé de réseaux de recherche (Groupe Français de Pneumo-Cancérologie, Lymphoma Academic Research Organisation, Réseau des urgences de la vallée du Rhône) et du secteur public (CHU de Grenoble, Lyon et le CH d’Annecy Genevois). Viennent ensuite le Grand Est avec 6,5%, la Normandie, 5% (essentiellement des établissements publics, CH et université), les Pays de la Loire, 5%, la Bretagne et la Nouvelle Aquitaine, respectivement 4,5%. Les tendances et répartitions sur le territoire changent finalement assez peu au fil du temps, l’importance de la région parisienne se renforçant au fil du temps. Peuvent être notées cependant quelques absences, notamment dans le sud de la France, qui apparaît comme moins doté en EDS, contrairement au « quart nord-ouest » (selon le vocabulaire de la prévision météorologique). Il est par ailleurs intéressant de noter que la plupart des EDS listés comme « en expérimentation » ou « en prospective » dans le rapport de l’HAS en novembre 2022 ne sont toujours pas fonctionnels – signes de la difficulté d’un tel chantier. 

L’appel à projets pour les entrepôts de données de santé mentionné plus haut,  montre également une tendance intéressante à travers la publication des lauréats en avril 2023 : sur les six projets retenus, trois concernent la création d’EDS hospitaliers (ou la consolidation d’EDS déjà existant), et trois visent plus spécifiquement la création de réseaux inter-EDS hospitaliers (voir la cartographie et l’affichage des réseaux, au nombre de 4 pour l’instant). Ainsi, sont à noter dans les lauréats : 

  • le projet EDEN4HEALTH dans le Grand Est, visant à mettre en relation sept établissements de la région (voir le réseau PAISaGE sur la cartographie) ; 
  • le projet ODH 2.0, qui est une nouvelle version du réseau HUGO (voir le réseau HUGO sur la cartographie), qui intègrerait de nouveaux établissements ;
  • le projet EDS NOVA, qui a vocation à « déployer et mettre à niveau les entrepôts de données des établissements partenaires du projet. La mise en place d’interfaces organisationnelles, techniques et réglementaires facilitera le développement de collaborations à l’échelon local, régional et national », et qui concerne les CHU de Limoges, Bordeaux et Poitiers. 

Il s’agit, en tout cas pour l’instant, de mises en relation publiques et régionales dans un but de collaboration entre des hôpitaux : un réseau à l’ouest (HUGO), un réseau au nord, à l’est et dans la région du Rhône et Massif central. Ces réseaux fonctionnent différemment d’autres types de groupements : ici, ce sont des mises en réseau des EDS de chaque établissement, de manière fédérée. En effet, chaque établissement a son propre EDS – il ne s’agit pas d’un EDS commun. A noter toutefois : ces réseaux, fondés sur des partenariats déjà existants via les Groupements de coopération sanitaire (GCS) et les Groupements interrégionaux pour la recherche clinique et l’innovation (GIRCI), peuvent comprendre des membres qui n’ont pas – encore ! – d’EDS. De nouveaux réseaux de partages et de mises en commun hors des hôpitaux sont en développement, comme le projet EDGAR, mettant en relation des ESPIC, via leur Pôle de recherche des hôpitaux privés à but non lucratif (RESPIC). 

Il ne s’agit ici que d’une première analyse descriptive de la cartographie et de la documentation transmise à la CNIL – il manque forcément d’autres types d’informations qui seraient éclairantes pour comprendre ces dynamiques et les installer dans une perspective historique (qui doit commencer bien avant 2017), qu’elles soient liées à des politiques publiques en matière de santé, de motivations économiques de certains acteurs, de dynamiques et champs de recherche plus contextuels (à commencer par l’intelligence artificielle), ou encore des conditions de mise en œuvre d’un EDS et des implications pour les acteurs qui en sont responsables. Dans la même veine, il y a une certaine hétérogénéité dans les EDS : ils ne contiennent pas tous les mêmes types de données, ni les mêmes quantités – l’entrepôt relatif aux soins apportés aux enfants porteurs de la maladie rare de hernies de coupole diaphragmatique du CHRU de Lille cible, par définition, une population bien moins grande que l’entrepôt généraliste de l’AP-HP. Ces questionnements sont d’autant plus relancés que l’Espace Européen des Données de Santé (EHDS – European Health Data Space) adopté par le Parlement européen en avril 2024, et qui soulève de nouveaux enjeux, à une autre échelle. En effet, ce nouveau texte européen a pour but de faciliter les partages de (et accès aux) données de santé dans l’espace européen, à travers différents mécanismes – notamment la création d’une plateforme transnationale – ce qui va nécessiter une harmonisation des pratiques et des systèmes (interconnexion, standardisation et interopérabilité, maintenance et évolution avec les nouveaux usages, etc.). 

Laurène Assailly

 

Laurène Assailly est docteure en science politique au laboratoire SAGE et ATER à Sciences Po Strasbourg. Elle a réalisé une étude ethnographique du travail des données au sein d’un CHU pendant la construction de son entrepôt de données de santé. Elle a notamment étudié en pratique le travail hospitalier des données pour comprendre comme le déploiement local d’un EDS s’articule à des stratégies d’actions publiques sur les données de santé à plusieurs échelles.

Le soin des données, un travail hospitalier – Laurène Assailly

 

Il y a plusieurs raisons pour mettre en œuvre un entrepôt de données de santé dans un CHU. La première a trait à un objectif de « rationalisation » (à l’hôpital on parle aussi d’« industrialisation ») des pratiques de travail des données de santé. Cet outil doit faciliter la gestion et la maintenance des systèmes d’information pour réutiliser les données cliniques. Deux exemples permettent de comprendre concrètement les bénéfices liés à la mise en œuvre d’un EDS :
 - la récupération de données historiques, qui pouvait se révéler particulièrement fastidieuse pour les équipes du département d’information médicale (DIM), est simplifiée ;
- les projets de recherche peuvent directement avoir lieu dans l’espace sécurisé de l’EDS. Cela évite d’avoir à créer un environnement « virtuel » dédié à chaque projet et simplifie donc la gestion informatique.

L’EDS permet de passer d’un fonctionnement fragmenté, pouvant presque être du bricolage dans certains cas, à des procédures systématisées et normalisées. Cela permet au DIM de ne plus occuper uniquement une fonction support (récupération, nettoyage ou encore anonymisation/pseudonymisation des données), mais d’être disponible pour participer plus directement à la recherche. La normalisation des procédures et l’outil informatique EDS réduisent la quantité de travail de préparation. En outre, l’EDS devient le point d’entrée de l’accès aux données pour tous les différents projets, ce qui permet un meilleur contrôle des accès – quand, précédemment, il pouvait y avoir des accès « sauvages » – et une normalisation des usages.

Deuxième élément de réponse, la question de la recherche comme mission hospitalière. Il est essentiel pour un CHU de « rester dans la course » de la recherche en santé. Les données de vie réelle deviennent incontournables en recherche : pouvoir réutiliser les données produites dans les systèmes d’information hospitaliers lors de la prise en charge grâce à un EDS permet aux chercheurs et chercheuses d’accéder à ces données. La réorganisation des pratiques de travail autour de l’EDS vise donc aussi à alimenter la recherche des membres du CHU. Ils et elles peuvent accéder plus facilement à ces données selon une procédure clarifiée et garante de la conformité règlementaire. Les membre du DIM que j’ai rencontrés espère que l’EDS permette une meilleure valorisation de la recherche et de la constitution de bases de données hospitalières. Les EDS sont des outils autour desquels est articulée la curation des données et la communication à ce propos, en externe comme en interne.

Ce n’est pas un travail sans peine, ce point est fondamental. Il ne s’agit pas de simplement « collecter » des données dans différents systèmes d’information pour les reverser automatiquement dans un nouveau. Dans le service que j’ai étudié, cela représente deux ans de travail transversal et coordonné dans plusieurs services : construire l’infrastructure, formater et produire les données désirées ; mais aussi produire un cadre organisationnel et réglementaire. Cela se traduit par exemple par plusieurs semaines de contrôle qualité des données pour chaque « flux » depuis un logiciel clinique, pour vérifier qu’elles sont valides – et, parfois, la nécessité de recommencer quand ça ne marche pas. Ce travail n’est pas sans coût : les ressources pour construire et maintenir un EDS sont conséquentes – et ne peuvent ponctionner celles nécessaires au rôle clinique et de soins de l’hôpital. Il y a eu un effet « guichet » avec le lancement de la Plateforme des données de santé, puis auprès des GIRCI qui ont proposé de premières enveloppes permettant de lancer ce type de projets dans les hôpitaux. Cela a été complété quelques années plus tard par les appels à projets de la DGOS, avec cette fois des moyens plus importants alloués pour les CHU. » (voir les définitions ci-dessus).


Article rédigé par Martin Biéri, Audrey Pety et Romain Pialat