Atelier de réflexion sur le RGPD dans la recherche scientifique
Rédigé par Mehdi Arfaoui et Vincent Toubiana
-
30 July 2025Comme pour les précédentes éditions, la journée qui suit le Privacy Research Day est l’occasion pour nous d’échanger avec les intervenants de la conférence au cours d’ateliers de réflexion. L'objectif de l’un de ces ateliers : plonger au cœur d'un enjeu qui concerne les chercheurs en premier lieu, la protection des données personnelles au sein même des projets de recherche. De cet échange ont émergé un diagnostic partagé des difficultés rencontrées sur le terrain et des pistes de collaboration prometteuses pour y répondre.

La CNIL accompagne de longue date les acteurs de la recherche, consciente que la production de savoir doit s'articuler avec des garanties fortes pour les droits des personnes. Plusieurs ressources, comme les fiches dédiées à la recherche scientifique (hors du domaine de la santé) ou les recommandations sur la réutilisation de données publiquement accessibles sur internet, ont, par exemple, ainsi déjà été produites pour aider les chercheurs à se conformer au RGPD et à la loi Informatique et Libertés.
C'est dans le prolongement de cette démarche que s'est tenu cet atelier. L'objectif était d'aller plus loin en confrontant ces principes à la réalité du terrain, afin de mieux comprendre les défis concrets rencontrés par les chercheurs et d'identifier avec eux les outils les plus pertinents à développer pour l'avenir. Précisons également que nous n’avons traité, lors de cet atelier, que de recherche publique. Les enjeux de la recherche privée, ou publique-privée pourront être traités lors d’un autre atelier.
Le premier enjeu évoqué fut la difficulté pour les chercheurs à identifier clairement leurs intermédiaires dans la mise en conformité des protocoles de recherche, avec une responsabilité parfois dispersée entre le niveau de l'établissement, du laboratoire, de l'équipe de recherche voire les comités de revues académiques. De surcroît, lorsqu'ils sont identifiés, les intermédiaires cruciaux tels que les Délégués à la Protection des Données (DPO) et les comités d'éthique, font face à des obstacles majeurs : manque de temps et parfois de formation pour bien informer les équipes, surcharge de travail ou encore incitations contradictoires qui freinent leur capacité à accompagner efficacement les projets. En effet, les comités d’éthique doivent se prononcer sur de nombreux projets de recherche dans des domaines variés. S’ils auraient pu être considérés comme un levier intéressant pour inciter à la prise en compte de la conformité, les lieux de publication académique (conférences, revues) n'ont pas plus, aujourd'hui, les moyens d'assurer ce rôle de contrôle.
Un deuxième enjeu concernait le manque de repères concrets et de compréhension du cadre qui doit être appliqué par les chercheurs. L'absence de standards et de processus harmonisés pose un défi particulier pour les équipes de recherche dépassant un certain nombre de partenaires. Par exemple, l’application de certaines exceptions du RGPD liées à la recherche constitue ainsi « zone grise » importante. Les chercheurs peinent à déterminer quelles parties de leurs travaux peuvent en bénéficier, ce qui engendre une forte incertitude. De la même manière, alors que la plupart des recherches publiques seront couvertes par la base légale de la mission d’intérêt public, les chercheurs envisagent de s’appuyer sur la base de l’intérêt légitime, avec toutes les contraintes et limites que cette base légale peut comporter.
Les chercheurs ont aussi des difficultés à identifier sous quelles contraintes ils peuvent réutiliser des données pour de nouvelles finalités. Une incompréhension exacerbée par la pression croissante (et parfois contradictoire) en faveur de l'ouverture et du partage des données (open data), une pratique nécessaire notamment pour la bonne évaluation de la reproductibilité des résultats de recherche. Cette confusion s'étend aux questions complexes de l'archivage et de la suppression des données de recherche. Dans les faits, seules les données anonymisées peuvent être mises en « open data ». Dans les autres cas, un cadre clair doit être fixé : durée de conservation, accès limité, etc. (voir encadré).
Ouverture et réutilisation des données
La CNIL avait déjà pu rappeler que, sans remettre en cause la nécessité de garantir la libre circulation des connaissances et l’accès libre aux publications scientifiques, les données doivent être préalablement anonymisées pour être diffusées et non seulement pseudonymisées.
De même, concernant la conservation des données personnelles à des fins de reproductibilité des résultats, la CNIL insiste pour que la pseudonymisation soit la plus forte possible et que l’accès aux données soit limité aux chercheurs qui souhaiteraient en faire usage et qui seraient soumis à des conditions de confidentialité strictes. Elle rappelle que dans le cas de diffusion de données pseudonymisées, il est indispensable de fixer une durée de conservation, ces données ne pouvant rester disponibles pour une durée illimitée.
Il a par ailleurs été noté que l'approche « technique » du RGPD, souvent pensée pour des méthodologies hypothético-déductives, s'adapte mal aux approches inductives comme les études ethnographiques. Celles-ci impliquent souvent de collecter des données sans connaître la finalité précise à l'avance ou sans demander un consentement initial qui pourrait biaiser l'étude. A ce titre, une clarification du cadre sur la notion et le recueil du consentement semble nécessaire (voir encadré).
A propos du consentement
Il convient de distinguer le consentement « éthique », lié à la déontologie du chercheur, du consentement au sens du RGPD, qui est l'une des six bases légales possibles pour justifier un traitement de données à caractère personnel. Lorsque le consentement est la base légale de la recherche, la personne interrogée doit donner un consentement spécifique au traitement de ses données personnelles. Utiliser, dans le formulaire, deux cases distinctes, l’une pour recueillir le consentement RGPD, l’autre pour le consentement « éthique » est alors une excellente pratique pour garantir la clarté et prouver que les deux consentements ont été recueillis de manière distincte.
En pratique, pour la recherche scientifique menée par des organismes publics, le traitement des données peut très souvent être fondé sur l'exécution d'une mission d'intérêt public (article 6(1)(e) du RGPD), plutôt que sur la base légale du consentement. Toutefois, même lorsque la base légale du traitement des données est la mission d'intérêt public (et non le consentement RGPD), le chercheur doit informer la personne et, selon le type de recherche, obtenir soit son consentement écrit, soit sa non-opposition.
Enfin, l'atelier a souligné la frontière parfois floue entre contraintes légales et considérations éthiques. Les fiches de la CNIL, bien que fondées sur le droit (le RGPD), peuvent être perçues par la communauté scientifique comme des recommandations d'ordre éthique. Cela interroge aussi la manière dont le RGPD s'articule avec des droits fondamentaux comme la liberté académique, parfois invoquée par les projets de recherche.
Des pistes de solutions concrètes
Loin de s'arrêter à ce constat, l'atelier a surtout été l'occasion de proposer des solutions pratiques, centrées sur les besoins des chercheurs. Plusieurs pistes de collaboration entre la CNIL et la communauté académique ont été esquissées :
- Un arbre de décision pour les projets de recherche : La CNIL pourrait développer un outil guidant les chercheurs pour identifier leur situation, comprendre leurs obligations légales et déterminer les actions à mener. Cet outil devra reconnaître l'existence de « zones grises » et ne pas laisser entendre que les projets hors de son champ sont nécessairement non conformes.
- Des formations doctorales : Les formations organisées par les écoles doctorales pourraient être l’occasion de sensibiliser les jeunes chercheurs aux questions de sécurité et de protection des données personnelles.
- Une checklist pour l'information et le consentement : Fournir une liste de points de contrôle pour améliorer la qualité de l'information fournie aux personnes dont les données sont utilisées serait un atout précieux pour garantir le respect de leurs droits.
- Des cas d'usage contextualisés : Développer une série d'exemples pratiques montrant comment les principes s'appliquent dans divers scénarios de recherche. L'idée de faire appel à la communauté (crowdsourcing) pour nourrir cette base de cas a été évoquée.
- Des entretiens de retour d'expérience : Mener des entretiens avec des chercheurs ayant trouvé des solutions efficaces permettrait de partager des bonnes pratiques concrètes.
- Des outils d'auto-évaluation de la protection de la vie privée : Équiper les chercheurs d'outils leur permettant d'évaluer eux-mêmes le niveau de protection de leurs projets les aiderait à identifier et à réduire les risques en amont.
- Renforcer les intermédiaires : De même, fournir aux DPO et aux comités d'éthique des informations précises et des lignes directrices claires améliorerait significativement leur capacité à soutenir les équipes de recherche.
L’outil « Projet mentions »
Sans permettre d’anonymiser formellement les données, l’outil du sociologue Baptiste Coulmont permet de trouver des prénoms ayant des caractéristiques sociologiques similaires à partir des résultats au baccalauréat. Il permet ainsi de pseudonymiser des données sans que cela ait trop d’impact sur la cohérence sociologique de l’enquête.
Cet atelier a donc confirmé la nécessité d'un dialogue soutenu entre le régulateur et le monde de la recherche. Forte de ces enseignements, la CNIL s'engage à poursuivre cette collaboration pour transformer ces pistes en outils concrets et utiles pour toute la communauté scientifique.