Nicolas Anciaux : « L’agentivité, c’est le pouvoir d’utiliser collectivement nos données personnelles, sous forme de Big Data citoyen »

Rédigé par Félicien Vallet

12 May 2020

Personal Data Management Systems, quesaco ? A l’occasion de sa venue dans nos locaux, LINC s’est entretenu avec Nicolas Anciaux, chercheur Inria et spécialiste des questions relatives à la sécurisation des dispositifs de cloud personnel. Il nous explique ici l’intérêt de ces solutions tant pour garantir la protection des données personnelles, que pour assurer « l’agentivité » des individus.

LINC : Au sein de votre équipe de recherche, vous travaillez sur les Personal Data Management Systems (PDMS). Tout d’abord, pouvez-vous nous expliquer de quoi il s’agit et retracer l’évolution de cette notion au cours du temps ?

La notion de PDMS (Personal Data Management Systems) fait écho au concept de « DBMS » (Data Base Management Systems), les systèmes de bases de données qui centralisent les informations personnelles de millions d’individus et posent des questions majeures de sécurité et de vie privée. Un PDMS se distingue d’un DBMS par le fait qu’il décentralise les données personnelles et la façon dont elles sont contrôlées, au bénéfice de l’individu. Ainsi, un PDMS ne gère les données que d’un seul individu et garantit à celui-ci le contrôle sur les usages réalisés.

Du point de vue historique, l’un des systèmes précurseurs du PDMS fut introduit en 2008 par Eben Moglen sous le nom de FreedomBox, combinant un serveur personnel de type plug-computer (comme le RaspberryPI) et du logiciel libre, pour garantir confidentialité des échanges. La notion de PDMS émerge véritablement dans le monde académique en 2010 avec des propositions issues d’Inria (PlugDB), puis du MIT (OpenPDS, en 2012). Ces systèmes ne transmettent que des résultats calculés, mais jamais les données personnelles elles-mêmes. Des propositions commerciales, comme celle de la société CozyCloud, émergent ensuite sous le nom de « Cloud Personnel », avec des offres de PDMS en ligne (« Cloud ») où les usages sont exclusivement orientés vers l’individu (« Personnel »). Par la suite, la FING et Serge Abiteboul consacrent le terme de PIMS (Personal Information Management Systems), pour souligner la capacité du PDMS à intégrer l’ensemble des informations d’un individu, et la notion de « Self Data » [ndlr : que LINC suit depuis 2013], dénotant des nouveaux usages possibles pour l’individu en termes d’autoanalyse.

Dans l’équipe PETRUS, en lien avec des chercheurs en droit, nous étudions le PDMS sous l’angle architectural, de manière à ce que le pouvoir (en anglais empowerment) conféré à l’individu sur ses données puisse être maximal. Avec Célia Zolynski, professeur de droit à l'IRJS, Nous avons commencé par transposer au cas du numérique la notion « d’agentivité », issue de travaux conduits en sciences sociales, pour aider l’individu à contrôler les traitements de ses données personnelles [Anciaux et Zolynski, 2020]. L’agentivité, c’est le pouvoir d’utiliser collectivement nos données personnelles, sous forme de « Big Data citoyen ». Pour cela, de nouvelles techniques informatiques (et juridiques) garantissant la confiance mutuelle, entre tous, doivent être établies.

Du point de vue technique, cela nécessite d’intégrer au PDMS certaines primitives (fonctions dont l’exécution est réputée sûre) rendant l’individu « agent actif » dans les traitements sur ses données. Sans ces primitives, l’individu ne pourrait que déléguer ces traitements de données à un tiers, avec pour conséquence la perte de contrôle et de souveraineté numérique. L’enjeu actuel est donc de garantir ces primitives, de les intégrer au PDMS, dans le cas de calculs purement personnels ou de traitements collectifs de type Big Data ou IA.

Nous ne sommes pas les seuls à travailler sur ces aspects. Tim Berners Lee, fondateur du Web et lauréat du prix Turing, invoque lui aussi la notion d’agentivité qu’il considère comme essentielle pour le succès de la prochaine ère du Web. Depuis l’an dernier, il soutient une solution de PDMS nommée Solid avec le MIT, en vue de « re-décentraliser le web ».

Plus qu’un simple dispositif de stockage comme cela peut être vu par les personnes peu averties, il s’agit de permettre à l’utilisateur d’administrer ses données et de contrôler leur utilisation sans pour autant que celles-ci quittent le dispositif. Si on prend un exemple, cela veut dire qu’un fournisseur d’énergie peut facturer ses clients sans pour autant avoir accès aux données de ceux-ci ?

Le PDMS va en effet au-delà du simple stockage. Il permet à l’individu de contrôler l’ensemble du cycle de vie de ses données personnelles, de leur collecte à leur destruction. Un PDMS assure donc aussi la collecte des données, leur restauration en cas de panne, le partage et les calculs sur les données. Et pour cela le rôle du PDMS est de permettre à l’individu de devenir agent de chacune de ces étapes.

Par exemple, un individu disposant d’un PDMS doit pouvoir payer sa facture énergétique sans transmettre au fournisseur d’énergie sa consommation d’électricité détaillée. Rendre l’individu agent signifie alors pour le PDMS d’assurer que les traitements ou les applications « se déplacent » vers les données, et non pas, à l’inverse, que les données personnelles migrent vers des services distants, comme cela se produit avec les services web existants. Selon ce principe, le PDMS rapatrie les données de consommation électrique de l’individu (par exemple en se connectant à son compteur communicant) et récupère auprès du fournisseur le code de calcul permettant d’établir la facture. Le PDMS fait ensuite le calcul et ne transmet que le résultat au fournisseur d’énergie.

Toutefois, l’agentivité de l’individu sous-tend aussi la capacité du PDMS à instaurer une confiance bilatérale entre l’individu et les services tiers : le PDMS, d’une part, garantit à l’individu que ses données ne sont pas exposées lors du calcul, et d’autre part, atteste au fournisseur d’énergie que la facture a bien été calculée avec le bon code, exécuté sur les bonnes données (celles issues du compteur communicant).

Cette nouvelle capacité offerte à l’individu dépend des choix d’architectures du PDMS, qui induisent les solutions techniques à mettre en œuvre. Notre approche, dans l’équipe Inria PETRUS, consiste à établir cette confiance bilatérale côté utilisateur, en utilisant les éléments de sécurité matérielle présents dans les équipements de l’individu (son PC ou son smartphone).

Dans votre travail, vous vous intéressez en particulier aux aspects relatifs à la sécurité des données. En quoi ceux-ci sont-ils essentiels pour le succès des PDMS ?

Je m’intéresse en effet essentiellement à concevoir de nouvelles solutions de sécurité des données pour le respect de la vie privée, et à les appliquer au cas du PDMS. Les travaux actuels sur la sécurité et la confidentialité des données – par exemple sur le calcul multipartite sécurisé en cryptographie ou sur les techniques statistiques offrant des garanties de confidentialité différentielle – ne peuvent pas à la fois être générique et passer à l’échelle, c’est-à-dire être efficaces sur de grands volumes de données et un grand nombre d’individus. Dans la pratique, ces limites justifient souvent des choix centralisés, peu respectueux de la vie privée.

Nos travaux suivent une approche très différente et viennent en complément de ces solutions. Nous avons récemment identifié les propriétés de sécurité essentielles d’un PDMS à garantir tout au long du cycle de vie des données [Anciaux et al., 2019a], et pour mettre en œuvre ces propriétés, nous nous basons non pas sur les techniques citées plus haut, mais sur les composants de l’informatique de confiance. Certains sont contraints et éprouvés, comme les modules TPM présents dans les PCs ou les box à domicile et d’autres plus puissants et encore émergents comme les processeurs Intel SGX, ARM Trustzone et AMD PSP présents dans la plupart des PCs et smartphones actuels. Ces composants sont utilisés aujourd’hui notamment dans la gestion de droits digitaux. Notre approche consiste à en renverser l’usage, au bénéfice de la protection des données de l’individu. Pour cela, des verrous scientifiques doivent être levés, afin d’adapter l’usage de ces composants à la gestion de structures et algorithmes de gestion de données. Nous parvenons déjà à protéger certains traitements avancés dans le cas du PDMS [Anciaux et al., 2019b].

Cette nouvelle approche à base de matériel de l’informatique de confiance ouvre la voie à des solutions réalistes, performantes et qui passent à l’échelle, sur des traitements de données avancés, tout en préservant la qualité des résultats obtenus. Il s’agit donc d’une alternative crédible, applicable dans la pratique.

Le RGPD prévoit la possibilité de transférer facilement ses données par la définition d’un nouveau droit, le droit à la portabilité. Celui-ci est souvent vu sous un angle économique, permettant d’abaisser les coûts de passage d’un service à un autre (switching cost). Toutefois, dans le cas des PDMS, il semble qu’on puisse en faire une application élargie. On peut même mettre en avant le concept de portabilité citoyenne (qui avait déjà été introduit dans le Cahier IP n°5 La plateforme d’une ville) ?

Dans le cadre du PDMS, le droit à la portabilité des données constitue bien sûr une pierre angulaire. C’est une condition nécessaire (il faut pouvoir récupérer ses données), mais qui n’est pas suffisante pour garantir l’agentivité. D’une part, ce droit doit être complété par les techniques informatiques qui permettent à l’individu de l’exercer (ce qui n’est pas forcément simple). D’autre part, il faut en élargir les ambitions pour permettre un exercice collectif du droit à la portabilité, par des citoyens, en vue de réaliser des traitements avancés (Big Data, IA) d’intérêt social ou sociétal.

De nouveaux usages de calculs Big Data peuvent éclairer les individus dans leur conduite. Par exemple, les parents d’enfants férus de jeux vidéo s’interrogent sur l’addiction potentielle causée par certains jeux (à titre d’exemple une poursuite judiciaire est engagée en Californie contre le jeu Fortnite d’EPIC game). Ils souhaitent donc déterminer les bonnes mesures éducatives pour limiter les risques pour leurs enfants. Faut-il mieux préconiser une pratique 20 minutes par soir ou bien de 2 heures le week-end ? Faut-il limiter le nombre de parties ou le temps de jeu ? Aujourd’hui, les éditeurs de jeux sauraient répondre à ces questions en analysant les données des joueurs. Ils peuvent d’ailleurs tester leurs propres améliorations sur des populations de joueurs avec les techniques du Big Data, pour généraliser celles qui conduisent à maximiser le temps d’attention et parfaire leur modèle économique. De leur côté, les parents sont démunis et procèdent à tâtons. Organisés en collectifs, ils pourraient récupérer les données de leurs enfants (droit à la portabilité) et évaluer, à l’aide de traitements Big Data adaptés et directement intégrés dans leurs PDMS, les meilleures mesures éducatives à mettre en place pour prévenir l’addiction.

Les approches classiques conduiraient les individus participants à alimenter avec leurs données personnelles un « hub » centralisé en charge du calcul. Ce type de solution, dénuée d’agentivité, poserait des problèmes majeurs de sécurité et de vie privée. Préserver l’agentivité impose que l’action de chaque individu dans le cadre d’un calcul collectif, reste bien prise en compte. Pour cela, chaque participant au calcul doit être mis en capacité (via son PDMS) d’établir une confiance mutuelle avec l’ensemble des autres participants. Chacun doit avoir la garantie que ses propres données ne puissent pas être divulguées lors du traitement, et que tous les autres se comportent loyalement, conformément à ce en quoi chacun a consenti. Et inversement, le résultat final obtenu par le collectif doit être garanti conforme au traitement escompté, sur la base des bonnes données, collectées auprès du nombre de participants requis, pour avoir de la valeur.

Là encore, les nouvelles technologies de l’informatique de confiance (décrites ci-dessus) permettraient d’implanter des traitements distribués sécurisés, génériques et à large échelle. Notre équipe a par exemple montré récemment la compatibilité de certains traitements Big Data (calculs de distributions et de k-moyennes) avec ce type d’approche (voir par exemple [Ladjel et al., 2019]).

Si vous travaillez principalement sur des aspects théoriques, un prototype est cependant actuellement déployé dans le cadre du maintien à domicile des personnes. Pouvez-vous nous présenter ce prototype et le besoin auquel il répond ?

En s’appuyant sur notre solution de PDMS appelée PlugDB, nous collaborons en effet avec le Conseil Départemental des Yvelines (en charge de l’aide sociale) et la société Hippocad (spécialisée dans le secteur des services et soins à la personne) pour créer un PDMS adapté au suivi médico-social. Concrètement, il s’agit d’une box à domicile, portable et sécurisée, jouant le rôle de dossier médico-social centré sur chaque personne dépendante, et renforçant la coordination des professionnels directement à son chevet.

La solution PlugDB, en rupture avec les architectures cloud traditionnelles qui virtualisent la coordination, se définit dans ce cas comme :

le hub des données personnelles recueillies au domicile (notes, traces de capteurs, etc.) : des données habituellement difficiles à récupérer et à analyser et dont on externalise uniquement l’information utile après analyse locale,
offrant une sécurité tangible : un dossier incarné par un objet physique sécurisé matériellement, restant sous le contrôle visuel du patient, inversant le ratio bénéfice/coût d'une attaque par son approche décentralisée,
avec une philosophie durable : répondant à des exigences environnementales (consommation minimale), sociétales (n'exige ni connexion internet, ni abonnement 3/4/5G) et économiques (bas coût).

Outre ces caractéristiques, dans le cas du suivi à domicile la solution PlugDB est préférée à une solution virtualisant les dossiers sur le cloud d’un hébergeur agréé, pour des raisons de viabilité économique : le donneur d’ordre n’a pas à garantir un accès Internet à l’ensemble des personnes impliquées dans la prise en charge. Ce projet a vocation à s’inscrire dans le plan Ma Santé 2022. Les prochaines étapes importantes consistent à intégrer des fonctionnalités de calculs Big Data sécurisées et le support de données issues des capteurs de l’internet des objets (IoT) équipant le domicile.

Pour aller plus loin :

[Anciaux et Zolynski, 2020] Nicolas Anciaux et Célia Zolynski, Empowerment et Big Data sur données personnelles : de la portabilité à l'agentivité, Le Big Data et le droit, direction Florence G'Sell, Dalloz. 2020.
[Anciaux et al., 2019a] Nicolas Anciaux, Philippe Bonnet, Luc Bouganim, Benjamin Nguyen, Philippe Pucheral, Iulian Sandu Popa, Guillaume Scerri. Personal Data Management Systems: The security and functionality standpoint, Information Systems, 2019.
[Anciaux et al., 2019b] Nicolas Anciaux, Philippe Bonnet, Luc Bouganim, Benjamin Nguyen, Philippe Pucheral, Iulian Sandu Popa, Guillaume Scerri. Personal Database Security and Trusted Execution Environments: A Tutorial at the Crossroads, VLDB Endowment, 2019. (slides) lien : https://team.inria.fr/petrus/TutorialVLDB2019/
[Ladjel et al., 2019] Riad Ladjel, Nicolas Anciaux, Philippe Pucheral, Guillaume Scerri. Trustworthy Distributed Computations on Personal Data Using Trusted Execution Environments, Trustcom, 2019.