Aurélien Bellet et Marc Tommasi : l’apprentissage fédéré, un « nouveau paradigme pour l’apprentissage machine »

03 avril 2022

Pour mieux cerner les enjeux de l’apprentissage fédéré, approche décrite dans un article dédié, LINC a interrogé Aurélien Bellet et Marc Tommasi, chercheurs au sein de l’équipe Magnet (Machine Learning in Information Network), par laquelle collaborent Inria et l’université de Lille afin de résoudre certains problèmes éthiques liés à l’apprentissage machine.

En tant qu’approche décentralisée permettant d’éviter les transferts de données, l’apprentissage fédéré est une méthode qui intéresse la CNIL : il pourrait ainsi s’agir d’une solution idéale de protection des données par conception à favoriser dans la mise en place d’un traitement. Pourtant, la recherche sur le sujet semble indiquer que cette approche ne soit bénéfique que dans certains cas d’usage, et que certaines mesures de sécurité doivent y être associées.

LINC : Vous êtes spécialistes de l’apprentissage fédéré (federated machine learning). Pouvez-vous décrire de quoi il s’agit ?

De nombreuses applications et services numériques comme la reconnaissance de la parole, la traduction, la reconnaissance d’images, s'appuient sur l'apprentissage machine pour réaliser ces tâches complexes. Cet apprentissage repose sur un entraînement à partir de très grandes quantités de données (phrases, voix, images) annotées pour la tâche en question. Très souvent ce sont les grands acteurs du numérique qui ont réussi à constituer ces énormes bases de données à partir de nos utilisations de leurs services, avec nos ordinateurs, nos smartphones, enceintes connectées. Ceci pose au moins deux problèmes. D’une part, nous leur avons communiqué des données qui sont potentiellement sensibles, personnelles. D’autre part, grâce au volume de données qu’ils ont accumulé, ces groupes ont la possibilité d’entretenir une avance technologique indéniable qui, selon nous, rend très difficile l’émergence de concurrence, voire même d’innovations par de nouveaux acteurs.

L’apprentissage fédéré est une alternative intéressante à cette concentration des données. En effet, l’objectif est de permettre l’usage des données sans les échanger, les céder ou les transmettre. Puisque les données sont collectées le plus souvent sur des dispositifs communicants dotés de capacité de calcul et de stockage de plus en plus importants, il s’agit de les exploiter pour participer à un apprentissage machine qui devient collaboratif. Ce sont alors des résultats intermédiaires de cet apprentissage (qui est souvent un processus de calcul itératif), et non plus les données, qui sont échangés.

 

LINC : Quelles sont les avantages de recourir à l’apprentissage fédéré par rapport à des techniques d’apprentissage automatique plus « classique » ?

Le propriétaire de la donnée reste souverain et peut offrir ses services d’apprentissage à d’autres. Il peut également renforcer sa protection en mettant en œuvre des mécanismes complémentaires pour garantir une plus grande confidentialité. On gagne alors sur le terrain de la protection de la vie privée mais aussi sur celui de la maîtrise de l’utilisation de ses données. Un nouvel acteur peut sans doute éviter de l’investissement dans des énormes infrastructures pour l’hébergement et le traitement des données nécessaires à l’entraînement de méthodes d’apprentissage machine. Parfois c’est aussi le volume des données collectées qui est un frein à la centralisation.

Dans d’autres situations, quand des acteurs comme des hôpitaux ont la lourde tâche de conserver des données de patients très confidentielles, il est très difficile de les transmettre et les rassembler pour construire des solutions innovantes basées sur de l’apprentissage machine. Là encore, l’apprentissage fédéré peut être une solution pour augmenter la puissance statistique sans passer par la concentration.

LINC : Vous menez ces recherches depuis plusieurs années désormais. Quels contextes et quels cas d’applications explorez-vous ?

Un contexte faisant écho à ce dernier exemple est le cas des études médicales multicentriques à partir de données de santé détenues par des hôpitaux. Ces derniers peuvent constituer un réseau de collaboration, mettre en place un apprentissage fédéré et éviter le transfert problématique des données personnelles de leurs patients. Aujourd’hui la CNIL nous accompagne pour bien mesurer les conséquences légales relatives à la protection des données de santé [NDLR dans le cadre du « Bac à sable » données personnelles]. Nous espérons démontrer que l’apprentissage fédéré est une solution qui va faciliter le déploiement de ce type d’études, et ainsi peut être amener des découvertes de nouvelles connaissances en médecine !

Nous étudions également le cas de données très complexes et très riches, comme les enregistrements vocaux, qui nécessitent des modèles d’apprentissage très volumineux et génèrent donc des résultats intermédiaires échangés en fédéré bien plus gros eux aussi. Pour être efficace en termes de communication, l’apprentissage fédéré doit minimiser les échanges et donc utiliser plus intensivement les données collectées localement. Malheureusement, on multiplie alors la possibilité de transmettre de l’information privée dans les résultats intermédiaires. Ici la problématique est d’évaluer cette fuite possible, de déterminer les caractéristiques de la voix porteuses d’information d’identité, et de tenter de les masquer.

LINC : Déporter tous les calculs vers des terminaux (smartphones des utilisateurs par exemple) est-il donc la solution aux questions de protection de la vie privée posées par l’apprentissage automatique ?

Ce n’est pas la solution à toutes les questions mais une possibilité, une opportunité à étudier. Bien souvent, le seul fait de ne pas transmettre les données n’est pas suffisant pour empêcher toute fuite d’information sensible. Mais l’apprentissage fédéré peut se combiner avec d’autres techniques de protection comme l’anonymisation, la confidentialité différentielle (differential privacy) ou les procédés cryptographiques. La conception de telles solutions hybrides est aussi un thème de recherche de l’équipe.

LINC : Quelles perspectives envisagez-vous pour cette technologie ?

De nombreuses questions ont été ouvertes par ce nouveau paradigme pour l’apprentissage machine. Nous sommes très fiers d’avoir été parmi les premiers à investir ce champ de recherche en France comme à l’international. Nous avons encore de nombreuses voies de recherche à développer. Nous avons déjà évoqué la combinaison avec des techniques cryptographiques, mais nous voudrions citer aussi la combinaison avec d’autres contraintes comme l’équité, la sécurité, la résistance aux attaques, et sans doute la sobriété en termes de quantité de données et en termes énergétiques.

Marc Tommasi

Marc Tommasi est professeur en informatique à l’Université de Lille, membre de l’équipe CRIStAL (Centre de Recherche en Informatique, Signal et Automatique de Lille) et directeur de l’équipe Magnet.  Ses travaux de recherche portent sur l’apprentissage machine, en particulier en présence de données structurées (arbres ou graphes), l'apprentissage décentralisé, respectueux de la vie privée ou encore l'apprentissage et le traitement de la langue naturelle

Aurélien Bellet

Aurélien Bellet est chargé de recherche à Inria, au sein de l’équipe Magnet. Son domaine de recherche concerne la théorie et les algorithmes d’apprentissage machine. Il s’intéresse notamment à la conception d'algorithmes respectueux de la vie privée dans un contexte d'apprentissage fédéré et décentralisé. Aurélien a co-organisé plusieurs ateliers internationaux sur l'apprentissage machine et la vie privée. Il co-organise également FLOW, un séminaire en ligne sur l'apprentissage fédéré.