[Données synthétiques] - Et l’Homme créa les données à son image 2/2

Rédigé par Alexis Léautier

 - 

17 août 2022


En générant des données synthétiques, certains organismes prétendent parvenir à créer des données anonymes tout en conservant une certaine représentativité des données sources. Pourtant, un compromis doit forcément être fait entre la conservation des caractéristiques utiles et celles permettant de réidentifier les personnes. Alors, comment trouver ce compromis, et quels sont les risques qui lui sont liés ?

Sommaire :

[Données synthétiques] - Dis papa, comment on fait les données ? 1/2

[Données synthétiques] - Et l’Homme créa les données à son image 2/2

L’article « Dis Papa, comment on fait les données ? » présentait les méthodes permettant de synthétiser des données. L’éloge de ces données de synthèse prisées par tous types d’organismes pour le faible coût nécessaire à leur génération, est souvent fait en raison du faible risque pour la vie privée des personnes qui y serait lié. Pourtant, certaines études semblent montrer que les techniques utilisées pour la synthèse de données pourraient ne pas garantir leur caractère anonyme, alors que celui-ci est parfois promis par certains organismes. Plus encore, l’utilité de ces données, dont les caractéristiques statistiques pourraient ne pas être représentatives des données sources, est parfois questionnée.

Ainsi, un compromis entre utilité et protection de la vie privée semble devoir être trouvé. Afin de comprendre les difficultés liées à l’obtention de ce compromis, cet article propose un exposé des risques liés à l’utilisation des données de synthèse, ainsi qu’un recensement de ses avantages, pour enfin lister les questions posées par les données de synthèse en ce qui concerne la protection des données.

Plus de données, plus de partage, mais moins de risques ?

Les entreprises présentes sur le marché de la synthèse de données, ainsi qu’une partie de la littérature académique, prônent l’utilisation des données de synthèse comme une garantie en ce qui concerne la confidentialité des données sources, certains avançant même qu’il s’agirait de données anonymes. Toutefois, ces techniques possèdent certaines faiblesses, et les garanties mises en avant par ces acteurs semblent discutables, comme montré dans (Stadler et al., 2021).

 

Perte en utilité

Par essence, la synthèse de données cherche à ne reproduire qu’une partie de l’information contenue dans l’ensemble des données source. Dans l’idéal, toutes les tendances sous-jacentes à cet ensemble devraient être exploitées, sans révéler d’information à propos des données individuelles. Toutefois, ces tendances peuvent ne pas être reflétées par l’ensemble de synthèse pour trois raisons principales.

  • Lorsque le modèle assigné à la distribution des données est donné explicitement, ce dernier peut ne pas « coller » à la véritable distribution des données. La distribution choisie peut résulter d’hypothèses erronées, conduisant à une modélisation approximative des données : c’est le cas lorsque par manque d’informations sur un système, on modélise une distribution par une loi gaussienne alors que la distribution réelle est autre.
  • La distribution choisie peut également être trop simpliste au vu des tendances mineures présentes dans l’ensemble source : cela peut arriver à cause d’une étude insuffisamment approfondie de l’ensemble source, ou à cause d’un volume de données insuffisant pour prouver qu’une corrélation est significative.
  • Enfin, pour les algorithmes plus complexes où le modèle est implicite, la nature de l’algorithme choisi, la profondeur du réseau de neurones et les stratégies d’apprentissage pourront mener à une exploitation incomplète des données sources.

Ainsi, ces erreurs peuvent mener à une représentation imparfaite, erronée ou incomplète des données sources. Les données de synthèse ne reproduiront que partiellement les informations utiles : on parle d’une perte d’utilité. Au-delà d’une perte en performance globale du système, ce phénomène peut avoir un impact peu visible mais bien réel sur des groupes minoritaires de l’ensemble source. Le procédé de confidentialité différentielle a été en particulier critiqué dans (Bagdasaryan et al. 2019) au vu de la dégradation disproportionnée que cause son utilisation sur la performance d’un algorithme quand les données concernent des groupes minoritaires.

 

Une plus grande surface d’attaque

Bien que l’ensemble des données sources ne soit jamais révélé, les données de synthèse, sous forme brute ou agrégée, et parfois l’algorithme de génération utilisé peuvent être accessibles et ainsi constituer de nouvelles surfaces d’attaque. En effet, ces données pourraient permettre à un tiers malveillant d’en déduire des informations confidentielles à propos des personnes dont les données ont été utilisées pour synthétiser les données. Les modèles d’attaque décrits dans cette partie ont été détaillés dans « Petite taxonomie des attaques des systèmes d’IA ».

Dans (Stadler et al., 2021), les auteures investiguent les risques d’inférence d’appartenance [1] et d’inférence d’attribut [2] portant sur des ensembles de données synthétiques générés par plusieurs algorithmes (échantillonnage, réseau bayésien, GAN) à partir de deux ensembles sources comportant des données de recensement et d’hospitalisation. L’étude réalisée par les chercheuses montre qu’un risque réel existe concernant ces deux modèles d’attaque, et que ce risque peut varier de manière peu prévisible selon les données, les modèles utilisés et les attributs concernés. Si une attaque visant à analyser les risques de manière globale telle que celle réalisée dans cette publication demande certaines compétences, un attaquant « chanceux » pourrait cibler une personne en particulier et déduire avec succès des informations à son sujet de manière relativement simple.

Dans (Chen et al, 2020), les auteurs montrent qu’il est possible de réaliser des attaques par inférence d’appartenance sur des GAN selon différents scenarios d’accès : accès en boîte noire, accès au réseau génératif et/ou au réseau discriminant, accès complet. Les données considérées sont de plusieurs sortes : images, données de localisation, et données médicales. Dans tous les scenarios considérés, il apparaît qu’une attaque par inférence d’appartenance est possible, bien que son résultat varie selon le type de modèle choisi et la quantité de données utilisées en entraînement. En pratique, une attaque en boîte noire ou avec accès au modèle génératif est très réaliste dans le cadre d’utilisation de données de synthèse, bien que ce type d’attaque requière certaines compétences de la part de l’attaquant.

 

Des solutions qui doivent encore faire leurs preuves

Certaines mesures techniques permettant de renforcer la sécurité du système et de réduire les risques de réidentification sont d’ores et déjà identifiées. Dans (Shokri et al. 2017) par exemple, il est proposé pour limiter les risques d’inférence d’appartenance :

  • De ne pas considérer les classes sous-représentées dans l’ensemble source ;
  • D’utiliser de la régularisation pour limiter le surapprentissage ;
  • De masquer ou d’ajouter du bruit aux sorties des algorithmes pour limiter l’information qu’elles peuvent contenir (cela est valide dans notre cas lorsque l’algorithme discriminant d’un GAN est accessible par exemple, ou d’une manière générale sur toute métrique permettant de mesurer la distance entre la distribution induite et la distribution réelle des données sources).

Les autres mesures comme la confidentialité différentielle semblent requérir davantage d’études avant de pouvoir fournir des garanties suffisantes à cause des difficultés d’implémentations montrées par (Stadler et al., 2021), de la dégradation de l’utilité des données et du coût computationnel important pointés par (Chen et al., 2020).

Bien que les risques liés à l’utilisation de données de synthèse ne soient pas nuls, leur utilisation est toujours moins risquée que l’utilisation de données réelles et peut permettre de réaliser des expérimentations dont les résultats serviront à renforcer la sécurité d’un traitement.

 

Face au RGPD : des avantages avérés mais encore (quelques) interrogations

Opportunités : quels avantages pour la vie privée ?

Alors que la dynamique de l’exploitation de données, notamment pour l’IA, appelle à l’utilisation d’un  nombre fortement croissant de nouvelles données, le choix de recourir à des données synthétiques peut présenter plusieurs avantages majeurs en termes de protection des données personnelles et de la vie privée.

En premier lieu, un tel usage peut permettre d’éviter une collecte supplémentaire de données personnelles par la réutilisation de données existantes : la pratique consistant à trouver des alternatives à une collecte toujours plus étendue est tout à fait cohérente avec les objectifs de minimisation et de proportionnalité du RGPD. Cet usage permet également de limiter les partages de données personnelles en préférant la communication de données synthétiques comportant les mêmes informations statistiques, comme soulevé par le contrôleur européen à la protection des données dans une infolettre, participant encore aux principes de minimisation et de proportionnalité.

En second lieu, s’il reste des incertitudes sur le caractère anonyme des données synthétiques, le caractère pseudonyme de données synthétiques, lorsqu’elles sont générées par un procédé robuste, est incontestable : en cela, la synthèse de données constitue déjà une mesure de protection reconnue par le RGPD et qui peut être notamment mobilisée dans l’analyse des risques qu’un responsable de traitement peut être amené à faire. 

Enfin, le développement de la recherche et de l’innovation dans le champ des données synthétiques semble tout à fait pertinent pour atteindre un équilibre entre exploitation et protection des données. Il est tout à fait souhaitable qu’une partie substantielle des efforts consacrés à l’amélioration des techniques d’IA permette également de développer des techniques d’anonymisation ou leur application à des contextes opérationnels précis. Par ailleurs, comme le souligne le CEPD, le développement des algorithmes de synthèse de données participe d’un cercle vertueux d’amélioration des techniques d’IA puisque des données synthétiques permettront l’entraînement d’algorithmes plus performants, permettant à leur tour, entre autres, la synthèse de données de meilleure qualité.

Pour autant, comme indiqué ci-dessus, ces technique de synthèse ne constituent pas aujourd’hui une garantie de conformité.

Menaces : utilisations à risque ou détournées

Les procédés de synthèse de données sont encore méconnus tant des professionnels que du grand public et leur utilisation pose certaines problématiques mettant à jour des menaces dont la vraisemblance est encore à mesurer. Deux d’entre elles sont d’ores et déjà identifiées dans la littérature.

En premier lieu, la confiance des acteurs en cette technique encore peu éprouvée pourrait mener à des incidents en ce qui concerne la confidentialité des données, mais également la performance des systèmes utilisant les données de synthèse. En particulier, les garanties concernant l’anonymisation et l’utilité des données obtenues mises en avant par de nombreuses entreprises et certains académiques pourraient mener à une mauvaise estimation des risques liés à l’usage de données de synthèse. Ce risque est accentué par la difficulté bien connue liée à l’estimation des risques de réidentification. Deux scénarios sont à envisager :

  • Une confiance non-fondée en la confidentialité des données synthétisées : un ensemble de synthèse pourrait alors être transmis à des destinataires en mesure de réidentifier des personnes ;
  • Une confiance non-fondée en l’utilité des données : le système développé grâce aux données de synthèse ne parviendrait alors pas à réaliser la tâche attendue, ou pourrait l’accomplir avec des biais potentiellement préjudiciables à son bon fonctionnement voire discriminatoires.

En second lieu, les données de synthèse peuvent parfois, de manière volontaire ou non, être considérées comme exactes et être associées à des individus. Dans le cas trivial des hypertrucages, l’objectif peut être de nuire à une personne en produisant une information fausse à son égard. Toutefois, ce risque existe également dans le cas général : une information fausse pourrait être déduite à partir d’un ensemble de synthèse et être utilisée contre un individu. Cet écueil pourrait survenir également de manière involontaire lorsque la nature synthétique des données ne fait pas l’objet d’une information claire.

Les conséquences pour les personnes n’étant pas encore bien comprises, peu de cas ayant encore été observés en pratique [3] et en particulier dans la mesure où l’inférence à partir de données de synthèse ne peut pas être certaine, la gravité et la vraisemblance des évènements redoutés ne pourront être mesurées qu’au cours du temps.

 

A données de synthèse, droits de synthèse ?

Les failles et surfaces d’attaques identifiées dans la partie précédente suggèrent que l’utilisation de la synthèse de données devrait être encadrée par une doctrine d’emploi spécifique. Pour orienter la constitution de cette dernière, la grille d’analyse des risques suivante est proposée.

Sur la nature des données de synthèse

Les risques de réidentification démontrés dans la littérature semblent indiquer que les données de synthèse pourraient permettre dans certains cas d’inférer des informations à propos des personnes dont les données sont présentes dans les ensembles source. Des mesures additionnelles, telles que la confidentialité différentielle, pourraient apporter une garantie formelle concernant le niveau de confidentialité atteint mais ces mesures sont difficiles à mettre en œuvre en pratique . Ainsi, si qualifier l’algorithme de génération et les données de synthèse d’anonymes d’une manière générale semble exclu, c’est au responsable de traitement que revient la charge de la démonstration du caractère anonyme des données générées. Les trois critères du G29 relatifs aux techniques d’anonymisation sont la référence en la matière, mais des procédés particuliers tels que le recours à une compétition de type bug bounty ou une revue par les pairs pourraient également être envisagés. 

Sur le fondement de la synthèse de données

Que les données de synthèse soient anonymes ou non, leur génération à partir de données réelles constitue toujours un traitement au sens du RGPD qui doit disposer d’une base légale. Toutefois, comme vu plus haut, l’entraînement de l’algorithme de génération des données de synthèse s’apparente en quelque sorte à une extraction des caractéristiques statistiques de l’ensemble de données sources. Les traitements réalisés à des fins statistiques bénéficiant de certaines exemptions dans le cadre du RGPD, cette qualification pourrait avoir des conséquences sur les droits des personnes.

Sur les principes généraux

En premier lieu, comme vu précédemment, les données de synthèse obtenues à partir des données sources peuvent ne pas reproduire avec fidélité les caractéristiques de l’ensemble de départ. D’une part, cet écueil peut mener à des résultats d’une qualité insatisfaisante (pour l’entraînement d’un algorithme dont la performance serait dégradée par exemple). Ainsi, une analyse du principe de proportionnalité lorsque la perte en utilité des données mène à un traitement de qualité dégradée pourrait avoir à être réalisée. D’autre part, les données de synthèse obtenues pourraient mener à la déduction d’informations erronées au sujet des personnes : à cause de la perte en utilité des données ou du risque d’inférence d’une information de synthèse à partir de données réelles. Ainsi, le principe d’exactitude devrait être apprécié au regard de ce risque.

En second lieu, l’induction de la distribution décrivant l’ensemble de données sources requiert un volume de données qui peut être difficile à estimer, en particulier en ce qui concerne les groupes qui y seraient sous-représentés. Une difficulté pourrait ainsi émerger pour les responsables de traitement dans la conciliation entre cette nécessité et le principe de minimisation. De plus, une fois l’algorithme entraîné et les données synthétisées, il semble que l’algorithme pourrait ne plus être utile au traitement, et il pourrait être recommandé de le supprimer par application du principe de minimisation. Toutefois, les risques liés à la conservation de l’algorithme pourraient être inférieurs à ceux liés aux données de synthèse (car l’algorithme est notamment plus difficile à interpréter par un attaquant).

Enfin, l’utilisation de données de synthèse, en particulier lorsque leur usage est prévu directement par les personnes, peut interroger sur la loyauté du traitement. En effet, les personnes pourraient être trompées, de manière volontaire (cas des hypertrucages) ou non, par l’utilisation des données de synthèse à moins que certaines mesures de transparence ne soient prévues.

Sur la responsabilité des acteurs

Dans la synthèse de données, chacune des étapes peut être réalisée par un acteur différent : un premier peut collecter les données source, tandis qu’un second les exploitera pour entraîner un algorithme de génération, pour qu’un ou plusieurs acteurs exploitent enfin les données de synthèse. Par ailleurs, les utilisateurs des données de synthèse ne sont pas toujours connus a priori de la génération. De plus, étant donné l’opacité des méthodes de synthèse de données et leur grande variété, la méthode choisie par le fournisseur du service de synthèse est un élément déterminant dans le traitement. La responsabilité pourrait donc parfois être portée conjointement par le fournisseur du service et l’utilisateur des données.

Plus généralement, étant donné les impacts que pourraient avoir l’utilisation des données de synthèse (usurpation d’identité, manipulation du comportement, biais discriminatoires, etc.), les fournisseurs de service de synthèse de données pourraient voir leur responsabilité engagée dans certains cas. 

Sur les mesures de sécurité applicables

Que la synthèse de données mène à une base de synthèse anonyme ou non, elle constitue dans tous les cas un traitement de données à caractère personnel et en cela, doit être accompagnée de mesures de sécurité adaptées. La nature des données traitées, les processus auxquelles elles seront soumises, ou encore l’impact potentiel pour les personnes font partie des éléments à prendre en compte lors d’une analyse des risques nécessaire pour déterminer les mesures applicables. Toutefois, au vu de la nouveauté des techniques utilisées pour la génération de données de synthèse, les mesures de sécurité habituelles ou spécifiques restent à identifier. En particulier, les restrictions d’accès, politiques d’habilitation, mesures de chiffrement et autres mesures de sécurité restent à apprécier au cas par cas en ce qui concerne l’algorithme génératif (accès en boîte noire, en SaaS ou encore par API, mesures de chiffrement, accès sur une plateforme de développement sécurisée, etc.), en ce qui concerne la fonctionnalité de génération de données de synthèse (limiter le nombre de requêtes, imposer un volume de données sources minimum, etc.), ou encore pour l’accès aux données de synthèse (mesures de chiffrement applicable aux sauvegardes, mesures de journalisation des accès, etc.).

Des mesures de sécurité spécifiques, comme la confidentialité différentielle, pourraient également être recommandées, toutefois leur efficacité peut être questionnée en particulier en regard du coût que peut induire l’utilisation de ces techniques.

Sur l’auditabilité des systèmes de génération ou utilisant des données de synthèse

En premier lieu, une grande partie des acteurs privés proposant un service de synthèse de données se targue de proposer un traitement capable d’anonymiser efficacement des donnés. Toutefois, les méthodes utilisées par ces acteurs peuvent varier grandement, et leur implémentation peut parfois présenter des failles . Trois profils d’acteurs subsistent ainsi : les acteurs vertueux et efficaces dans leur implémentation, les acteurs vertueux mais dont l’implémentation est défaillante et les acteurs frauduleux, les méthodes d’audit pourraient varier selon ces profils.

Comme vu précédemment, la synthèse de données peut se faire au prix d’une perte en utilité, et cette dernière pourrait causer une performance dégradée du système résultant. Dans ce contexte, la preuve qu’une défaillance est due au procédé de synthèse des données (et non à la leur utilisation ou à la qualité des données sources) pourrait avoir à être fournie, bien que cela puisse être difficile en pratique.

Sur l’exercice des droits

Les modalités d’exercice des droits à prévoir sur les données synthétiques pourraient fortement impacter le développement de certaines solutions par le coût que nécessite leur mise en œuvre.

L’applicabilité aux données synthétiques des droits prévus par le RGPD pose question. Lorsqu’un risque de réidentification subsiste, l’application des droits ne peut être écarté et les modalités propres à leur exercice peuvent introduire des difficultés puisque les données synthétiques ne peuvent être liées directement à une personne.

 

Tour d’horizon juridique

Les nombreuses actualités liées aux données de synthèse ont mené certains acteurs à se prononcer à leur égard.


Notes :

[1] Ces attaques visent à permettre à un attaquant d’acquérir des connaissances sur les données utilisées pour la production du modèle d’IA. En pratique, il s’agit de déterminer si des données relatives à un individu ont été utilisées lors de la phase d’entraînement de l’algorithme génératif.

[2] Ces attaques visent à lier entre elles certaines de données utilisées lors de la phase d’entraînement de l’algorithme génératif. Un attaquant en possession de certaines informations à propos d’une personne pourrait ainsi déduire plus de connaissances à son sujet.

[3] Seule l’utilisation des hypertrucages à des fins malhonnêtes est aujourd’hui largement avérée (cas des hypertrucages à caractère pornographique mentionné plus haut). L’ampleur de cette menace reste pour autant à quantifier puisqu’elle semble en premier lieu toucher des personnalités publiques.

[4] En témoigne (Stadler et al., 2021) où il est remarqué que l’implémentation de la confidentialité différentielle dans les algorithmes PrivBay et PATEGAN n’apportait pas les garanties escomptées. Le choix du paramètre epsilon qui fait peser la balance en faveur de la confidentialité ou de l’utilité est également complexe en pratique.

[5] Voir le cas des algorithmes PrivBay et PATEGAN, supposée différentiellement confidentielle, dont l’implémentation ne fournissait pas le niveau de sécurité escompté.



Article rédigé par Alexis Léautier , Ingénieur Expert