CabAnon : un projet d’exploration et de visualisation de données anonymisées

22 February 2017

Porté et développé par l’équipe LINC, le projet CabAnon vise à évaluer les performances de différentes techniques d’anonymisation sous la forme de dataviz interactives. Elles évaluent le « coût » de ces techniques en terme de potentiel d’utilisation de jeux de données anonymisées.

L’anonymisation est l’un des concepts techniques les plus débattus dans le cadre de la protection des données personnelles et des libertés : on ne connait pas de technique d’anonymisation généralisable hormis la suppression complète du jeu de données. L’anonymisation doit au contraire être considérée au cas par cas, dans l’optique de trouver le bon équilibre entre l’utilité des données et l’anonymisation des individus susceptibles d’être exposés par ces données.


On voit circuler régulièrement l’idée reçue selon laquelle des données seraient inutilisables dès lors qu’elles sont anonymisées ; une hypothèse que nous avons choisi de confronter à l’étude de jeux de données bien réels : les données des trajets de taxis mises à disposition par la ville de New-York. Outre l’intérêt qu’ils peuvent avoir du point de vue du développement urbain, de tels jeux de données posent en effet de vraies questions en terme de respect de la vie privée. En effet, ces données contenant des horaires et trajets complets de courses de taxi ont déjà été utilisées pour réidentifier des personnes, par exemple pour révéler l’identité et les allées et venues de clients célèbres.


Nous les étudions dans le but de chercher un équilibre acceptable (utilité vs anomymisation) permettant de les valoriser sans exposer les individus et d’évaluer les conséquences réelles pour les usages ultérieurs des techniques d’anonymisation courantes.  

 

Tester les processus d’anonymisation…


Notre objectif est donc d’anonymiser le jeu de données de telle manière que soient préservés à la fois sa pertinence et son utilité, en particulier pour des usages d'aménagement et de développement urbain mais également pour des utilisations plus quotidiennes (services de mobilité, …). Pour ce faire, nous travaillons sur trois jeux de données :

  • non-anonymisé (au sens de la CNIL), des trajets des taxis tels que rendus publics initialement par la New-York TLC (Taxi & Limousine Commission),
  • anonymisé selon la méthode publiée par Uber,
  • anonymisé selon les recommandations de l’avis G29 concernant les méthodes d’anonymisation, ajoutant à la méthode d’Uber des garanties supplémentaires sur la base de la méthode dite de « k-anonymat » (basée sur les travaux de Latanya Sweeney), avec k=10. Cela signifie que nous ne prenions aucun point de départ (ou d’arrivée) dans une zone s’il y avait moins de 10 occurrences (départ ou arrivée) dans cette même zone dans un même créneau horaire.

Le jeu de données initial est utilisé comme étalon pour évaluer et quantifier la perte d’information et d’utilité réelle des jeux de données ayant subi les deux autres méthodes d’anonymisation.


 
… en utilisant la datavisualisation


Les trois jeux de données contiennent diverses informations similaires sur les trajets effectués comme par exemple les coordonnées géographiques des lieux de départ et d’arrivée et les horaires associés ou encore le nombre de passagers. Ces informations permettent de déduire d’autres informations comme la distance parcourue ou le temps de trajet.


Pour les comparer, nous allons créer une série de visualisations, un moyen de rendre compréhensibles ces données - et les enjeux liés - aussi bien à des spécialistes, que des urbanistes ou des citoyens curieux. En regardant et analysant les visualisations, chacun est à même d’en tirer des conclusions quant à la pertinence de l’anonymisation dans des cas précis. L’élément clé pour nous est de montrer les intérêts et limites des jeux de données anonymisées, et d’aider à déterminer les usages pour lesquels l’anonymisation est appropriée (et ceux où elle ne l’est pas).

CabAnon proposera quatre scénarios, chacun explorant comment les données des taxis newyorkais pourraient être utilisées pour différentes applications, comme par exemple trouver rapidement un taxi, ou améliorer les systèmes de transport. A chaque scénario correspondra une visualisation, basée sur un paramètre fréquemment utilisé pour comprendre et qualifier le trafic urbain :

  • Densité du trafic : un utilisateur peut trouver un endroit proche de lui où il pourra rapidement trouver un taxi.
  • Nombre de passagers par taxi : les urbanistes peuvent comprendre comment les taxis sont utilisés et concevoir des solutions pour organiser les mobilités urbaines.
  • Vitesse du trafic : une personne peut déterminer le meilleur moment pour se déplacer, un urbaniste peut identifier les zones de congestion.
  • Direction du trafic : un urbaniste peut comprendre la manière dont on se déplace en ville, et améliorer les systèmes de transport public.

Nous publierons chacune de ces visualisations au cours des six premiers mois 2017. Restez connectés et préparez-vous à nous donner vos retours !

 

Access Right and Right to object

Published on 10 February 2017

We use the NYC dataset and remove personal data for the purpose of anonymising the dataset. Since we use the dataset, this means that we process personal data. If you took a taxi in New-York city in 2013 and don’t want your data to be processed by us, please contact us. You will just need the reference of the taxi trip and a proof, so that we can remove your data from the dataset.


Send us your request to cabanon(@)cnil.fr with object “OptOut”.