[Fr] Les dessous de la dataviz "Règlement général pour la protection des données"

Rédigé par Franck Baudot

 - 

01 September 2016


Par Franck Baudot - Ingénieur - À travers Linc, la Cnil rend plus accessibles et compréhensibles les enjeux de la protection des données pour un large public. Après avoir mis au jour les données des téléphones portables avec le projet Mobilitics, rendu visibles les cookies avec le logiciel CookieViz, Linc s’est attaqué au texte du règlement européen qui vient d’être adopté...

Avec l'entrée en vigueur du Règlement général pour la protection des données, nous avons proposé une représentation graphique faisant ressortir les éléments dominants de ce texte et les liens entre les articles. La dataviz est accessible à cette adresse, réutilisable et partageable sous les condictions de la licence Creative Commons BY-NC-SA.

Ce billet détaille les étapes ainsi que les outils qui ont permis sa réalisation, et vous indique où trouver les sources de cette datavisualisation.

En théorie…

Nous sommes partis du texte tel adopté par le Parlement européen et le Conseil. Une lecture approfondie du texte a mis au jour les liens (mention d'un article par un autre) entre les différents articles ainsi que les considérants associés. Cette analyse s'est traduite par la création d'un fichier .tsv (valeurs séparées par des tabulations) répertoriant tous ces liens.

Des scripts python ont permis d'automatiser la génération d'un second fichier tsv comprenant pour chaque article les champs:

  •  Id (le numéro de l'article ou du considérant)
  •  Label (le nom de l'article ou du considérant)
  •  Chapitre (le chapitre auquel l'article appartient)
  •  Color (une couleur pour la représentation du nœud du graphe)
  •  Intitulé (le titre de l'article)
  •  Texte (l'article ou le considérant proprement dit, au format html)

Nous avons ensuite importé ces fichiers dans le logiciel Gephi. un logiciel libre qui permet de créer des graphes à partir de jeux de données.
Il s’agit ensuite de tester différentes formes de visualisation pour s’arrêter sur celle qui répondra à des critères satisfaisant de lisibilité et d’esthétisme. D’autres choix étaient possibles, comme on le voit dans les images ci-dessous :

 

Approche 1

Approche 2

Approche 3

Une extension (plugin) de ce logiciel autorise l'export du graphe dans un format directement publiable sur un site web (en l'occurrence, nous avons utilisé l'extension sigmaExporter). That's it!

Ça c’est la version courte.


… en pratique


La version longue serait plutôt: transformer le pdf en fichier texte à l’aide d’un convertisseur, supprimer les entêtes et pieds de page à l’aide d’une macro d’un éditeur de texte, créer le fichier tsv au moyen du script python, retoucher les erreurs de formatage non détectées par le script, configurer Gephi avec les extensions nécessaires, créer le graphe dans Gephi à partir des fichiers tsv, reformater certaines informations non détectées à l’import, choisir un type de graphe parmi les layouts, repositionner les nœuds en fonction des chapitres en conservant une bonne lisibilité des liens entre nœuds, exporter le graphe au moyen de l’extension SigmaJS, modifier divers fichiers javascript afin de personnaliser le graphe…


Nous profitons de la publication de cet article pour rendre crédit aux développeurs de Gephi, SigmaJS et de l'extension sigmaExport.


A vous maintenant de naviguer dans cette dataviz pour mieux percevoir les enjeux de la protection des données, ou encore de proposer des outils encore plus didactiques !

 

Texte reference

Retrouvez le code source sur GithHub


Article rédigé par Franck Baudot , Ingénieur expert en technologie de l'information