Partenariat avec le PEReN : les risques de l’intelligence artificielle dans le cadre des hyper-trucages
Le Pôle d’Expertise de la Régulation Numérique (PEReN) travaille en partenariat avec le LINC sur un projet d’étude, de recensement et d’évaluation d‘outils permettant de faire des hyper-trucages, ou Deep Fake. L’utilisation de ces outils est de plus en plus accessible au grand public, et il est fréquent de voir passer des vidéos réalisées grâce à ce type d’outils sur les réseaux. L’objectif de ce projet est de faire un état de l’art des techniques existantes et ainsi de pouvoir alerter sur la facilité de réalisation de ces vidéos hyper-truquées.
Pourquoi faire cette étude ?
Les hyper-trucages, ou Deep Fake, existent déjà depuis quelques années, mais étaient souvent mal conçus et facilement détectables à l’œil nu. Cependant, on constate depuis quelques mois que la quantité et la qualité des vidéos hyper-truquées visibles sur la toile ne cessent de faire des bonds en avant.
Les dangers associés sont multiples : arnaque au président, deepfake pornographique, désinformation, escroquerie, etc. Toute photo postée sur internet peut être utilisée pour créer un avatar de votre visage et le mettre dans différentes situations plus ou moins avantageuses.
Longtemps réservés pour des utilisateurs possédant une puissance de calcul significative (nécessaire généralement pour faire tourner des modèles d’IA) et plusieurs photos sous différents angles de la personne objet du trucage, de nouveaux outils apparaissent en open source, et permettent une utilisation rapide, facile et sans besoin de base de données d’images très large pour bien fonctionner.
Pour n’en citer qu’un, apparu pendant l’été 2024, Deep Live Cam est le nom d’un répertoire Github qui vous permet de faire des Deep Fake en direct. Il suffit d’une photo de face et d’une webcam pour plaquer le visage de votre victime sur le vôtre et voir le résultat dans votre caméra. Il est tout naturellement possible ensuite de rediriger le flux vidéo vers une webcam virtuelle qui pourra être utilisée pour se connecter à une réunion sur un outil de conférence en ligne.
Il est aussi possible de faire ces Deep Fake directement sur des vidéos existantes, avec peu ou pas de contrôles de contenu. Il est donc nécessaire de cartographier ce nouvel environnement technologique, et de comparer les techniques d’hyper-trucage, leur faisabilité, ainsi que celle permettant de les détecter.
Rappel du code pénal, article 226-8
Est puni d'un an d'emprisonnement et de 15 000 euros d'amende le fait de porter à la connaissance du public ou d'un tiers, par quelque voie que ce soit, le montage réalisé avec les paroles ou l'image d'une personne sans son consentement, s'il n'apparaît pas à l'évidence qu'il s'agit d'un montage ou s'il n'en est pas expressément fait mention. Cela s’applique également lorsque le trucage est généré algorithmiquement. La peine s’élève à 45.000 euros et deux ans d’emprisonnement lorsque le montage a été réalisé en utilisant un service de communication au public en ligne.
Lorsque le montage est à caractère sexuel, la peine encourue est 60.000 euros d’amende et 2 ans de prisons (75.000 € et 3 ans de prisons lorsque le montage a été réalisé en utilisant un service de communication au public en ligne).
Les données nécessaires à cette étude
Afin de tester l’efficacité des hyper-trucages, il est nécessaire d’utiliser des images de visage de nombreuses personnes, et de tenter de les plaquer sur d’autres, dans différentes conditions de posture, de qualité et dans différents médias (vidéo, images, webcam…).
De plus, dans le cadre de ce projet confié au PEReN, des visages vont être générés en mixant plusieurs afin de définir des mesures permettant de distinguer un visage généré d’un « vrai » visage.
Pour cela, de premiers tests ont été effectués en utilisant les visages de personnes célèbres décédées et par la suite la base de données FFHQ (Flickr-Faces-HQ) sera utilisée. Cette base de données est actuellement constituée de 70 000 photos de visages en haute qualité issues de photos publiées sur Flickr en Creative Commons, et a été créée pour entraîner des GAN (generative adversarial network ou réseaux adverses génératifs en français[1]). Cette base de visages a été constituée par l'entreprise NVidia et est elle-même proposée sous licence Creative Commons. Mise à disposition des chercheurs sur GitHub, cette base fera donc l’objet d’un traitement dans le cadre de cette expérimentation, conformément à la finalité pour laquelle elle a été constituée (évaluation de réseaux GAN).
Comment les droits des personnes sont-ils respectés ?
Si vous souhaitez plus d’informations sur ce traitement ou si vous souhaitez exercer vos droits, vous pouvez contacter ip[at]cnil.fr ou adresser un courrier à la CNIL à l’attention du service LINC. Si vous estimez, après nous avoir contactés, que vos droits « Informatique et Libertés » ne sont pas respectés, vous pouvez adresser une réclamation auprès de la CNIL ou de votre autorité de protection des données si vous êtes établis dans un autre pays européen.
La base de données FFHQ sera fréquemment mise à jour par le PEReN pour tenir compte des éventuelles suppressions de photos.
Pour savoir si vos photos font partie de celles utilisées dans la constitution de la base FFHQ, vous pouvez vous rendre sur ce moteur de recherche et entrer votre identifiant Flickr. Si vous souhaitez supprimer les photos que vous avez publiées de la base vous pouvez :
- Rendre la photo non publique sur Flickr ; ou
- Ajouter le tag « no_cv » pour indiquer qu’elle ne devrait pas être utilisée à des fins de recherches ;
- Contacter ensuite NVidia pour qu’ils suppriment la photo de leur base FFHQ à l’adresse ([email protected]).
Pour en savoir plus, rendez-vous sur la page dédiée.
Au terme de l’étude, la base FFHQ cessera d’être exploitée par la CNIL pour ce projet.
Comment ce projet est-il encadré ?
Ce projet relève de la mission d’intérêt public dont est investie la CNIL en application du règlement général sur la protection des données (RGPD) et de la loi Informatique et Libertés modifiée. Il s’inscrit dans la mission d’information de la CNIL telle que définie dans l’article 8.I.1 de la loi Informatique et Libertés, mais également dans la mission de suivi de l’évolution des technologies de l’information telle que définie dans l’article 8.I.4.
Seuls les membres du Laboratoire d’innovation numérique de la CNIL (LINC) et du PEReN en charge de cette étude auront accès aux données personnelles traitées dans le cadre de l’expérimentation.
Combien de temps durera cette étude ?
Ce projet prendra fin en décembre 2024.
[1] Les GAN sont des réseaux "adverses" ou "antagonistes". C’est un mode d’apprentissage dans lequel deux réseaux de neurones s’affrontent. Un réseau va être entrainé à créer des contenus artificiels et un autre réseau va être entrainé à détecter les contenus artificiellement générés. Le réseau qui génère les contenus essaie de duper son adversaire et chacun des deux réseaux apprend de ses erreurs pour s’améliorer.
Photo par Kyle McDonald - Licence CC BY-NC-SA 2.0