Le Renseignement en Sources Ouvertes : faire le lien entre vos activités sur le web

Rédigé par Jerôme Gaussein - Romain Pialat

 - 

05 février 2024


Le renseignement en sources ouvertes (ROSO) sur internet regroupe un ensemble de techniques permettant de recouper des données en accès libre afin d’en extraire des informations et, dans certains cas, de réidentifier les personnes qui les ont postées. Dans cette vidéo, nous présentons un exemple de réidentification d'un individu fictif illustrant l’utilisation de différentes techniques du ROSO

Dans la vidéo ci-dessous, un individu se fait réidentifier sur Internet, c’est-à-dire qu’on retrouve - uniquement grâce aux traces qu’il a laissé en ligne - un ensemble de données le concernant, comme son adresse, son employeur, ses différents réseaux sociaux, etc.

Cet individu, fictif dans cette vidéo, s’appelle Vencint Biounata, et travaille à la CNIL. Il habite dans la tour Montparnasse, et va régulièrement au travail à pied ou en courant. Il est présent sur différents réseaux sociaux sous différents pseudonymes, il est né à Brest et a fait ses études à Paris et fréquente des bars et restaurants dans le 7ème et le 14ème arrondissement de Paris.

Toutes ces informations ont été retrouvées uniquement en partant d’une vidéo, sur laquelle on ne voit personne. La vidéo explicite les différentes méthodes de ROSO qui ont été mise en place pour que Vencint puisse être réidentifié. L’idée ici est bien d’utiliser le ROSO pour sensibiliser sur la diffusion de données personnelles en ligne et les risques de réidentifications associés.

 

A gauche de l'image une capture d'écran de la vidéo dont on part pour réidentifier la personne. A droite la liste des informations retrouvées sur le protagoniste : vencint Biounata, X, 1995, Linkedin, Paris, Twitter, 14ème, Facebook, Instagram, CNIL, Tour Montparnasse
Listes des informations retrouvées sur Vencint Biounata

 

Le Renseignement en Sources Ouvertes c’est quoi ?

Le renseignement en source ouverte regroupe un ensemble de techniques différentes, allant de la simple analyse visuelle d’une photo, à la recherche exhaustive sur un ensemble de plateformes, en passant par une maitrise des fonctionnalités des moteurs. Il peut notamment servir àréidentifier en ligne des individus ou des entités, à la manière d’un puzzle dont on assemblerait les pièces, en récupèrant des données par différents canaux.

Utilisé par des journalistes pour de la vérification d’informations, des services d’enquêtes dans le cadre de leur missions ou par des acteurs du monde de la sécurité le ROSO prend de plus en plus de place et se fait mieux connaître du grand public. Un article de la CNIL rappelle les gestes à adopter pour limiter les risques qui y sont liés concernant nos données personnelles.

Les limites imposées par le code pénal

 

Même si l’utilisation de techniques de ROSO n’est pas en soi interdite, la seule diffusion publique d’une donnée personnelle n’est pas une autorisation à en faire n’importe quoi. La recherche et le recoupement d’informations, par l’intermédiaire du ROSO, sur une personne est une démarche très intrusive, susceptible de porter atteinte à la vie privée de la personne (article 9 du code civil). De plus, le fait de révéler des informations relatives à la vie privée, familiale ou professionnelle d'une personne ou permettant de l'identifier ou de la localiser, par exemple par l’intermédiaire du ROSO, et l’exposant à un risque direct, qui ne peut être ignoré, d’atteinte à sa personne ou à sa famille, est passible de 3 ans d’emprisonnement et de 45 000 euros (article 223-1-1 du code pénal). De même, faire usage d'une ou plusieurs données de toute nature permettant d'identifier une personne en vue de troubler sa tranquillité ou celle d'autrui, ou de porter atteinte à son honneur ou à sa considération, est puni d'un an d'emprisonnement et de 15 000 € d'amende (article 226-1 du code pénal).

Les chemins de la réidentification

Il existe plusieurs moyens pour réidentifier quelqu'un en ligne, plus ou moins abordables et techniques. Ils dépendent notamment des informations que l'on possède concernant la personne. Un attaquant peut partir d'un prénom et d'un nom, d'une image, d'une trace de géolocalisation, d'une adresse mail ou d'un pseudo, ou de n’importe quelle donnée personnelle.

En fonction de ces premièresinformations, l’attaquant peut emprunter plusieurs chemins pour suivre une personne.

 

Les réseaux sociaux

Une des premières source à laquelle on pense pour essayer de réidentifier quelqu'un est les réseaux sociaux. Quasiment tout le monde est inscrit sur un ou plusieurs réseaux. Les endroits où il sera le plus évident de retrouver une personne à partir de son nom et de son prénom sont les réseaux grand public (par ex. : Instagram, X, Facebook) ou les réseaux professionnels (par ex. : LinkedIn). Il existe généralement beaucoup d'homonymes sur ces plateformes et il est nécessaire d'avoir d'autres informations sur la personne pour pouvoir retrouver son compte avec certitude.

Certains réseaux, de partage de photos ou de microblogage par exemple, sont souvent sujets à l'utilisation de pseudonymes : il est donc parfois plus complexe d’y retrouver des personnes à partir de leur nom. Cependant, un attaquant peut toujours effectuer des recherches à partir d'un nom ou d'un prénom : ces réseaux permettant d'avoir deux pseudos, un qui s'affiche sur votre profil et qui fait office de « nom de scène », et un utilisé comme vrai identifiant, qui peut parfois être constitué du prénom et du nom de famille. En trouvant une personne sur un de ces réseaux, l’attaquant a alors accès à son « nom de scène », qui peut être utilisé généralement sur plusieurs plateformes, afin de suivre un individu à travers Internet (web mais aussi plateformes de jeux en ligne) sans connaître sa vraie identité. Cela lui permettra de trouver davantage d’informations.

A gauche le profil X de Vencint, et à droite celui sur instagram
Comparaison des profils sur les réseaux sociaux X et Instagram de Vencint Biounata

 

Le pseudonyme et l’adresse courriel

Un pseudonyme ou une adresse courriel (qui est parfois le pseudonyme) peut permettre d’identifier les sites web sur lesquels la personne est inscrite.

En utilisant certains sites web spécialisés ou des logiciels dédiés, il est possible de retrouver une partie des comptes créés par un individu. Ces outils chercheront, sur une liste de sites définie à l’avance, le pseudo en question. Ils peuvent aussi tenter de créer un compte avec l’adresse courriel proposée : si leur demande est rejetée, ils en déduisent que l’adresse est déjà utilisée.

De plus en plus de sites web ou réseaux sociaux détectent et bloquent les requêtes effectuées automatiquement par ces logiciels qui doivent alors recourirent à des méthodes de contournement.

 

La géolocalisation

Nos téléphones constamment connectés ont, pour la plupart, une fonction de géolocalisation qui, si elle n’est pas désactivée, peut transmettre notre position à des applications, qui peuvent les revendre à leur tour afin de générer un revenu.

Un article sur le site du LINC explique la démarche pour réidentifier un nombre important de personnes à partir des données de position achetées de cette manière à des courtiers en données.

Mais il est aussi possible d’utiliser la géolocalisation de manière beaucoup plus simple. En utilisant une adresse courriel Gmail sur un site de recherche inversée par courriel par exemple, on peut récupérer l’identifiant unique Google correspondant à cette adresse. En recherchant cet identifiant unique sur Google Maps, il est possible de voir tous les avis publics laissés par la personne détenant le compte Gmail. On peut ainsi retracer une partie de ses trajets et connaitre des endroits qu’elle fréquente.

De plus, une fonctionnalité sur une plateforme de microblogage permet de retrouver, à partir d’une géolocalisation, l’ensemble des publications faites dans un certain rayon. Si l’utilisateur a activé la fonction de géolocalisation pour chacune de ses publications, il est possible de retrouver les endroits d’où il les a publiés.

Enfin, certaines applications sportives permettent de partager ses parcours, qu’ils soient à vélo, à pied, en courant, etc. avec ses amis, ou de manière publique, afin de comparer les performances. Il existe plusieurs réglages de confidentialité permettant de limiter la visibilité à un cercle restreint, aux gens à proximité faisant les mêmes parcours, ou à l’ensemble des utilisateurs. Vous pouvez également masquer les points de départ et d’arrivée pour ne pas divulguer votre adresse de domicile par exemple. Ces protections utiles ne sont pas toujours mises en place, et peuvent tout de même conduire à des réidentifications par d’autres moyens.

Les chemins de la réidentification  Il existe plusieurs moyens pour réidentifier quelqu'un en ligne, plus ou moins abordables et techniques. Ils dépendent notamment des informations que l'on possède concernant la personne. Un attaquant peut partir d'un prénom et d'un nom, d'une image, d'une trace de géolocalisation, d'une adresse mail ou d'un pseudo, ou de n’importe quelle donnée personnelle.  En fonction de ces premières informations, l’attaquant peut emprunter plusieurs chemins pour suivre une personne.  Les réseaux sociaux  Une des premières source à laquelle on pense pour essayer de réidentifier quelqu'un est les réseaux sociaux. Quasiment tout le monde est inscrit sur un ou plusieurs réseaux. Les endroits où il sera le plus évident de retrouver une personne à partir de son nom et de son prénom sont les réseaux grand public (par ex. : Instagram, X, Facebook) ou les réseaux professionnels (par ex. : LinkedIn). Il existe généralement beaucoup d'homonymes sur ces plateformes et il est nécessaire d'avoir d'autres informations sur la personne pour pouvoir retrouver son compte avec certitude.  Certains réseaux, de partage de photos ou de microblogage par exemple, sont souvent sujets à l'utilisation de pseudonymes : il est donc parfois plus complexe d’y retrouver des personnes à partir de leur nom. Cependant, un attaquant peut toujours effectuer des recherches à partir d'un nom ou d'un prénom : ces réseaux permettant d'avoir deux pseudos, un qui s'affiche sur votre profil et qui fait office de « nom de scène », et un utilisé comme vrai identifiant, qui peut parfois être constitué du prénom et du nom de famille. En trouvant une personne sur un de ces réseaux, l’attaquant a alors accès à son « nom de scène », qui peut être utilisé généralement sur plusieurs plateformes, afin de suivre un individu à travers Internet (web mais aussi plateformes de jeux en ligne) sans connaître sa vraie identité. Cela lui permettra de trouver davantage d’informations.  Le pseudonyme et l’adresse courriel  Un pseudonyme ou une adresse cou

 

Les fonctionnalités avancées dans les moteurs de recherche

De manière générale, la réidentification de personne sur le web passe par des moteurs de recherches qui peuvent nous aider à retrouver plus rapidement des informations. Les recherches avancées sont des fonctionnalités des moteurs de recherche qui permettent d’ajouter de la précisions dans les recherches effectuées. Par exemple la recherche entre guillemets demande au moteur de rechercher uniquement les résultats les termes exacts indiqués.

Il est également possible de demander certains types de fichiers particuliers (par ex. : PDF), de chercher les pages publiées à des dates précises, de ne retourner que des URLs contenant un certain mot, etc.

En combinant les différentes fonctionnalités avancées, un attaquant peut faire des recherches très précises à partir de certaines informations comme un nom par exemple pour chercher tous les PDFs présents sur un site spécifique.

 

Quels impacts du ROSO dans l’actualité ?

Le ROSO peut paraître lointain et ne concerner qu’une poignée d’experts dans des domaines bien définis, on peut pourtant en entendre parler dans différentes actualités amenées par des journalistes pratiquant la discipline.

Dans cette profession, le ROSO sert principalement à vérifier des sources ou des informations, mais également à mener des enquêtes. Comme le montrent ces articles dans Mediapart et Le Monde, le ROSO utilisé sur les réseaux ou sur des vidéos récupérées sur le web peut permettre de retracer le fil d’évenements, ou de remonter la piste d’organisations extrêmistes. Un exemple fort du ROSO relayé dans l’actualité concerne ce haut gradé russe qui se fait assassiner un matin en faisant son footing. Le principal mis en cause ? L’application sportive Strava, sur laquelle il rentrait ses performances et montrait publiquement son trajet habituel. Cette histoire rejoint celle de la réidentification de militaires des forces spéciales françaises, dont les identités doivent rester secrètes et qui, parce qu’ils étaient présent sur ce réseau social sportif, ont pu être retrouvées par le journaliste.

 

Se former à l’OSINT

Comme toutes disciplines, le ROSO s’apprend, et peut permettre une meilleure compréhension des enjeux de la vie privée sur internet. Des plateformes se créées pour vous permettre de vous renseigner sur cette pratique, avec de la documentation, des témoignages de professionnels, des conseils et des exercices en tout genre. Pour n’en citer que quelques unes, la plateforme The OSINT Project et celle appelée OZINT mettent à disposition une série de challenges fictifs pour s’exercer au ROSO. On retrouve aussi sur le site OZINT un livre blanc sur les encadrements nécessaires à une pratique de l’OSINT.


Illustration - Julio Albarran


Article rédigé par Jerôme Gaussein - Romain Pialat