Les données sociales sont des données de santé comme les autres

Rédigé par Martin Biéri

17 mai 2021

Les traces laissées par un individu en ligne peuvent représenter une certaine manne, comme en témoigne le marché de la publicité ciblée. Aux Etats-Unis en particulier, cette utilisation des données personnelles en ligne voit des applications concrètes, profitant de certaines limites juridiques de textes protégeant les données de santé traditionnelles, soulevant des enjeux éthiques, de santé et de protection des données personnelles et de la vie privée.

Les données émergentes de santé

Depuis 2019, le professeur et chercheur en droit de l’université de Gonzaga Mason Marks développe l’expression « données émergentes de santé » (Emergent Medical Data ou EMD) pour souligner comment l’intelligence artificielle et le datamining (la fouille de données) intègrent de plus en plus largement le champ de la santé. En peu de mots, c’est la transformation de traces numériques anodines (comportement en ligne, clic, utilisation des réseaux sociaux, etc.) et sans aucun lien direct avec un état de santé qui se retrouvent inférées en données de santé. Il les oppose ainsi aux données traditionnelles de santé qui sont récoltées dans un contexte médical et dans un cadre légal spécifique aux Etats-Unis – cette opposition ne s’applique pas à travers le RGPD : celui-ci définit de manière précise ce qui est considéré comme une donnée de santé, que ce soit par nature, par croisement ou par destination ; ainsi, par exemple, dans le cas du contact tracing, les données de localisation peuvent devenir des données de santé.

Si le phénomène n’est pas nouveau (reposant sur un principe de « profilage » grâce à des traces numériques – l’auteur datant cela de 2002 et l’entreprise Target liant les données d’achat à un statut de femme enceinte), les moyens développés dans ce type d’outils comme la variété de données produits par les comportements en ligne – sans parler de leur quantité ! – vont de pair avec une volonté croissante de la part des entreprises détenant ces données de les utiliser dans le domaine de la santé. Et ce pour différents arguments : cibler pour de la publicité en ligne, protéger ses utilisateurs, améliorer la santé des individus, etc.

Des enjeux légaux et éthiques

Dans cette dynamique, selon Mason Marks, la protection de la vie privée et des données personnelles et l’analyse des risques pour les individus forment un angle mort de l’ensemble des études qui paraissent sur ces sujets.

En effet, au-delà des biais déjà existants concernant les algorithmes et l’intelligence artificielle (biais dans la base, dans le calcul, etc.) et auxquels les EMD n’échappent pas, un problème majeur se pose et encore plus spécifiquement aux Etats-Unis : la réglementation qui encadre l’utilisation des données de santé, HIPAA (pour Health Insurance Portability and Accountability Act), ne concerne que les données de santé qui appartiennent à la catégorie des données médicales traditionnelles (donc collectées dans un cadre médical). Les données de santé qui sont construites par la collecte et l’analyse de traces numériques ne sont donc pas concernées par cette législation en vigueur aux Etats-Unis. Ce qui met en péril l’existence même d’une telle loi, à partir du moment où elle est inadaptée aux nouveaux usages qui permettent de la contourner. C’est la grande différence avec l’Union européenne qui s’est dotée du RGPD, permettant un permettant un encadrement spécifique des données sensibles, parmi lesquelles se trouvent les données de santé, qu’elles soient qualifiées de données de santé par nature ou par destination.

On retrouve également la problématique liée au modèle économique des plateformes qui développent ses solutions : cela avait déjà été pointé pour Google Flu Trends, dont l’algorithme était modifié non pas pour une précision plus grande, mais pour une meilleure rentabilité. De manière générale, les données collectées notamment par les géants du numérique le sont avant tout dans un objectif économique, pour créer des profils publicitaires. Et c’est notamment l’une des grandes critiques faites à ces grandes plateformes : que soient réutilisées les données de santé à des fins publicitaires. Le rachat de Fitbit par Google est l’illustration de cette inquiétude en Europe, que ce soit pour des raisons de croisement des données et des risques associés pour la protection des données et la vie privée, mais aussi de stockage et de concurrence.

Une évolution : l’exemple de la santé mentale en ligne et prédiction

Si l’on reprend l’exemple de Google Flu Trends, l’outil qu’avait lancé Google en 2008 pour traquer l’épidémie de grippe en utilisant les requêtes sur son moteur de recherche (voir l’article LINC sur le sujet) ne reposait que sur ce seul flux de données ; désormais, c’est bien l’ajout de plusieurs flux qui permet de créer de nouveaux profils et d’inférer des états de santé.

L’exemple de Facebook est également significatif dans cette dynamique. En effet, l’entreprise étudie depuis plusieurs années la santé mentale chez ses utilisateurs : une expérimentation avait été lancée dès 2012 pour mesurer l’impact d’un fil d’actualité négatif et d’un fil positif sur ses utilisateurs, et ce à l’insu de ces derniers. Des comptes avaient été choisis de manière aléatoire et avaient reçu soit plus de nouvelles positives qu’à l’accoutumé, soit plus de nouvelles négatives – ce qui avait provoqué un scandale en 2014. Une autre étude similaire a été menée en 2016 par d’autres chercheurs sur la dépression et les filtres Instagram.

Mason Marks développe un autre exemple d’une automatisation concernant la santé des individus : les outils de prédiction des suicides, que nous évoquions déjà dans cet article. Ces derniers fonctionnent sur un principe simple : si certains indicateurs dans le comportement d’un utilisateur sur une plateforme donnée ou dans un espace spécifique (campus d’une université) sont repérés (mots-clés ou phrases renvoyant au fait de se faire du mal ou de volonté de suicide), cela peut déclencher l’envoi d’une patrouille de police à votre domicile afin de prévenir le passage à l’acte. Ceci pouvant aller jusqu’à l’entrée dans les lieux sans mandat et hospitalisation de la personne, si jugé nécessaire. Facebook a lancé cette option dans plusieurs pays en 2017, mais pas (encore) en Europe. Le professeur de Gonzaga, s’il souligne l’attrait et l’intérêt que peuvent avoir ces outils dans la lutte contre le suicide chez les jeunes notamment, dénombre aussi un certain nombre d’enjeux et biais que cet outil pose : l’absence de comité d’éthique extérieur à Facebook ; la revue et le fonctionnement de l’algorithme ; le « chilling effect », c’est-à-dire savoir que parler de suicide sur Facebook risque de déclencher une visite de la police chez vous peut avoir un effet inhibiteur et dissuader la personne de le faire, etc. D’autres approches existent également, comme le fait d’orienter vers des services de soutien par téléphone quand certains mots-clés sont tapés dans un moteur de recherche ou un service de messagerie.

Pour aller plus loin, les entreprises ont besoin… de données médicales !

En 2018, Facebook, notamment à la suite des scandales de Cambridge Analytica, annonce mettre en pause son projet Building 8 qui prévoyait, via des partenariats avec des hôpitaux (à l’instar de Google), de récupérer un matériau qu’ils n’ont pas : les données médicales. En 2019, une étude sponsorisée par Facebook de 2019 propose un travail de ce type en faisant une analyse des comportements sur Facebook avec en comparaison les dossiers médicaux de volontaires, afin de chercher des corrélations entre le langage en ligne et des états de santé. Ainsi, on apprend qu’il existe des liens entre le diabète et l’usage de mots comme « god », « pray », « Jesus » ou encore « Lord », et donc… les personnes pratiquantes seraient plus associées à cette maladie. Un langage grossier et vulgaire serait plutôt lié à des addictions (alcool et drogue). Mason Marks souligne plusieurs limites, qu’elles soient éthiques ou scientifiques, assez bien résumées par Olivier Ertzscheid : « à partir de quel moment, sur quelle base scientifique, et sous la supervision de quelle autorité médicale peut-on considérer que certains comportements peuvent être des indicateurs fiables de pathologies ou de troubles médicaux non encore diagnostiqués ou échappant en tout cas au circuit médical (et légal) du diagnostic ? ».

Du côté de Google, c’est l’épisode du projet Nightingale aux Etats-Unis, le partenariat entre la chaîne hospitalière Ascension et Google, qui a fait couler beaucoup d’encre, par le fait que les médecins et patients n’étaient pas au courant de leur participation au projet (notamment dans le traitement de données contenues dans leurs dossiers médicaux), déclenchant une enquête sénatoriale. C’est cette question de la transparence nécessaire auprès des personnes concernées qui a notamment retenu l’attention : savoir ce qui est fait de ses données, par qui, à destination de qui…

De l’autre côté de l’Atlantique, c’était la même histoire dans l’accord entre la NHS (National Health Service, système de santé britannique) et la filiale de Google Deepmind, qui avait déjà connu quelques déboires concernant la protection des données personnelles. L’entreprise de Mountain View ne cache pas ses velléités de récupérer des bases de données de santé : la firme s’étant développée sur la recherche et l’organisation de l’information, elle ambitionne de développer ce savoir-faire dans le secteur de la santé. Cela passe donc par la récupération de bases de données de santé chez certains professionnels (assurance, data brokers, etc.). Mais, dernièrement, l’entreprise n’a pas réussi à conclure les opérations de rachat et de partenariat avec les sociétés détentrices de ces données de santé convoitées, à l’instar de Cerner ou d’Epic (qui détiennent des dossiers médicaux) : « Les représentants de chez Google étaient vagues quant à l’utilisation qui serait faite des données de Cerner, ce qui a inquiété les dirigeants de la firme ».

Pour autant, le développement de ces utilisations des données de santé dans les interstices du droit se heurte à l’existence d’un cadre européen plus protecteur et qui continue d’inspirer en particulier aux Etats-Unis, à l’instar du California Consumer Privacy Act. D’autres textes sont en cours de discussion côté étatsunien, comme le Protecting Personal Health Data Act, qui vise à boucher les angles morts de la régulation en place (HIPAA) sur la question des objets connectés et des données de santé en ligne, mais qui ne semble pas encore prendre les EMD en considération.

Illustration - Charted by mag3737

Article rédigé par Martin Biéri , Chargé d'études prospectives

VOIR PLUS D'ARTICLES DE L'AUTEUR

Contenu annexe

Call for papers Privacy Research Day, June 24th 2026, Paris

25 février 2026

Appel à communication – Journée de recherche sur la vie privée à Paris le 24 juin 2026

25 février 2026

Quand la Chine cible une minorité grâce à l’intelligence artificielle

25 avril 2019