Big data et santé : les géants du numérique à l’épreuve des épidémies
Rédigé par Martin Biéri
-
11 March 2021La pandémie de Covid-19 a éprouvé nos limites, qu’elles soient d’anticipation, de suivi ou encore d’analyse sanitaire. Pourtant, les outils à notre disposition n’ont jamais été aussi puissants et la question du mariage du big data et des données de santé n’est clairement pas nouvelle. Les grandes plateformes du numérique ont toutes investi dans la recherche (intelligence artificielle, machine learning, ordinateur quantique, etc.), avec le champ de la santé comme application. Qu’ont donc apporté les géants du numérique à la lutte contre la pandémie ?
La situation de la pandémie de Covid-19 est assez inédite, notamment par le fait que nous – en tant qu’observateurs extérieurs – avons l’impression de pouvoir suivre en presque temps réel la progression de la maladie, avec son avalanche de cartes, de chiffres, de modélisations et de projections, largement partagés en ligne (CovidTracker de Guillaume Rozier et son extension VaccinTracker en sont les parfaites illustrations). Les données de morbidité, de mortalité s’échangent, se mutualisent afin d’analyser et de cartographier la diffusion du virus (voir nos articles Coronoptiques d’avril 2020). Mais, d’une manière générale, il est notable que dans cet épisode de pandémie mondiale la tentation du « tout résoudre par le big data » soit restée discrète. Est-ce parce que l’on commence à connaître les limites du big data (« l’approche par des corrélations massives [a] une capacité descriptive intéressante, mais une capacité prédictive limitée » (B. Beaude, N. Nova – Réseaux 2016/1 (n° 195))), ou parce qu’un « événement comme le ou la Covid-19, c’est incalculable » (B. Stiegler, juin 2020) ? Le big data a-t-il pour autant été abandonné dans la lutte contre la Covid-19 ?
La recherche de la prédiction : le précédent Google Flu Trends
En 2008, l’outil « Google Flu Trends » est lancé. Fondé sur les requêtes tapées dans le moteur Google, il devait permettre aux spécialistes de santé comme aux individus lambdas d’observer et d’anticiper les pics de grippe grâce aux volumes de recherche comprenant des mots-clés comme « symptômes grippaux » ou « fièvre et toux », etc. Le but étant à la fois de montrer la puissance de ces nouvelles informations récupérées par Google, mais également de combler des lacunes en termes de remontée d’informations sanitaires de terrain aux Etats-Unis (notamment en termes de rapidité – l’écart entre le suivi et le terrain peut aller jusqu’à deux semaines). La localisation était déterminée en associant l’adresse IP de l’utilisateur puis les données étaient agrégées par grandes régions ou grandes villes. Cet outil avait soulevé des critiques quant à sa pertinence et son taux de précision, mais également pour certains angles morts : après avoir raté l’épidémie de grippe H1N1 en 2009, c’est un écart de 50% qui avait été pointé entre les estimations de grippe par Google et les données de terrain recueillies par les CDC (Center for Disease Control and Prevention) américains. Ce qui avait conduit Google à fermer l’outil en 2015, en laissant toutefois les anciennes données accessibles (de nouvelles données issues de ce service sont accessibles dans un cadre spécifique de recherche, sur demande).
En 2014, l’article The parable of Google Flu (La parabole de l’outil Google Flu, Lazer et al.) pointait les principaux écueils qu’avait rencontrés l’entreprise de Moutain View avec leur outil : d’abord, ce qu’ils ont nommé « l’hubris du big data », c’est-à-dire l’idée selon laquelle tout pouvait désormais se résoudre par des calculs et des données en masse, en cherchant à se substituer à l’existant plutôt qu’à le compléter (« c’est la supposition implicite que le big data est un substitut plutôt qu’un supplément aux outils traditionnels de recueil et d’analyse des données »). Un autre grand point souligné par cet article est la tension entre « le bien commun » et les objectifs marketing de l’entreprise : les données sont issues du search (le moteur de recherche), que ne cessent de modifier les ingénieurs de Google, afin d’optimiser les recherches mais surtout de tirer une meilleure rentabilité à travers la publicité notamment (« les dynamiques de l’algorithme »). Ce qui induit un changement constant dans la méthode du fonctionnement de Google Flu Trends, jusqu’à questionner la validité d’une comparaison des données historiques selon les modifications du fonctionnement de ce moteur de recherche (la tension entre marketing et fiabilité pour un moteur de recherche était déjà pointé en 1998 dans un billet scientifique de… Larry Page et Sergey Brin, les deux fondateurs de Google).
L’article souligne néanmoins le fait que les données issues de l’outil Google restaient utiles : les auteurs le démontraient en l’associant à d’autres données. Et, en 2019, une étude a repris les données Google Flu Trends dans un exercice de réhabilitation : elle confirme ainsi que ces données sont utiles… mais aussi en creux que, seules, elles ne sont pas suffisantes. Elles permettent une meilleure précision dans des projections, en passant par des croisements avec des bases de données et des modélisations fondées sur des relevés fins de terrain et des données historiques. Google avait déjà relancé de manière plus discrète Google Flu Trends sous un autre nom (ARGONet) et avec l’ajout de nouvelles variables.
La spécificité du Covid-19 comme discriminant
La tentation d’utiliser ce genre de données a été réactualisée en période de pandémie de Covid-19 : pour les observateurs, c’est désormais Google Trends (outil permettant d’avoir des mesures de volumes de requêtes sur Google) qui est alors plébiscité pour suivre l’évolution de la pandémie de Covid-19. Par exemple, le projet d’« Algorithmes contre Coronavirus » consiste en l’analyse de l’ensemble des données disponibles liées de près ou de loin à la maladie afin de les représenter sous diverses formes. Les données Google Trends sur les mots-clés autour de la perte de goût et d’odorat font partie des symptômes suffisamment discriminants selon eux permettant de créer un indicateur (une note de 0 à 100) de présence et de vitesse de diffusion du virus : « Analyser les mots tapés sur le moteur de recherche Google et leur fréquence, c'est donc avoir une indication sur la présence du virus dans la population : c'est un indicateur avancé, qui permet d'estimer, avec 2 à 3 semaines à l'avance, combien de personnes seront en réanimation dans les hôpitaux. ». De la même manière, le Washington Post s’interroge : Google peut-il prédire où les cas de coronavirus vont émerger ? (Can Google searches predict where coronavirus cases will soon emerge?). Et suppose, eux aussi, une corrélation entre un pic de recherches et un volume du nombre de cas recensés, avec ici aussi deux semaines d’écart.
Pour autant, ces données ont leurs limites : d’échelle déjà, puisqu’elles ne permettraient d’identifier clairement ces tendances sur des « grands espaces » (les départements en France, les Etats américains ou l’échelle nationale). Mais aussi d’anticipation : le signal est-il encore faible lorsque le corpus nécessaire doit avoir un certain volume ? Est-ce que ces données apportent véritablement des informations aux autorités sanitaires (Santé Publique France, et Agences régionales de santé en France), qui ont d’autres indicateurs, notamment des informations de terrain (réseaux de médecins, CPAM, laboratoires, etc. – voir ici le fonctionnement du suivi « classique » d’une épidémie de grippe) ?
Puissance de calcul quand même
S’ils ne peuvent pas tout prédire et s’ils ne peuvent se reposer seulement sur leurs propres données pour identifier des phénomènes de santé, les géants du numérique ont depuis plusieurs années étoffé leurs offres d’outils et de services, qu’il s’agisse d’intelligence artificielle ou de capacités de stockage. Qui ont, dès lors, été mis à disposition des autorités publiques et des chercheurs. Depuis le mois d’octobre 2020, Facebook a fait une publicité plus grande à l’utilisation de ces outils dans le cadre de la lutte contre la pandémie, notamment par plusieurs publications (un papier de recherche et des posts de blog sur le site Facebook AI) explicitant les nouvelles actions de la firme. Facebook s’emploie ainsi à lutter contre la pandémie grâce à la puissance de l’intelligence artificielle, puis permettant de produire des prévisions de l’évolution géographique de la maladie : et donc arriver à des projections plus unifiées, malgré les disparités géographiques, démographiques et de politiques sanitaires. L’entreprise avait déjà mis en juin dernier ses outils de calcul et de traitement de données au service du gouvernement autrichien afin de produire ce genre de prévision à 7 jours. Amazon a, dès avril dernier, laissé ouvert un « data lake » (lac de données) concernant la Covid-19, et laissé l’utilisation de ressources gratuites à ce sujet (dans lequel on retrouve notamment Foursquare, qui avait déjà pivoté dans sa stratégie comme on l’écrivait il y a quelque temps). Microsoft avait lancé également des bourses de recherche « AI 4 Health » spécialement consacrées à la Covid…
Au-delà de ce rôle de prestataire déjà connu, ces mêmes géants du numérique n’ont pas abandonné l’idée de trouver une utilité aux données qui sont produites via l’utilisation de leurs plateformes et services. Ils sont, de fait, producteurs de données et les mettent alors, à travers différents partenariats, à disposition. A commencer donc par les données de mobilité et leur faculté à les cartographier. L’intérêt des données des GAFAM d’être associées à la cartographie n’est pas nouveau ici non plus : Facebook, à travers le travail de Paul Butler, avait démontré dès 2010 qu’à travers l’ensemble de ses utilisateurs et les liens qu’ils avaient entre eux, il n’était presque pas nécessaire de disposer d’un fond de carte pour rendre visible le planisphère (cité dans B. Beaude, N. Nova, supra).
D’autres ressources : les données de mobilités et les utilisateurs eux-mêmes
D’un point de vue extérieur pourtant, ces données de mobilité disponibles et déjà analysées par les entreprises de la tech pouvaient avoir quelque chose de décevant : dès mars 2020, l’entreprise Foursquare (citée plus haut) avait lancé l’analyse de ses données de géolocalisation pour expliquer la situation, avec des conclusions peu surprenantes finalement : lors d’une pandémie mondiale, les individus tendent à réduire leurs activités et leurs interactions sociales. Les PDF mis à disposition par Google sur la mobilité lors des confinements, par grands types de lieux, n’avaient dès lors qu’un intérêt très limité (même si elles ont pu servir dans les exercices de communication politique du gouvernement).
Pourtant, dès mai 2019 – au moment où Roni Zeiger, l’une des figures ayant développé Google Flu Trends et Google Health, quittait Google pour rejoindre Facebook –, l’entreprise de Mark Zuckerberg lançait son projet de Cartes de prévention de maladie (Disease prevention maps), fondé sur une volonté similaire : permettre que les données récupérées par l’activité des utilisateurs de sa plateforme servent dans le champ de la santé. Mais avec réalité différente entre le titre et le contenu : il ne s’agit pas cette fois d’apporter des projections ou des estimations de phénomènes de santé ou de nombre de malades, mais bien des données complémentaires qui permettraient de cartographier plus précisément les contextes dans lesquelles s’inscrivent ces situations de santé et d’aider les actions portées par les services publics. Ainsi sont disponibles des cartes de chaleur (heat maps) retranscrivant l’intensité d’un phénomène, des cartes de densité de population et d’estimation démographique, des cartes de mouvement de population et des cartes de réseaux.
Google et Facebook avaient ainsi, dès avril 2020, indiqué fournir aux autorités publiques des données de mobilités anonymisées afin de pouvoir suivre l’évolution des mouvements en parallèle de l’épidémie. Facebook a d’ailleurs inscrit ces ressources dans son programme Data for good, avec plusieurs illustrations de l’utilisation de ces données dans le suivi des mesures sanitaires prises lors de l’épisode initiale de Covid-19, comme dans la ville américaine de Syracuse. Ces données ont permis à la mairie de la ville d’avoir un tableau de bord des tendances de mobilité par secteurs, selon différents « temps forts » (vacances, longs week-ends, hausse des températures saisonnières…). Une occasion de relire le dernier article LINC Coronoptiques : rendre visible le (non) respect du confinement.
Cependant, en parallèle de ces données de mobilités (dont Google et Apple disposent également, à travers leur position de fournisseur de smartphones et de leurs systèmes d’exploitation – respectivement Android et iOs), Facebook et Google disposent également d’une autre ressource : la masse d’utilisateurs de leurs services.
En effet, les partenariats des GAFAM avec la recherche et notamment avec la recherche universitaire sont enrichis de données « qualitatives », à travers des sondages et enquêtes en ligne poussés par les géants du numérique à leurs utilisateurs. Cela est particulièrement visible dans le contexte du Covid-19 : Facebook s’est ainsi associée avec des universités étasuniennes (notamment Carnegie Mellon University et l’université du Maryland) en poussant des sondages à ses utilisateurs sur leur état de santé (s’ils ont eu des symptômes, lesquels, s’ils portent un masque, s’ils connaissent quelqu’un dans leur communauté qui a ou a eu des symptômes, etc. – voir les détails sur cette page de l’université du Maryland). Ces sondages sont ainsi agrégés, pondérés, et réassociés à des données de santé publique plus générales, des données de mortalité, de morbidité, etc., permettent ainsi des cartographies de la situation aux Etats-Unis, mais également dans le monde : les sondages sont également poussés en Europe et en France. Google, à travers des enquêtes d’opinion poussées sur ses sites ou d’autres sites passant par ses services ou des applications dédiées (Google Opinions Reward notamment – une application qui récompense les réponses données à différentes enquêtes par des bons à utiliser dans le magasin d’application de Google) participe également activement à cet enrichissement des données pour les travaux des universitaires. Ils permettent, via leur rayonnement, de toucher rapidement une masse critique de personnes – en tout cas, celles qui sont connectées. Google a finalement lancé aux Etats-Unis Google Health Studies fin 2020, une nouvelle application pour permettre à tout utilisateur Android de participer à des programmes de recherche en santé (universités ou laboratoires).
Symptômes de la défaillance des systèmes de surveillance sanitaire ?
Il faut pourtant inscrire ces nouveaux outils dans un contexte particulier en ce qui concerne les Etats-Unis : outre la question de la rapidité de la remontée des informations (mentionnée pour Google Flu Trends), c’est aussi une problématique qui se pose à l’échelle d’un pays qui manque d’uniformité dans son système de santé. Les différences de gestion entre les Etats posent évidemment des problèmes pour un suivi global, mais aussi le manque d’infrastructures à un niveau fédéral. Le dernier exemple en date est celui de la vaccination : en France, par exemple, ces infrastructures existent et permettraient, via la CPAM, d’identifier les personnes de plus de 75 ans et plus qui sont susceptibles d’être contactées dans une stratégie de vaccination contre la Covid-19. Aux Etats-Unis, ces infrastructures sont défaillantes de ce point de vue ; dès lors, la stratégie de vaccination se fonde d’abord sur des « lieux », des environnements jugées particulièrement sensibles (hôpitaux, maisons de retraite, etc.).
De manière générale, l’avancée des solutions technologiques, des traitements de données de santé vient combler ce qui semble être un manque du côté des administrations, en particulier dans une situation d’urgence et de crise sanitaire. L’utilisation du protocole Google/Apple pour les applications de suivi de contacts Bluetooth répondait d’ailleurs à cette problématique : comment déployer rapidement un outil de tracking le plus largement possible et de manière interopérable (au regard des nombreuses discussions qu’il y a pu avoir sur le sujet, notamment autour de l’implémentation du protocole ROBERT en France, il n’est pas nécessaire de revenir sur ce sujet ici). Le contrat passé entre la NHS et Palantir relève du même constat que celui de Facebook et de l’Autriche : les grandes plateformes et grandes entreprises du numérique disposent des capacités de traitement et de stockage qui permettraient de traiter massivement les données disponibles de manière rapide… avec son lot d’interrogations quant à la souveraineté et aux résultats de ces traitements.
Dernier exemple en date, toujours autour de la vaccination : la sociologue Zeynep Tufekci revient sur la difficulté d’une stratégie de vaccination efficace, dans une discussion avec la professeure Whitney R. Robinson (UNC Gillings School of Global Public Health). Elles y pointent à la fois les angles morts (« ce que l’on sait que l’on ne sait pas, et ce que l’on ne sait pas que l’on ne sait pas ») qui entourent les décisions de santé relative à la Covid-19, en partant d’un raté à l’hôpital de Stanford. La stratégie de vaccination au sein de l’hôpital a été confié à un algorithme… mais mal configuré. En faisant porter la pondération de manière trop appuyée sur l’âge, cette dernière variable a complètement caché une autre : celle de l’exposition. Se sont donc retrouvées vaccinées en priorité des personnes plus âgées de l’administration, devant les praticiens hospitaliers… provoquant alors une manifestation au sein de l’hôpital. Les deux chercheuses soulignent la problématique qui est liée à cette volonté d’aller vite fonder sur des chiffres avant tout : il y a trop de variables et d’inconnues dans l’équation d’une politique de vaccination pour se reposer sur un traitement purement algorithmique.
Précédemment évoquée, la question de l’interopérabilité est également au cœur du projet d’un passeport vaccinal entre Microsoft et Oracle, mais rassemblant d’autres grands acteurs du numérique ou des données de santé (Cerner, Epic Systems, Salesforce, etc.). Au-delà de la gestion de la crise sanitaire en elle-même, il reste quelques questions en suspens en termes de maîtrise des données, de souveraineté des outils permettant d’avoir des indicateurs, des projections et autres tableaux de bord…
Illustration : "DNA lab" by umseas (CC BY 2.0)