Coronoptiques (3/4) : des modèles épidémiologiques au contact tracing, rendre visible la contagion

Rédigé par Antoine Courmont

 - 

08 avril 2020


Les données de déplacements des individus, collectées par les opérateurs téléphoniques, les industriels du marketing ou les individus eux-mêmes, suscitent des convoitises pour mieux comprendre la propagation du virus. Elles sont toutefois d'une fiabilité limitée qui varie selon les dispositifs de recueil.

Publié le 08 April 2020

Le second enjeu majeur dans la production de données est la compréhension des processus de circulation du virus. Rendre visible la propagation spatiale du virus poursuit plusieurs finalités pour lesquelles le type et la granularité des données vont varier : comprendre les caractéristiques de propagation spatiale du virus (comment le virus se propage), prédire les prochaines zones touchées et anticiper la mise en œuvre de mesures sanitaires adaptées (où le virus se propage), et identifier les personnes ayant été en contact avec le virus pour permettre une mise en quarantaine anticipée et ciblée sur des populations précises (qui le virus est susceptible de contaminer).

 


Des modèles épidémiologiques « faux, mais utiles »

Le propre d’une pandémie est la circulation rapide du virus. A partir de différents sources de données et modèles épidémiologiques, le New York Times a réalisé une infographie qui illustre cette circulation depuis le marché de la ville de Wuhan en décembre jusqu’aux villes américaines en mars. Des entreprises privées, qui vendent des offres d’analyse des flux de population à partir de l’usage des données de téléphonie mobile, proposent de les utiliser pour comprendre les déplacements de population et anticiper la circulation du virus. Orange a transmis aux pouvoirs publics les analyses issues de sa solution FluxVision selon lesquelles 17% des habitants du Grand Paris auraient quitté la région entre le 13 et le 20 mars. En Allemagne, Deutsche Telekom a transmis les données anonymisées de géolocalisation de ses 46 millions de clients à l’Institut Robert Koch. La Commission européenne a demandé aux principaux opérateurs téléphoniques de transmettre leurs données au JRC, le Centre d’étude scientifique de la Commission européenne, afin d’analyser la propagation de l’épidémie. Ces données agrégées en grande masse sont anonymes et traitées statistiquement. Après les opérateurs télécoms, ce sont les entreprises du logiciel qui collectent des données de géolocalisation via des applications mobiles qui commencent également  produire des données agrégées, comme « l’application Covimoov » qui propose de mesurer différents indicateurs cartographiques liés à la pandémie ou encore Google, cette profusion d’initiatives révélant par ailleurs l’intensité de la collecte de ces données de localisation par une grande pluralité d’acteurs.


L’épidémiologie a, depuis plus d’un siècle, construit des modèles statistiques visant à comprendre et prédire la propagation des épidémies. « La règle est qu’on cherche le modèle le plus simple pour répondre à la question posée » précise Laura Temime (Conservatoire national des arts et métiers). Les résultats issus des modèles sont dépendants des données disponibles en entrée et des hypothèses qui les nourrissent. Les déplacements de population sont une variable centrale. Or, comme l’explique au Monde Vittoria Colizza, directrice de recherches à l’Institut Pierre-Louis d’épidémiologie et de santé publique (Inserm-Sorbonne Université) : « Dans une pandémie de ce type, il y a une forte perturbation de la mobilité : les gens s’adaptent et ne voyagent plus à cause du confinement et de la restriction des déplacements, les trains circulent moins, les vols sont annulés. Il y a de très fortes perturbations de la mobilité : les modèles issus de la vie normale ne sont plus applicables et auraient donné des prédictions erronées. Il est important d’informer nos modèles avec des données qui suivent en temps réel ces changements. » Pour limiter ces biais et mesurer l’impact des mesures de confinement sur la propagation du virus, l’INSERM a établi, depuis plusieurs années, un partenariat avec Orange afin d’obtenir des données anonymisées et agrégées sur les déplacements de ses abonnés. Des recherches épidémiologiques similaires basées sur des données de téléphonie mobile ont déjà été menées lors des épidémies Ebola et de Malaria en Afrique et en Asie, avec des résultats limités sur la crise sanitaire.

 


Une localisation approximative


Tout comme les données de dépistage, les données de localisation issues des téléphones reposent sur des infrastructures techniques dont la précision et la fiabilité varient. La localisation par téléphonie mobile peut être effectuée par les opérateurs téléphoniques par bornage : relativement précise dans les zones denses aux nombreuses antennes relais, beaucoup moins dans les zones peu denses. Seuls les opérateurs télécom disposent de cette information. La deuxième option est la localisation par positionnement satellitaire (GPS). Elle présente l’avantage d’être disponible hors des zones de couverture des réseaux téléphoniques. Leur précision varie selon les modèles de smartphones, mais elle est de l’ordre de 5 mètres environ. Inconvénient : les GPS fonctionnent mal dans les environnements intérieurs et ne permettent pas, par exemple, de déterminer à quel étage d’un bâtiment vous vous trouvez. Les données de localisation GPS sont collectées par les fournisseurs des systèmes d’exploitation des smartphones (iOS, Android), ainsi que par certaines applications directement pour l’usage du service ou par le biais de SDK au profit d’acteur tiers. Ces derniers commercialisent ces données auprès d’autres acteurs, généralement à des fins publicitaires. La troisième option est la technologie Bluetooth qui permet de détecter les téléphones mobiles à proximité et d’estimer la distance entre ceux-ci en mesurant la puissance du signal. Elle est fréquemment utilisée, avec le wifi, dans les centres commerciaux ou les aéroports pour comprendre les déplacements des individus. Ce choix a été retenu par l’application TraceTogether utilisée à Singapour (voir supra).


Ces différentes modalités techniques de recueil de la localisation présentent toutes des avantages et des inconvénients qui varient selon les usages souhaités. Elles peuvent être combinées pour obtenir une précision la plus fine possible, mais elles font intervenir une multitude d’acteurs, disposant chacun d’informations et peu enclins à les partager. Toutes ces données de localisation, dont l’anonymisation est un processus complexe, sont particulièrement sensibles et doivent être maniées avec précaution pour respecter les libertés individuelles. Pour limiter l’impact sur les personnes, il convient dès lors de privilégier le traitement de données anonymisées et non de données individuelles, lorsque cela permet de satisfaire l’objectif. Dans les cas où un suivi individuel serait nécessaire, ce suivi devrait reposer sur une démarche volontaire de la personne concernée, avec le risque de ne disposer que d’un faible échantillon de la population.


Le contact tracing


Les épidémiologistes s’attendent à un rebond de la courbe épidémique à l’issue du confinement généralisé, du fait du nombre trop réduit de personnes immunisées dans la population. Pour gérer cette sortie de confinement, les gouvernements lorgnent sur les solutions de contact tracing mises en œuvre dans plusieurs pays asiatiques et par l’OMS dans la lutte contre le virus Ebola. Celles-ci visent à mobiliser des données de localisation des individus pour identifier les personnes susceptibles d’être contaminées et les inviter à se faire dépister, puis de s’isoler en cas de contamination, afin de briser les chaînes de transmission du virus.
La mise en œuvre de ces dispositifs de contact tracing varie selon les pays, de façon plus ou moins respectueuse de la vie privée des individus. Certains gouvernements ont fait le choix de croiser différentes bases de données publiques ou commerciales pour retracer les déplacements des individus contaminés et identifier les personnes ayant été en contact avec eux. Ils s’appuient pour cela sur des technologies mises en œuvre à des fins policières. En Israël, le gouvernement a autorisé le Shin Bet, le service de sécurité intérieur, d’utiliser des technologies habituellement utilisées pour lutter contre le terrorisme, pour identifier les personnes ayant été en contact avec ceux ayant été infectés, en croisant des données de localisation et de réseaux sociaux. En Corée du Sud, le Korea Centers for Disease Control and Prevention (KCDC), qui dispose de pouvoirs étendus depuis la crise du MERS-CoV, est autorisé à demander aux autres administrations, banques et opérateurs téléphoniques des informations sur les individus contaminés. Il mène ainsi une enquête approfondie sur les personnes contaminées en les interrogeant, en croisant des données de transactions bancaires, d’historique de localisation de leurs smartphones et de vidéosurveillance publique. Ces informations sont intégrées au registre public dans lequel le gouvernement indique la nationalité, le sexe, l’âge, le lieu de visite médicale, la date de contamination des personnes contaminées, ainsi qu’une foule de renseignements : quand elles sont parties travailler, si elles portaient un masque dans le métro, le nom des stations où elles ont effectuées leur correspondance, les salons de massage et les bars qu’elles fréquentaient, etc. A partir de ces données en open data, une multitude d’applications ont fleuri sur les app stores. Si elles ne sont pas nominatives, ces données personnelles permettent aisément de réidentifier les personnes contaminées, conduisant à des phénomènes de stigmatisation et de dénonciation.


D’autres dispositifs de contact tracing reposent sur des données collectées directement sur le terminal de l’utilisateur via des applications dédiées. L’utilisateur télécharge une application sur son téléphone qui soit le géolocalise en permanence, soit transmet une information de localisation à tous les téléphones présents à proximité. S’il est diagnostiqué positif au coronavirus, l’application alerte tous les utilisateurs de l’application qui ont été en contact avec lui afin qu’ils prennent des mesures de confinement. L’application singapourienne TraceTogether s’appuie sur le bluetooth pour enregistrer les rencontres entre deux personnes dans un rayon de deux mètres. Les données sont conservées, de manière chiffrée, pendant 21 jours sur le téléphone ; le ministère de la Santé peut y accéder sur demande pour identifier les personnes ayant été en contact. Ces choix techniques ont été jugés plus respectueux de la vie privée au regard des normes locales : Singapour, engagé depuis plusieurs années dans un important programme de Smart Nation, a voté en 2012 un texte de protection des données personnelles encadrant leur collecte et leur traitement. Disponible depuis le 20 mars, elle a été téléchargée, au 2 avril, par un million de personnes (sur 5,6 millions d’habitants).


Ces applications reposent sur deux postulats forts : il existe une procédure de test certifiée et contrôlée permettant de dépister en masse les cas suspects ; il est possible d’identifier avec précision les personnes avec lesquels un individu contaminé a été en contact. Or, d’une part, les modalités de dépistage ne sont pas exemptes de biais (cf. supra), et, d’autre part, la précision limitée des systèmes de localisation dans les zones denses risque rapidement d’indiquer à de nombreuses personnes qu’elles ont été en contact avec une personne contaminée. Google reconnait que les mécanismes de récolte de données d’Android ou de Google Maps ne sont « pas construits pour fournir des enregistrements robustes et de haute qualité à des fins médicales et ne peuvent être adaptées à cette fin [not designed to provide robust or high-confidence records for medical purposes and the data cannot be adapted to this goal] ». Enfin, elles supposent que les personnes disposent individuellement d’un téléphone portable, acceptent de télécharger ces applications et le conservent avec eux tout au long de la journée. Si une de ces associations se délite, alors toute cette chaîne de surveillance de la population s’interrompt.

 


Article rédigé par Antoine Courmont , Chargé d’études prospectives