Algorithmes, données sociales et erreurs des modèles de prévision de menace : le cas d’Ebola

18 Avr, 2015

Le gouvernement tente actuellement de convaincre l’opinion et les députés de la nécessité d’installer des boites noires chez les opérateurs réseaux et fournisseurs de service internet pour qu’elles surveillent nos données personnelles afin de détecter et prédire des menaces terroristes. Très controversée, cette mesure n’en serait-elle pas moins efficace ?

J’ai passé plus de 9 mois à travailler quotidiennement (et bénévolement) sur Ebola ; à veiller, vérifier, croiser et reporter en ligne les informations issues des médias sociaux, de la presse en ligne, des rapports officiels et des ONG afin de remonter des situations de signaux faibles d’apparition d’Ebola dans la sous région et de donner une vue à l’échelle régionale de la propagation de l’épidémie. Une partie de ses informations sont consignées dans deux cartes (1) (2).

Lors de cette action, beaucoup d’articles ont porté sur les nouvelles technologies appliquées à la modélisation et la prévision d’Ebola dont il convient ici de s’intéresser alors que ces technologies nous sont vendues par le gouvernement dans la loi sur le renseignement comme efficaces pour détecter les menaces liées au terrorisme.

Nous essaierons de voir, par des exemples concrets, comment ces modèles se sont imposés comme des sources fiables, en quoi ils se sont avérés faux et quels ont été les dangers induis par leurs erreurs intrinsèques, pourtant la plupart du temps grossières, dans la gestion de la crise sanitaire d’Ebola.

3 types de modèles de prévisions ont été avancés lors de cette crise : ceux liés aux métadonnées de connexion mobiles, ceux liés à la détection de signaux faibles dans les données issues de médias en ligne et enfin les modèles de prévision de l’évolution temporelle de l’épidémie.

 

1/ Métadonnées de connexion mobile et prédiction du développement spatial d’Ebola

Lors de la crise Ebola en Afrique de l’Ouest, Orange Télécom a décidé de fournir gracieusement ces données de connexion mobile et ses ingénieurs à l’ONG suédoise FlowMinder pour analyser et prédire les déplacements et la diffusion d’Ebola dans la sous-région (3).

150 000 téléphones mobiles ont vu leurs données récoltées, anonymisées et agrégées puis analysées par des scientifiques internationalement reconnus comme Caroline Buckee, une chercheuse d’Harvard.

Le projet a notamment abouti à une carte, largement relayée par les opérationnels. Or, cette carte était non seulement complètement fausse sur les trajectoires de propagation d’Ebola, mais elle ne faisant même pas ressortir les axes principaux de propagation du virus en cours ; carte encore aujourd’hui complètement erronée.

Ci-dessous (4), cette carte que j’avais alors rapidement rectifiée en fonction des données que j’avais géoréférencées sur ma carte.

Carte de prévision d'Ebola rectifiée

Non seulement cette carte livrée comme un exemple de prévision spatiale d’Ebola était fausse mais l’aspect le plus inquiétant était que des opérationnels l’aient considérée comme fiable sous prétexte que la source scientifique était sérieuse (chercheurs d’Harvard avec Orange quand même !).

Ainsi, j’avais passé plusieurs tweets et quelques emails pour informer les opérationnels de ne pas relayer ce projet et de ne pas suivre ces prévisions au niveau opérationnel car ne correspondant nullement à la réalité et aux infos que je récoltais depuis des témoignages de terrain ou rapports officiels, même lacunaires. J’ai vu des opérationnels qui ont ainsi supprimé leurs tweets présentant avantageusement ce projet.

Par exemple, le tweet ci-dessous (4), émanant pourtant d’un des spécialistes international en matière de big-data appliqué à l’humanitaire.

https://twitter.com/Moro_Cedric/status/504686697540763648

Pire, lorsque j’alertais, sur les hashtags officiels de secours, les autorités de la diffusion de l’épidémie dans certaines zones à partir de signaux faibles que je repérais, ces informations n’étaient pas suivis de réponse (5).

Epidémie d'Ebola à Nieni chiefdom non repéré dans les cartes de l'OMS

On m’a même répondu dans les salles skype de coordination que mes sources n’étaient pas officielles, alors qu’elles étaient vrais et vérifiables dans la presse, en direct avec des citoyens en ligne ou auprès des autorités locales. Quelques temps après ces alertes, l’OMS ira même pourtant jusqu’à dire qu’elle n’était pas au courant de la situaton catastrophique dans cette zone.

Le VOSG (Virtual operation support group) avait d’ailleurs repéré cette lacune de détection des signaux faibles que nous remontions dans les données de l’OMS (6) et que la MIT Technologie Review (entre autres) pointait l’importance de ma méthodologie non algorithmique dans la détection de signaux faibles localisés sur Ebola (7).

 

2/ Modèles de prévision de l’ampleur de l’épidémie

Pour essayer de dimensionner la réponse humanitaire à Ebola (nombre de centres à ériger et à équiper, nombre de soignants…), il était important de prévoir le nombre de cas qui pouvaient contracter le virus Ebola dans un futur proche. Ainsi, CDC  (Centre pour le contrôle des maladies américain) et OMS (Organisation mondiale de la santé) ont recruté de grands spécialistes de l’analyse de données pour centraliser et créer des modèles de prévision de l’épidémie. Issue des bases de données des Ministère de la santé des pays concernés, consolidées par les experts de l’OMS, la source « semblait » donc sérieuse, si sérieuse que tous les médias relayaient leurs prévisions ; chose que je me suis bien gardé de faire de mon côté.

Ainsi, en septembre, pour le CDC US, qui est quand même une référence internationale aussi importante que l’OMS, le nombre de cas devait atteindre 1,4 millions  pour le Libéria et la Sierra Léone en janvier, sans compter la Guinée (8) ; pays qui ne comptent pourtant que 4 et 6 millions d’habitants. Une véritable hécatombe prévue par les modèles justifiant toute forme de mise sous tutelle internationale.

Ces modèles se sont tous trompés comme le montre le graphique suivant (nombre de cas bien inférieur aux prévisions, réponse humanitaire décallée) (9) :

Graphique de la réponse US à Ebola au Libéria

Donc, non seulement leurs modèles n’ont pas prévu l’émergence de la crise Ebola qui aurait permis de stopper l’épidémie dans l’oeuf mais leurs prévisions ont continué à se révéler complètement fausses alors que les plus grands spécialistes de la planète s’étaient emparés de la question.

 

3/ Modèles algorithiques de détection de signaux faibles d’épidémie

Une autre organisation, HealthMap, issue d’Harvard également, s’est aussi vantée d’avoir détecter et prévue l’émergence d’Ebola grâce à ses algorithmes de veille du web sur les situation sanitaires des pays (10).

Malheureusement, tout cela n’était qu’un tissus de mensonge à vocation publicitaire visant à leur assurer réputation et attraction de financements. En effet, l’information détectée n’a jamais été annoncée par cette organisation comme l’éclosion d’une épidémie d’Ebola et a été détectée après tous les acteurs en place, c’est-à-dire les médecins et ministères de santé locaux, MSF et la presse locale et, pour le foyer initital, peu de temps avant que l’OMS ne tire la sonnette d’alarme sans même qu’HealthMap n’ait dit qu’il y avait un problème sérieux sur cette zone.

 

Conclusion

Alors que des moyens opérationnels de base manquaient (ambulances, équipements de protection des soignants, formation locale..) occasionnant des centaines de morts parmi le personnel soignant et plus encore chez les patients, des moyens financiers importants de lutte sont ainsi allés vers des technologies qui non seulement n’ont pas été efficaces pour prédire Ebola mais qui ont de plus participé à désorganiser et affaiblir la réponse.

Alors que l’Etat s’apprête à mettre en place de tels dispositifs au nom de la lutte contre le terrorisme, il ferait mieux de revoir le redéploiement de ces moyens au plus proche de terrain, dans des processus d’analyse et de recoupement de signaux faibles plutôt que de se fier à des technologies de prévision douteuses, impactant négativement non seulement l’opérationnel mais aussi la confiance numérique dans notre pays et ses institutions.

Si nous avons montré ici que les modèles de prévision basés sur les données sociales sont peu opérationnels, au moins pour des dangers épidémiques comme Ebola ; dans le prochain article, je me pencherai sur l’analyse des réseaux sociaux, principalement à partir de nos données issues des médias sociaux et de leur recoupement avec d’autres données.

 

(1)  Cédric Moro – Ebola E-tracking in Sierra Leone, Liberia and Guinea (started: 2014 July 11 – Stopped: 2015 Feb 7)

http://umap.openstreetmap.fr/fr/map/ebola-e-tracking-in-sierra-leone-liberia-and-guine_12522#8/7.436/-11.860

(2)  VISOV: Suivi de l’épidémie d’Ebola de mars à avril 2014.

http://umap.openstreetmap.fr/fr/map/fin-maj-29-avril-closed-on-april-29-visov-suivi-ep_6356#7/8.760/-9.141

(3)  David Talbot – 22 août 2014 “Cell-Phone Data Might Help Predict Ebola’s Spread” MIT Technology Review

http://www.technologyreview.com/news/530296/cell-phone-data-might-help-predict-ebolas-spread/

(4)  Tweet de Cédric Moro à Patrick Meyer lui indiquant de ne pas relayer le modèle erroné de prevision d’Ebola, réalisé par Flow Minder et Orange

vhttps://twitter.com/Moro_Cedric/status/504686697540763648

(5)  Tweet de Cédric Moro indiquant que ses alertes de propagation d’Ebola ne sont pas prise en compte dans les cartes officielles.

https://twitter.com/Moro_Cedric/status/531897114872545280/photo/1

(6)  Article du VOSG indiquant les alertes des médias sociaux sur Ebola non prises en compte par les institutions : « Isolating #Ebola on social networks » 11/11/2014.

http://vosg.us/blog/2014/11/11/ebola-hashtags/

(7)  Article du MIT Technologie Review mentionnant ma méthodologie de repérage des signaux faibles et de besoins opérationnels « How An Intelligent Text Message Service Aims To Tackle Ebola In Western Africa » 20/10/2014.

http://www.technologyreview.com/view/531916/how-an-intelligent-text-message-service-aims-to-tackle-ebola-in-western-africa/

(8)  Washington Post “CDC: Ebola could infect 1.4 million in Liberia and Sierra Leone by end of January” Septembre 2014.

http://www.washingtonpost.com/national/health-science/cdc-ebola-could-infect-14-million-in-west-africa-by-end-of-january-if-trends-continue/2014/09/23/fc260920-4317-11e4-9a15-137aa0153527_story.html

(9)  “Ebola Clinics in Liberia Are Seen as Misstep in U.S. Relief Effort” – New York Time – Avril 2015.

http://www.nytimes.com/2015/04/12/world/africa/idle-ebola-clinics-in-liberia-are-seen-as-misstep-in-us-relief-effort.html?smid=tw-nytimes&_r=0

(10) “Social Data for Ebola Surveillance – Algorithms that map social media posts and mobile phone data can help researchers track epidemics.” The Scientist.

http://www.the-scientist.com/?articles.view/articleNo/40863/title/Social-Data-for-Ebola-Surveillance/

Certains des liens présentés ici auraient mérité leurs sources officielles d’origine mais je n’ai point eu le temps d’alller les rechercher.

About the author

Cédric Moro

Auteur du blog www.i-resilience.fr

Related Posts

Leave a reply