Idée et contexte

Un adage en modélisation mathématique et statistique dit que « tous les modèles sont faux ». En effet, un modèle fait toujours des hypothèses et est donc une simplification de la réalité.

Un des moyens d’augmenter la puissance des modèles est de regrouper les forces. L’idée est simple : avoir plusieurs équipes qui répondent à la même question chacune à leur manière. Ceci permet de voir dans quelle mesure les prévisions sont sensible aux hypothèses et aux données utilisées.

Nous avons effectué ce travail pour l’épidémie de COVID-19 en France. Plus précisément, la question posée était : « En utilisant les données disponibles jusqu’au 9 juin 2020, pouvez-vous estimer le nombre de reproduction de l’épidémie suite à la mise en place du déconfinement en France le 11 mai 2020 ? ».

L’invitation a été envoyée aux équipes ayant posté des manuscrits sur arXiv et medRxiv concernant la modélisation de l’épidémie de COVID-19 en France.

Équipes participantes

  • L’unité de recherche BioSP de INRAE développe des travaux en statistique, en systèmes dynamiques, en écologie-épidémiologie, et aux interfaces entre ces différentes disciplines avec un intérêt particulier pour les questions spatiales et spatio-temporelles. Résumé des travaux de l’unité sur le COVID-19 : https://informatique-mia.inrae.fr/biosp/COVID-19.

  • Le groupe de modélisation de l’équipe ETE a rédigé des rapports, notes et articles scientifiques relatifs à l’épidémie de COVID-19 : http://covid-ete.ouvaton.org

  • L’équipe SISTM, Statistiques en immunologie pour la médecine translationnelle, est affiliée à Inria Bordeaux Sud-Ouest et au centre Inserm U1219 Bordeaux Population Health. Le groupe de travail en modélisation de l’équipe s’intéresse aux modèles de dynamique d’infections intra- et inter-hôtes. Dans le cadre de la mission Inria Stop COVID-19, les projets GESTEPID s’intéressent à l’effet des politiques sanitaires et au suivi précoce de reprise épidémique, avec une concentration sur la Nouvelle-Aquitaine.
  • L’équipe SiSyPhe (Signaux, Systèmes et Physique) de l’ENS de Lyon est spécialisée dans l’interaction entre l’analyse de signaux expérimentaux issus d’expériences réelles et le développement de solutions théoriques pour des problèmes d’analyse de données et traitement du signal, définis par la confrontation aux données expérimentales.

  • Le groupe de chercheurs autour du projet MEM est issu d’une équipe projet commune Inria (CORSE) qui n’a initialement aucunes compétences ni en épidémiologie, ni en statistiques… Ce sont les compétences orthogonales en mathématiques (continues et discrètes), informatiques (optimisation de performances), et recherche opérationnelle qui sont exploitées ici. L’objectif du projet est le développement d’un simulateur open-source qui se place à mi-chemin entre modèles distribués (stochastique) et modèles compartimentaux.

Résultats

Valeurs brutes

Le tableau suivant indique les estimations du nombre de reproduction temporel estimé par les différentes équipes entre le 11 mai et le 9 juin. Les résultats varient selon les méthodes, les données et les hypothèses utilisées.

Auteurs Équipe Rt central borne inférieure à 95 % borne supérieure à 95 % date début estimation (par défaut le 11 mai) date fin estimation (par défaut le 9 juin) données utilisées références
Mélanie Prague, Linda Wittkop, Dan Dutartre, Rodolphe Thiébaut, Boris Hejblum SISTM 0.72 0.46 1.16 05/11/2020 06/04/2019 https://www.medrxiv.org/content/10.1101/2020.04.21.20073536v1
Juergen Reingruber, Andrea Papale, David Holcman Holcman 0.56 0.67 https://www.medrxiv.org/content/10.1101/2020.05.15.20099465v3
Marc Lavielle Xpop 0.78 05/11/2020 06/09/2020 nouvelles infections, décès http://shiny.webpopix.org/covidix/app2/
Patrice Abry, Nelly Pustelnik, Stéphane Roux, Pablo Jensen, Patrick Flandrin, Remi Gribonval, Charles-Gerard Lucas, Eric Guichard SiSyPhe, ENS Lyon 0.7 0.66 0.76 11/05/2020 09/06/2020 hospitalisations (SPF) https://perso.ens-lyon.fr/patrice.abry/CovidProx.pdf
Bastien Reyné, Mircea T. Sofonea, Samuel Alizon ETE Modelling team 0.70 0.58 0.84 07/06/2020 admissions en réanimation http://bioinfo-shiny.ird.fr:3838/Rt/
Lionel Roques, Samuel Soubeyrand BioSP 0.71 0.69 0.74 21/05/2020 05/06/2020 décès hospitaliers Cf post 26 mai sur http://covid19.biosp.org
Patrice Abry, Nelly Pustelnik, Stéphane Roux, Pablo Jensen, Patrick Flandrin, Remi Gribonval, Charles-Gerard Lucas, Eric Guichard SiSyPhe, ENS Lyon 0.72 0.69 0.74 11/05/2020 09/06/2020 hospitalisations (SPF) https://perso.ens-lyon.fr/patrice.abry/CovidProx.pdf
Fabrice Rastello, Guillaume Iooss, Auguste Olivry CORSE 0.74 0.67 0.81 11/05/2020 09/06/2020 hospitalisations SpF code disponible sur https://gitlab.inria.fr/rastello/multilevel-epidmodel
Patrice Abry, Nelly Pustelnik, Stéphane Roux, Pablo Jensen, Patrick Flandrin, Remi Gribonval, Charles-Gerard Lucas, Eric Guichard SiSyPhe, ENS Lyon 0.8 0.67 1.34 11/05/2020 09/06/2020 nouvelles infections (ECDC) https://perso.ens-lyon.fr/patrice.abry/CovidProx.pdf
Fabrice Rastello, Guillaume Iooss, Auguste Olivry CORSE 0.84 0.76 0.90 11/05/2020 09/06/2020 hospitalisations SpF code disponible sur https://gitlab.inria.fr/rastello/multilevel-epidmodel
Patrice Abry, Nelly Pustelnik, Stéphane Roux, Pablo Jensen, Patrick Flandrin, Remi Gribonval, Charles-Gerard Lucas, Eric Guichard SiSyPhe, ENS Lyon 0.88 0.71 1.13 11/05/2020 09/06/2020 nouvelles infections (ECDC) https://perso.ens-lyon.fr/patrice.abry/CovidProx.pdf
Mircea T. Sofonea, Bastien Reyné, Baptiste Elie, Ramsès Djidjou-Demasse, Christian Selinger, Yannis Michalakis, Samuel Alizon ETE Modelling team 0.908 0.813 1 12/05/2020 08/06/2020 admissions en réanimation, lits occupés en réanimation, décès hospitaliers https://doi.org/10.1101/2020.05.22.20110593
François Blanquart Stochastic Models for the Inference of Life Evolution / Quantitative Evolutionary Microbiology 0.92 0.85 1 11/05/2020 09/06/2020 nouvelles infections, décès
Baptiste Elie, Bastien Reyné, Thomas Beneteau, Mircea T. Sofonea, Samuel Alizon ETE Modelling team 0.98 0.93 0.99 11/05/2020 09/06/2020 admissions en réanimation https://doi.org/10.1101/2020.05.22.20110593
Marc Dhenain AVF 1.016 1.015 1.017 11/05/2020 09/06/2020 Décès https://doi.org/10.1101/2020.04.07.20055913 et https://doi.org/10.4267/2042/70840
Félix Foutel Rodier, François Blanquart, Amaury Lambert, Emmanuel Schertzer, SMILE team Stochastic Models for the Inference of Life Evolution 1.098 1.068 1.128 11/05/2020 09/06/2020 admissions en réanimation, hospitalisations, décès (hospitaliers ?)
Youcef Mammeri LAMFA CNRS UMR 7352 1.10 1.03 1.16 11/05/2020 09/06/2020 nouvelles infections, décès (hospitaliers ?) (Université Johns Hopkins) arXiv:2005.03499
Olivier Thomine Epidemap 1.25 1.19 1.30 11/05/2020 09/06/2020 admission en réanimation Epidemap, rapport ModCov19

Méta-analyse

Samuel Soubeyrand a réalisé une méta-analyse des résultats obtenus avec chaque approche afin d’avoir une vision synthétique.

Dans l’Annexe A, on peut trouver le détail de l’approche et l’évaluation de la robustesse du résultat de la méta-analyse (notamment l’influence de la prior et l’influence de chaque étude).

Les figures ci-dessous montrentles valeurs liées à la moyenne du nombre de reproduction temporel (\(R_t\), en haut) et à son écart type (en bas). Les panneaux de gauche montrent la valeur pour chaque itération et ceux de droite les distributions postérieures de ces valeurs.

Figure. Chaînes et posteriors marginales obtenues avec \((a,b)=(3,1)\), i.e. \((E(r),V(r))=(3,3)\).

Pour \((a,b)=(3,1)\), la médiane a posteriori du paramètre \(r\) correspondant à \(R_t\) est de 0.90 (intervalle de crédibilité à 95% : [0.79,1.01]).

De plus, la médiane a posteriori du paramètre \(\sigma\), correspondant à l’écart type de \(R_t\), est de 0.21 (intervalle de crédibilité à 95% : [0.15,0.32]).

Enfin, la probabilité a posteriori de l’évènement \(r>1\), c’est-à-dire que l’épidémie soit en croissance est de 0,04.

Discussion

Ce travail collectif représente une avancée pour plusieurs raisons.

  • il a mené à 18 estimations de \(R_t\) couvrant à peu près la même période et donnant une gamme de possibles, ce qui évite une focalisation sur telle ou telle valeur ;

  • il permet d’aborder les variations du nombre de reproduction temporel de \(R_t\) via des courbes portant sur les 2-3 mois qui précèdent ;

  • il fournit une synthèse des estimations de mi-mai à mi-juin par une méta-analyse, approche qui est généralement considérée (par les scientifiques et les individus qui s’intéressent aux sciences) comme une avancée par rapport à la mono-analyse ;

  • le \(R_t\) estimé par la méta-analyse, son IC, et la probabilité qu’il soit au-dessus de 1 peuvent constituer une sorte de “baromètre” que l’on pourrait fournir régulièrement.

Un travail critique est en cours pour affiner les estimations, en particulier pour expliquer l’hétérogénéité des prédictions. Plusieurs pistes de travail sont en cours d’exploration :

  • mettre à jour les estimations régulièrement

  • réaliser une analyse multi-factorielle des modèles

  • réaliser les analyses sur des jeux de données identiques

Annexe A: Méta-analyse

Modèle

Modèle hiérarchique : \[\begin{align} R_i &\sim \text{Normale}(r_i,s_i^2)\\ s_i &= (R_i^\text{sup}-R_i^\text{inf})/(2q_{0.975})\\ r_i &= r+\delta_i\\ \delta_i &\sim \text{Normale}(0,\sigma^2)\\ r &\sim \text{Gamma}(a,b), \text{ tel que } E(r)=ab \text{ et } V(r)=ab^2\\ \sigma &\sim ~ \text{Uniforme}(0,10) \end{align}\]

\(R_i\), \(R_i^\text{inf}\) et \(R_i^\text{sup}\) sont l’estimation de taux de reproduction efficace et les bornes de l’intervalle de confiance à 95% obtenues avec la méthode \(i\), \(q_{0.975}\) est le quantile d’ordre 0.975 de la loi normale standard, \(r\) est le taux de reproduction efficace que l’on souhaite estimer tandis que \(r_i\) est le taux de reproduction efficace visé par la méthode \(i\).

Le modèle hiérarchique peut être ré-écrit plus simplement sous la forme suivante : \[\begin{align} R_i &\sim \text{Normale}(r,\sigma^2+s_i^2)\\ s_i &= (R_i^\text{sup}-R_i^\text{inf})/(2q_{0.975})\\ r &\sim \text{Gamma}(a,b), \text{ tel que } E(r)=ab \text{ et } V(r)=ab^2\\ \sigma &\sim ~ \text{Uniforme}(0,10) \end{align}\]

Les lois a posteriori de \(r\) et \(\sigma\) sont évaluées à l’aide d’un algorithme MCMC (1 million d’itérations, 10 milles premières itérations supprimées, sous-échantillonnage régulier de la chaîne au 1 cinquantième).

Influence de la loi a priori

L’influence de la loi a priori de \(r\) est évaluée en réalisant la méta-analyse pour différentes valeurs de \((a,b)\) et en observant les variations de la médiane a posteriori de \(r\) et la probabilité a posteriori de \(r>1\).

Tableau. Influence de la loi a priori :

Prior mean of \(r\) Prior var. of \(r\) Posterior median of \(r\) \(P(r>1 \mid \text{data})\)
1 0.5 0.9 0.03
1 1 0.9 0.03
1 1.5 0.9 0.03
1 2 0.9 0.03
1 2.5 0.89 0.03
1 3 0.9 0.03
1 3.5 0.89 0.03
1 4 0.9 0.03
3 0.5 0.94 0.13
3 1 0.92 0.07
3 1.5 0.91 0.05
3 2 0.9 0.05
3 2.5 0.9 0.04
3 3 0.9 0.04
3 3.5 0.9 0.04
3 4 0.9 0.04