Un adage en modélisation mathématique et statistique dit que « tous les modèles sont faux ». En effet, un modèle fait toujours des hypothèses et est donc une simplification de la réalité.
Un des moyens d’augmenter la puissance des modèles est de regrouper les forces. L’idée est simple : avoir plusieurs équipes qui répondent à la même question chacune à leur manière. Ceci permet de voir dans quelle mesure les prévisions sont sensible aux hypothèses et aux données utilisées.
Nous avons effectué ce travail pour l’épidémie de COVID-19 en France. Plus précisément, la question posée était : « En utilisant les données disponibles jusqu’au 9 juin 2020, pouvez-vous estimer le nombre de reproduction de l’épidémie suite à la mise en place du déconfinement en France le 11 mai 2020 ? ».
L’invitation a été envoyée aux équipes ayant posté des manuscrits sur arXiv et medRxiv concernant la modélisation de l’épidémie de COVID-19 en France.
L’unité de recherche BioSP de INRAE développe des travaux en statistique, en systèmes dynamiques, en écologie-épidémiologie, et aux interfaces entre ces différentes disciplines avec un intérêt particulier pour les questions spatiales et spatio-temporelles. Résumé des travaux de l’unité sur le COVID-19 : https://informatique-mia.inrae.fr/biosp/COVID-19.
Le groupe de modélisation de l’équipe ETE a rédigé des rapports, notes et articles scientifiques relatifs à l’épidémie de COVID-19 : http://covid-ete.ouvaton.org
L’équipe SiSyPhe (Signaux, Systèmes et Physique) de l’ENS de Lyon est spécialisée dans l’interaction entre l’analyse de signaux expérimentaux issus d’expériences réelles et le développement de solutions théoriques pour des problèmes d’analyse de données et traitement du signal, définis par la confrontation aux données expérimentales.
Le groupe de chercheurs autour du projet MEM est issu d’une équipe projet commune Inria (CORSE) qui n’a initialement aucunes compétences ni en épidémiologie, ni en statistiques… Ce sont les compétences orthogonales en mathématiques (continues et discrètes), informatiques (optimisation de performances), et recherche opérationnelle qui sont exploitées ici. L’objectif du projet est le développement d’un simulateur open-source qui se place à mi-chemin entre modèles distribués (stochastique) et modèles compartimentaux.
Le tableau suivant indique les estimations du nombre de reproduction temporel estimé par les différentes équipes entre le 11 mai et le 9 juin. Les résultats varient selon les méthodes, les données et les hypothèses utilisées.
Auteurs | Équipe | Rt central | borne inférieure à 95 % | borne supérieure à 95 % | date début estimation (par défaut le 11 mai) | date fin estimation (par défaut le 9 juin) | données utilisées | références |
---|---|---|---|---|---|---|---|---|
Mélanie Prague, Linda Wittkop, Dan Dutartre, Rodolphe Thiébaut, Boris Hejblum | SISTM | 0.72 | 0.46 | 1.16 | 05/11/2020 | 06/04/2019 | https://www.medrxiv.org/content/10.1101/2020.04.21.20073536v1 | |
Juergen Reingruber, Andrea Papale, David Holcman | Holcman | 0.56 | 0.67 | https://www.medrxiv.org/content/10.1101/2020.05.15.20099465v3 | ||||
Marc Lavielle | Xpop | 0.78 | 05/11/2020 | 06/09/2020 | nouvelles infections, décès | http://shiny.webpopix.org/covidix/app2/ | ||
Patrice Abry, Nelly Pustelnik, Stéphane Roux, Pablo Jensen, Patrick Flandrin, Remi Gribonval, Charles-Gerard Lucas, Eric Guichard | SiSyPhe, ENS Lyon | 0.7 | 0.66 | 0.76 | 11/05/2020 | 09/06/2020 | hospitalisations (SPF) | https://perso.ens-lyon.fr/patrice.abry/CovidProx.pdf |
Bastien Reyné, Mircea T. Sofonea, Samuel Alizon | ETE Modelling team | 0.70 | 0.58 | 0.84 | 07/06/2020 | admissions en réanimation | http://bioinfo-shiny.ird.fr:3838/Rt/ | |
Lionel Roques, Samuel Soubeyrand | BioSP | 0.71 | 0.69 | 0.74 | 21/05/2020 | 05/06/2020 | décès hospitaliers | Cf post 26 mai sur http://covid19.biosp.org |
Patrice Abry, Nelly Pustelnik, Stéphane Roux, Pablo Jensen, Patrick Flandrin, Remi Gribonval, Charles-Gerard Lucas, Eric Guichard | SiSyPhe, ENS Lyon | 0.72 | 0.69 | 0.74 | 11/05/2020 | 09/06/2020 | hospitalisations (SPF) | https://perso.ens-lyon.fr/patrice.abry/CovidProx.pdf |
Fabrice Rastello, Guillaume Iooss, Auguste Olivry | CORSE | 0.74 | 0.67 | 0.81 | 11/05/2020 | 09/06/2020 | hospitalisations SpF | code disponible sur https://gitlab.inria.fr/rastello/multilevel-epidmodel |
Patrice Abry, Nelly Pustelnik, Stéphane Roux, Pablo Jensen, Patrick Flandrin, Remi Gribonval, Charles-Gerard Lucas, Eric Guichard | SiSyPhe, ENS Lyon | 0.8 | 0.67 | 1.34 | 11/05/2020 | 09/06/2020 | nouvelles infections (ECDC) | https://perso.ens-lyon.fr/patrice.abry/CovidProx.pdf |
Fabrice Rastello, Guillaume Iooss, Auguste Olivry | CORSE | 0.84 | 0.76 | 0.90 | 11/05/2020 | 09/06/2020 | hospitalisations SpF | code disponible sur https://gitlab.inria.fr/rastello/multilevel-epidmodel |
Patrice Abry, Nelly Pustelnik, Stéphane Roux, Pablo Jensen, Patrick Flandrin, Remi Gribonval, Charles-Gerard Lucas, Eric Guichard | SiSyPhe, ENS Lyon | 0.88 | 0.71 | 1.13 | 11/05/2020 | 09/06/2020 | nouvelles infections (ECDC) | https://perso.ens-lyon.fr/patrice.abry/CovidProx.pdf |
Mircea T. Sofonea, Bastien Reyné, Baptiste Elie, Ramsès Djidjou-Demasse, Christian Selinger, Yannis Michalakis, Samuel Alizon | ETE Modelling team | 0.908 | 0.813 | 1 | 12/05/2020 | 08/06/2020 | admissions en réanimation, lits occupés en réanimation, décès hospitaliers | https://doi.org/10.1101/2020.05.22.20110593 |
François Blanquart | Stochastic Models for the Inference of Life Evolution / Quantitative Evolutionary Microbiology | 0.92 | 0.85 | 1 | 11/05/2020 | 09/06/2020 | nouvelles infections, décès | |
Baptiste Elie, Bastien Reyné, Thomas Beneteau, Mircea T. Sofonea, Samuel Alizon | ETE Modelling team | 0.98 | 0.93 | 0.99 | 11/05/2020 | 09/06/2020 | admissions en réanimation | https://doi.org/10.1101/2020.05.22.20110593 |
Marc Dhenain | AVF | 1.016 | 1.015 | 1.017 | 11/05/2020 | 09/06/2020 | Décès | https://doi.org/10.1101/2020.04.07.20055913 et https://doi.org/10.4267/2042/70840 |
Félix Foutel Rodier, François Blanquart, Amaury Lambert, Emmanuel Schertzer, SMILE team | Stochastic Models for the Inference of Life Evolution | 1.098 | 1.068 | 1.128 | 11/05/2020 | 09/06/2020 | admissions en réanimation, hospitalisations, décès (hospitaliers ?) | |
Youcef Mammeri | LAMFA CNRS UMR 7352 | 1.10 | 1.03 | 1.16 | 11/05/2020 | 09/06/2020 | nouvelles infections, décès (hospitaliers ?) (Université Johns Hopkins) | arXiv:2005.03499 |
Olivier Thomine | Epidemap | 1.25 | 1.19 | 1.30 | 11/05/2020 | 09/06/2020 | admission en réanimation | Epidemap, rapport ModCov19 |
Samuel Soubeyrand a réalisé une méta-analyse des résultats obtenus avec chaque approche afin d’avoir une vision synthétique.
Dans l’Annexe A, on peut trouver le détail de l’approche et l’évaluation de la robustesse du résultat de la méta-analyse (notamment l’influence de la prior et l’influence de chaque étude).
Les figures ci-dessous montrentles valeurs liées à la moyenne du nombre de reproduction temporel (\(R_t\), en haut) et à son écart type (en bas). Les panneaux de gauche montrent la valeur pour chaque itération et ceux de droite les distributions postérieures de ces valeurs.
Figure. Chaînes et posteriors marginales obtenues avec \((a,b)=(3,1)\), i.e. \((E(r),V(r))=(3,3)\).
Pour \((a,b)=(3,1)\), la médiane a posteriori du paramètre \(r\) correspondant à \(R_t\) est de 0.90 (intervalle de crédibilité à 95% : [0.79,1.01]).
De plus, la médiane a posteriori du paramètre \(\sigma\), correspondant à l’écart type de \(R_t\), est de 0.21 (intervalle de crédibilité à 95% : [0.15,0.32]).
Enfin, la probabilité a posteriori de l’évènement \(r>1\), c’est-à-dire que l’épidémie soit en croissance est de 0,04.
Ce travail collectif représente une avancée pour plusieurs raisons.
il a mené à 18 estimations de \(R_t\) couvrant à peu près la même période et donnant une gamme de possibles, ce qui évite une focalisation sur telle ou telle valeur ;
il permet d’aborder les variations du nombre de reproduction temporel de \(R_t\) via des courbes portant sur les 2-3 mois qui précèdent ;
il fournit une synthèse des estimations de mi-mai à mi-juin par une méta-analyse, approche qui est généralement considérée (par les scientifiques et les individus qui s’intéressent aux sciences) comme une avancée par rapport à la mono-analyse ;
le \(R_t\) estimé par la méta-analyse, son IC, et la probabilité qu’il soit au-dessus de 1 peuvent constituer une sorte de “baromètre” que l’on pourrait fournir régulièrement.
Un travail critique est en cours pour affiner les estimations, en particulier pour expliquer l’hétérogénéité des prédictions. Plusieurs pistes de travail sont en cours d’exploration :
mettre à jour les estimations régulièrement
réaliser une analyse multi-factorielle des modèles
réaliser les analyses sur des jeux de données identiques
Modèle hiérarchique : \[\begin{align} R_i &\sim \text{Normale}(r_i,s_i^2)\\ s_i &= (R_i^\text{sup}-R_i^\text{inf})/(2q_{0.975})\\ r_i &= r+\delta_i\\ \delta_i &\sim \text{Normale}(0,\sigma^2)\\ r &\sim \text{Gamma}(a,b), \text{ tel que } E(r)=ab \text{ et } V(r)=ab^2\\ \sigma &\sim ~ \text{Uniforme}(0,10) \end{align}\]
où \(R_i\), \(R_i^\text{inf}\) et \(R_i^\text{sup}\) sont l’estimation de taux de reproduction efficace et les bornes de l’intervalle de confiance à 95% obtenues avec la méthode \(i\), \(q_{0.975}\) est le quantile d’ordre 0.975 de la loi normale standard, \(r\) est le taux de reproduction efficace que l’on souhaite estimer tandis que \(r_i\) est le taux de reproduction efficace visé par la méthode \(i\).
Le modèle hiérarchique peut être ré-écrit plus simplement sous la forme suivante : \[\begin{align} R_i &\sim \text{Normale}(r,\sigma^2+s_i^2)\\ s_i &= (R_i^\text{sup}-R_i^\text{inf})/(2q_{0.975})\\ r &\sim \text{Gamma}(a,b), \text{ tel que } E(r)=ab \text{ et } V(r)=ab^2\\ \sigma &\sim ~ \text{Uniforme}(0,10) \end{align}\]
Les lois a posteriori de \(r\) et \(\sigma\) sont évaluées à l’aide d’un algorithme MCMC (1 million d’itérations, 10 milles premières itérations supprimées, sous-échantillonnage régulier de la chaîne au 1 cinquantième).
L’influence de la loi a priori de \(r\) est évaluée en réalisant la méta-analyse pour différentes valeurs de \((a,b)\) et en observant les variations de la médiane a posteriori de \(r\) et la probabilité a posteriori de \(r>1\).
Tableau. Influence de la loi a priori :
Prior mean of \(r\) | Prior var. of \(r\) | Posterior median of \(r\) | \(P(r>1 \mid \text{data})\) | ||
---|---|---|---|---|---|
1 | 0.5 | 0.9 | 0.03 | ||
1 | 1 | 0.9 | 0.03 | ||
1 | 1.5 | 0.9 | 0.03 | ||
1 | 2 | 0.9 | 0.03 | ||
1 | 2.5 | 0.89 | 0.03 | ||
1 | 3 | 0.9 | 0.03 | ||
1 | 3.5 | 0.89 | 0.03 | ||
1 | 4 | 0.9 | 0.03 | ||
3 | 0.5 | 0.94 | 0.13 | ||
3 | 1 | 0.92 | 0.07 | ||
3 | 1.5 | 0.91 | 0.05 | ||
3 | 2 | 0.9 | 0.05 | ||
3 | 2.5 | 0.9 | 0.04 | ||
3 | 3 | 0.9 | 0.04 | ||
3 | 3.5 | 0.9 | 0.04 | ||
3 | 4 | 0.9 | 0.04 |
Figure. Chaînes et posteriors marginales obtenues avec \((a,b)=(2,0.5)\), i.e. \((E(r),V(r))=(1,0.5)\).
Figure. Chaînes et posteriors marginales obtenues avec \((a,b)=(9/0.5,0.5/3)\), i.e. \((E(r),V(r))=(3,0.5)\).
L’influence de chaque étude est évaluée en réalisant la méta-analyse, et ce en supprimant à tour de rôle chacune des études et en calculant la différence observée sur la médiane a posteriori de \(r\) et la probabilité a posteriori de \(r>1\). Les études sont numérotées dans l’ordre du tableau de la section “Valeurs brutes”.
Tableau. Evaluation de l’influence de chaque étude réalisée avec \((a,b)=(3,1)\), i.e. \((E(r),V(r))=(3,3)\) :
Removed study | Estimate of \(r\) in the study | Diff. in the posterior median of \(r\) | Diff. in \(P(r>1 \mid \text{data})\) |
---|---|---|---|
2 | 0.7 | 0.01 | 0.03 |
3 | 0.7 | 0.02 | 0.03 |
4 | 0.71 | 0.01 | 0.03 |
5 | 0.72 | 0.01 | 0.03 |
6 | 0.72 | 0.01 | 0.02 |
7 | 0.74 | 0.01 | 0.03 |
9 | 0.8 | 0 | 0.01 |
10 | 0.84 | 0.01 | 0.02 |
11 | 0.88 | 0 | 0.01 |
12 | 0.91 | 0 | 0.01 |
13 | 0.92 | 0 | 0.01 |
14 | 0.98 | -0.01 | 0 |
15 | 1.02 | -0.01 | 0 |
16 | 1.1 | -0.01 | -0.01 |
17 | 1.1 | -0.01 | -0.01 |
18 | 1.4 | -0.03 | -0.04 |
Tableau. Evaluation de l’influence de chaque étude réalisée avec \((a,b)=(2,0.5)\), i.e. \((E(r),V(r))=(1,0.5)\) :
Removed study | Estimate of \(r\) in the study | Diff. in the posterior median of \(r\) | Diff. in \(P(r>1 \mid \text{data})\) |
---|---|---|---|
2 | 0.7 | 0.01 | 0.03 |
3 | 0.7 | 0.02 | 0.03 |
4 | 0.71 | 0.01 | 0.03 |
5 | 0.72 | 0.01 | 0.02 |
6 | 0.72 | 0.01 | 0.01 |
7 | 0.74 | 0.01 | 0.02 |
9 | 0.8 | 0 | 0.01 |
10 | 0.84 | 0 | 0.01 |
11 | 0.88 | 0 | 0.01 |
12 | 0.91 | 0 | 0.01 |
13 | 0.92 | 0 | 0.01 |
14 | 0.98 | -0.01 | 0 |
15 | 1.02 | -0.01 | 0 |
16 | 1.1 | -0.01 | -0.01 |
17 | 1.1 | -0.01 | -0.01 |
18 | 1.4 | -0.03 | -0.03 |