Idée et contexte

Un adage en modélisation mathématique et statistique dit que « tous les modèles sont faux ». En effet, un modèle fait toujours des hypothèses et est donc une simplification de la réalité.

Un des moyens d’augmenter la puissance des modèles est de regrouper les forces. L’idée est simple : avoir plusieurs équipes qui répondent à la même question chacune à leur manière. Ceci permet de voir dans quelle mesure les prévisions sont sensible aux hypothèses et aux données utilisées.

Nous avons effectué ce travail pour l’épidémie de COVID-19 en France. Plus précisément, la question posée était : « En utilisant les données disponibles jusqu’au 9 juin 2020, pouvez-vous estimer le nombre de reproduction de l’épidémie suite à la mise en place du déconfinement en France le 11 mai 2020 ? ».

L’invitation a été envoyée aux équipes ayant posté des manuscrits sur arXiv et medRxiv concernant la modélisation de l’épidémie de COVID-19 en France.

Équipes participantes

L’unité de recherche BioSP de INRAE développe des travaux en statistique, en systèmes dynamiques, en écologie-épidémiologie, et aux interfaces entre ces différentes disciplines avec un intérêt particulier pour les questions spatiales et spatio-temporelles. Résumé des travaux de l’unité sur le COVID-19 : https://informatique-mia.inrae.fr/biosp/COVID-19.
Le groupe de modélisation de l’équipe ETE a rédigé des rapports, notes et articles scientifiques relatifs à l’épidémie de COVID-19 : http://covid-ete.ouvaton.org
L’équipe SISTM, Statistiques en immunologie pour la médecine translationnelle, est affiliée à Inria Bordeaux Sud-Ouest et au centre Inserm U1219 Bordeaux Population Health. Le groupe de travail en modélisation de l’équipe s’intéresse aux modèles de dynamique d’infections intra- et inter-hôtes. Dans le cadre de la mission Inria Stop COVID-19, les projets GESTEPID s’intéressent à l’effet des politiques sanitaires et au suivi précoce de reprise épidémique, avec une concentration sur la Nouvelle-Aquitaine.
L’équipe SiSyPhe (Signaux, Systèmes et Physique) de l’ENS de Lyon est spécialisée dans l’interaction entre l’analyse de signaux expérimentaux issus d’expériences réelles et le développement de solutions théoriques pour des problèmes d’analyse de données et traitement du signal, définis par la confrontation aux données expérimentales.
Le groupe de chercheurs autour du projet MEM est issu d’une équipe projet commune Inria (CORSE) qui n’a initialement aucunes compétences ni en épidémiologie, ni en statistiques… Ce sont les compétences orthogonales en mathématiques (continues et discrètes), informatiques (optimisation de performances), et recherche opérationnelle qui sont exploitées ici. L’objectif du projet est le développement d’un simulateur open-source qui se place à mi-chemin entre modèles distribués (stochastique) et modèles compartimentaux.

Résultats

Valeurs brutes

Le tableau suivant indique les estimations du nombre de reproduction temporel estimé par les différentes équipes entre le 11 mai et le 9 juin. Les résultats varient selon les méthodes, les données et les hypothèses utilisées.

Auteurs	Équipe	Rt central	borne inférieure à 95 %	borne supérieure à 95 %	date début estimation (par défaut le 11 mai)	date fin estimation (par défaut le 9 juin)	données utilisées	références
Mélanie Prague, Linda Wittkop, Dan Dutartre, Rodolphe Thiébaut, Boris Hejblum	SISTM	0.72	0.46	1.16	05/11/2020	06/04/2019		https://www.medrxiv.org/content/10.1101/2020.04.21.20073536v1
Juergen Reingruber, Andrea Papale, David Holcman	Holcman		0.56	0.67				https://www.medrxiv.org/content/10.1101/2020.05.15.20099465v3
Marc Lavielle	Xpop	0.78			05/11/2020	06/09/2020	nouvelles infections, décès	http://shiny.webpopix.org/covidix/app2/
Patrice Abry, Nelly Pustelnik, Stéphane Roux, Pablo Jensen, Patrick Flandrin, Remi Gribonval, Charles-Gerard Lucas, Eric Guichard	SiSyPhe, ENS Lyon	0.7	0.66	0.76	11/05/2020	09/06/2020	hospitalisations (SPF)	https://perso.ens-lyon.fr/patrice.abry/CovidProx.pdf
Bastien Reyné, Mircea T. Sofonea, Samuel Alizon	ETE Modelling team	0.70	0.58	0.84		07/06/2020	admissions en réanimation	http://bioinfo-shiny.ird.fr:3838/Rt/
Lionel Roques, Samuel Soubeyrand	BioSP	0.71	0.69	0.74	21/05/2020	05/06/2020	décès hospitaliers	Cf post 26 mai sur http://covid19.biosp.org
Patrice Abry, Nelly Pustelnik, Stéphane Roux, Pablo Jensen, Patrick Flandrin, Remi Gribonval, Charles-Gerard Lucas, Eric Guichard	SiSyPhe, ENS Lyon	0.72	0.69	0.74	11/05/2020	09/06/2020	hospitalisations (SPF)	https://perso.ens-lyon.fr/patrice.abry/CovidProx.pdf
Fabrice Rastello, Guillaume Iooss, Auguste Olivry	CORSE	0.74	0.67	0.81	11/05/2020	09/06/2020	hospitalisations SpF	code disponible sur https://gitlab.inria.fr/rastello/multilevel-epidmodel
Patrice Abry, Nelly Pustelnik, Stéphane Roux, Pablo Jensen, Patrick Flandrin, Remi Gribonval, Charles-Gerard Lucas, Eric Guichard	SiSyPhe, ENS Lyon	0.8	0.67	1.34	11/05/2020	09/06/2020	nouvelles infections (ECDC)	https://perso.ens-lyon.fr/patrice.abry/CovidProx.pdf
Fabrice Rastello, Guillaume Iooss, Auguste Olivry	CORSE	0.84	0.76	0.90	11/05/2020	09/06/2020	hospitalisations SpF	code disponible sur https://gitlab.inria.fr/rastello/multilevel-epidmodel
Patrice Abry, Nelly Pustelnik, Stéphane Roux, Pablo Jensen, Patrick Flandrin, Remi Gribonval, Charles-Gerard Lucas, Eric Guichard	SiSyPhe, ENS Lyon	0.88	0.71	1.13	11/05/2020	09/06/2020	nouvelles infections (ECDC)	https://perso.ens-lyon.fr/patrice.abry/CovidProx.pdf
Mircea T. Sofonea, Bastien Reyné, Baptiste Elie, Ramsès Djidjou-Demasse, Christian Selinger, Yannis Michalakis, Samuel Alizon	ETE Modelling team	0.908	0.813	1	12/05/2020	08/06/2020	admissions en réanimation, lits occupés en réanimation, décès hospitaliers	https://doi.org/10.1101/2020.05.22.20110593
François Blanquart	Stochastic Models for the Inference of Life Evolution / Quantitative Evolutionary Microbiology	0.92	0.85	1	11/05/2020	09/06/2020	nouvelles infections, décès
Baptiste Elie, Bastien Reyné, Thomas Beneteau, Mircea T. Sofonea, Samuel Alizon	ETE Modelling team	0.98	0.93	0.99	11/05/2020	09/06/2020	admissions en réanimation	https://doi.org/10.1101/2020.05.22.20110593
Marc Dhenain	AVF	1.016	1.015	1.017	11/05/2020	09/06/2020	Décès	https://doi.org/10.1101/2020.04.07.20055913 et https://doi.org/10.4267/2042/70840
Félix Foutel Rodier, François Blanquart, Amaury Lambert, Emmanuel Schertzer, SMILE team	Stochastic Models for the Inference of Life Evolution	1.098	1.068	1.128	11/05/2020	09/06/2020	admissions en réanimation, hospitalisations, décès (hospitaliers ?)
Youcef Mammeri	LAMFA CNRS UMR 7352	1.10	1.03	1.16	11/05/2020	09/06/2020	nouvelles infections, décès (hospitaliers ?) (Université Johns Hopkins)	arXiv:2005.03499
Olivier Thomine	Epidemap	1.25	1.19	1.30	11/05/2020	09/06/2020	admission en réanimation	Epidemap, rapport ModCov19

Méta-analyse

Samuel Soubeyrand a réalisé une méta-analyse des résultats obtenus avec chaque approche afin d’avoir une vision synthétique.

Dans l’Annexe A, on peut trouver le détail de l’approche et l’évaluation de la robustesse du résultat de la méta-analyse (notamment l’influence de la prior et l’influence de chaque étude).

Les figures ci-dessous montrentles valeurs liées à la moyenne du nombre de reproduction temporel (\(R_t\), en haut) et à son écart type (en bas). Les panneaux de gauche montrent la valeur pour chaque itération et ceux de droite les distributions postérieures de ces valeurs.

Figure. Chaînes et posteriors marginales obtenues avec \((a,b)=(3,1)\), i.e. \((E(r),V(r))=(3,3)\).

Pour \((a,b)=(3,1)\), la médiane a posteriori du paramètre \(r\) correspondant à \(R_t\) est de 0.90 (intervalle de crédibilité à 95% : [0.79,1.01]).

De plus, la médiane a posteriori du paramètre \(\sigma\), correspondant à l’écart type de \(R_t\), est de 0.21 (intervalle de crédibilité à 95% : [0.15,0.32]).

Enfin, la probabilité a posteriori de l’évènement \(r>1\), c’est-à-dire que l’épidémie soit en croissance est de 0,04.

Discussion

Ce travail collectif représente une avancée pour plusieurs raisons.

il a mené à 18 estimations de \(R_t\) couvrant à peu près la même période et donnant une gamme de possibles, ce qui évite une focalisation sur telle ou telle valeur ;
il permet d’aborder les variations du nombre de reproduction temporel de \(R_t\) via des courbes portant sur les 2-3 mois qui précèdent ;
il fournit une synthèse des estimations de mi-mai à mi-juin par une méta-analyse, approche qui est généralement considérée (par les scientifiques et les individus qui s’intéressent aux sciences) comme une avancée par rapport à la mono-analyse ;
le \(R_t\) estimé par la méta-analyse, son IC, et la probabilité qu’il soit au-dessus de 1 peuvent constituer une sorte de “baromètre” que l’on pourrait fournir régulièrement.

Un travail critique est en cours pour affiner les estimations, en particulier pour expliquer l’hétérogénéité des prédictions. Plusieurs pistes de travail sont en cours d’exploration :

mettre à jour les estimations régulièrement
réaliser une analyse multi-factorielle des modèles
réaliser les analyses sur des jeux de données identiques

Annexe A: Méta-analyse

Modèle

Modèle hiérarchique : \[\begin{align} R_i &\sim \text{Normale}(r_i,s_i^2)\\ s_i &= (R_i^\text{sup}-R_i^\text{inf})/(2q_{0.975})\\ r_i &= r+\delta_i\\ \delta_i &\sim \text{Normale}(0,\sigma^2)\\ r &\sim \text{Gamma}(a,b), \text{ tel que } E(r)=ab \text{ et } V(r)=ab^2\\ \sigma &\sim ~ \text{Uniforme}(0,10) \end{align}\]

où \(R_i\), \(R_i^\text{inf}\) et \(R_i^\text{sup}\) sont l’estimation de taux de reproduction efficace et les bornes de l’intervalle de confiance à 95% obtenues avec la méthode \(i\), \(q_{0.975}\) est le quantile d’ordre 0.975 de la loi normale standard, \(r\) est le taux de reproduction efficace que l’on souhaite estimer tandis que \(r_i\) est le taux de reproduction efficace visé par la méthode \(i\).

Le modèle hiérarchique peut être ré-écrit plus simplement sous la forme suivante : \[\begin{align} R_i &\sim \text{Normale}(r,\sigma^2+s_i^2)\\ s_i &= (R_i^\text{sup}-R_i^\text{inf})/(2q_{0.975})\\ r &\sim \text{Gamma}(a,b), \text{ tel que } E(r)=ab \text{ et } V(r)=ab^2\\ \sigma &\sim ~ \text{Uniforme}(0,10) \end{align}\]

Les lois a posteriori de \(r\) et \(\sigma\) sont évaluées à l’aide d’un algorithme MCMC (1 million d’itérations, 10 milles premières itérations supprimées, sous-échantillonnage régulier de la chaîne au 1 cinquantième).

Influence de la loi a priori

L’influence de la loi a priori de \(r\) est évaluée en réalisant la méta-analyse pour différentes valeurs de \((a,b)\) et en observant les variations de la médiane a posteriori de \(r\) et la probabilité a posteriori de \(r>1\).

Tableau. Influence de la loi a priori :

Prior mean of \(r\)	Prior var. of \(r\)	Posterior median of \(r\)	\(P(r>1 \mid \text{data})\)
1	0.5	0.9	0.03
1	1	0.9	0.03
1	1.5	0.9	0.03
1	2	0.9	0.03
1	2.5	0.89	0.03
1	3	0.9	0.03
1	3.5	0.89	0.03
1	4	0.9	0.03
3	0.5	0.94	0.13
3	1	0.92	0.07
3	1.5	0.91	0.05
3	2	0.9	0.05
3	2.5	0.9	0.04
3	3	0.9	0.04
3	3.5	0.9	0.04
3	4	0.9	0.04

Figure. Chaînes et posteriors marginales obtenues avec \((a,b)=(2,0.5)\), i.e. \((E(r),V(r))=(1,0.5)\).

Figure. Chaînes et posteriors marginales obtenues avec \((a,b)=(9/0.5,0.5/3)\), i.e. \((E(r),V(r))=(3,0.5)\).

Influence de chaque étude

L’influence de chaque étude est évaluée en réalisant la méta-analyse, et ce en supprimant à tour de rôle chacune des études et en calculant la différence observée sur la médiane a posteriori de \(r\) et la probabilité a posteriori de \(r>1\). Les études sont numérotées dans l’ordre du tableau de la section “Valeurs brutes”.

Tableau. Evaluation de l’influence de chaque étude réalisée avec \((a,b)=(3,1)\), i.e. \((E(r),V(r))=(3,3)\) :

Removed study	Estimate of \(r\) in the study	Diff. in the posterior median of \(r\)	Diff. in \(P(r>1 \mid \text{data})\)
2	0.7	0.01	0.03
3	0.7	0.02	0.03
4	0.71	0.01	0.03
5	0.72	0.01	0.03
6	0.72	0.01	0.02
7	0.74	0.01	0.03
9	0.8	0	0.01
10	0.84	0.01	0.02
11	0.88	0	0.01
12	0.91	0	0.01
13	0.92	0	0.01
14	0.98	-0.01	0
15	1.02	-0.01	0
16	1.1	-0.01	-0.01
17	1.1	-0.01	-0.01
18	1.4	-0.03	-0.04

Tableau. Evaluation de l’influence de chaque étude réalisée avec \((a,b)=(2,0.5)\), i.e. \((E(r),V(r))=(1,0.5)\) :

Removed study	Estimate of \(r\) in the study	Diff. in the posterior median of \(r\)	Diff. in \(P(r>1 \mid \text{data})\)
2	0.7	0.01	0.03
3	0.7	0.02	0.03
4	0.71	0.01	0.03
5	0.72	0.01	0.02
6	0.72	0.01	0.01
7	0.74	0.01	0.02
9	0.8	0	0.01
10	0.84	0	0.01
11	0.88	0	0.01
12	0.91	0	0.01
13	0.92	0	0.01
14	0.98	-0.01	0
15	1.02	-0.01	0
16	1.1	-0.01	-0.01
17	1.1	-0.01	-0.01
18	1.4	-0.03	-0.03

Rapport prévisions groupées au 9 juin 2020