Préambule

Ces notes, comme l’ensemble de nos travaux, sont à visée académique, fruit d’un travail de recherche fondamentale indépendant des autorités compétentes en matière de santé. En matière de santé publique et pour toute question, nous recommandons de consulter et suivre les instructions officielles disponibles sur https://www.gouvernement.fr/info-coronavirus.

Introduction

Ce travail de modélisation mathématique et statistique vise à mieux décrire, comprendre et aider à prévoir le comportement de l’épidémie de COVID-19 en France. Il s’appuie sur un modèle en temps discret, conçu et analysé par Mircea T. Sofonea, avec l’aide de l’ensemble de l’équipe. Le modèle et les méthodes sont décrites plus en détails dans une pré-publication scientifique (en anglais).

Après un aperçu de la structure du modèle, nous présentons ici les résultats selon trois axes principaux :

  1. l’analyse de la vague passée : l’estimation de valeurs de paramètres clés difficilement mesurables, et l’effet de la date de début du confinement sur la vague épidémique,

  2. l’exploration de différents scénarios épidémiques suite aux mesures de déconfinement du 11 mai et du 2 juin,

  3. l’effet de la rapidité de la mise en place des mesures de contrôle sur l’ampleur et la date du pic épidémique correspondant,

  4. l’analyse de stratégies non pharmaceutiques (SNP), notamment du contrôle adaptatif (ou stop & go), implémentable en cas de redémarrage de l’épidémie.

Les deux derniers points sont particulièrement importants dans le futur proche car tant que des options pharmaceutiques (traitements ou vaccins) ne sont pas disponibles, tout redémarrage de l’épidémie ne pourra être jugulé que par des SNP.

Le modèle

La structure du modèle est schématisée par le diagramme de la Figure 1 ci-dessous (par souci de clarté, la stratification n’est pas représentée). Il est à noter que le modèle n’a pas pour objectif de détailler la diversité des histoires naturelles de la COVID-19 mais de rendre compte de façon parcimonieuse des données communiquées quotidiennement par les autorités sanitaires. Ceci explique pourquoi une attention particulière est portée aux cas critiques, qui développent des complications respiratoires, potentiellement fatales, et dont certaines nécessitent des soins intensifs. En outre, les EHPAD sont ignorés du présent travail (leurs effectifs sont d’ailleurs retirés de la paramétrisation), du fait de leur faible contribution à la circulation du virus dans la population générale.

Figure 1 : Compartiments et transitions structurant le modèle.

Figure 1 : Compartiments et transitions structurant le modèle.

Le modèle se décompose en deux environnements : la population générale (avec des personnes sensibles à l’infection en jaune et des personnes infectées, sur fond rose) et la population hospitalisée (sur fond bleu). Les personnes peuvent être dans plusieurs états : sensibles, infectées non critiques (c’est-à-dire développant une maladie n’étant ni fatale ni ne justifiant une admission en réanimation, A), infectées critiques (B), hospitalisée en réanimation (C), hospitalisée mais non en réanimation (D), guérie et décédée. La transmission du virus ne se fait qu’en population générale dans ce modèle (la transmission intra-hospitalière n’est pas abordée par le modèle, sa contribution à la circulation du virus en population générale étant considérée marginale).

Ce modèle est en temps discret et à effets mémoire (pour les puristes, le terme exact est non-markovien). En pratique, on part d’une condition initiale et on étudie chaque jour les variations dans la population. En effet, chaque jour les individus ont des probabilités de changer d’état et ces probabilités dépendent de ce qui s’est passé les jours précédents.

Au 1er janvier, tous les individus appartiennent au compartiment sensibles. Une fois le virus introduit dans la population (date qui sera estimée après ajustement aux données), chaque individu présente une certaine probabilité de progresser, le jour suivant, dans le diagramme selon les flèches indiquées. Parmi ces probabilités, citons celle d’être contaminé un jour donné. Cette valeur est actualisée jour après jour selon l’avancement de l’épidémie. Les autres probabilités, à l’image de celle d’être hospitalisé, sont constantes mais peuvent varier selon l’âge de l’individu et le temps écoulé depuis la contamination. Le potentiel de transmission est lui-même dépendant de ce dernier (en lien avec l’intervalle sériel, cf infra), ce qui qualifie ce modèle de dynamique à mémoire. Pour plus de détails à ce sujet, voir notre précédente note (onglet Modèle).

Nous avons pu utiliser des données de la littérature afin d’obtenir un ordre de grandeur pour des différents paramètres. De plus, nous avons ensuite ré-estimé ces valeurs à l’aide de notre modèle, à part pour deux grandeurs : la létalité effective (qui est basée sur l’étude de Verity et alii 2020, Lancet Infectious Diseases) et le temps de génération, c’est-à-dire le nombre de jours qui séparent en moyenne une infection et la suivante, qui provient de l’étude de Nishiura et alii (2020, Int J Inf Dis).

Trois paramètres du modèle ont été estimés plus en détails. Il s’agit du nombre de reproduction de base (\(\mathcal{R}_0\)) de l’épidémie, de la date d’origine de la vague épidémique (\(t_0\)) et de l’effet des mesures de contrôle sur le nombre de reproduction (\(\kappa\)).

Afin d’estimer ces paramètres, nous avons du développer une méthodologie statistique originale, liée à notre utilisation d’un modèle en temps discret (pour plus de détails, voir Sofonea et alii (2020). Concernant les données, nous nous sommes basés sur les séries temporelles d’incidence de nombre de décès, d’hospitalisation et d’admissions en réanimation publiées par Santé Publique France sur le site data.gouv.fr. Depuis notre rapport du 23 avril 2020, Santé Publique France a rendu public des chiffres essentiels de l’épidémie, notamment les statistiques du temps écoulé entre l’apparition des symptômes et l’entrée en réanimation, et la durée du séjour en réanimation (point du 23 avril). D’autres informations toutes aussi essentielles à la calibration du modèle ont été publiées par exemple dans le point du 7 mai avec la stratification par âge des décès en réanimation.

Vague passée

Description de la vague épidémique

Au cours de notre première estimation publiée le 22 avril dans notre Rapport résumant nos travaux, nous avions trouvé que la valeur du \(\mathcal{R}_0\) de l’épidémie était de 3,0 et avait été divisée par 4 suite aux mesures de contrôle (donc le confinement) pour atteindre un nombre de reproduction temporel \(\mathcal{R}_t\) de 0,73.

Depuis, nous avons mis en place un moyen robuste de générer des intervalles de confiance pour le modèle qui aient un sens statistique. Les estimations sont résumées dans le tableau suivant.

Paramètre Notation Estimation Intervalle de confiance à 95 %
nombre de reproduction de base \(\mathcal{R}_{0}\) 3,0 [2,6 à 3,4]
début vague épidémique (en 2020) \(t_{0}\) 20 janvier [12 au 28 janvier]
effet du confinement (%) \(\kappa\) 76 [73 à 79]

En fonction des données disponibles au 12 mai 2020, notre modèle estime qu’initialement une personne infectée infectait en moyenne 3 nouvelles personnes au cours de son infection. Les interventions de contrôle, aussi appelées stratégies non-pharmaceutiques (SNP), ont permis de diviser ce nombre environ par 4. Le \(\mathcal{R}_t\) correspondant en période de confinement est de 0,7 et donc très proche des valeurs estimées à l’aide d’un modèle plus simple directement à partir des données de réanimation via notre application Rt.

Enfin, la vague épidémique aurait vraisemblablement commencé entre le 13 et le 28 janvier, ce qui est cohérent avec les résultats que nous avons obtenus à partir des données de séquences génétiques le 9 avril 2020.

Notre modèle nous permet aussi d’estimer les valeurs de plusieurs autres paramètres. En particulier, nous estimons que le temps entre la date où une personne est infectée et celle où elle est éventuellement hospitalisée pour des symptômes critiques est en moyenne de 14 jours (avec un écart-type de 4 jours).

Les dynamiques épidémiologiques associées à notre modèle s’ajustent bien aux données communiquées par Santé Publique France, comme l’illustrent les graphiques des Figures 2 et 3. Ils représentent des dynamiques que l’on pourrait qualifier respectivement d’incidente (admissions et nouveaux décès journaliers, nombre de reproduction temporel) et d’inertielle (lits occupés en services de réanimations / soins intensifs, mortalité cumulée et immunisation).