Préambule

Ce rapport a été produit à des fins académiques et ne constitue pas un support de prise de décision. De plus, les calculs réalisés ici sont faits avec des hypothèses volontairement simplifiées.

L’ensemble de nos rapports, notes et analyses sur la pandémie de COVID-19 est disponible sur cette page.

En matière de santé publique et pour toute question, nous recommandons de consulter et suivre les instructions officielles disponibles sur https://www.gouvernement.fr/info-coronavirus

L’Organisation Mondiale de la Santé (OMS) dispose aussi d’un site très complet https://www.who.int/fr/emergencies/diseases/novel-coronavirus-2019

Introduction

Une des raisons pour lesquelles les flambées épidémiques sont difficiles à prédire est que lorsque peu de personnes sont infectées, toutes les variations individuelles comptent. On regroupe ces variations imprévisibles sous le nom de stochasticité (ou hasard), du grec στοχαστικός, que l’on pourrait traduire par « habile à deviner ». Mathématiquement, le théorème qui explique que certains aspects des épidémies soient prédictibles est connu sous le nom de loi des grands nombres. Celle-ci stipule que le comportement moyen d’un grand nombre d’événements aléatoires analogues et indépendants converge vers l’espérance commune à ces événements.

Le graphique ci-dessous représente l’incidence quotidienne des dépistages de COVID-19 en France (attention l’axe des ordonnées est en échelle logarithmique). On distingue une première période où il se passe plusieurs jours sans que des cas soient détectés (en rouge) et une seconde période à partir du 27 février où la courbe d’incidence commence à croître linéairement sur le graphique (donc exponentiellement car l’échelle est logarithmique).

Au cours de la première période (en rouge), la dynamique est difficilement prévisible et on la caractérise comme étant stochastique. Une fois que la prévalence est élevée, un modèle de croissance capture bien la dynamique qui est dite déterministe.

Notre but principal est de déterminer de dater le début de la vague épidémique en France. Pour ce faire, nous allons analyser la partie initiale de l’épidémie à l’aide de modèles stochastiques et donc travailler avec des probabilités.

Attention, comme nous le détaillons dans notre Note sur les origines de l’épidémie, il faut bien distinguer la vague épidémique des premières introductions dans le pays. En effet, du fait des processus stochastiques, les chaînes de transmission peuvent s’éteindre toutes seules même si le nombre de reproduction moyen est supérieur à 1. Il est donc possible de détecter des cas avant le début de la vague épidémique.

De même, nous allons discuter de la date de fin de l’épidémie, qui est également un processus influencé par les effets stochastiques lorsque le nombre d’individus infectés devient faible. Nous nous placerons dans un scénario simpliste dans lequel le confinement est prolongé, et donc le nombre de reproduction du virus est maintenu à son niveau le plus bas, afin de voir au bout de combien de jours on peut être sûrs à 95 % que le virus a disparu de la population.

Le modèle stochastique

Notre modèle repose sur deux paramètres essentiels :

  • le nombre de reproduction de base, \(\mathcal{R}_0\), c’est-à-dire le nombre moyen d’infectés secondaires par cas, au début de l’épidémie,

  • le temps de génération, c’est à dire la différence entre la date à laquelle une personne est infectée et la date à laquelle elle infecte une autre personne.

Le \(\mathcal{R}_0\) peut être estimé à partir des données d’incidence de l’épidémie et des données d’intervalle de génération. Pour le virus du Covid-19, sa valeur est estimée à environ 3 (voir notre Note sur le sujet).

Le temps de génération est en revanche beaucoup plus difficile à mesurer, car les dates de contaminations sont rarement connues, sinon entachées d’incertitudes. Lorsque l’on parvient à retracer l’histoire d’une infection entre individus, on remplace alors le temps de génération par l’intervalle sériel, c’est-à-dire la différence entre la date d’apparition des symptômes chez une personne et celle chez une personne qu’elle a infectée. À ce jour, les données qui permettraient de calculer cet intervalle en France ne sont pas accessibles et nous nous basons donc sur des distributions calculées en Asie, par exemple par Nishiura et alii (2020, Int J Inf Dis).

En combinant \(\mathcal{R}_0\) avec la distribution du temps de génération (approché par l’intervalle sériel), on obtient la distribution du nombre moyen d’infections secondaires par jour post-contamination (on peut remarquer que cette distribution ne représente pas une loi de probabilités puisque elle somme à \(\mathcal{R}_0\) et non à \(1\)). Nous nous référerons à cette distribution comme étant la force d’infection individuelle et elle est représentée sur la figure suivante.

Sous l’hypothèse d’un taux de contacts homogène dans la population (notamment en absence de structure spatiale, une approximation connue sous le nom de champ moyen) et si l’infectiosité des individus est identique (il n’y a pas de super-propagateurs, ou superspreaders en anglais), alors le nombre de personnes qu’une personne contamine un jour donné peut être modélisé par une loi de Poisson, dont le paramètre est sa force d’infection au jour considéré.

La figure ci-contre montre un exemple de la répartition des infections causées par un individu au cours de son infection: dans cet exemple, l’individu a infecté trois personnes : deux lors du 6e jour de son infection, et une au 9e jour.

En pratique, lors d’une épidémie, il y a toujours de l’hétérogénéité, que ce soit au niveau de la structure spatiale ou au niveau des individus car certains ont plus de contacts que d’autres. Afin de simuler cette hétérogénéité, nous faisons l’hypothèse que la force d’infection individuelle, qui jusque là était fixée à \(\mathcal{R}_0\), suit une loi gamma avec un paramètre de forme \(\mathcal{k}\) et une moyenne \(\mathcal{R}_0\). Comme cette force d’infection est le paramètre de loi de Poisson déterminant le nombre d’infections causées par un individu au jour suivant, on aboutit à ce que ce nombre suive une loi binomiale négative de paramètre de dispersion \(\mathcal{k}\) et de moyenne \(\mathcal{R}_0\).

Plus le paramètre \(\mathcal{k}\) est petit, plus l’hétérogénéité entre individus est importante. La loi de Poisson est en fait un cas limite de la loi binomiale négative, avec un paramètre de dispersion infini. Notre approche est similaire à celle utilisée par Lloyd-Smith et alii (2005, Nature), qui ont d’ailleurs estimé que pour le SRAS-Cov1 on avait \(\mathcal{k}=0,16\). Par ailleurs, quelques études ont estimé que la transmission du SARS-Cov2 était également assez hétérogène: une première étude, basée sur 391 cas en Chine, estimait un paramètre de dispersion \(\mathcal{k}=0,58\) (Bi et alii, 2020 MedRXiv). Cependant une seconde étude basée sur le nombre de cas importés face au nombre de cas endémiques en début d’épidémie, pour chaque pays du Monde, estimait une dispersion plus importante, avec un \(\mathcal{k}=0,1\) (Endo et alii, 2020 Wellcome Open Research).

La figure suivante représente la fréquence des \(\mathcal{R}_0\) individuels observés dans une population sans hétérogénéité (avec la loi de Poisson) ou bien dans une population hétérogène (avec une loi Binomiale Négative de paramètre d’hétérogénéité \(k=0,16\)). On peut voir qu’une majorité des infections n’engendre aucune infection secondaire lorsqu’on introduit de l’hétérogénéité, alors que quelques individus sont à l’origine d’un grand nombre d’infections (super-propagateurs).