Préambule

Ce rapport a servi de base à une discussion avec une commission de l’Office parlementaire d’évaluation des choix scientifiques et technologiques (OPECST). Nos rapports sont à visée académique, fruit d’un travail de recherche fondamentale indépendant des autorités compétentes en matière de santé. En matière de santé publique et pour toute question, nous recommandons de consulter et suivre les instructions officielles disponibles sur https://www.gouvernement.fr/info-coronavirus.

De l’épidémiologie mathématique

La rencontre des calculs mathématiques et de la santé publique est classiquement datée au XVIIIième siècle. À cette époque, l’Europe découvre la variolisation – importée d’Asie où elle pratiquée depuis plusieurs siècles déjà –, c’est-à-dire l’inoculation volontaire du virus de la variole à partir de survivants à cette maladie. La question est alors de savoir si cet acte, précurseur de la vaccination, doit être encouragé dans le but d’assurer une protection collective malgré une mortalité collatérale non négligeable. En estimant, à partir de l’étude d’équations différentielles, un gain de trois ans d’espérance de vie par variolisation collective, le travail de Daniel Bernoulli (1760, Acad. Roy. Sci.) est ainsi considéré comme le point de départ de l’épidémiologie mathématique. Au même moment, Leonhard Euler met en évidence une égalité connue depuis sous le nom d’équation d’Euler-Lotka qui est encore aujourd’hui centrale dans l’estimation de paramètres épidémiologiques clés, comme le nombre de reproduction.

Bernoulli supposait toutefois que la probabilité qu’un individu contracte la maladie (l’incidence) était constante au cours du temps. Si cette hypothèse est acceptable pour des maladies endémiques, qui circulent constamment au cours de l’année, elle ne s’applique pas aux vagues épidémiques. En effet, au début d’une épidémie, la proportion d’individus contagieux (la prévalence) augmente exponentiellement.

En rendant l’incidence proportionnelle à la prévalence, Kermack et McKendrick (1927, Proc R Soc Lond A), sur l’exemple de la peste en Inde, introduisent la non-linéarité dans les modèles épidémiologiques et jettent les bases du plus connu d’entre eux, le modèle SIR (pour “Sensible”, “Infecté”, “Retiré”). L’immense majorité des modèles actuellement utilisés (comme par exemple notre modèle SEAIR sur le COVID-19) en dérivent.

En parallèle, le développement du champ des probabilités au sens large, a permis aux approches statistiques et stochastiques d’investir les sujets de santé publique, regroupées sous le nom de biostatistiques, sur lesquelles reposent les analyses de données actuelles en biomédecine, qu’il s’agisse de maladies infectieuses ou non.

Les méthodes les plus récentes, à l’image de la phylodynamique, ont enfin été permises par le développement informatique d’une part, et des capacités de séquençage génétique d’autre part.

Comme tous les modèles, ces approches simplifient la réalité afin de répondre à une question scientifique précise. En conséquence, le choix d’une question claire et cernée doit doit précéder celui du modèle le plus adapté. En effet, un modèle ne peut être à la fois réaliste et généraliste, sans parler d’autres contraintes comme la parcimonie, l’identifiabilité, l’intelligibilité.

On peut distinguer trois grands types d’utilisation des modèles :

  • comprendre : l’ambition d’un modèle est d’éclairer notre compréhension d’un phénomène dynamique, en fournissant un cadre de raisonnement adapté, quantifié, manipulable et falsifiable, pour pallier aux limites d’une analyse intuitive et verbale. En particulier, un modèle peut être utilisé comme validation logique (proof-of-concept) d’une conjecture.

  • décrire : en analysant des données, un modèle permet de mieux comprendre et de résumer l’information sur l’état d’un phénomène voire d’estimer quantitativement des paramètres qui ne sont pas directement mesurables (par exemple l’effet qu’a le confinement sur la propagation de l’épidémie de COVID-19).

  • prévoir : les données du passée et du présent contiennent un signal qui fournit des indications sur les variations à venir. Une fois identifié ce signal et son comportement, des prédictions de la dynamique épidémique peuvent être réalisées, en explorant une diversité de scénarios selon l’incertitude sur des paramètres mal connus.

L’ajustement du modèle aux données empiriques et l’analyse de sensibilité sont deux méthodes qui permettent d’apprécier le potentiel explicatif d’un modèle.

Il existe ensuite une myriade d’approches de modélisation dont la revue ne fait pas l’objet de ce rapport. Citons quand même les distinctions entre modèles déterministes vs. stochastiques (les seconds introduisent des processus aléatoires), modèles avec vs. sans structure spatiale, modèles compartimentés vs. individu-centrés, modèles avec vs. sans effet mémoire, modèle avec vs. sans évolution génétique… Les approches les plus appropriées dépendent de la question posée.

Cette diversité méthodologique ainsi que la nécessité de choisir des valeurs pour les paramètres inconnus (par exemple la distribution du temps passé en service de réanimation) explique que différents modélisateurs aboutissent à différents résultats quantitatifs.

Nos travaux

Comprendre l’épidémie

Cet axe de travail est porté par Mircea T. Sofonea.

Afin de mieux cerner la propagation de l’épidémie, nous avons développé un modèle à compartiments. Celui-ci est décrit sur le site de notre application COVIDSIM-FR qui permet de visualiser l’effet de diverses mesures de contrôle.

Schématiquement, notre modèle suppose qu’à un instant donné, chaque individu peut être rangé dans l’une des catégorie suivantes :

  • sensibles (leur nombre est \(S_i\)) : ils sont susceptibles d’être infectés avec une probabilité qui dépend du nombre de personnes infectées ainsi que des éventuelles mesures de santé publique (\(i\) correspond à la classe d’âge de la personne, qui détermine un risque moyen de complications),

  • infectés non critiques (\(J_i\)) : ils développent une infection par le SARS-CoV-2 qui ne nécessite pas d’hospitalisation mais est contagieuse,

  • infectés critiques (\(Y_i\)) : leur infection s’accompagne de complications respiratoires qui nécessiteront une prise en charge en services de réanimation et soins intensifs (cf. infra),

  • en réanimation (\(H_i\)) : c’est un stade qui suit l’infection critique et correspond aux données de Santé Publique France sur le nombre de patients hospitalisés en réanimation,

  • immunisés (\(R_i\)) : l’ensemble des individus guéris, on suppose que leur mémoire immunitaire les protège d’une ré-infection par le SARS-CoV-2 (au moins d’ici la fin de l’année),

  • décédés (\(D_i\)) : cette classe correspond aux personnes décédées après être passées en réanimation.

Diagramme de flux représentant la structure du modèle. Les transitions avec une flèche bleue se produisent chaque jour avec une probabilité de 1.

Diagramme de flux représentant la structure du modèle. Les transitions avec une flèche bleue se produisent chaque jour avec une probabilité de 1.

La grande originalité de ce modèle est qu’il est en temps discret. En effet, classiquement, comme on s’intéresse à ce qui se passe dans un futur lointain, on utilise plutôt des modèles en temps continu à l’aide d’équations différentielles. L’avantage des modèles en temps discret est qu’ils peuvent être beaucoup plus précis sur le temps court car ils permettent de prendre en compte des effets de mémoire.

Pour illustrer cet effet, considérons deux individus infectés par le COVID-19, A et B. Alors qu’A a été infecté il y a deux semaines, B a été infecté il y a seulement 3 jours. Dans notre modèle avec mémoire, la probabilité qu’A guérisse ou ne soit plus contagieux le lendemain est plus importante que celle de B, tandis que dans un modèle sans mémoire classique (à base d’équations différentielles ordinaires), ces probabilités sont égales, ce qui est moins réaliste. Cet aspect prend la forme d’une succession de sous-classes dans le diagramme ci-dessus, dont le deuxième indice (\(1\) à \(g\) pour \(J_{i,\cdot}\) par exemple) correspond aux nombres de jours écoulés depuis le début de l’infection. C’est cette succession de sous-classe qui permet de garder la mémoire de l’historique d’infection de chaque individu.

Grâce au modèle en temps discret, nous parvenons à bien capturer les séries temporelles de courbes d’incidence. En particulier, l’augmentation rapide du nombre de décès journaliers est très difficile à expliquer sans effet mémoire dans le modèle.

Ce modèle permet de comprendre aussi les effets qu’ont les variations des différents paramètres clés sur la propagation de l’épidémie.

Décrire l’épidémie

\(\mathcal{R}_0\)

Cet axe de travail est porté par Samuel Alizon, Mircea T. Sofonea, Gonché Danesh et Bastien Reyné.

Un nombre clé en épidémiologie est le nombre de reproduction de base, aussi appelé \(\mathcal{R}_0\). Biologiquement, il correspond au nombre moyen de personnes que contamine une personne contagieuse au cours de son infection au début de l’épidémie.

Pour l’épidémie de COVID-19 en France, dans notre Rapport n°1, nous avons estimé sa valeur entre 2,5 et 3,5. Toutefois, cette estimation comporte deux limites importantes : d’une part les données d’incidence utilisées (nombre de nouveaux cas détecté chaque jour) sont soumises aux changements des consignes de dépistage, d’autre part, le temps de génération (le temps entre le date à laquelle une personne est infectée et celle à la quelle elle infecte une autre personne en moyenne) est inconnu pour la France.

Une des raisons pour lesquelles ce nombre de reproduction de base est clé est qu’il détermine la fraction de la population qui doit être immunisée pour que l’épidémie commence à décliner. Dans notre Rapport n°2, nous expliquons pourquoi cette proportion correspond à 67 % de la population. Nous calculons aussi le pourcentage de la population qui serait infecté si aucune de mesure de contrôle n’était prise (donc un scénario “catastrophe”), soit près de 90 % de la population.

Nombre de reproduction temporel

Cet axe de travail est porté par Samuel Alizon, Bastien Reyné et Mircea T. Sofonea.

Le nombre de reproduction va varier au cours d’une épidémie pour deux raisons. D’une part car des mesures de santé publique sont mises en place, d’autre part car au fur et à mesure de la propagation de l’épidémie la population s’immunise, les personnes ayant guéries étant protégées contre une réinfection (au moins dans le futur proche).

En calculant le nombre de reproduction temporel \(\mathcal{R}(t)\), on peut donc connaître le risque de propagation de l’épidémie à une date \(t\). S’il est plus grand que 1, l’épidémie est toujours en croissance, s’il est plus petit que 1, elle décroît.

Nous avons mis en place une application en ligne qui permet de calculer \(\mathcal{R}(t)\) dans différents pays ou régions et départements de France en utilisant différent types de données. Car, tout comme pour le nombre de reproduction de base \(\mathcal{R}_0\), son calcul requiert deux données : l’incidence (nombre de nouveaux cas par jours) et le temps de génération.

Le nombre de nouveaux cas par jour peut être calculé sur les dépistage, les décès, mais aussi les entrées en réanimation et les hospitalisations. Chacun de ces jeux de données a ses avantages et ses inconvénients.

Un soucis fréquent est qu’il y a toujours un délai entre le moment où une personne est infectée, et le moment où elle peut être dépistée, hospitalisée, ou décédée. Par conséquent, il y a toujours un décalage entre le nombre de reproduction temporel mesuré et l’état de l’épidémie. Au mieux, cet écart est d’une semaine et il peut potentiellement être d’un mois.

À noter que ces estimations ne requièrent pas que tous les cas soient détectés. En revanche, il faut que la politique de dépistage soit constant au cours du temps. Si tout d’un coup vous dépistez plus, alors le nombre de cas va augmenter mécaniquement et tirer le nombre de reproduction temporel vers le haut.

À part pour les décès, nos estimations indiquent que le nombre de reproduction temporel est passé sous le seuil de 1 depuis au moins trois semaines.

Avantages Limites
connaissance de la vitesse de propagation de l’épidémie délai d’au moins une semaine avec l’épidémie
estimer l’effet des politiques de santé publique variations d’échantillonnage
pas besoin d’un modèle mécanistique

Phylodynamique

Cet axe de travail est porté par Samuel Alizon, Baptiste Elie et Gonché Danesh.

Grâce aux données génétiques des génomes de virus, il est possible d’accéder à des informations supplémentaires. C’est le travail d’un champ appelé phylodynamique et repose sur l’inférence d’arbres phylogénétiques.