Préambule

Ce rapport a été produit à des fins académiques et ne constitue pas un support de prise de décision. De plus, les calculs réalisés ici sont faits avec des hypothèses volontairement simplifiées. Ainsi, les moyennes nationales ne reflètent pas nécessairement des situations locales.

L’ensemble de nos rapports sur la pandémie de COVID-19 est disponible sur cette page.

En matière de santé publique et pour toute question, nous recommandons de consulter et suivre les instructions officielles disponibles sur https://www.gouvernement.fr/info-coronavirus

L’Organisation Mondiale de la Santé (OMS) dispose aussi d’un site très complet https://www.who.int/fr/emergencies/diseases/novel-coronavirus-2019

Nous remercions les patients, personnels de santé et les laboratoires de virologie de France qui ont permis de générer les données de séquences de SRAS-Cov-2 à la base de ce travail. Pour plus de détails, voir la liste des données utilisées.

Phylodynamique

Ce rapport consiste à analyser des génomes viraux issus de patient⋅e⋅s infecté⋅e⋅s par le COVID-19 en France à l’aide d’outil de phylodynamique.

Pour plus de détails sur ces approches, on pourra se référer à notre précédent rapport sur la phylodynamique.

D’autres analyses ont déjà été réalisées au niveau mondial, qui sont disponibles sur le site virological.org. Le site nextstrain.org permet lui de suivre la propagation géographique de plusieurs épidémies virales quasiment en temps réel à l’aide des données de séquences disponibles.

Ce rapport se focalise sur le clade principal de l’épidémie en France en utilisant les données de SRAS-Cov-2 disponibles sur la base de données GISAID au 3 avril 2020, soit 123 séquences pour la France. Ces séquences ne peuvent pas être publiées dans cette analyse car elles sont pour la plupart sous embargo.

Données utilisées

Comme indiqué dans notre Rapport 4, la grande majorité des séquences provenant de France se regroupe dans le clade dénommé A2a par nextstrain et visible ici.

Le graphique suivant représente les séquences utilisées, classées en fonction de la date à laquelle le prélèvement a été effectué et de la région de prélèvement.

Ces séquences ont été alignées et nettoyées à l’aide de la pipeline Augur développée par nextstrain.

Nous avons analysé le jeu de données avec le logiciel RDP, qui n’a détecté aucun événement de recombinaison génétique.

Ce jeu de données, qui porte sur les séquences du plus gros cluster est divisé en 3 sous-ensembles :

  1. 59 séquences qui étaient disponibles au 25 mars et dont la plus récente datait du 11 mars (jeu de donnée France59),

  2. 42 séquence supplémentaires disponibles au 31 mars et dont la plus récente datait du 18 mars (jeu de donnée France101),

  3. 21 séquences supplémentaires disponibles au 3 avril et dont la plus récente datait du 22 mars (jeu de données France122).

Analyse via Beast

Paramétrisation

Modèles d’évolution

Comme indiqué dans le Rapport 4, afin de réaliser une analyse de phylodynamie il faut faire plusieurs hypothèses. Deux d’entre elles portent sur le modèle d’évolution de l’ADN (comment se font les mutations d’un nucléotide à un autre) et l’autre porte sur le taux de substitution (c’est-à-dire la vitesse à laquelle les mutations apparaissent et se fixent dans les séquences).

Afin de déterminer le modèle d’évolution le plus approprié étant donné notre alignement de séquences, nous avons utilisé le logiciel SMS, qui identifie le modèle GTR comme le plus approprié selon le critère d’Akaike (AIC).

Concernant le taux de substitution (ou vitesse d’évolution) les deux options sont soit de le fixer à une valeur donnée, soit de tenter de l’estimer à partir des séquences datées. Avant de se lancer dans cette seconde approche, il faut cependant vérifier qu’il y a assez de signal dans les données. Ceci a été effectué à l’aide du logiciel TempEst sur une phylogénie réalisée grâce au logiciel PhyML. Les résultats montrent les limites de ce jeu de données réduit au plus gros clade français.

En effet, comme indiqué dans le Rapport 4, le coefficient de régression de la régression linéaire entre la distance à la racine de la phylogénie et la date d’échantillonnage, indique le taux de substitution. Ici, sa valeur de l’ordre de \(7\cdot 10^{-4}\) an\(^{-1}\) est cohérente avec les résultats obtenus par Andrew Rambaut sur l’ensemble de la phylogénie le 6 mars 2020. Toutefois, le coefficient de détermination, qui indique le pourcentage de la variance expliquée par la régression, est seulement de \(R^2=6 \%\), ce qui est peu (avec l’ensemble de la phylogénie il est de plus de 50 %).

En résumé, le signal phylogénétique dans les données est cohérent avec les estimations existantes. Toutefois, du fait du peu de séquences anciennes, il semble préférable de fixer le taux de substitution dans les analyses. Nous avons donc utilisé trois paramétrisations pour l’horloge moléculaire et donc la vitesse d’évolution : soit le taux de substitution a été fixé à \(8,8\cdot 10^{-4}\) substituions par génome par an (notre référence) ou à \(13,2\cdot 10^{-4}\) subst/position/an, soit il a été estimé (à partir d’une distribution a priori uniforme suivant une hypothèse d’horloge moléculaire stricte).

Modèles populationnels

Nous avons réalisé les analyses phylodynamique à partir de notre alignement de séquences datées à l’aide des logiciels Beast et Beast2. Sans entrer dans les détails, ces logiciels utilisent des approches bayésiennes afin d’intégrer des paramètres liés à un modèle d’évolution moléculaire (qui nous serviront à dater les événements) et à un modèle démographique (qui nous serviront à retracer la propagation). Nous avons analysé plusieurs modèles et présentons les résultats de deux d’entre eux :

  1. Un modèle basé sur un coalescent exponentiel (noté DT pour doubling time), qui fait l’hypothèse que la population croit de manière exponentielle. À partir de ce modèle, nous pouvons notamment estimer le temps de doublement de l’épidémie, c’est-à-dire le nombre de jour qu’il faut attendre pour que le nombre de personnes infectées soit doublé. La limite de ce modèle est qu’il devient inadéquat si l’épidémie décroît, ce qui ne semble pas être le cas.

  2. Un modèle basé sur un processus de naissance et de mort (noté BDSKY, pour birth-death skyline plot), qui est plus proche d’un modèle épidémiologique et où chaque nouvelle infection correspond à une “naissance” et chaque fin d’infection correspond à une “mort”. À partir de ce modèle nous pouvons estimer à la fois le nombre de reproduction de base temporel (noté \(\mathcal{R}(t)\) et décrit dans nos précédents rapports) et la durée de contagiosité. En pratique, le temps est divisé en plusieurs périodes afin de détecter des variations de \(\mathcal{R}(t)\). Une des limites de ce modèle est qu’il peut être sensible à l’échantillonnage et qu’il nécessite d’estimer de nombreux paramètres.

Datation

Grâce à l’inférence phylodynamique, on peut dater l’ancêtre commun à toutes les séquences de notre jeu de données. Biologiquement, cela peut-être interprété comme la date de l’infection qui a conduit à toutes ces infections détectées en France. Attention, il se peut tout à fait que cet ancêtre commun corresponde à une infection hors de France (par exemple en Chine), surtout s’il y a eu des introduction multiples dans le clade étudié.

Les datations proviennent d’un modèle de coalescent exponentiel (DT) réalisé sur les trois sous-jeux de données de tailles et de dates différentes (Fra59, Fra101 et Fra122), ainsi que du modèle BDSKY réalisé uniquement sur le jeu de donnée le plus complet (Fra122). Dans tous les cas l’horloge moléculaire est fixée à une valeur moyenne (\(8,8\cdot 10^{-4}\)) ou élevée (\(13,2\cdot 10^{-4}\)).