Préambule

Ce rapport a été produit à des fins académiques et ne constitue pas un support de prise de décision. De plus, les calculs réalisés ici sont faits avec des hypothèses volontairement simplifiées.

L’ensemble de nos rapports sur la pandémie de COVID-19 est disponible sur cette page.

En matière de santé publique et pour toute question, nous recommandons de consulter et suivre les instructions officielles disponibles sur https://www.gouvernement.fr/info-coronavirus

L’Organisation Mondiale de la Santé (OMS) dispose aussi d’un site très complet https://www.who.int/fr/emergencies/diseases/novel-coronavirus-2019

Nous remercions les patients, personnels de santé et les laboratoires de virologie de France qui ont permis de générer les données de séquences de SRAS-Cov-2 à la base de ce travail. Pour plus de détails, voir la liste des données utilisées.

Phylodynamique

Depuis le début des années des 2000, un champ émergent appelé phylodynamique propose d’estimer des valeurs de paramètres d’intérêt épidémiologique à partir de données de séquences génétiques et à l’aide de modèle statistiques. Pour plus de détails en français, on peut se référer à cet article et pour plus de détail en anglais on peut voir une revue plus complète.

L’idée de la phylodynamique est que la manière dont les virus se propagent laisse des traces dans leur génome. En analysant des génomes issues de plusieurs patient⋅e⋅s infecté⋅e⋅s, on peut reconstruire un arbre phylogénétique d’infections, qui peut être mis en relation avec une chaîne de transmission. Cet arbre a des feuilles (les extrémités) et des branches. En théorie, les séquences proches dans la phylogénies ont plus de chances d’être issues de patient⋅e⋅s proches dans la chaîne de transmission. Toujours en termes d’analogie, si toutes les infections de l’épidémie étaient échantillonnées, on pourrait interpréter chaque feuille de l’arbre comme une fin d’infection et chaque embranchement de l’arbre comme un événement de transmission.

Plusieurs analyses ont déjà été réalisées au niveau mondial, qui sont disponibles sur le site virological.org/. Le site nextstrain.org permet lui de suivre la propagation géographique de plusieurs épidémies virales quasiment en temps réel à l’aide des données de séquences disponibles.

Ce rapport se focalise sur l’épidémie en France en utilisant les données de SRAS-Cov-2 disponibles sur la base de données GISAID au 28 mars 2020, soit 69 séquences pour la France. Ces séquences ne peuvent pas être publiées dans cette analyse car elles sont pour la plupart sous embargo.

Analyse des données de séquences

Le graphique suivant représente les séquences utilisées, classées en fonction de la date à laquelle le prélèvement a été effectué et de la région de prélèvement.

À noter que 7 séquences ont du être retirées de la base de données GISAID car elles provenaient des mêmes patient⋅e⋅s, ou car elles provenaient de passages en cultures cellulaires.

La longueur des séquences exploitable est quasi-parfaite, comme le montre la médiane et l’intervalle de confiance à 95 % du pourcentage de génome couvert par rapport à la séquence de référence (MN908947) :

##  2.5%   50% 97.5% 
## 99.67 99.91 99.99

Les séquences ont ensuite été alignées et nettoyées à l’aide de la pipeline Augur développée par nextstrain. Nous avons pour le moment supposé que les événements de recombinaisons dans les génomes étaient négligeables.

Analyse via nextstrain

La plateforme en ligne de nextstrain permet de visualiser et d’analyser les 68 séquences mentionnées ci-dessus. Quand on les observe sur la phylogénie des séquences mondiales on voit qu’elles sont réparties dans plusieurs clades. On a donc vraisemblablement eu plusieurs introductions en France. En effet, si l’épidémie française n’avait été causée que par une seule introduction, alors le dernier ancêtre commun à toutes les séquences françaises n’aurait pas été partagé par des séquences hors de France, ce qui n’est pas le cas dans cet arbre