Préambule

Comme l’ensemble de nos travaux, sont à visée académique, fruit d’un travail de recherche fondamentale indépendant des autorités compétentes en matière de santé. En matière de santé publique et pour toute question, nous recommandons de consulter et suivre les instructions officielles disponibles sur https://www.gouvernement.fr/info-coronavirus.

Le manuscrit en anglais associé à ce rapport n’a pas encore été relus par les pairs. Cette version française a été rédigée un peu dans l’urgence et sera probablement améliorée dans les prochains jours.

Contexte et données

En France, depuis le 5 février 2021, les consignes officielles sont de tester tous les échantillons testés positifs pour le SARS-CoV-2 en test RT-PCR avec une seconde RT-PCR variant-spécifique.

Nous décrivons ici le résultat de dépistage concernant 42.229 tests positifs réalisés sur des échantillons collectés entre le 26 jan. 2021 et le 16 fév. 2021 sur 40.777 personnes de 13 régions. 1.397 personnes ont été testées plusieurs fois sur la période et seul le premier test a été conservé pour l’analyse. Nous avons aussi exclu de l’analyse les données des enfants de moins de 5 ans et des adultes de plus de 80 ans afin notamment de diminuer les sources de biais potentielles.

Les échantillons avec des données manquantes (sur l’âge ou le département d’origine) ont été ignorés. Au final, on analyse 35.208 tests provenant d’autant d’individus.

Ces tests de détection de variants ont été réalisés par le laboratoire CERBA à l’aide de deux kits, VirSNiP SARS-CoV-2 Spike del+501 (TIB MOLBIOL) and IDTM SARS-CoV-2/UK/SA Variant Triplex (ID SOLUTION), qui permettent de détecter la lignée B.1.1.7 (détectée en Angleterre) d’une part, et les lignées B.1.153 (détectée en Afrique du Sud) et P.1 (détectée au Brésil) d’autre part. Ils permettent aussi de détecter des variants un peu similaire. Les souches qui ne sont pas des variants, donc celles circulant en France depuis 2020, sont désignées comme `sauvages’.

Résultats

6.702 résultats RT-PCR pour les variants (soit 19 %) étaient ininterprétables (car ayant trop peu de matériel génétique) et ont été traités comme valeurs manquantes dans l’analyse principale (mais on explore aussi les conséquences de supposer qu’elles sont causées par la souche sauvage).

On constate que la majorité des variants détectés sont ceux de la lignée B.1.1.7 (24 % des tests analysés) alors que les autres variants sont minoritaires (moins de 4 %).

Les données brutes par région sont représentées sur la figure ci-dessous :

Afin de mieux comprendre les tendances, on réalise une analyse statistique de ces données de tests individuel à l’aide un modèle linéaire généralisé avec une distribution binomiale et dont les facteurs explicatifs sont la date d’échantillonnage, le lieu de prélèvement (milieu hospitalier ou non), l’âge de la personne, la région et le kit du test.

On teste les effets significatifs avec une table d’analyse de variance avec une erreur de type II (du fait de l’échantillonnage très différent entre les régions) :

## Analysis of Deviance Table (Type II tests)
## 
## Response: souche_bin
##                   LR Chisq Df Pr(>Chisq)    
## REGION             1320.27 11  < 2.2e-16 ***
## date                926.02  1  < 2.2e-16 ***
## age                  99.78  1  < 2.2e-16 ***
## reactif               0.47  1     0.4925    
## location_sampling    17.33  1  3.139e-05 ***
## REGION:date          61.71 11  4.450e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Si on estime les facteurs de risques, on peut mieux visualiser les intensités des effets.

Cliquez sur le triangle pour visualiser les facteurs de risque associés au modèle.
## Waiting for profiling to be done...
##                                       Rapport_de_risque         2.5 %
## (Intercept)                                0.000000e+00  0.000000e+00
## REGIONBourgogne-Franche-Comté             8.011498e-218  0.000000e+00
## REGIONBretagne                                      Inf  0.000000e+00
## REGIONCentre-Val de Loire                  0.000000e+00  0.000000e+00
## REGIONGrand Est                           5.211393e+194 2.137108e-177
## REGIONHauts-de-France                     3.656160e-184  0.000000e+00
## REGIONIle-de-France                       2.391190e-232  0.000000e+00
## REGIONNormandie                            0.000000e+00  0.000000e+00
## REGIONNouvelle-Aquitaine                  7.345561e-211  0.000000e+00
## REGIONOccitanie                            1.506594e-96  0.000000e+00
## REGIONPays de la Loire                              Inf  8.968920e+19
## REGIONProvence-Alpes-Côte d'Azur          3.123893e-149  0.000000e+00
## date                                       1.070085e+00  1.028847e+00
## age                                        9.931586e-01  9.918180e-01
## reactifcovtib                              1.040131e+00  9.292879e-01
## location_samplingnon-hospital              1.251560e+00  1.125796e+00
## REGIONBourgogne-Franche-Comté:date         1.027112e+00  9.622152e-01
## REGIONBretagne:date                        9.439601e-01  8.504838e-01
## REGIONCentre-Val de Loire:date             1.059180e+00  1.012558e+00
## REGIONGrand Est:date                       9.762926e-01  9.327565e-01
## REGIONHauts-de-France:date                 1.022933e+00  9.813937e-01
## REGIONIle-de-France:date                   1.029071e+00  9.887939e-01
## REGIONNormandie:date                       1.083224e+00  1.034649e+00
## REGIONNouvelle-Aquitaine:date              1.026289e+00  9.801205e-01
## REGIONOccitanie:date                       1.011931e+00  9.661637e-01
## REGIONPays de la Loire:date                9.274515e-01  8.622785e-01
## REGIONProvence-Alpes-Côte d'Azur:date      1.018522e+00  9.779214e-01
##                                              97.5 %
## (Intercept)                           6.515502e-232
## REGIONBourgogne-Franche-Comté                   Inf
## REGIONBretagne                                  Inf
## REGIONCentre-Val de Loire             1.401457e-101
## REGIONGrand Est                                 Inf
## REGIONHauts-de-France                 3.718499e+152
## REGIONIle-de-France                    9.607475e+91
## REGIONNormandie                       1.203490e-276
## REGIONNouvelle-Aquitaine              9.002686e+162
## REGIONOccitanie                       2.079238e+279
## REGIONPays de la Loire                          Inf
## REGIONProvence-Alpes-Côte d'Azur      1.594326e+181
## date                                   1.112790e+00
## age                                    9.944995e-01
## reactifcovtib                          1.163098e+00
## location_samplingnon-hospital          1.392138e+00
## REGIONBourgogne-Franche-Comté:date     1.097263e+00
## REGIONBretagne:date                    1.044893e+00
## REGIONCentre-Val de Loire:date         1.108188e+00
## REGIONGrand Est:date                   1.022067e+00
## REGIONHauts-de-France:date             1.066392e+00
## REGIONIle-de-France:date               1.071123e+00
## REGIONNormandie:date                   1.134435e+00
## REGIONNouvelle-Aquitaine:date          1.074882e+00
## REGIONOccitanie:date                   1.060078e+00
## REGIONPays de la Loire:date            9.975738e-01
## REGIONProvence-Alpes-Côte d'Azur:date  1.060944e+00

En résumé, tous les facteurs ont un effet significatifs sauf le kit du test RT-PCR.

On trouve plus de variants pour les tests réalisés hors hôpital. Sachant que les tests à l’hôpital concernent en grande majorité des patients et sachant que les hospitalisations se produisent en moyenne 14 jours après l’infection, on peut lier cela au fait que les tests sur les personnes hospitalisées reflètent une épidémie plus ancienne que les autres tests réalisés en ville. Par la suite, on ne représentera que les tests réalisés hors milieu hospitalier (93 % des test).

La proportion de variants semble diminue aussi significativement avec l’âge des personnes. La figure ci-dessous illustre cette tendance pour les tests réalisés hors-hôpitaux (attention, la ligne noire est issue d’un modèle univarié qui ne prend en compte que l’âge et doit être interprétée avec précautions).

Afin d’étudier les variations temporelles de fréquences du variant, on ne peut pas directement faire une régression avec la date. En effet, il existe un biais d’auto-corrélation temporel très fort dans ce type de données. Pour cela, nous utilisons une approche issue de la génétique des populations, qui consiste à estimer la croissance d’un allèle mutant dans une population sauvage à l’aide d’un modèle de croissane logistique.

Un des avantages certains de cette méthode est qu’elle nous permet aussi d’estimer l’avantage de croissance des variants (que l’on suppose ici lié à une transmissibilité plus élevée).

Proportion de variants dans les infections SARS-CoV-2 en France.

On constate que l’avantage des variants est très prononcé (de 37 à 64 %). Selon ce scénario, les variants seraient majoritaires dans les infections depuis la fin de la semaine du 8 février.

Il existe cependant un biais car dans cette analyse nous avons retiré les valeurs de tests ininterprétable. Il se pourrait que ces valeurs soient plus associées à des échantillons d’infections par des souches sauvages, surtout si celles-ci ont des charges virales plus faibles que les infections causées par les variants. Nous avons donc aussi refait l’analyse en faisant l’hypothèse (forte) que TOUS les échantillons ininterprétables sont causés par des souches sauvages.

Proportion de variants dans les infections SARS-CoV-2 en France (scénario conservateur).

Même dans ce scénario très conservateur, l’avantage de transmission des variants demeure élevé (26 à 48 %) avec un remplacement d’ici la fin de la semaine du 15 février.

Analyse régionale

On l’a vu, la fréquence des variants diffère fortement selon les régions.

On peut réaliser l’inférence précédence basée sur un modèle de croissance logistique à l’échelle régionale. Attention car l’échantillonnage est très variable, avec une sur-représentation de la région Provence-Alpes-Cote d’azur, des Hauts-de-France et surtout de l’Ile-de-France. À l’inverse, les régions Pays-De-Loire et Bretagne ont été retirée car avec trop peu de données.

Proportion de variants dans les infections SARS-CoV-2 en régions.

On constate que si, selon le jeu de données utilisé, pour l’Ile-de-France les infections causées par le variant seraient déjà majoritaires, ceci se produira vraisemblablement pour la plupart des régions d’ici la fin du mois de février 2021. Toutefois, ceci pourrait aussi être un biais lié au fait que ces deux régions sont relativement peu représentées dans le jeu de données.

Liens avec \(R(t)\)

Nous avons ensuite étudié les liens entre la croissance de la proportion en variants dans une région et le nombre de reproduction de l’épidémie \(\mathcal{R}_t\) de l’épidémie dans cette même région.

Pour cela, nous avons réalisé des modèles linéaires généralisés similaires à notre modèle principal à l’échelle de chaque régiont avec comme facteurs explicatifs la date de prélèvement et l’âge des individus. Pour chacune des région avec au moins 400 tests réalisés, avons conservé le coefficients associés au facteur date.

Nous avons ensuite effectué une corrélation entre ce coefficient, que l’on peut interpréter comme l’augmentation en fréquence des variants dans le département au cours du temps, et le nombre de reproduction de l’épidémie dans le département (calculé sur les admissions en réanimation jusqu’au 14 février 2021 à l’aide de méthodes décrites dans notre outil Rt2).

## 
##  Spearman's rank correlation rho
## 
## data:  nombres_reproduction and croissance_variants
## S = 200, p-value = 0.3425
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.3006993

La tendance est à la croissance mais elle est non significative. Ceci pourrait être lié aux limites d’estimation du nombre de reproduction dans les départements où il y a peu de cas, mais aussi au fait qu’il reflète l’état de l’épidémie vers la fin janvier alors que les tests correspondent à l’épidémie les deux premières semaines de février.

Discussion

Attention, bien que basés sur plus de 40.000 tests PCR réalisés en moins de 3 semaines, ces résultats se fondent sur un échantillonnage réalisé de manière non contrôlée. Il se pourrait ainsi que, par hasard, des infections causées par des variants aient été plus échantillonnées que la moyenne. Toutefois, nous contrôlons a priori pour l’âge, le département et la date de prélèvement, ainsi que la présence ou non en milieu hospitalier.

Avec ces bémols on, peut tirer plusieurs enseignements de ces analyses :

  • les deux tests utilisés ne semblent pas être associés à plus ou moins de détection de variants, suggérant que les données peuvent relativement être regroupées depuis différents laboratoires,

  • selon les modèles, plus de 50 % des infections pourraient déjà être causées par les variants en France (dans un scénario bien plus conservateur cela se produira avant la fin de la semaine du 15 février),

  • les variants se propagent avec une hétérogénéité territoriale,

  • les variants sont plus retrouvés chez les plus jeunes mais cela peut être lié à des facteurs épidémiologique ou biologique (ou les deux),

  • les variants sont moins détectés en milieu hospitalier, ce qui est logique car leur proportion augmente au cours du temps et il y a un décalage de 14 jours entre l’infection et l’hospitalisation, tandis que les tests de dépistages sont plus proches de l’état de l’épidémie,

Il y a plusieurs limites à cette analyse :

  • le plan d’échantillonnage a été réalisé a posteriori ce qui peut inclure des biais (par exemple, pour les prélèvements réalisés hors hôpital, on ne connaît pas exactement le lieu de prélèvement),

  • le nombre de reproduction est estimé à partir des données d’hospitalisation jusqu’au 12 février et il reflète donc un état de l’épidémie vers la toute fin janvier (donc au début de la période étudiée),

  • les données non-interprétables du test spécifiques pour les variants pourraient être biaisées en faveur de la souche sauvage (mais cela est pris en compte dans un de nos modèles),

  • des données de séquences génétiques pourraient permettre de mieux quantifier cette propagation des variants en France.

Sources et remerciements

  • Les données utilisées ont été générées et partagées par le laboratoire CERBA et son pôle infectiologie (Dr Stephanie Haim-Boukobza, Dr Benedicte Roquebert, Dr Sabine Trombert, Dr Emmanuel Lecorche, Dr Laura Verdurme).

  • L’équipe de modélisation de l’équipe ETE est composée de Samuel Alizon, Thomas Bénéteau, Corentin Boennec, Marc Choisy, Gonché Danesh, Ramsès Djidjou-Demasse, Baptiste Elie, Yannis Michalakis, Bastien Reyné, Quentin Richard, Christian Selinger, Mircea T. Sofonea.

  • Ce travail s’inscrit dans le cadre de l’étude NCT04738331 portant sur l’analyse de l’épidémie de COVID-19 au travers des tests PCR et déposée à l’Internal Review Board du CHU de Montpellier.

  • Contribution à ce travail :

    • rédaction du rapport : SA

    • analyses : SA, YM, MTS

    • commentaires sur les analyses et le rapport : toute l’équipe

    • contact :

  • Ce travail a été aidé par la région Occitanie et l’ANR au travers du projet PHYEPI et par le soutien du CNRS, de l’IRD et de l’UM.

  • Licence Creative Commons
    Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale 4.0 International.