Variant analysis of SARS-CoV-2 genomes

Bull World Health Organ. 2020 Jul 1;98(7):495-504. doi: 10.2471/BLT.20.253591. Epub 2020 Jun 2.

Abstract

Objective: To analyse genome variants of severe acute respiratory syndrome coronavirus-2 (SARS-CoV-2).

Methods: Between 1 February and 1 May 2020, we downloaded 10 022 SARS CoV-2 genomes from four databases. The genomes were from infected patients in 68 countries. We identified variants by extracting pairwise alignment to the reference genome NC_045512, using the EMBOSS needle. Nucleotide variants in the coding regions were converted to corresponding encoded amino acid residues. For clade analysis, we used the open source software Bayesian evolutionary analysis by sampling trees, version 2.5.

Findings: We identified 5775 distinct genome variants, including 2969 missense mutations, 1965 synonymous mutations, 484 mutations in the non-coding regions, 142 non-coding deletions, 100 in-frame deletions, 66 non-coding insertions, 36 stop-gained variants, 11 frameshift deletions and two in-frame insertions. The most common variants were the synonymous 3037C > T (6334 samples), P4715L in the open reading frame 1ab (6319 samples) and D614G in the spike protein (6294 samples). We identified six major clades, (that is, basal, D614G, L84S, L3606F, D448del and G392D) and 14 subclades. Regarding the base changes, the C > T mutation was the most common with 1670 distinct variants.

Conclusion: We found that several variants of the SARS-CoV-2 genome exist and that the D614G clade has become the most common variant since December 2019. The evolutionary analysis indicated structured transmission, with the possibility of multiple introductions into the population.

Objectif: Analyser les variantes du génome de coronavirus 2 du syndrome respiratoire aigu sévère (SARS-CoV-2).

Méthodes: Entre le 1er février et le 1er mai 2020, nous avons téléchargé 10 022 génomes de SARS CoV-2 issus de quatre bases de données. Ces génomes provenaient de patients infectés originaires de 68 pays. Nous avons identifié les variantes en procédant à un alignement par paires avec la séquence de référence NC_045512, à l'aide de l'outil EMBOSS Needle. Les variantes de nucléotides dans les régions codantes ont été converties en résidus d'acides aminés codés correspondants. Enfin, pour analyser le clade, nous avons employé un logiciel open source appelé Bayesian Evolutionary Analysis by Sampling Trees, version 2.5.

Résultats: Nous avons détecté 5775 variantes de génome distinctes, dont 2969 mutations faux-sens, 1965 mutations synonymes, 484 mutations dans les régions non codantes, 142 délétions non codantes, 100 délétions sans décalage du cadre de lecture, 66 insertions non codantes, 36 variantes de codon stop, 11 délétions entraînant un décalage du cadre de lecture, et 2 insertions sans décalage du cadre de lecture. Les variantes les plus fréquentes étaient les synonymes 3037C > T (6334 échantillons), P4715L dans le cadre ouvert de lecture 1ab (6319 échantillons) et D614G dans la protéine de spicule (6294 échantillons). Nous avons identifié six clades majeurs (à savoir, de base, D614G, L84S, L3606F, D448del et G392D) et 14 sous-clades. Quant aux changements de base, la mutation C > T était la plus répandue avec 1670 variantes distinctes.

Conclusion: Nous avons constaté qu'il existait de nombreuses variantes du génome de SARS-CoV-2, et que le clade D614G était devenu la variante la plus commune depuis décembre 2019. L'analyse évolutive a indiqué une transmission structurée, avec une possibilité d'introductions multiples au sein de la population.

Objetivo: Analizar las variantes del genoma del coronavirus tipo 2 del síndrome respiratorio agudo grave (SARS-CoV-2).

Métodos: Entre el 1 de febrero y el 1 de mayo de 2020, se registraron 10 022 genomas del CoV-2 del SARS en cuatro bases de datos. Los genomas eran de pacientes infectados ubicados en 68 países. Se identificaron variantes al extraer la alineación por pares del genoma de referencia NC_045512, por medio de EMBOSS Needle. Las variantes de los nucleótidos en las regiones codificantes se convirtieron en los correspondientes residuos de aminoácidos codificados. Para analizar los clados, se utilizó el programa informático de código abierto Bayesian evolutionary analysis by sampling trees, versión 2.5.

Resultados: Se identificaron 5775 variaciones diferentes del genoma, incluidas 2969 mutaciones con cambio de sentido, 1965 mutaciones sinónimas, 484 mutaciones en las regiones no codificantes, 142 supresiones no codificantes, 100 supresiones en la fase, 66 inserciones no codificantes, 36 variaciones de parada prematuras (stop-gained), 11 supresiones de desplazamiento de fase y dos inserciones en la fase. Las variaciones más comunes eran las sinónimas 3037C > T (6334 muestras), P4715L en la fase abierta de lectura 1ab (6319 muestras) y D614G en la proteína S (6294 muestras). Se identificaron seis clados principales, (es decir, basal, D614G, L84S, L3606F, D448del y G392D) y 14 subclados. En relación con los cambios de base, la mutación C > T fue la más común con 1670 variaciones diferentes.

Conclusión: Se determinó que existen diversas variaciones del genoma del SARS-CoV-2 y que el clado D614G es la variante más común desde diciembre de 2019. El análisis evolutivo indicó una transmisión estructurada, en la que existe la posibilidad de que se realicen múltiples inserciones en la población.

الغرض تحليل الأشكال المختلفة لجينوم المتلازمة التنفسية الحادة الشديدة المعروفة باسم كورونا فيروس 2 (سارس كوف 2). الطريقة خلال الفترة ما بين 1 فبراير/شباط، و1 مايو/أيار 2020، قمنا بتنزيل 10022 من جينوم سارس كوف 2 من أربع قواعد بيانات. كانت الجينومات من المرضى حاملي العدوى في 68 دولة. قمنا بتحديد أشكال مختلفة عن طريق استخلاص تنسيق على شكل زوجي من الجينوم المرجعي NC_045512، باستخدام إبرة EMBOSS. تم تحويل الأشكال المختلفة من النيوكليتويد في مناطق الترميز إلى بقايا الحمض الأميني المشفر المقابل. وبالنسبة لتحليل كليد، فقد استخدمنا تحليل بايزان المتطور لبرنامج المصدر المفتوح، عن طريق تفرعات العينات، الإصدار 2.5. النتائج حددنا 5775 شكلاً مختلفاً ومتميزاً من الجينوم، بما في ذلك 2969 طفرة مُغلطة، و1965 طفرة متشابهة، و484 طفرة في المناطق غير المشفرة، و142 حالة حذف غير مشفرة، و100 حالة حذف في الإطار، و66 إدخال غير مشفر، و36 شكلاً مكتسبًا موقوفاً، و11 حالة حذف لإزاحة الإطار، وعمليتي إدراج داخل الإطار. كانت أكثر الأشكال المختلفة شيوعاً هي المشابه 3037C > T (6334 عينة)، وP4715L في إطار القراءة المفتوحة 1ab (6319 عينة)، وD614G في بروتين الشوكي (6294 عينة). قمنا بتحديد ستة عوامل كليد أساسية (وهي القاعدي، وD614G، وL84S، وL3606FK، D448del، وG392D)، و14 عاملاً فرعياً من كليد. وبخصوص التغييرات القاعدية، فإن طفرة C > T، كانت الأكثر شيوعاً في 1670 شكلاً مختلفاً ومتميزاً. الاستنتاج لقد اكتشفنا أن هناك العديد من الأشكال المختلفة من جينوم سارس كوف 2، وأن كليد D614G قد أصبح الشكل المختلف الأكثر شيوعاً منذ ديسمبر/كانون أول 2019. أشار التحليل المتطور إلى انتقال منظم، مع إمكانية الظهور المتعدد في السكان.

目的: 旨在分析严重急性呼吸综合征冠状病毒 2 (SARS-CoV-2) 的基因组变异体情况。.

方法: 在 2020 年 2 月 1 日至 5 月 1 日期间,我们从四个数据库下载了 10,022 个严重急性呼吸综合征冠状病毒 2 (SARS-CoV-2) 基因组。这些基因组来自 68 个国家的感染患者。我们通过使用凸出针提取参考基因组 NC_045512 的成对序列比对来确定变异体。编码区的核苷酸变体被转化为相应的编码氨基酸残基。我们使用基于抽样树的开源软件贝叶斯演化分析(2.5 版)进行支系分析。.

结果: 我们确定了 5775 个不同的基因组变异体,包括 2969 个错义突变、1965 个同义突变、484 个非编码区突变、142 个非编码缺失、100 个框架内缺失、66 个非编码插入、36 个止损变异体、11 个移码缺失和 2 个框架内插入。最常见的变异是同义 3037C > T(6334 个样本)、开放阅读框 1ab 中的 P4715L(6319 个样本)和纤突蛋白中的 D614G(6294 个样本)。我们确定了 6 大主要分支(即,基底、D614G、L84S、L3606F、D448del 和 G392D)和 14 个子分支。在基底变化方面,以 C > T 突变最为常见,共有 1670 个不同的变异体。.

结论: 我们发现严重急性呼吸综合征冠状病毒 2 (SARS-CoV-2) 基因组存在多种变异体,其中 D614G 支系自 2019 年 12 月以来已成为最常见的变异体。演化分析表明,这是一种结构化传播,有可能多次传入人群中。.

Цель: Проанализировать варианты геномов тяжелого острого респираторного синдрома, вызванного коронавирусом‑2 (SARS-CoV-2).

Методы: В период между 1 февраля и 1 мая 2020 года авторы загрузили данные по 10 022 геномам вируса SARS CoV-2 из четырех баз данных. Геномы принадлежали инфицированным пациентам из 68 стран. Авторы идентифицировали варианты, извлекая и попарно сравнивая последовательности с эталонным геномом NC_045512, используя набор инструментов EMBOSS. Варианты нуклеотидной последовательности в кодирующих участках были преобразованы в соответствующие кодируемые аминокислотные остатки. Для анализа клад использовалось программное обеспечение с открытым кодом для байесовского эволюционного анализа деревьев выборки, версия 2.5.

Результаты: Было идентифицировано 5775 четких вариантов генома, в том числе 2969 миссенс-мутаций, 1965 синонимичных мутаций, 484 мутации в некодирующих участках, 142 некодирующие делеции, 100 делеций внутри рамки считывания, 66 некодирующих вставок, 36 вариантов изменения последовательности ДНК с новым стоп-кодоном, 11 делеций со сдвигом рамки и две вставки внутри рамки считывания. Чаще всего встречались синонимичная замена 3037C > T (6334 образца), P4715L в открытой рамке считывания 1ab (6319 образцов) и D614G в белке «шипа» (6294 образца). Было выявлено шесть основных клад (базовая, D614G, L84S, L3606F, D448del и G392D) и 14 субклад. Что касается замены оснований, наиболее частой была мутация с заменой цитозина на тимин (C>T), которая встречалась в 1670 вариантах.

Вывод: Авторы обнаружили существование нескольких вариантов генома SARS-CoV-2 и выяснили, что с декабря 2019 года наиболее распространенным вариантом является клада D614G. Эволюционный анализ продемонстрировал структурированную передачу генетических данных с возможностью многократной интродукции в популяцию.

MeSH terms

  • Betacoronavirus / genetics*
  • COVID-19
  • Coronavirus Infections / epidemiology*
  • Global Health
  • Humans
  • Pandemics
  • Pneumonia, Viral / epidemiology*
  • RNA, Viral / genetics
  • SARS-CoV-2

Substances

  • RNA, Viral