人类基因组中的变异和人类的演化、疾病风险等方面都有着密切的联系。基因组变异主要包括单核苷酸突变、插入缺失和结构变异三大类。而受技术限制,
结构变异分析仍然是一大块“神秘土地”,齐碳通过总结近几年人类基因组结构变异相关的研究成果,与大家分享目前基于纳米孔测序技术长读长优势的结构变异测序与分析方法,为更好地从群体及个体角度解析结构变异提供新思路。
结构变异
结构变异(Structural variation, SV)是指序列长度大于50 bp的基因组序列变化,可以分为缺失(Deletion)、插入(Insertion)、重复(Duplication)、倒位(Inversion)和易位(Translocation)以及复杂结构变异等。其中,缺失和重复事件也称为拷贝数变异(Copy number variation/alteration, CNV/CNA)。
图1 结构变异类型[1]
值得一提的是,在人类基因组中,结构变异的数量虽然远少于单核苷酸变异(Single-nucleotide variant,SNV)的数量(表1),但研究发现
结构变异对基因组的影响却更大。这是由于DNA序列变化越大,其有害性通常也越大。
如表1所示,人类基因组结构变异的数量约占SNV数量的0.5%,但受结构变异影响的碱基数却是SNV总和的10倍之多。与SNV相比,大片段结构变异与全基因组关联信号相关的可能性高出3倍,影响基因表达的可能性则达30倍以上。
表1人类遗传变异的类别与其影响基因组长度占比[2]
随着结构变异成为越来越多研究关注的热点,目前主要检测方法呈现多样化。但由于技术限制,
如何更准确检测大片段结构变异(如拷贝数变异、大片段InDel、染色体倒位、染色体内部或染色体之间的序列易位等)依然充满挑战。
相比于其他检测技术,
三代测序发挥长读长的优势可跨越基因组中大片段结构变异,为结构变异的准确分析提供了新平台。
一方面,
三代测序技术有效增加了结构变异检测的数量和类型,例如复杂结构变异、串联重复和转座元件插入等;另一方面,
可以帮助获取结构变异更完整的信息,例如断点位置和完整的变异序列等。

图2 长读长测序和短读长测序检测结构变异数量
[3]
纳米孔测序检测结构变异方法
纳米孔测序检测结构变异的方法可分为
全基因组纳米孔测序和
目标区域纳米孔测序。
全基因组纳米孔测序
全基因组纳米孔测序可以全面检测基因组中发生的结构变异,但通常所需数据量较大,例如能够检测到人类样本约在15x测序深度下的可靠胚系结构变异。
2020年,针对3622个冰岛人样本进行全基因组纳米孔测序(深度:~17.2x)揭示了冰岛人群结构变异特征,同时还发现与LDL胆固醇和身高等性状相关的基因结构变异
[4]。
2021年,另一篇针对405个中国人样本的全基因组纳米孔测序研究(深度:~17x),将检测到的结构变异与其临床性状(生化、血液和血清成分等指标)进行关联分析,发现14号染色体的22个SV事件与13个表型呈显著相关。研究还揭示了中国南北方人在免疫相关基因上面临着不同的选择压力
[5]。

图3 中国南北方人人群分层
目标区域纳米孔测序
目标区域纳米孔测序则是仅对获取的目标区域测序,研究针对性强且所需数据量少。获取目标区域序列方式是多样化的,包含PCR扩增、探针捕获和Cas9富集。PCR扩增和探针捕获方式获取的目标区域测序深度较高,但在扩增过程中往往无法保留碱基的修饰信息;而Cas9富集测序的目标区域深度波动范围较大,但可以相对完整地保留碱基修饰信息。
一项对林奇综合征的研究,
通过探针捕获相关基因全长序列和纳米孔测序(深度:~1000x),能够检测到MLH1和MSH2基因上的缺失或重复事件[6];另一项研究利用PCR对视网膜母细胞瘤病人
RB1基因的序列扩增和纳米孔测序,检测到
RB1基因
exon23缺失,并在缺失位置检测到85bp的插入序列
[7]。

图4 林奇综合征患者MLH1和MSH2基因的结构变异
纳米孔测序结构变异数据分析方法
由于测序数据前期可以采用比对法或组装法处理,使得结构变异分析方法也有所不同。
·基于
比对法主要利用比对到断点位置的Split reads识别结构变异,即一条read被分割成多个区域比对在参考基因组不同位置。该方法常用的检测软件如表2所示。
·基于
组装法是先对个体基因组组装,再比较组装后的基因组和参考基因组的差异分析结构变异。
表2 SV检测软件汇总表
[1]

支持数据仅为研究文章所用数据
相关文章基于纳米孔测序数据对Snifffles、cuteSV、pbsv、NanoVar、NanoSV和SVIM等分析软件进行测评。
利用数据模拟软件得到含24600个SVs的纳米孔测序数据,对已检测出的结构变异的位置、长度、类型和基因型信息进行软件表现评估。结果显示:测序深度超过20x后(10x、20x、30x和50x),以上软件检测结构变异检测数量的增速均有所减缓。其中,cuteSV的综合表现较为稳定。
表3 SV分析软件检测能力测评
[8]

combiSV(6): 整合6个软件检测结果
perfect matches代表检测到SV的类型、基因型、完整的长度和位置均正确
中国人群大规模结构变异的研究中也发现,当测序深度达到15x ,若继续增加测序深度,结构变异检测数量将逐渐趋于稳定。

图5 不同测序深度下结构变异检测数量
[4-5]
左:HG002在不同深度(8~40x)和软件下检测SV的数量;Combine代表两个软件交集结果
右:利用sniffles检测3622个冰岛人结构变异的数量;每一个点代表一个个体的测序深度和检测SV数量
由此可见,纳米孔测序检测结构变异的测序方法和分析方法是多样化的。而在实际研究应用中,挖掘基因组结构变异硬实力(技术平台)和软实力(数据算法)缺一不可,随着检测技术的不断成熟和软件算法的不断进步,研究者可以根据自己的研究目的、数据特征和软件检测力选择合适的检测技术,或者通过不同技术组合和不同算法组合从而达到增效作用。
参考资料:
[1] van Belzen IAEM, Schönhuth A, Kemmeren P, Hehir-Kwa JY. Structural variant detection in cancer genomes: computational challenges and perspectives for precision oncology. NPJ Precis Oncol. 2021. 2;5(1):15.
[2] Eichler EE. Genetic Variation, Comparative Genomics, and the Diagnosis of Disease. N Engl J Med. 2019. 381(1):64-74.
[3] Zhao X, Collins RL, Lee WP, et al. Expectations and blind spots for structural variation detection from long-read assemblies and short-read sequencing technologies.Am J Hum Genet. 2021. 108(5):919-928.
[4] Beyter D, Ingimundardottir H, Oddsson A, et al. Long-read sequencing of 3,622 Icelanders provides insight into the role of structural variants in human diseases and other traits. Nat Genet. 2021. 53(6):779-786.
[5] Wu Z, Jiang Z, Li T, et al. Structural variants in the Chinese population and their impact on phenotypes, diseases and population adaptation. Nat Commun. 2021. 12(1): 6501.
[6] Yamaguchi K, Kasajima R, Takane K, et al. Application of targeted nanopore sequencing for the screening and determination of structural variants in patients with Lynch syndrome. J Hum Genet. 2021. 66(11):1053-1060.
[7] Watson CM, Holliday DL, Crinnion LA, Bonthron DT. Long-read nanopore DNA sequencing can resolve complex intragenic duplication/deletion variants, providing information to enable preimplantation genetic diagnosis. Prenat Diagn. 2022. 42(2):226-232
[8] Dierckxsens N, Li T, Vermeesch JR, Xie Z. A benchmark of structural variation detection by long reads through a realistic simulated model. Genome Biol. 2021. 15;22(1):342.
2021年12月,齐碳科技通过5年的自主研发,成功推出国内首台商业化的纳米孔基因测序仪QNome-3841,并宣布首个生产基地竣工,正式开启纳米孔基因测序国产化时代。2022年6月,齐碳科技发布纳米孔基因测序仪QNome-3841hex,标志着国产纳米孔基因测序仪开始了矩阵化发展,这也为灵活测序场景提供全新的解决方案,将更好地满足市场应用的多元需求。
齐碳秉承从上游推动行业发展的理念和对前沿技术的探索精神,保持开放、合作的态度,期待和产业同仁携手共进,探索国产纳米孔基因测序技术在多场景中的优势和广阔的市场前景,构建纳米孔基因测序的生态平台,共同为中国医疗健康事业的稳健发展贡献智慧和力量。