此外,通过使用多信号综合分析(Composite of Multiple Signals,CMS)方法,重新确定了藏族人群基因组中受到达尔文正选择的遗传位点和基因,包括4320个高可信的受选择位点,涉及192个基因。功能注释和富集分析表明,这192个基因涉及多个基因器官和生理系统,支持藏族人群高原适应是多基因效应的假说。研究团队发现了4个具有强选择信号的新基因:TMEM132C、ATP13A3、SANBR和KHDRBS2,与藏族更好的心肺功能相关。该研究基于大规模的藏族全基因组测序数据和发现的适应性基因将成为未来高原地区人群遗传和医学研究的宝贵资源。
在中国西藏自治区拉萨某医院(海拔3650 m)共招募1064名受试者。这些被招募的藏族女性均无亲属关系(来自医院妇产科),她们来自83个不同的地理位置(海拔范围:2300-4900米)。每位受试者均获得书面知情同意。本研究方案经中国科学院昆明动物研究所内审委员会审核通过(批准号:SMKX-20160311-45)。采集血样,通过prefill Blood DNA Kit-DUO (KFRPD801212)提取基因组DNA,在Illumina NovaSeq™平台上进行WGS,平均每人40 Gb (11.8×depth)数据(图1B)。在测序和分析之前,为了保护隐私,所有样本都被剥离了个人标识符。所有程序都符合人体实验负责委员会的道德标准。
结果 1,001名藏族人的全基因组测序
图1:抽样调查藏族地理位置及WGS数据质量评估
A 本研究中藏族样本的地理位置。标明了抽样地点和样本量。
科研人员招募了来自青藏高原83个不同地理位置(海拔范围:2300-4900米)的1064名藏族参与者。
B 藏区1001WGS数据的质量,反映在深度和Q30值上。平均深度和Q30用红色虚线表示。
共计1064名个体的基因在Illumina NovaSeq™平台上进行了WGS测序,测序平均深度为11.8×,数据质量平均Q30为93%。经过严格的过滤,最终保留了1001个个体的WGS数据,用于全基因组变异调用和下游分析。
C 所有已鉴定SNV的次要等位基因频谱。已知的和新的变种分别以红色和蓝色显示。
使用标准的GATK流程,鉴定出3470万个变异,其中包括2990万个单核苷酸变异(SNV)和480万个INDELs(插入和缺失大小小于50bp)。在2820万个双等位SNV中,有36%是没有在数据库dbSNP (版本154)中报告的新SNV。
D 藏族和18个东亚代表性群体的全基因组主成分分析图。红圈是本次研究的1001个样本(藏族),蓝圈是已发表的33个WGS样本(藏族*)
通过主成分分析(PCA),包括1000基因组计划第三阶段(简称1KGP3)和人类基因组多样性计划(HGDP)的1001名藏族人和6527名全球个体,以及33名已发表的藏族人。当只包括东亚人口时,1001名藏族人与33名藏族人紧密地聚集在一起,他们一起形成了一个独立于其他东亚人口的群体,且来自中国的三个民族(土族、纳西族和彝族)与藏族人关系较近。这三个民族生活在青藏高原周围与藏族人杂居。藏族的全基因组杂合率为1.41±0.046,藏族与汉族(藏汉)的遗传距离为0.0095。
藏族人的变异频率和连锁不平衡谱系
图2:藏族的全基因组变异频率和LD谱系
A 1001 WGS数据和公共的数据之间的MAF的SNV计数比较。1001个WGS数据在检测罕见变异方面比公共的数据要强大得多。
基于1001个基因组序列建立了西藏人的全基因组变异频率和LD谱系与以往小样本量的西藏WGS研究或大样本量的阵列数据相比,该的变异集在检测罕见变异(小等位基因频率,MAF<3%)和全基因组的无偏覆盖方面表现出显著的能力
B 人群间差异较大的SNVs(FST(Tibetan-Han))的HWE偏差分布,HWE偏差的卡值为1e-6。
对藏族人的全基因组变异进行了Hardy-Weinberg平衡(Hardy–Weinberg equilibrium ,HWE)偏离测试,有207个变异显示出明显的HWE偏差(P<1e-6)。同时,它们也显示出藏族和汉族之间的深度分化,这是强烈自然选择的表现(FST(Tibetan-Han)>0.2)。这些变异的质量都很稳定,并通过了所有严格的质量控制,包括读深度、映射质量(MQ)、碱基质量(BQ)和基因型质量(GQ)。
C 通过Sanger测序验证三个具有高FST(Tibetan-Han)的HWE偏移的SNVs(藏族-汉族)。中间的直方图表示三个数据集中三个SNVs的小等位基因频率(MAF),包括1001个藏族人的WGS数据(蓝色),1001个WGS数据中的96个随机样本(绿色),以及96个样本的Sanger测序数据(红色)。直方图下的p值表示基于三个数据集的三个SNPs的HWE偏差的显著性水平。