美国国家癌症研究所的研究人员在近日发表的有关Proton和HiSeq 平台的对比研究显示,在进行外显子组测序时,Life Technologies的Ion Proton和Illumina的HiSeq 2000在单核苷酸变异检测方面均表现良好,但在准确检测插入缺失时存在某些问题。
该研究于本月初刊载在《人类遗传学》上,很可能是首个发表的有关这两个平台性能对比的研究。该研究将采用Proton和HiSeq对HapMap CEPH三元家族生成的全外显子组测序数据检测到的变异进行了比较。此外,还对从Complete Genomics公司获得的全基因组测序数据的变异以及相同三元家族的Illumina SNP微阵列数据的变异进行了对比。
美国国家癌症研究所(NCI)癌症基因组学研究实验室的研发部主任和该研究的首席作者Joe Boland声称,本项目旨在评估其实验室能否将去年九月安装的Ion Proton常规用于外显子组测序,以作为HiSeq的可行替代方案。Joe Boland表示,“HiSeq是目前研究的黄金标准”。
“令人兴奋的是,答案是肯定的,Proton的表现与HiSeqs旗鼓相当”,Joe Boland告诉《In Sequence》。“鉴于我们在PGMs方面的经验,对于一个新平台而言,我们希望它具有竞争力,但又不指望其像数据中所显示的那样卓越——因为它已经远远超出了我们对它的期盼。”
Proton和HiSeq 平台在单核苷酸变异检测方面表现良好,但在插入缺失上却存在差异,出现某些问题。“这两个平台在检测插入缺失方面有利有弊。我认为,如果您只需在[生成数据]后进行仔细的搜集,则这两个平台足以满足您的需求”, Boland说。
NCI实验室最近配置了六台Ion Torrent PGM,四台Ion Proton,一台HiSeq 2000,一台HiSeq 2500 ,以及一台MiSeq。
开展研究后,研究人员于12月和1月生成了相关数据,并在2月的基因组生物学和技术进步会议(IS 2/26/2013)上提交了初步结果。目前,该实验室根据机器的可用性以及生成结果的速度采用HiSeqs和 Protons进行全外显子组测序。 实验室的多个项目涉及家族性外显子组研究,如果HiSeqs被预定完,则将转为采用Proton进行小型家族性外显子组研究,Boland表示。 “由于这两个平台的质量目前不相上下,如果我们从一个平台转向采用另一个平台,这不会给我们的研究人员带来任何困难”。 实验实验室目前主要采用Protons开展转录组测序研究,Boland说。
实验室采用任一平台进行全外显子组测序时,各样本的费用差额在$150以内,Boland表示,“在确定运行哪个平台时,价格不是主要的考虑因素”。
为进行对比,研究人员采用Ion Proton和HiSeq 2000对CEPH三元家族的外显子组进行了测序。为捕获外显子组数据,研究人员在采用Proton 时使用的是Life Tech的TargetSeq Exome v2,可包含50百万碱基序列;而在采用Illumina时使用的是NimbleGen SeqCap EZ Exome v3,其能捕获约64百万碱基序列。 研究人员将其分析限制在43百万碱基序列上,即两个外显子组捕获试剂的重叠部分。
采用Proton进行测序时,各样本至少生成9千兆碱基数据,其中80%的读数直指目标。为检测变异,通过Ion Reporter的标准管道运行数据。
采用HiSeq进行测序时,各样本至少生成11千兆碱基数据,其中66%的读数直指目标。使用GATK管道检测变异。
在共享外显子组中,采用Proton时,各样本平均检测到了约28,000个变异,而采用Illumina时为34,000个——两个平台共享了约3/4的变异。
两个平台在进行单核苷酸变异检测时产生的结果大幅重叠,远远超过了插入缺失的重叠部分。以代表样本为例,两个平台都检测出了约25,700个单核苷酸变异。 此外,仅Proton 检测出了1,100个单核苷酸变异,而仅HiSeq检测出了7,000个。
以相同样本为例,这两个平台共同检测出了约600个插入缺失,但是,Proton和HiSeq还分别检测了另外的880个和920个插入缺失。研究人员在对特定平台的插入缺失亚群进行分析时发现,“由于比对问题及/或均聚物序列,很多插入缺失呈现出假阳性”。
研究人员还将通过Proton、HiSeq和Complete Genomics 检测出的单核苷酸变异和插入缺失进行了比较,发现这三个平台检测出了66%的(或23,700个)单核苷酸变异,但是仅检测出了18%(总共530个)的插入缺失。
Proton检测出了830个特定于该平台的插入缺失;之后是Complete,为540个;最后是Illumina,为440个。科学家们得出结论,其分析“在检测较小的插入缺失时,识别出了各方法存在的主要差异,这给进一步提高技术测序及/或生物信息学算法提出了重大挑战”。
在 将采用Proton 和HiSeq得出的SNP基因分型与三个三元样本中的两个的SNP微阵列数据进行比较时,科学家们发现,经采用这两个平台,各样本表现出很高的一致性,高达99%,表明SNP检测具有较高质量。
研究人员还通过检测和分析读数比对,更加密切地关注特定平台变异的检测情况。
很多Illumina平台的特定单核苷酸变异为片段重复或简单重复。 研究人员指出,根据Proton的数据,可以发现单拷贝区的单核苷酸变异具有较低的覆盖率,因此Proton很可能遗漏了该等单核苷酸变异;但是Illumina的数据中也可能遗漏了SNP检测,该等检测在Proton的数据中“明显且清晰”。
Boland说,其采用两种不同的捕获试剂的原因在于,在Proton平台使用NimbleGen(罗氏)或Agilent(安捷伦)SureSelect捕获试剂时尚无任何“商业许可”协议。“我们的想法是,采用任何批准的东西,以便于人们从货架上选择产品并进行使用”,Boland说。由于仅对重叠区域进行了分析并仅使用了相同的DNA样本,“在我们看来,这样做是绝对有效的”。
在论文中,研究人员指出,较之HiSeq ,Proton的运行时间 “明显缩短”, 仅为11.5小时(包括数据处理的时间),而前者通常需要六天的运行时间。
自从开展该项研究后,也对Proton进行了改进。据Mike Lelivelt—Ion Torrent的生物信息学和软件产品主管说,由于提高了各芯片的输出性能,目前,客户可以采用各PI芯片同时对两个(而非一个)外显子组进行测序。
Mike Lelivelt在研究中声称,公司“对Proton系统用于外显子组测序的表现感到十分满意”,这表明“尽管对于各平台而言,进行准确的插入缺失检测仍然任重道远”,但是,“该等平台在单核苷酸变异检测方面已经遥遥领先”。Mike Lelivelt还指出,在所有变异中,插入缺失检测的比例要远低于单核苷酸变异检测。
Boland说,其小组目前正在开展其他的平台比较,此类平台关注于全转录组测序和扩增子测序。该小组还对特定平台的单核苷酸变异和插入缺失做了进一步分析,以探明其他平台遗漏该等单核苷酸变异和插入缺失的原因。 Boland计划于秋季提交其研究的最初结果。