数据非依赖采集(DIA)可通过划分采集窗口,将所有检测范围内的离子进行碎裂和扫描,定量准确性高、重现性好、蛋白质组覆盖深度广,尤其适合低丰度肽段的检测。但现有DIA数据分析方法主要依赖谱图库或直接数据库搜索,但两者均受限于数据库中的已知肽段列表,难以发现由遗传变异或突变产生的新生肽段。2025年5月30日,Bioinformatics Solutions Inc.发表了最新预印本文章 [1],介绍了一种直接从复杂的DIA谱图中发现低丰度突变肽段的算法,同时严格控制FDR。
DIAVariants工作流程
如图1所示,读取数据后,首先进行MS1特征峰提取,以识别电离肽段产生的具有明确同位素的可靠MS1信号响应。接下来进行PEAKS DIA数据库搜索,将谱图与参考蛋白质序列库比对,筛选FDR小于1%的可信肽段,并基于保留时间和母离子 m/z与MS1特征峰关联。
对数据库匹配不可信的MS1特征峰,利用DIA de novo预测与关联MS2最佳匹配的肽段序列。然后通过SPIDER算法,基于de novo预测的序列、MS1特征峰信息和参考序列校正测序错误。SPIDER候选肽段中,仅保留包含1-2个突变位点的序列,下一步预测这些候选突变肽的索引保留时间(iRT),通过RT回归模型转换为实验RT,过滤掉预测iRT与实测RT差异显著的突变肽段。最后,将候选突变肽与数据库搜索得到的肽段合并构建临时谱图库,基于实测RT进行PEAKS DIA谱图库搜索,通过Q值控制FDR。
图1 DIAVariant方法流程
结果展示
PEAKS DIA直接数据库搜索性能
下载两个公开质谱数据集(PXD046453、PXD050030),采用相同的database和参数,分别使用PEAKS DIA DB search和DIANN2.1进行分析,结果如表1所示,从定量蛋白数量、CV指标来看,两者在DIA蛋白质组数据的定量性能上,稳定性和灵敏度均较高。
表1 文献数据分析结果对比
跨物种搜索验证DIAVariants特异性
在ABRF人类样本(搜索小鼠数据库)和MSV000095360小鼠样本(搜索人类数据库)的结果中,DIAVariant报告的肽段变体中85%以上可在本物种数据库中被可信鉴定(q-value <0.01),验证了算法的高特异性(表2)。
表2 跨物种检索结果
与蛋白基因组方法对比
Fierro-Monti等
[2]曾对Hela细胞样本进行外显子组测序,通过蛋白基因组的方法构建了233个经典蛋白变体,将其加入人类参考序列数据库后,使用DIANN 1.8.1检索到了相应的DIA数据,并通过同位素合成肽段和靶向验证,最终报告了6个肽段变体。我们下载了文献中的原始数据,用DIAVariants直接分析,结果成功鉴定到了上述6条肽段变体的其中2条(LEQDLQQIQAK 和 NELSGALTGLIR)(表 3),并且额外发现426个低丰度潜在多肽变体。这些低丰度肽段因MS1信号弱,难以通过DDA数据检测,更加显示了DIA-MS在低丰度肽段检测中的优势。

表3 DIAVariants与蛋白基因组报道肽段对比。
小结
DIAVariant通过整合DIA数据库搜索、从头测序和同源校正,提供了一种高效、无偏的DIA数据突变肽段识别方法,可同时检测参考数据库内的已知肽段和数据库外的肽段变体,尤其适用于低丰度肽段和复杂遗传变异的分析。该方法为蛋白质组学中序列变体的发现提供了新工具,有望推动精准医学和癌症新抗原研究的发展。但目前仅验证了1-2个氨基酸突变位点,未涉及插入和缺失的情况,未来算法仍会继续扩展。
参考文献
[1] Qiao, R., et al. (2025). "De Novo sequencing-assisted homology search for DIA data analysis enables low abundance peptide variants discovery." doi: https://doi.org/10.1101/2025.05.30.657054.
[2] Fierro-Monti, Ivo, et al. "Assessment of Data-Independent Acquisition Mass Spectrometry (DIA-MS) for the Identification of Single Amino Acid Variants." Proteomes 12.4 (2024): 33.
原文链接:https://www.biorxiv.org/content/10.1101/2025.05.30.657054v1
作为生物信息学的领军企业,BSI专注于蛋白质组学和生物药领域,通过机器学习和先进算法提供世界领先的质谱数据分析软件和蛋白质组学服务解决方案,以推进生物学研究和药物发现。我们通过基于AI的计算方案,为您提供对蛋白质组学、基因组学和医学的卓越洞见。旗下著名的PEAKS®️系列软件在全世界拥有数千家学术和工业用户,包括:PEAKS®️ Studio,PEAKS®️ Online,PEAKS®️ GlycanFinder, PEAKS®️ AB及抗体综合表征服务等。
联系方式:021-60919891;sales-china@bioinfor.com