文章

Top-Down 蛋白质组学(TDP)实验的流程、应用、挑战与优化策略

2025-07-16     来源:本站     点击次数:58

今天我们来分享一篇2024年美国威斯康辛大学麦迪逊分校化学系的Lloyd M. Smith 和Ying Ge教授为通讯作者的Top-Down proteomics 综述,该文章联合了多位Top-down 领域的专家学者,发表于Nature Reviews Methods Primers,系统阐释了Top-down Proteomics(TDP)的实验方法,应用实例以及面临的挑战。
 
中心法则描述了信息从 DNA 流向mRNA,最终转化为执行生物学功能的蛋白质的过程。大量的 proteoforms 形成了化学性质多样的蛋白质家族。proteoforms 的产生源于翻译后修饰(PTMs)、RNA 可变剪接以及遗传变异(图 1a)。因此,全面了解 proteoforms 对于理解生物系统以及建立基因型和表型之间的联系至关重要。然而,可能存在的 proteoforms 数量远超基因数量,这带来了分析上的挑战。目前,Top-Down 蛋白质组学(TDP)已经成为了全面研究蛋白分子形式的最强大技术,它通过Top-Down质谱(TDMS)实验,不需要酶切,直接分析完整的蛋白质,以提供 proteoforms的全局视角。TDMS 实验需要同时进行准确的完整分子质量测量(“top” 部分)和气相分子的可控碎裂(“down” 部分)。与TDP不同,Bottom-up蛋白质组学(BUP)需要对蛋白质进行充分酶解,得到通常小于 3 kDa 的肽段。目前 BUP 比 TDP 应用更广泛,因为肽段比蛋白质更易于分离、电离和碎裂。然而,BUP 存在固有的局限性,每个蛋白质只能检测到有限数量的肽段,且蛋白质序列覆盖率通常较低。这导致在绘制序列变异和翻译后修饰图谱时,proteoforms 信息及其关联性会丢失。BUP 的另一个局限性是无法推断不同 proteoforms 上修饰的不同组合。捕捉这种组合信息对于理解 proteoforms 的功能和调控至关重要(图 1b)。
图1.中心法则以及TDP和BUP的对比
 
样品制备与对照
样品制备是 TDP 的关键步骤。传统的蛋白质提取方法使用 Good缓冲液,这类缓冲液含有高浓度盐(>100 mM)、蛋白酶和磷酸酶抑制剂,以及表面活性剂,用于总蛋白质的溶解。然而,这些常规试剂往往与 TDP 不兼容,因为它们会干扰蛋白质离子的检测并抑制质谱信号。因此,为获得高质量数据,必须去除这些物质。不兼容的盐和小分子可通过超滤管离心或使用尺寸排除色谱(SEC)离心柱去除。由于信号抑制,表面活性剂对下游质谱分析构成特殊挑战。目前,可裂解表面活性剂已被开发出来,如可酸降解的Rapigest、ProteaseMAX、MaSDeS;可光降解的Azo;可氧化还原降解的N-十二烷基二硫-β-d-麦芽糖苷等。另外,前端分馏和富集策略可在质谱分析前从复杂生物样品中选择性分离亚蛋白质组,提升低丰度 proteoforms 的检测效率。
 
仪器设备
自上而下方法需要三个主要步骤(图 2):电离(从目标蛋白质产生可在质谱仪中传输的气相离子)、通过 MS1 对电离蛋白质进行完整质量分析、完整气相碎裂以产生序列信息产物离子(通过 MS2);以及数据处理(包括数据库搜索),用于 proteoforms 的鉴定、表征和定量。
高质量分辨率对 TDP 尤为重要,因为完整蛋白质产生的碎片离子可能形成复杂的质谱图,其中不同电荷状态的各种离子可能部分重叠。许多现代质谱仪能够可靠地实现高分辨率,包括傅里叶变换质谱系统(如离子回旋共振(FTICR)和轨道阱(Orbitrap)质谱仪),以及飞行时间(TOF)和四极杆飞行时间(QTOF)仪器。
图2 Top-Down蛋白组学基本流程
 
完整蛋白的分离
蛋白质组的复杂性对 TDP 构成了重大挑战,需要在质谱分析前对完整蛋白质进行分离。当处理较大的蛋白质(≥30 kDa)时,这一挑战尤为突出。早期使用了基于凝胶电泳的分离技术,如二维凝胶电泳分离、虚拟二维凝胶质谱平台、PEPPI-MS等。还可以通过SEC(尺寸排阻色谱)、RPLC(反相液相色谱)、HIC(疏水相互作用色谱)、IEX(离子交换色谱)的方法分离。尽管新的完整蛋白质分离方法发展迅速,但没有单一方法能够完全分离目标蛋白质组中的所有物质。多维液相色谱(MDLC)通过结合多种分离模式,为提高 TDP 的分辨率提供了可能。另外,毛细管电泳 - 质谱(CE-MS)的最新进展使其能够作为变性和非变性分离技术用于 TDP。离子淌度质谱(IMS)基于分子在电场作用下的气相运输性质和碰撞截面积(CCS)分离蛋白质,高分辨率 IMS 有望快速分离具有高度序列同源性的 proteoforms。
 
串联质谱技术
在 TDP 中,MS/MS 通常包括以下步骤:通过 MS1 分析完整蛋白质,选择前体蛋白离子,将其碎裂为更小的碎片离子,然后分析碎片离子以推导蛋白质的一级结构和修饰(图3a)。有多种活化/解离方法可用于产生产物离子(图 3b)。大多数仪器能进行碰撞诱导解离(CID),通过与中性气体分子(如氮气或氩气)相互作用产生的碰撞活化,生成b/y离子。红外多光子解离(IRMPD)涉及低能红外光子的吸收,可产生b/y离子;当吸收多个光子时,可能产生次级及更高阶的碎片离子,从而提供更丰富的蛋白质序列信息。基于电子的解离方法(ExD),如电子捕获解离(ECD)和电子转移解离(ETD),在产生高序列覆盖率方面通常优于 CID。ExD 会产生c/z离子,可用于可靠的proteoforms 表征和翻译后修饰定位。使用 193 nm 或 213 nm 激光,紫外光解离(UVPD)会产生更复杂的串联质谱图,其序列覆盖率与 ExD 方法相当或更高。
图 3 用于自上而下蛋白质组学的串联质谱技术
 
数据采集
数据采集的关键考量包括选择合适的高分辨率仪器和方法,以提供适当的峰分辨率、分析分离度、灵敏度以及串联质谱的覆盖深度。这些评估步骤对于改进下游精确完整质量的计算,以及解析具有特殊和组合翻译后修饰(PTMs)的 proteoform,或难以通过色谱法分离的单氨基酸取代的 proteoform 至关重要。目标是在整个观测质量范围内获得单位质量分辨率,并对每个蛋白质分子离子进行同位素分辨。最常见的 TDP 数据采集方法是数据依赖采集(DDA)。数据非依赖采集方法(DIA) 正在_bottom-up 蛋白质组学(BUP)工作流程中快速发展和应用 ,同时也为 TDP 带来了令人期待的机遇。
 
原始数据解读与可视化
受同位素、电荷状态对仪器信噪比(S/N)的影响,以及人类蛋白质组 10⁸–10¹²的高动态范围和宽质量范围,完整蛋白质谱图分析难度大,低丰度蛋白质检测困难。谱图解卷积是简化 TDP 数据的关键步骤,可将复杂的同位素和电荷状态分布转换为单一单同位素质量。对于同位素分辨谱图,多数工具依赖 Averagine 模型进行去同位素化和理论同位素分布预测。质谱在液相色谱梯度上连续采集,precursor常以多种电荷状态存在,提取离子色谱图和多个电荷状态峰的额外信息有助于谱图解卷积。谱图未达同位素分辨时,可利用多种电荷状态离子推导 proteoform 的平均中性质量 。TDP 谱图的高复杂性需专门软件提取分子信息。目前正持续开发标准化质谱数据存储文件格式,最通用的是 mzML(最新版本1.1.1),由人类蛋白质组组织蛋白质组学标准倡议(HUPO-PSI)支持。
 
数据分析
TDP 数据分析流程始于自上而下的质谱预处理和解卷积,生成解卷积质谱图用于 proteoform 谱图匹配(PrSMs)。下一步是将解卷积质谱图与蛋白质或 proteoform 序列数据库搜索,以鉴定具有假发现率(FDR)控制的 proteoform 并表征翻译后修饰。最后对 proteoform 丰度定量,鉴定样品间差异丰度的 proteoform。TDP 工作流程通常分为靶向工作流程(基于对单个或一组蛋白质的先验知识指导分析)和发现工作流程(对可能的 proteoform 和修饰状态知之甚少)。
质谱图与候选 proteoform 的匹配通常先经快速过滤将候选数量从数千减至数十,再用较慢匹配方法确定匹配分数。已有多种 TDP 谱图鉴定过滤方法,匹配参考序列时,串联质谱的前体质量会与数据库中 proteoform 或其片段的分子质量匹配。含可变翻译后修饰时用多缺口搜索,允许多个前体质量差异。允许质量偏移时,常用序列标签、open search策略和未修饰蛋白质片段方法。过滤得到的候选 proteoform 会与谱图比对,鉴定含可变翻译后修饰或质量偏移的 proteoform。
 
proteoform 的鉴定与表征
TDP能全面洞察 proteoform 图谱,使鉴定、新proteoform的发现和深入的序列表征成为可能。TDP 可表征组合翻译后修饰及多基因家族中不同基因编码的异构体(常具高度序列同源性)。例如,肌节蛋白有多种异构体和翻译后修饰,TDP 可研究单个肌细胞的 proteoform 变化。当单个蛋白质分子上存在多种翻译后修饰时,TDP 是唯一能解析复杂 proteoform 和组合翻译后修饰的技术。如组蛋白是与 DNA 相关的高度修饰结构蛋白,具多种翻译后修饰并以多种异构体存在,TDP 是解析其复杂性并定量描述分子化学计量的关键工具。
 
proteoform 的定量
与 BUP 类似,TDP 有三种定量方法:label-free(利用 proteoform 强度定量)、同位素标记(通过差异同位素标记定量)和化学标记(用化学报告分子定量,通常在 MS2 水平)。其他标记技术,如氨基酸稳定同位素标记(SILAC)、同量异位(isoabric)标记、假同量异位(pseudoisobaric)标记和NeuCode SILAC已经显示出定量TDP的潜力。
 
统计分析与误差计算
TDP的软件通常会使用E值和P值来反映串联质谱和蛋白分子形式的匹配程度,此外FDR值也常被用来描述鉴定的可靠性。
 
应用
 通过改进的方法和平台,可绘制多种生物样品的全局proteoform图谱。在癌症、心血管疾病、神经退行性疾病和传染病等领域,TDP 有助于识别疾病相关的蛋白质变体,为疾病机制研究和生物标志物发现提供支持。在生物制药方面,TDP可用于分析生物治疗药物的结构,如单克隆抗体和抗体 - 药物偶联物,在质量控制中发挥作用。在临床应用方面,TDP已用于病原体鉴定和疾病诊断(如血红蛋白病、浆细胞疾病等),但需提升TDP 蛋白质组的灵敏度和自动化程度以获得更广泛的应用。
 
面临的挑战与优化策略
由于诸多新技术和方法的出现,TDP 发展迅速。然而,挑战依然存在:(1)分析样品有限的生物系统中的 proteoform 需要高分析灵敏度。但实现高灵敏度是 TDP 面临的主要挑战;毛细管电泳 - 质谱(CE-MS)在单细胞的高灵敏度 TDP 分析中显示出潜力。nanoPOTS技术也可用于高灵敏度 TDP。高灵敏度平台有潜力加速高灵敏度 TDP 应用,使常规单细胞 TDP 成为可能。(2)高分子量proteoform 的鉴定;为分析更大的离子,可能需要超高分辨率平台,如傅里叶变换离子回旋共振(FTICR)质谱仪。在质谱分析前,基于SEC或凝胶的技术,例如整合蛋白质组学方法或 PEPPI-MS可能解决大离子分析的挑战;(3)一般而言,蛋白质序列末端的碎裂效率较高,而中间区域的碎裂覆盖率有限。这种差异在较大的蛋白质中更为明显。能够准确整合内部碎裂的新方法和数据分析工作流程可能增强蛋白质序列表征和 proteoform 注释 ;(4)翻译后修饰(PTMs)的实验定位和 proteoform 化学组成的精确表征具有挑战性。低丰度 proteoform通常受到低灵敏度和不稳定的PTMs阻碍。富集策略可以提高低化学计量或低丰度信号;然而,解决不稳定 PTMs 通常需要优化特定的碎裂方法,例如使用更温和的基于电子的方法,如ETD或ECD。(5)TDP 相对较低的通量和较高的数据复杂性是新手和有经验的用户面临的主要障碍。自动制备和分离系统的发展,以及软件性能的提升都有助于改善通量的问题。
 
展望
TDP是目前唯一能够确定proteoform 分子形式特征并量化其丰度的技术。proteoform 的重要性及其作为细胞、环境或生物系统健康标志物的潜在作用,意味着 TDP 技术有望继续快速发展。需要解决的两个关键领域是改进复杂proteoform 混合物的深度表征和大分子量proteoform 的鉴定和表征。通过将自上而下的数据与其他数据类型(包括基因组和转录组序列、BUP 和糖组学)相结合,存在诸多机遇。尽管 proteoform 提供了对细胞过程的独特见解,但仅凭其自身无法提供生物学解释。需要将 proteoform 与相关的可测量输出(例如转录物和代谢物)联系起来,并破译生物学的基本原理。随着单细胞蛋白质变体测量技术的迅速发展,相关技术将进一步拓展。这些令人振奋的多组学进展有望带来生物学预测和调控的新时代。
 
参考文献:Roberts, D.S., Loo, J.A., Tsybin, Y.O., et al. Top-down proteomics[J]. Nature Reviews Methods Primers,2024,4(1):38.

作为生物信息学的领军企业,BSI专注于蛋白质组学和生物药领域,通过机器学习和先进算法提供世界领先的质谱数据分析软件和蛋白质组学服务解决方案,以推进生物学研究和药物发现。我们通过基于AI的计算方案,为您提供对蛋白质组学、基因组学和医学的卓越洞见。旗下著名的PEAKS®️系列软件在全世界拥有数千家学术和工业用户,包括:PEAKS®️ Studio,PEAKS®️ Online,PEAKS®️ GlycanFinder, PEAKS®️ AB,DeepImmu®️ 免疫肽组发现服务和抗体综合表征服务等。
联系方式:021-60919891;sales-china@bioinfor.com
相关文章 更多 >