关键词
QE HF; DDA; DIA; Hela;蛋白质鉴定;定量蛋白质组学
引言
数据非依赖性的扫描模式(data-independent acquisition, DIA)是近几年来发展的一种新的质谱数据采集方式[1]。它的理念是用二级碎片离子进行蛋白相对/绝对定量。 DIA 扫描模式中,超高分辨质谱对特定质量范围内的所有母离子进行碎裂,采集所有母离子的碎片离子,并快速地依次扫描相邻的母离子宽口内的所有碎片离子。 DIA 的数据中包含了所有碎片离子的保留时间和强度信息。用非常小的质量偏差宽口(如 10 ppm)目标性地抽提同一肽段的多个子离子,计算子离子的强度,就能对该肽段进行鉴定和定量。 DIA 定量相比传统的基于母离子强度的 DDA 定量有选择性好,定量准确等优点[1],所以 DIA 成为定量蛋白组学新的发展方向。
Q Exactive HF 是赛默飞世尔科技在 2014 年的 ASMS 上推出的全新静电场轨道阱超高分辨质谱仪(图 1)[2,3]。 Q Exactive HF 采用了分段式四极杆技术(Advanced Quadrupole Technology, AQT)使离子传输效率至少提高了 2 倍;超高场 Orbitrap 技术,提高了Orbitrap 扫描速度,在 15000 分辨率时,二级谱图的扫描速度是20 Hz。这两项技术提高了 QE HF 进行 DDA、 DIA 数据的采集能力。本文用 1 小时快速色谱梯度对 QE HF 的 DDA 鉴定能力和 DIA定量能力进行考察,同时从定量肽段数目和 CV 两方面对 DDA 定量和 DIA 定量能力进行比较。
实验条件
实验材料和方法
Pierce HeLa Protein Digest Standard(货号: 88329),稀释至500 ng/µl, EASY-nLC 进样 1µl, 500 ng进行 DDA、 DIA 数据采集,每种采集模式重复 3 遍。
高效液相色谱分离
高效液相色谱仪: EASY-nLC 1000 (Thermo ScientificTM)
分析柱:实验室自制 C18, 15 cm, ID 75 µm, 3 µm
流动相: A: 0.1% 甲酸水溶液; B: 0.1% 甲酸乙腈溶液
梯度: 60 min, 3/0 – 6/2 – 22/48 – 40/53 – 80/55 – 80/60(%B/min)
流速: 300 nL/min
质谱分析
DDA 数据采集:
质谱仪: Q Exactive HF (Thermo ScientificTM);
离子源: NanoFlex 离子源;离子模式:正离子;
喷雾电压: 1.8 kV;毛细管温度: 275° C; S-Lens RF: 55%;
分辨率:一级 120000@m/z 200,二级 15000@m/z 200;一级
AGC: 3e6, Maximum IT: 50ms;
碰撞能量: NCE 27%; Fixed first mass: 110 m/z
DIA数据采集:
质谱仪: Q Exactive HF (Thermo ScientificTM);
离子源: NanoFlex 离子源;离子模式:正离子;
喷雾电压: 1.8 kV;毛细管温度: 275℃; S-Lens RF: 55%;
目标 m/z 窗口: 400–1000; isolation window: 12Da;
碰撞能量: 27%; fixed first mass: 200 m/z; AGC target: 1e6;
Maximum ion injection time: atuo; loop count: 50
数据处理
Proteome Discoverer 蛋白鉴定流程:人蛋白数据库(uniprot human_201309),母离子质量偏差: 10 ppm;碎片离子质量偏差: 0.02 Da;固定修饰:半胱氨酸烷基化(+57.021 Da);动态修饰:甲硫氨酸氧化(+15.995 Da);天冬酰胺和谷氨酰胺脱氨基化(+0.984 Da);酶: trypsin;漏切位点: 2; FDR< 0.01
Skyline DDA、 DIA 蛋白定量流程: DDA 定量用 skyline MS1 filtering 功能,对每个肽段强度最高的 3 个母离子同位素峰进行抽提, idotp ≥ 0.8; DIA 定量用 skyline DIA 功能,设置隔离窗口 12 Da,对给个肽段强度最高的 5 个子离子进行峰抽提, mProphet 打分,控制 FDR < 0.01。
实验结果
1. DIA 数据采集以及分析流程
图 1. DDA 定量和 DIA 定量实验流程
500 ng Hela 细胞裂解液进行 3 次 1 h 梯度 DDA 分析, Proteome Discoverer 1.4 数据库检索。将鉴定到的蛋白和肽段信息导入 skyline作为候选定量蛋白和肽段。基于母离子的定量用 skyline 中 MS1 filtering 功能对DDA 数据进行母离子强度抽提。 500 ng Hela 细胞裂解液进行 3 次目标 m/z 窗口 400–1000,隔离窗口 12 Da 的 DIA 分析。基于二级子离子的定量用 skyline DIA 功能对子离子进行峰抽提, mProphet 打分,筛选 Q value < 0.01 的肽段为定量肽段。
在分析 DIA 数据之前,需要建立谱图库,谱图库中包含所有蛋白在质谱中鉴定到的肽段,以及肽段的保留时间、碎片离子质荷比、碎片离子强度等信息。数据依赖性扫描是最好的建立谱图库的数据采集方式。 500 ng Hela 细胞裂解液进行三次DDA 数据采集。原始数据经 Proteome Discoverer 检索并控制FDR < 1%。将三次 DDA 鉴定结果合并,导入 skyline 建立谱图库。 DDA 数据除了能给出蛋白和肽段的鉴定信息,还能基于母离子的强度/峰面积进行定量。 Skyline 中 MS1 filtering 功能对母离子的多个同位素峰进行抽提,并且根据同位素分布进行打分(idotp 值)[4]。 Idotp 代表测定的同位分布和理论同位素分布的相似度。筛选 idotp 值大于 0.8 的母离子作为可信的定量肽段。
500 ng Hela 细胞裂解液用相同的色谱柱,相同的色谱梯度,将 QE HF 切换至 DIA 扫描模式进行 3 次 DIA 数据采集。在一次扫描循环中,目标母离子质核比范围 400–1000,四极杆的隔离窗口为 12 Da,包含 50 次 MS/MS 扫描。每一张 MS/MS谱图中包含了 12 Da 窗口内的所有母离子的碎片离子信息。 QEHF 使用了超高场的 Orbitrap,扫描速度是 20 Hz,所以每次循环所用的时间约为 2.4–3 s,与色谱兼容(图 2)。 Skyline 处理DIA 数据时从谱图库中选取强度最高的多个碎片离子进行色谱峰抽提。 Skyline 中嵌入的 mProphet 软件会根据同一肽段的多个子离子峰的 feature 进行打分。 Feature 包括子离子共流出峰形、保留时间偏差、 dotp 值、信噪比等。为了区分假阳性的子离子峰, mProphet 可以建立 decoy 库,也可以将打分排名第二的肽段作为decoy,计算 FDR[5,6]。筛选 FDR < 0.01 的肽段段作为可信的定量肽段(图 1)。
图 2. QE HF 扫描目标质核比窗口 400–1000 采集 50 张 MS/MS 所需时间在 2.4–3 s
2. DDA 鉴定结果以及谱图库建立
500 ng Hela 细胞进行 60 min 色谱梯度进行 DDA 数据采集。在 60 min 内,三次重复, QE HF 分别采集到49065、 49031、 48885张谱图,鉴定到 22030、 21820、 21654 个肽段,对应到约 3909、 3900、 3878 个蛋白。将三次的肽段和蛋白合并,一共鉴定到32446 个肽段, 4510 个蛋白(图 3)。蛋白和肽段鉴定结果导入 skyline 建立谱图库。通过该谱图库,在 skyline 中建立需定量的候选肽段和蛋白。为了提高蛋白定量的准确性,在 skyline 中设置一些肽段的限制条件, m/z 400–1000,母离子电荷 2+– 4+,无漏切位点。 32446 个肽段中符合这些条件的肽段有 29686 个,对应 4296 个蛋白。在 DDA 定量实验中,为每个候选肽段添加强度最高的3 个同位素峰(M、 M+1、 M+2)作为定量离子,共生成 89027 个定量离子。在 DIA 定量实验中,为每个肽段添加 5 个强度最高的子离子(b3-bn, y3-yn),共生成 145736 个定量离子。
图 3. 500 ng Hela 细胞裂解液 3 次 DDA 鉴定结果(A)鉴定到的蛋白交盖图(B)鉴定到的肽段的交盖图
3. 基于母离子的 DDA 定量和基于子离子的 DIA 定量结果比较
对于 DDA 定量, skyline 会从 DDA 数据一级谱图中进行母离子同位素峰抽提。筛选同位素分布与理论同位素分布较好的肽段作为可靠的定量肽段,即 idotp > 0.8。由于 DDA、 DIA 实验中用的是相同的色谱梯度, DDA 实验中肽段的保留时间信息可以传递给 DIA 实验。所以在 DIA 定量时,限制 skyline 只抽提该肽段谱库中保留时间 5 min 范围内的子离子。通过保留时间限制可以降低 DIA 数据处理的复杂度和提高定量的准确度。同时筛选 Q value < 0.01 的肽段最为可靠的定量肽段。
三次 DDA 实验从一级谱图中分别定量到 25214、 25515、 24873个肽段; 3969、 3975、 3917 个蛋白;定量到的肽段占总候选肽段的 84%;峰面积的 CV 值在 20% 以下的占总定量肽段的58.81%; CV 值在 10% 以下的占 25.25%(图 4)。三次 DIA 定量分别定量到 27558、 27604、 27483 个肽段; 4067、 4080、 4073 个蛋白。定量到的肽段张总候选肽段的 93%;峰面积的CV 值在 20% 以下的占总定量肽段的 90.3%; CV 值在 10% 以下的占 69.01%(图 5)。可以看出 DIA 能够定量到更多的肽段,而且定量肽段的峰面积 CV 值远远小于 DDA。
图 4. 3 次 DDA 实验和 3 次 DIA 实验定量到的肽段和蛋白
图 5. DDA 定量和 DIA 定量母离子和子离子峰面积 CV
结论
DDA 一般用于蛋白/肽段鉴定,同时可以基于母离子进行的定量,在非常复杂的基质中,非常容易受到其他肽段的干扰,导致定量不准确, CV 值过大。 DIA 定量是基于二级子离子的定量,用子离子定量会提高定量的选择性,降低其他肽段的干扰,定量会比基于一级峰面积的定量更加准确, CV 值较小。该实验中,用 500 ng Hela 细胞裂解液评价 DDA 定量和 DIA 定量能力。 3 次 DDA 实验鉴定到 32446 个肽段, 4510 个蛋白。将鉴定到的蛋白和肽段导入 skyline 建立谱图库,筛选出 4296个候选定量蛋白, 29686 个候选定量肽段,作为 DDA 和 DIA共同定量目标。 DDA 定量到了 84% 的肽段, 92% 的蛋白;而DIA 定量到了 93% 的肽段, 95% 的蛋白。 DIA 比 DDA 能定量到更多的肽段和蛋白,同时 DIA 定量子离子峰面积的 CV 远远小于 DDA 定量母离子峰面积的 CV。结果表明,基于二级子离子的定量要由于基于一级母离子的定量。
QE HF 在一小时梯度内就能从 500 ng Hela 细胞裂解液鉴定并定量 4000 个蛋白,这得益于 QE HF 较好的离子传输效率,超快的扫描速度。目前 DIA 定量基于一维反向色谱质谱联用分析还不适用于二维色谱质谱联用分析。但是可以通过延长一维反向色谱的梯度,提高分离效率达到细胞蛋白质组的全覆盖。 Matthais Mann 研究小组 2014 年用一维反向色谱在小鼠NSC-34 和 N2a 细胞裂解液 240 min 色谱图梯度,就鉴定到了8000 多蛋白,基本上达到细胞系蛋白组全覆盖[7]。通过 DDA鉴定肽段蛋白,建立谱图库, DIA 进行蛋白定量可能成为定量蛋白质组学新的发展方向。
参考文献
1. Gillet, L C. et al. Targeted data extraction of the MS/MS spectra generated by data-independent acquisition: a new concept forconsistent and accurate proteome analysis. Mol Cell Proteomics, 2012, 11(6): O111 016717.
2. Kelstrup, C D. et al. Rapid and deep proteomes by faster sequencing on a benchtop quadrupole ultra-high-field orbitrap mass spectrometer. J Proteome Res, 2014,13(12):6187-6195.
3. Scheltema R A. et al. The Q Exactive HF, a benchtop massspectrometer with a pre-filter, high performance quadrupole andan ultra-high field orbitrap analyzer. Mol Cell Proteomics, 2014,
13(12):3698-3708
4. Abbatiello S E. et al. Design, implementation, and multi-site evaluation of a system suitability protocol for the quantitative assessment of instrument performance in LC-MRM-MS. Mol Cell Proteomics, 2013, 12(9):2623-2639
5. Reiter, L. et al. mProphet: automated data processing and statistical validation for large-scale SRM experiments. Nat. Methods.2011, 8 (5):430-435
6. Röst H L. et al. OpenSWATH enables automated, targeted analysis of data-independent acquisition MS-data. Nat. Biotechnol. 2014,32(3):219-223
7. Horburg D. et al. Deep Proteomic Evaluation of Primary and Cell Line Motoneuron Disease Models Delineates Major Differences in Neuronal Characteristics. Mol Cell Proteomics, 2014, 13(12):3410-3420