文章

利用PLM-interact扩展蛋白质语言模型以预测蛋白质-蛋白质相互作用

2025-10-29     来源:AI in Graph     点击次数:68

文章来源公众号:AI in Graph           作者:AI in Graph 

图片

今天介绍的是发表在Nature Communications的论文: PLM-interact: extending protein language models to predict protein-protein interactions。 该论文把单蛋白语言模型扩展成“成对编码器”,把两条蛋白序列拼进同一上下文,联合进行MLM + 互作二分类训练,让模型在注意力层面直接学“谁和谁会互作”。 结果显示在跨物种 PPI 基准上取得SOTA,还能评估突变使互作增强/减弱,在病毒-宿主任务上也明显优于既有方法。

1. 摘要
仅根据氨基酸序列进行蛋白质结构的计算机预测已达到前所未有的精度,但预测蛋白质-蛋白质相互作用仍然是一个挑战。本文,作者评估了常用于蛋白质折叠的蛋白质语言模型 (PLM) 重新训练用于蛋白质-蛋白质相互作用预测的能力。现有的利用 PLM 的模型使用预训练的 PLM 特征集,忽略了蛋白质之间的物理相互作用。作者提出了 PLM-interact,它超越了单个蛋白质,通过联合编码蛋白质对来学习它们之间的关系,类似于自然语言处理中的下一句预测任务。该方法在广泛采用的跨物种蛋白质-蛋白质相互作用预测基准中取得了最佳性能:基于人类数据进行训练,并在小鼠、苍蝇、线虫、大肠杆菌和酵母上进行测试。此外,作者开发了一种 PLM-interact 的微调方法,以检测突变对相互作用的影响。最后,作者报告该模型在蛋白质水平上预测病毒-宿主相互作用方面优于现有方法。作者的工作表明,大型语言模型可以扩展,仅从生物分子序列中就可以了解生物分子之间的复杂关系。

2. 引言
仅凭序列预测蛋白结构已十分成熟,但要“只看序列”判定两条蛋白是否互作(PPI)仍很难:实验标注稀缺昂贵、跨物种分布差异显著,若数据拆分不严还会因相似性“泄漏”而高估性能。更关键的是,主流序列法多沿用“双塔/两段式”范式:分别编码两条序列,末端再用小分类头“猜”是否互作;这种流程让语言模型始终以“单蛋白”为基本单位,并不“意识到”两条链彼此成对,真正的跨链线索被推迟到末端分类器处理,难以在跨物种与低样本场景中稳健泛化。

PLM-interact 的出发点是把“配对关系”直接放进语言模型的上下文:将两条蛋白一次性输入同一个 Transformer,以跨编码(cross-encoder)结构在编码阶段就让注意力对齐跨蛋白残基;训练上联合遮盖语言模型(MLM)与互作二分类,通过权重与遮盖比例的系统搜索,在保留语言理解能力的同时,迫使模型学习“哪对残基彼此有关”,从而把“互作判断”前移到表示学习之中,减轻末端分类头的容量约束。

在严格的人类训练→多物种测试(鼠、蝇、虫、酵母、大肠杆菌)的基准上,PLM-interact 在 AUPR 上普遍领先,并表现出更稳定的正样本区分能力;在去重控相似度的人类无泄漏数据、以及突变效应与病毒-宿主互作任务中,同样表现稳健且可通过端到端微调进一步提升区分度。相较传统“双塔”,这种“把配对放进上下文、让注意力跨链工作”的范式,为仅凭序列的 PPI 预测提供了更自然的建模路径,并为后续融合结构、网络与功能注释等多模态信息留下了清晰接口。

3. 方法
传统“双塔”框架 vs. PLM-interact 跨编码框架示意
传统“双塔”框架 vs. PLM-interact 跨编码框架示意

3.1 框架与输入
作者以 ESM-2(默认 650M)为基座,将两条蛋白序列在同一个 Transformer中跨链路同时编码(cross-encoder)。标准输入序列为

ESM-2 编码得到各 token 的输出嵌入,用 [CLS] 向量经一层前馈网络后接 Sigmoid 得到互作概率:

3.2 训练目标与技巧
模型以遮盖语言模型(MLM)与二分类联合优化,单样本损失为

作者系统比较权重后,采用 分类:MLM = 1:10 的比例,并配合 15% 随机遮盖;该设置在多物种基准上综合最优。

为容纳两条序列,放宽总长度阈值(例如 STRING V12 训练对的总长阈值 2101),并对每个训练对双向喂入 与  以增强顺序不变性。

3.3 突变效应预测
给定某 PPI,改变其中一个蛋白为突变体。首先用式(2)分别得到野生型与突变型的互作概率 。定义对数概率比
以其符号预测增强(+)或削弱(−)的二分类标签,并将 (lr) 作为输入信号、用交叉熵损失端到端反向传播到所有层进行微调(只微调分类头明显不如全模型微调)。该流程使用 IntAct 的增强/削弱互作注释(共 6,979 条),显著提升 AUPR/AUROC。

图片

4. 实验
4.1 跨物种基准

基准采用 1:10(正:负) 的配比;人类训练集含 38,344 条正样本(验证集 4,794 正),五个测试物种各含 5,000 条正样本(E. coli 为 2,000 正)。在该设置下,PLM-interact 的 AUPR 在全部物种领先:例如酵母 AUPR=0.706(较 TUnA 的 0.641 提升 10%)、E. coli AUPR=0.722(较 TUnA 提升 7%);作者指出优势主要来自对正样本赋予更高互作概率,而且交换链顺序后 AUPR 基本不变,显示推断对顺序鲁棒。

图片

4.2 无泄漏人类数据集

在 Bernett 去重控相似度的人类基准上,PLM-interact 与 TUnA 的 AUPR≈0.69 / AUROC≈0.70 基本持平;但当采用中性阈值(0.5)做最终分类时,PLM-interact 的 F1 与 Recall 更高(召回+9%,精度与 TUnA 相当),表明其对真阳性更敏感。

图片

4.3 突变效应(IntAct 注释的增强/削弱互作)
使用 IntAct 的突变注释(共 6,979 条,增互作/减互作二类)评估“零样本”与“微调”。零样本下所有方法接近随机;对 PLM-interact 端到端微调全部层后,AUPR 提升约 150%、AUROC 提升 36%,并给出两个成功案例:MCM7-Y600E(增强)与 ISCU-N151A(减弱),模型均正确判定方向。

4.4 病毒–宿主 PPI(HPIDB 派生)
在 Tsukiyama 等构建的 HPIDB 3.0 派生数据(共 22,383 条 PPI,1:10 配比)上,对比 STEP(ProtBERT 特征)、LSTM-PHV、InterSPPI:PLM-interact 在 AUPR、F1、MCC 上全面领先,相对 STEP 的提升分别为 +5.7% AUPR、+10.9% F1、+11.9% MCC;作者同时展示了若干已有实验结构的病毒-人互作示例。

图片

4.5 消融与训练技巧

在 0%、7%、15%、22%、30% 中,15% 是唯一在统计上显著优于“仅二分类(0%)”的设定。损失权重: 在 ESM-2-650M 下,分类:MLM=1:10 综合最佳(E. coli AUPR 相对第二名+4.3%)。顺序不变性: 测试时交换链顺序,AUPR 与分布几乎不变。

5. 结论与未来展望
PLM-interact 的关键在于把 PPI 从“两段独白”变为“同域对话”:将两条序列拼接进同一上下文,跨蛋白注意力直接对齐残基依赖,配合“二分类+MLM(1:10)”的联合目标与 ESM-2(650M) 初始化,在跨物种、无泄漏、突变效应与病毒-宿主任务上稳健领先。实际应用上,它可用于新物种互作网络冷启动、突变增/减效的快速判别,以及病原-宿主互作识别与药靶发现。面向未来,值得继续沿着多模态融合(序列+结构/网络)、更长上下文与多实体协同建模、以及轻量化与不确定性校准等方向推进,以在保持推理效率的同时提升可解释性与部署可用性。
相关文章 更多 >