文章

非负矩阵分解NMF算法助力单细胞转录组数据分析

2024-09-05     来源:本站     点击次数:1217

编者按:

单细胞转录组的研究如火如荼,然而面对测序后获得的海量结果,我们常常望洋兴叹。在挖掘生物学意义时,最重要的就是找到与表型相关的特征基因。常规的差异分析有时很难获得有意义的特征基因。此时,我们就可以尝试非负矩阵分解(NMF)算法。其因为非负性、稀疏性和可解释性强等特点,成为很多生信分析工作者们的心头好。在这里,小编概述了NMF的定义、应用和案例,希望能帮助科研工作者们从单细胞组学数据中挖掘新的生物学意义。

 
01 非负矩阵分解介绍


非负矩阵分解(Non-negative Matrix Factorization, NMF)是一种常用于数据降维和特征提取的算法。它的核心思想是将一个非负矩阵分解为两个非负矩阵的乘积。NMF广泛应用于文本挖掘、图像处理、生物信息学等领域。

NMF原理是给定一个非负矩阵V(m×n),利用NMF分解出两个矩阵W(m×k)和H(k×n),满足V≈W×H,且k通常远小于m和n。该算法优势是生成的矩阵W和H都是非负的,因此分解结果具有较好的可解释性,特别适合需要非负表示的数据(NMF的非负性约束符合大多数生物数据的特点,比如基因表达水平不为负)。但是,由于NMF 的目标函数是非凸的,因此可能会陷入局部最优解。此外,NMF 对噪声较为敏感,在实际应用中需要结合正则化等技巧。总之,NMF 是一种强大且直观的工具,适合于从复杂数据中提取有意义的特征。


02 NMF在单细胞转录组分析中的应用

NMF在单细胞转录组中的应用主要集中在基因表达模式(基因表达程序)的提取和细胞类型的识别。单细胞转录组通过测量单个细胞中的基因表达谱,提供了复杂和高维度的数据,而NMF的降维和特征提取能力使其在这一领域得到了广泛应用。将基因×细胞矩阵作为V矩阵进行NMF分解,获得基因×表达程序(W)和表达程序×细胞(H) 两个矩阵。基因×表达程序(W)矩阵代表了基因的特征表达模式,也就是基因程序,存储了基因在不同程序中的权重(一般将权重较高的n个基因当作该程序的特征基因)。表达程序×细胞(H)矩阵代表了每个程序在细胞中的权重(强弱)。

通过NMF分解获得的基因程序,往往与特定的生物过程或功能相关,能够揭示在不同细胞群体中共同表达的基因模块,从而探究特定的基因群是否与某些生物过程相关,如细胞周期、免疫反应等。这对理解细胞的功能状态和生物学机制具有重要意义。此外,NMF也可以用于单细胞多组学数据,识别出不同组学数据之间的共同特征,从而更全面地理解细胞的状态和功能。


03 文献案例分享

为了更好地解释NMF算法在单细胞转录组研究中的应用思路,小编在这里分享两篇文献案例,详细介绍NMF在实际科研中的使用方式和挖掘到的重要生物学结果。


案例一:单细胞多组学分析揭示肾透明细胞癌的调控程序

img1

本研究利用单细胞转录组和单细胞ATAC测序技术绘制了肾透明细胞癌(ccRCC)的转录和表观基因组图谱,确定了四个介导肿瘤细胞特异性调控程序的关键TFs(HOXC5、VENTX、ISL1和OTP),它们具有预后意义。接下来,研究者联合分析了CD8+T细胞和巨噬细胞亚群的染色质可及性和基因表达模式,发现了这些细胞亚群中不同的调控元件。此外,研究者还描述了TME中配体-受体相互作用所介导的细胞间通讯。综上所述,这种单细胞多组学方法进一步阐明了ccRCC的细胞异质性,并确定潜在的治疗靶点。

img2

图1.ccRCC中的恶性转录程序

为了确认恶性细胞的基因表达模式异质性,研究者利用NMF算法从四名患者中的3564个肿瘤细胞分解出11个转录程序,进一步聚类成2个元程序,在四个患者中共享。富集分析发现两个元程序分别富集在应激相关途径或代谢相关的生物过程。元程序1高表达的患者总生存期较差,而元程序2高表达的患者总生存期较好。

案例二:宫颈鳞状细胞癌的多组学分析确定了具有生物学和临床意义的细胞生态系统

img3

宫颈鳞状细胞癌 (CSCC) 对免疫检查点阻断(ICB)的反应有限,为了解析肿瘤免疫微环境 (TIME) 的分子特征,本研究使用单细胞转录组、空间转录组和空间蛋白质组技术,结合遗传和药理学扰动,系统地开发了 CSCC 中肿瘤内表达异质性的空间高分辨率图谱,并发现了3种肿瘤状态重现了鳞状分化的不同阶段,显示出独特的TIME。上皮-角蛋白恶性细胞与免疫抑制性肿瘤相关成纤维细胞(CAF)之间的双向相互作用通过 FABP5 介导的转化生长因子β (TGFβ)通路信号形成免疫排斥微环境。在 Epi-Imm 肿瘤中,恶性细胞通过干扰素信号传导与自然杀伤细胞和 T 细胞相互作用。对宫颈癌临床试验 (NCT04516616) 样本的初步分析表明,新辅助化疗可诱导向 Epi-Imm 的状态转变,这与免疫检查点阻断治疗后的病理完全缓解相关。这些发现加深了对 CSCC 中细胞状态多样性的理解。

img4图2.CSCC 患者的肿瘤细胞中识别出的NMF程序之间的成对相似性的层次聚类

为了确认恶性细胞多样性,利用NMF算法对20168 个恶性鳞状细胞转录组进行分解,获得了8个元程序(MP)。MP6、7和8三种程序分别代表鳞状不同的分化阶段。相关性分析发现MP7与MP8呈正相关,而与MP6呈负相关。MP6与CAF丰度呈正相关,与免疫细胞丰度呈负相关。相比之下,MP7与免疫细胞呈正相关,与间质细胞呈负相关。更多的分析和验证实验证实MP6具有抑制免疫细胞浸润的免疫抑制性功能。

04 参考文献

[1] Long, Zhilin et al. “Single-cell multiomics analysis reveals regulatory programs in clear cell renal cell carcinoma.” Cell discovery vol. 8,1 68. 19 Jul. 2022.
[2] Fan, Junpeng et al. “Multiomic analysis of cervical squamous cell carcinoma identifies cellular ecosystems with biological and clinical relevance.” Nature genetics vol. 55,12 (2023): 2175-2188. 

相关文章 更多 >