文章

单细胞高级分析百篇文献结果展示汇总(六)

2024-04-22     来源:本站     点击次数:1602

单细胞数据结果提供了不同细胞类型之间的差异表达基因,这些基因参与的生物学通路决定了不同细胞类型的生物功能。因此,针对不同细胞类型的特有基因进行富集分析,可以更好的了解每种细胞类型参与的独特生物学功能,揭示和理解生物学过程中的关键分子机制。富集分析工具有GO、KEGG、GSEA和GSVA等,其中GSEA和GSVA是单细胞文章中常见的富集分析工具。

GSEA富集分析需要预先进行样本之间的组间对比分析,通常用于Case/Control的实验设计,可以获取某个通路的基因集在实验组和对照组中的上调或下调趋势。单细胞GSEA富集分析可以对不同比较组之间相同的细胞类型进行分析,也可以对不同的细胞类型进行分析。百篇文献中出现了15次结果,结果图如下。

这是GSEA分析中经典结果图的变形,X轴是实验中的所有基因,每个黑条是该基因集中的基因,我们可以知道基因在排序列表中的位置。如果基因集位于预先排列的基因列表的顶部,则通过某种度量计算出富集分数(Enrichment Score,ES),ES为正。如果基因集位于预先排列的基因列表的底部,则ES为负。

img1

复现结果如下:

img2

第一部分:最顶部的折线为某条通路的基因Enrichment Score的折线图。纵轴为对应的Running ES, 在折线图中有个峰值,该峰值就是这个基因集的Enrichemnt Score,峰值之前的基因就是该基因集下的核心基因。横轴代表此基因集下的每个基因,对应第二部分类似条形码的竖线。

第二部分:类似条形码的部分,为Hits,每条竖线对应该基因集下的一个基因。

第三部分:为所有基因的rank值分布图,纵坐标为ranked list metric,即该基因排序量的值,可理解为“公式化处理后的foldchange值”。

我们可以根据项目需要选择展示这三个部分结果,或者我们分别展示单个样本富集结果,示例结果如下:

img3

在GSEA分析后除了经典结果图的展示,我们还可以用气泡图的方法展示geneset被激活还是抑制。上、下调的 GO term /pathway分开展示:

img4

除此之外,我们还可以绘制山峦图,展示每个geneset的基因logFC分布。

img5

基因集变异分析(Gene Set Variation Analysis, GSVA),是一种非参数并且无监督的分析方法。对每个样本或单个细胞按基因的表达量进行单独排序,然后将富集分数的值做标准化。通过将基因表达矩阵数据转换为基因集表达矩阵数据,从而对每个样本/细胞群的通路富集进行分析。分析流程如下,左侧输入基因表达矩阵和基因集数据库,中间是GSVA算法原理,右侧是输出的基因集变异分数矩阵。基因集变异分数可以理解为基因集内所有基因的综合表达值。

img6

文献中经常出现的展示结果如下:

img7

复现结果如下:

img8

纵坐标为cluster,横坐标为通路名称。红色代表着这个通路在该细胞类型中激活,蓝色代表着这个通路在该细胞类型中是抑制的。

我们还可以在GSVA分析的结果上,进行差异比较分析,展示形式是差异基因集柱状图。两个cluster/cell type/group中具有显著差异通路的富集程度;矩形越长代表富集程度越大;GSVA score值大于0代表上调的通路,小于0代表下调的通路。

img9

GSEA和GSVA都是基于对基因的某一个值的排序来进行富集分析。而GSEA主要是用case和control之间的差异倍数或信噪比来进行排序,GSVA则不需要做对比,而是对每个样本或单个细胞按基因的表达量进行单独排序,然后将富集分数的值做个标准化。

以上是我这次关于单细胞转录组中富集分析方法的分享。

相关文章 更多 >