文章

CZ CELLxGENE Discover生物数据库使用步骤介绍

2025-12-03     来源:本站     点击次数:90

CZ CELLxGENE Discover数据库是由扎克伯格—陈基金支持的大型单细胞数据平台,旨在为全球科研人员提供标准化的单细胞数据探索、分析和建模服务。该平台收录超过1900个数据集,包含约1.25亿个独特细胞,是目前全球最大的单细胞转录组数据库之一。CELLxGENE的优势不仅在于数据量大,更在于其严格的数据标准化标准、强大的交互式探索能力、细致的细胞注释信息和灵活的数据获取方式。本文将介绍如何从CELLxGENE数据库中下载到您研究需要的数据集。

CZ CELLxGENE Discover 数据库使用方法

打开CZ CELLxGENE Discover官网,便会看到如下界面(图1)。界面中位于左上方的选项是该数据库的几个核心功能,它们分别是:
1、Collections:该数据库收录的研究项目,一个项目中可能包含多个数据集(Datasets),目前共有324个项目。
2、Datasets:该数据库收录的数据集,目前共有1919个数据集。
3、Gene Expression:允许用户基于所有数据集,探索基因在不同细胞类型中的表达情况,以气泡图形式呈现。
4、Cell Guide:允许用户基于所有数据集,获得细胞类型的描述、marker和相关数据集。
5、Differential Expression:允许用户基于所有数据集,查找自定义细胞群之间的差异表达基因。

图片图1. CZ CELLxGENE Discover首页

选择“Collections”,进入结果页面(图2)。新页面给出每个研究项目的信息,包括名称、发表信息、包含的组织数量、疾病类型和物种信息。页面左侧可根据用户需求对研究项目进行筛选,可供筛选的标签有:
1)Assay:选择实验方法
2)Cell Type:筛选包含目的细胞类型的研究项目
3)Consortia:筛选特定大型生物医学研究联盟或项目所贡献的数据集
4)Development Stage:选择样品的发育阶段
5)Disease:筛选疾病类型
6)Organism:选择物种
7)Publication:选择已发表的文献
8)Publication Data:筛选文献发表的时间范围
9)Self-Reported Ethnicity:选择人种
10)Sex:选择性别
11)Tissue:选择目的组织类型

图片图2. CZ CELLxGENE Discover 的研究项目列表

打开第一个研究项目进入其详情页后(图3),可以查看该项目的完整信息。页面中会显示该研究的详细描述和发表信息,下方则列出了该项目包含的全部数据集——这些数据集均以h5ad对象文件格式存储。每个对象文件的名称、组织样本数量、疾病类型、实验次数、物种信息以及细胞数量等详细参数均有明确标注。点击右下角“Download”图标,在弹出的窗口中可选择通过浏览器、R API或Python API下载数据集。

图片图3. 人胎儿视网膜项目详情页

点击“Explore”图标,可查看该数据集中的细胞信息,以2D的细胞降维图形式呈现(图4)。界面中间是细胞的UMAP降维结果,左侧可选择感兴趣标签,了解细胞的分类信息。点击水滴图标可使细胞着色(图5)。右侧可输入感兴趣基因或创建基因集,并在降维图上直观显示基因或基因集的表达情况(图6)。

图片图4. 人胎儿视网膜数据集的细胞信息
 

图片图5. 人胎儿视网膜细胞类型分布
 

图片图6. 基因SOX2的表达分布

本期我们系统地介绍了如何从CZ CELLxGENE Discover这一权威平台精准搜索和高效下载单细胞数据集,希望能切实助力您的研究工作。我们后续也将持续推出更多生物学数据库的介绍,如果您有特别想了解的数据库,欢迎在评论区留言告诉我们!

相关文章 更多 >