生物芯片数据分析服务
芯片质量控制(Quality control,QC) 通过对数据作图,可以评价实验数据的质量,了解数据的分布规律,从而决定下一步的分析方法。
原始数据标准化(Raw data normalization) 对原始数据进行处理,通过特定的统计分析,达到消除背景噪音,过滤脏数据,去除同一实验不同block之间、不同芯片之间的实验误差,使不同芯片的数据具有可比性。下图为数据标准化前(左图)后(右图)数据的盒图,表示各芯片数据的数值分布。
差异表达分析(DEG analysis) 差异表达分析是芯片数据的基本分析手段之一,不同方法适用于不同的数据,常用的方法有limma,SAM,T-test ,Fisher’s exact test等。
聚类分析 聚类分析可用来做疾病亚型分型(sub-classification),可用于检测样本群体分布情况,发现表达相关基因群等。常用的聚类方法有层次聚类(hierarchical cluster),K-means,自组织映射(SOM)。
基因注释 (GO/pathway annotation) 采用不同数据库对筛选出来的重要基因进行注释。
基因集富集分析 (Gene Set Enrichment Analysis, GSEA) 富集分析是基于统计学检验的case/control高通量分析方法,可用于揭示生物学样本(case相对于control)中被显著激活或显著抑 制的功能。与翔自主开发研制了不同的功能分析数据库,可以提供对GO、KEGG、BioCarta、疾病相关基因、肿瘤相关基因、转录因子结合位点等功能 的富集分析。
全基因组表达谱视图 (Genome based visualization) 特点:1)矢量图(PDF格式),可无限放大不损失分辨率;2)按照染色体定位排列,非聚类分析结果,可以视为基因表达谱天然聚类结果。
差异表达趋势聚类分析
根据实验设计和研究目的,选用专门处理时间序列实验数据的算法根据基因随时间发展的表达水平变化趋势对基因进行聚类,每一类的基因具有相似的表达谱,这对研究共表达基因很有帮助。
差异表达趋势分析可用来做处理时间、剂量变化、疾病亚型分型(sub-classification),也可用于检测样本群体分布情况,发现表达相 关基因群等。常用的聚类方法有层次聚类(hierarchical cluster),K-means,自组织映射(SOM)。
miRNA靶标基因的预测(miRNA target prediction) 选取在十多种预测方法中至少有5种预测算法预测一致的靶基因
miRNA-mRNA调控网络(miRNA regulation network) 基于MicroRNA的负调控属性,选取显著负相关的miRNA和gene进行网络分析
读取基因型(Genotype call) 从CEL文件读取SNP基因型数据
探针质控(Quality control) 通过多种统计学算法过滤掉部分不适宜进入下一步分析的探针。
DNA拷贝数变化(CNV)以及杂合性缺失分析(LOH)分析
基因型分析(Genotype) 基于卡方检验等统计学分析,筛选在两组或多组样本中存在分布频率差异的SNP位点。Manhattan图可以用来观测各个染色体中显著差异SNP探针的数据分布。
主成分分析(PCA)
全基因组关联分析 (GWAS) 与翔自主开发了使用多种智能机器学习算法的GWAS分析流程。经过对数百套孤独症样本和HapMap对照数据集的分析测试,对独立样本的准确率可以达到92%。ROC曲线线下面积为0.9558。
甲基化差异区域基因富集分析 (Gene enrichment analysis in differential methylation region)
芯片质量控制 (Quality control) 通过对数据的各项指标的分析作图,可以评估芯片实验质量,了解数据的分布规律,并为下一步分析方法提供参考。
数据的标准化 对原始数据进行标准化处理,是为了消除背景噪音,过滤脏数据以及去除同一实验的不同芯片之间的实验误差,将不同芯片的数据调整到同一水平,使之具有可比性。
片段化分析(Segmentation) 通过各种统计学方法,如DNAcopy, GLAD, BioHMM, tilingArray等,将芯片的log ratio值按照染色体物理图谱位置平滑化和片段化,以进一步分析基因组异常拷贝区域。
差异基因组区域鉴定(Genomics alteration regions identification) 基于segmentation的分析结果,采用一定的域值和分析方法,可以得到样本基因组的差异拷贝数区域。与翔自主开发了特色的基因组图谱视图,可以同时整合基因组拷贝数和基因表达谱数据。
差异基因组区域基因注释以及功能分析(Gene annotation and functional analysis) 选取位于差异区域的基因,并结合区域CNV值(或基因表达谱)进行功能分析。
全基因组整合视图(Whole genome integrative visualization) 基因组拷贝数变化往往影响表达谱的改变,将各个样本的差异基因组区域在全基因组定位,并结合基因表达谱信息,同时以染色体为背景作图。红色表示扩增和表达上调,蓝色表示缺失和表达下调,颜色的深浅反映了扩增或缺失的程度。
发展历史:源自清华大学医学院生物信息学研究所,2006年1月正式注册成立;国内最早的生物信息学专业数据分析公司;拥有自主研发的高通量数据分析分析平台,擅长各种芯片数据和质谱数据的深入分析。
团队成员:公司成员都是高学历的生物信息学人才,主要研发骨干为清华大学、北京大学和军科院的生物信息学博士,并建有自己的专业人才库,已收录200多位专业人才。
合作交流:
跟国内近百家科研单位进行数据分析合作
跟美国SpotFire公司和西班牙Integromics公司展开深入合作,为其提供高通量数据的生物信息学分析方案和专业软件开发
单位名称: |
详细地址:
北京市海淀区中关村东路1号清华大学
|
qq:
|
官网: |
联系电话: |
Email: |