图1 GSEA事理(图片来自plob.org)

GSEA剖析事理

1,基因排序:

利用所有基因的表达值,打算每个基因在两个表型(ClassA和ClassB)间的差异程度(GSEA供应了6种算法,默认是signal2ratio),然后按照差异程度将基因从大到小排序。
这里差异是有正有负的,正值越大表示在ClassA (vs ClassB)中表达越高,越负表示在ClassA中表达越低。

jsp给折线图的横坐标ClusterProfiler在线基因集富集剖析支撑自界说基因集随意率性物种 Node.js

2,剖析基因集是否富集:基因集(gene set)是一类具有干系功能(例如免疫干系)或者符合某一标准(例如某个miRNA的200个靶基因)的基因构成的一组基因。
图中GeneSet1(一个箭头代表一个基因)里的基因在排序的基因列表里均匀分布(表明这个基因集不在这两个表型中富集),GeneSet2里的基因紧张分布在基因列表的顶部(表明在ClassA中富集),GeneSet3里面的基因紧张分布在基因列表的底部(表明在ClassB中富集)。
3,打算富集分数:打算每个基因集的富集分数(enrichment score,ES),然后对ES分数进行显著性考验及多重假设考验,从而打算出显著富集的基因集。

常见的GSEA剖析软件及评测:

目前常见的gsea剖析软件包括:

官方Broad的GSEA;

R版的fgsea,clusterprofiler;

Python版的GSEApy等

Broad GSEA软件剖析的两种模式1,常规模式:输入表达矩阵,软件自动打算foldchange,由于要进行显著性考验,因此至少3vs3。
2,Prerank模式:输入排序后的基因列表,针对那些例如1vs1这种不能用常规模式打算的数据。
我们利用同一套数据集测试了Broad GSEA prerank模式,ClusterProfiler,GSEApy创造:1,Broad GSEA最慢,ClusterProfiler最快,算法不太一样2,Broad GSEA结果与GSEApy的结果重叠度最高,而与clusterProfiler结果重叠度最低。
当然三个结果总体上还是趋于同等的。
3,GSEApy占内存最大,可以多线程4,ClusterProfiler可以绘制多个富集结果,Broad GSEA和GSEApy不可以5,GSEApy可以添加干系的NES,Pvalue值等,Broad GSEA和clusterProfiler不可以6,出图都雅度:个人觉得GSEApy轻微好看些

基于以上测试结果,经由权衡,我们上线了基于ClusterProfiler的基因集富集剖析页面。

图2. GSEA输出示例

1 , 1,打开GSEA剖析和绘图页面

首先,利用浏览器(推举chrome或者edge)打开GSEA剖析和绘图页面。
左侧为常见作图导航,中间为数据输入框和可选参数,右侧为描述和结果示例。
也可以在主页搜索框中搜索gsea,找到gsea剖析和绘图页面。

https://www.bioinformatics.com.cn/plot_basic_gene_set_enrichment_analysis_gsea_analysis_193

图3.GSEA剖析页面

2,示例数据

点击右侧“示例数据”链接下载excel格式的示例数据。

图4. 输入数据示例

示例数据(仅供参考)包括2列:

第1列是基因名(symbol)

第2列是倍数变革(从大到小排列,正的在顶部,负的在底部)

把稳:这里是全部的基因(例如人的约2w个基因)

3,粘贴示例数据

直接复制示例数据中的AB两列数据,然后粘贴到输入框。

把稳:不是拷贝excel文件,是拷贝excel文件里边的数据。
其余粘贴到输入框后,格式乱了没紧要,只要在excel中是整洁的就行。
并且数据矩阵中不能有空的单元格,中笔墨符等。

图5. 必需输入

4,修正参数,并提交

我们设置了图片尺寸,笔墨大小,颜色等参数,并内置了GSEA官网(http://www.gsea-msigdb.org/gsea/msigdb/index.jsp)的多个基因集,包括最常用的:hallmark基因集,kegg基因集等(这些基因集仅支持human)

图6.可调参数

5,提交剖析

粘贴好输入数据,调度好参数(或者全部默认)后,点击提交按钮,约15秒后,会在页面右侧涌现富集结果预览图和剖析结果。
我们供应了4种图片格式供下载利用,两种矢量图(pdf,svg)和两种标量图(600 dpi tiff和300 dpi png)。

图7.预览与下载

结果解析

该图分为3块:

最上方:Enrichment Score折线图。
横坐标是排序后的基因,纵坐标是对应的Running ES, 折线的峰值是这个基因集的富集分数(Enrichment Score,ES)。
正值解释在ClassA中富集,峰值左边的基由于核心基因,负值相反(见事理)

中间:基因集中基因在基因排序列表中所处的位置,也便是将图1中的三个垂直数据集迁徙改变了90度摆放。
如果所研究的基因集中的基因显著聚拢在左侧,则解释该基因集与ClassA干系,显著富集在右侧,解释与ClassB干系。

下方:每个基因对应的ranked list metric,以灰色面积图展示。

结果文件如下:

图8. Gsea剖析结果

各列解释:

Geneset, ID,Description:基因集名字及描述

SetSize:富集到该基因集的基因个数

Enrichment score:富集分数ES

NES:标准化的ES,normalized enrichment score

Pvalue:富集的p值

p.adjust:校正p值

qvalues:qvalue

rank:排名

core_enrichment:富集到该通路的核心基因列表

一样平常来说:NES绝对值越大,FDR值越小,解释富集程度越高,结果越可靠。

重点来了,自定义数据集

常规的GSEA仅支持human物种,因此在对非human物种进行GSEA剖析时,我们首先须要定义一个基因集,这个基因集可以来自文献,数据库等。
以细胞焦亡、铜去世亡、铁去世亡等基因集为例,首先选择自定义基因集按钮,然后将干系基因按照自定义基因集示例格式贴到自定义输入框:

一行一个基因集。
第一列是名字,第二列是来源,后续列为该基因集里边的基因,只管即便避免利用分外符号,并且这些基因名必需在你输入的全部基因里。

图9. 自定义基因集

点击提交按钮,约15s后,会在右侧涌现自定义基因集的富集结果。

图10. 自定义基因集输出结果

想看你的数据是否跟最新的铜去世亡,铁去世亡,锌去世亡,细胞焦亡等热点干系,可以先拿这些基因集跑个GSEA试试看,这便是自定义基因集的强大之处。

没有预览便是没有出图,这时请参考示例数据,检讨自己输入数据的格式。

碰着笔墨截断,须要修正字体、调度字体大小等,利用scape软件。

微生信助力发文章,谷歌引用600+,知网引用450+