图1 GSEA事理(图片来自plob.org)
GSEA剖析事理
1,基因排序:利用所有基因的表达值,打算每个基因在两个表型(ClassA和ClassB)间的差异程度(GSEA供应了6种算法,默认是signal2ratio),然后按照差异程度将基因从大到小排序。这里差异是有正有负的,正值越大表示在ClassA (vs ClassB)中表达越高,越负表示在ClassA中表达越低。
2,剖析基因集是否富集:基因集(gene set)是一类具有干系功能(例如免疫干系)或者符合某一标准(例如某个miRNA的200个靶基因)的基因构成的一组基因。图中GeneSet1(一个箭头代表一个基因)里的基因在排序的基因列表里均匀分布(表明这个基因集不在这两个表型中富集),GeneSet2里的基因紧张分布在基因列表的顶部(表明在ClassA中富集),GeneSet3里面的基因紧张分布在基因列表的底部(表明在ClassB中富集)。3,打算富集分数:打算每个基因集的富集分数(enrichment score,ES),然后对ES分数进行显著性考验及多重假设考验,从而打算出显著富集的基因集。
常见的GSEA剖析软件及评测:
目前常见的gsea剖析软件包括:
官方Broad的GSEA;
R版的fgsea,clusterprofiler;
Python版的GSEApy等
Broad GSEA软件剖析的两种模式1,常规模式:输入表达矩阵,软件自动打算foldchange,由于要进行显著性考验,因此至少3vs3。2,Prerank模式:输入排序后的基因列表,针对那些例如1vs1这种不能用常规模式打算的数据。我们利用同一套数据集测试了Broad GSEA prerank模式,ClusterProfiler,GSEApy创造:1,Broad GSEA最慢,ClusterProfiler最快,算法不太一样2,Broad GSEA结果与GSEApy的结果重叠度最高,而与clusterProfiler结果重叠度最低。当然三个结果总体上还是趋于同等的。3,GSEApy占内存最大,可以多线程4,ClusterProfiler可以绘制多个富集结果,Broad GSEA和GSEApy不可以5,GSEApy可以添加干系的NES,Pvalue值等,Broad GSEA和clusterProfiler不可以6,出图都雅度:个人觉得GSEApy轻微好看些基于以上测试结果,经由权衡,我们上线了基于ClusterProfiler的基因集富集剖析页面。
图2. GSEA输出示例
1 , 1,打开GSEA剖析和绘图页面
首先,利用浏览器(推举chrome或者edge)打开GSEA剖析和绘图页面。左侧为常见作图导航,中间为数据输入框和可选参数,右侧为描述和结果示例。也可以在主页搜索框中搜索gsea,找到gsea剖析和绘图页面。
https://www.bioinformatics.com.cn/plot_basic_gene_set_enrichment_analysis_gsea_analysis_193
图3.GSEA剖析页面
2,示例数据
点击右侧“示例数据”链接下载excel格式的示例数据。
图4. 输入数据示例
示例数据(仅供参考)包括2列:
第1列是基因名(symbol)
第2列是倍数变革(从大到小排列,正的在顶部,负的在底部)
把稳:这里是全部的基因(例如人的约2w个基因)
3,粘贴示例数据
直接复制示例数据中的AB两列数据,然后粘贴到输入框。
把稳:不是拷贝excel文件,是拷贝excel文件里边的数据。其余粘贴到输入框后,格式乱了没紧要,只要在excel中是整洁的就行。并且数据矩阵中不能有空的单元格,中笔墨符等。
图5. 必需输入
4,修正参数,并提交
我们设置了图片尺寸,笔墨大小,颜色等参数,并内置了GSEA官网(http://www.gsea-msigdb.org/gsea/msigdb/index.jsp)的多个基因集,包括最常用的:hallmark基因集,kegg基因集等(这些基因集仅支持human)
图6.可调参数
5,提交剖析
粘贴好输入数据,调度好参数(或者全部默认)后,点击提交按钮,约15秒后,会在页面右侧涌现富集结果预览图和剖析结果。我们供应了4种图片格式供下载利用,两种矢量图(pdf,svg)和两种标量图(600 dpi tiff和300 dpi png)。
图7.预览与下载
结果解析
该图分为3块:
最上方:Enrichment Score折线图。横坐标是排序后的基因,纵坐标是对应的Running ES, 折线的峰值是这个基因集的富集分数(Enrichment Score,ES)。正值解释在ClassA中富集,峰值左边的基由于核心基因,负值相反(见事理)
中间:基因集中基因在基因排序列表中所处的位置,也便是将图1中的三个垂直数据集迁徙改变了90度摆放。如果所研究的基因集中的基因显著聚拢在左侧,则解释该基因集与ClassA干系,显著富集在右侧,解释与ClassB干系。
下方:每个基因对应的ranked list metric,以灰色面积图展示。
结果文件如下:
图8. Gsea剖析结果
各列解释:
Geneset, ID,Description:基因集名字及描述
SetSize:富集到该基因集的基因个数
Enrichment score:富集分数ES
NES:标准化的ES,normalized enrichment score
Pvalue:富集的p值
p.adjust:校正p值
qvalues:qvalue
rank:排名
core_enrichment:富集到该通路的核心基因列表
一样平常来说:NES绝对值越大,FDR值越小,解释富集程度越高,结果越可靠。
重点来了,自定义数据集
常规的GSEA仅支持human物种,因此在对非human物种进行GSEA剖析时,我们首先须要定义一个基因集,这个基因集可以来自文献,数据库等。以细胞焦亡、铜去世亡、铁去世亡等基因集为例,首先选择自定义基因集按钮,然后将干系基因按照自定义基因集示例格式贴到自定义输入框:
一行一个基因集。第一列是名字,第二列是来源,后续列为该基因集里边的基因,只管即便避免利用分外符号,并且这些基因名必需在你输入的全部基因里。
图9. 自定义基因集
点击提交按钮,约15s后,会在右侧涌现自定义基因集的富集结果。
图10. 自定义基因集输出结果
想看你的数据是否跟最新的铜去世亡,铁去世亡,锌去世亡,细胞焦亡等热点干系,可以先拿这些基因集跑个GSEA试试看,这便是自定义基因集的强大之处。
没有预览便是没有出图,这时请参考示例数据,检讨自己输入数据的格式。
碰着笔墨截断,须要修正字体、调度字体大小等,利用scape软件。
微生信助力发文章,谷歌引用600+,知网引用450+