jsp给折线图的横坐标ClusterProfiler在线基因集富集剖析支撑自界说基因集随意率性物种

图1 GSEA事理（图片来自plob.org）

GSEA剖析事理

1，基因排序：

利用所有基因的表达值，打算每个基因在两个表型（ClassA和ClassB）间的差异程度（GSEA供应了6种算法，默认是signal2ratio），然后按照差异程度将基因从大到小排序。
这里差异是有正有负的，正值越大表示在ClassA (vs ClassB)中表达越高，越负表示在ClassA中表达越低。

jsp给折线图的横坐标ClusterProfiler在线基因集富集剖析支撑自界说基因集随意率性物种 Node.js

2，剖析基因集是否富集：基因集（gene set）是一类具有干系功能（例如免疫干系）或者符合某一标准（例如某个miRNA的200个靶基因）的基因构成的一组基因。
图中GeneSet1（一个箭头代表一个基因）里的基因在排序的基因列表里均匀分布（表明这个基因集不在这两个表型中富集），GeneSet2里的基因紧张分布在基因列表的顶部（表明在ClassA中富集），GeneSet3里面的基因紧张分布在基因列表的底部（表明在ClassB中富集）。
3，打算富集分数：打算每个基因集的富集分数（enrichment score，ES），然后对ES分数进行显著性考验及多重假设考验，从而打算出显著富集的基因集。

常见的GSEA剖析软件及评测：

目前常见的gsea剖析软件包括：

官方Broad的GSEA；

R版的fgsea，clusterprofiler；

Python版的GSEApy等

Broad GSEA软件剖析的两种模式1，常规模式：输入表达矩阵，软件自动打算foldchange，由于要进行显著性考验，因此至少3vs3。
2，Prerank模式：输入排序后的基因列表，针对那些例如1vs1这种不能用常规模式打算的数据。
我们利用同一套数据集测试了Broad GSEA prerank模式，ClusterProfiler，GSEApy创造：1，Broad GSEA最慢，ClusterProfiler最快，算法不太一样2，Broad GSEA结果与GSEApy的结果重叠度最高，而与clusterProfiler结果重叠度最低。
当然三个结果总体上还是趋于同等的。
3，GSEApy占内存最大，可以多线程4，ClusterProfiler可以绘制多个富集结果，Broad GSEA和GSEApy不可以5，GSEApy可以添加干系的NES，Pvalue值等，Broad GSEA和clusterProfiler不可以6，出图都雅度：个人觉得GSEApy轻微好看些
基于以上测试结果，经由权衡，我们上线了基于ClusterProfiler的基因集富集剖析页面。
图2. GSEA输出示例
1 ， 1，打开GSEA剖析和绘图页面
首先，利用浏览器（推举chrome或者edge）打开GSEA剖析和绘图页面。
左侧为常见作图导航，中间为数据输入框和可选参数，右侧为描述和结果示例。
也可以在主页搜索框中搜索gsea，找到gsea剖析和绘图页面。
https://www.bioinformatics.com.cn/plot_basic_gene_set_enrichment_analysis_gsea_analysis_193
图3.GSEA剖析页面
2，示例数据
点击右侧“示例数据”链接下载excel格式的示例数据。
图4. 输入数据示例
示例数据（仅供参考）包括2列：
第1列是基因名（symbol）
第2列是倍数变革（从大到小排列，正的在顶部，负的在底部）
把稳：这里是全部的基因（例如人的约2w个基因）
3，粘贴示例数据
直接复制示例数据中的AB两列数据，然后粘贴到输入框。
把稳：不是拷贝excel文件，是拷贝excel文件里边的数据。
其余粘贴到输入框后，格式乱了没紧要，只要在excel中是整洁的就行。
并且数据矩阵中不能有空的单元格，中笔墨符等。
图5. 必需输入
4，修正参数，并提交
我们设置了图片尺寸，笔墨大小，颜色等参数，并内置了GSEA官网（http://www.gsea-msigdb.org/gsea/msigdb/index.jsp）的多个基因集，包括最常用的：hallmark基因集，kegg基因集等（这些基因集仅支持human）
图6.可调参数
5，提交剖析
粘贴好输入数据，调度好参数（或者全部默认）后，点击提交按钮，约15秒后，会在页面右侧涌现富集结果预览图和剖析结果。
我们供应了4种图片格式供下载利用，两种矢量图（pdf，svg）和两种标量图（600 dpi tiff和300 dpi png）。
图7.预览与下载
结果解析
该图分为3块：
最上方：Enrichment Score折线图。
横坐标是排序后的基因，纵坐标是对应的Running ES, 折线的峰值是这个基因集的富集分数（Enrichment Score，ES）。
正值解释在ClassA中富集，峰值左边的基由于核心基因，负值相反（见事理）
中间：基因集中基因在基因排序列表中所处的位置，也便是将图1中的三个垂直数据集迁徙改变了90度摆放。
如果所研究的基因集中的基因显著聚拢在左侧，则解释该基因集与ClassA干系，显著富集在右侧，解释与ClassB干系。
下方：每个基因对应的ranked list metric，以灰色面积图展示。
结果文件如下：
图8. Gsea剖析结果
各列解释：
Geneset, ID，Description：基因集名字及描述
SetSize：富集到该基因集的基因个数
Enrichment score：富集分数ES
NES：标准化的ES，normalized enrichment score
Pvalue：富集的p值
p.adjust：校正p值
qvalues：qvalue
rank：排名
core_enrichment：富集到该通路的核心基因列表
一样平常来说：NES绝对值越大，FDR值越小，解释富集程度越高，结果越可靠。
重点来了，自定义数据集
常规的GSEA仅支持human物种，因此在对非human物种进行GSEA剖析时，我们首先须要定义一个基因集，这个基因集可以来自文献，数据库等。
以细胞焦亡、铜去世亡、铁去世亡等基因集为例，首先选择自定义基因集按钮，然后将干系基因按照自定义基因集示例格式贴到自定义输入框：
一行一个基因集。
第一列是名字，第二列是来源，后续列为该基因集里边的基因，只管即便避免利用分外符号，并且这些基因名必需在你输入的全部基因里。

图9. 自定义基因集
点击提交按钮，约15s后，会在右侧涌现自定义基因集的富集结果。
图10. 自定义基因集输出结果
想看你的数据是否跟最新的铜去世亡，铁去世亡，锌去世亡，细胞焦亡等热点干系，可以先拿这些基因集跑个GSEA试试看，这便是自定义基因集的强大之处。
没有预览便是没有出图，这时请参考示例数据，检讨自己输入数据的格式。
碰着笔墨截断，须要修正字体、调度字体大小等，利用scape软件。
微生信助力发文章，谷歌引用600+，知网引用450+