如何在一段基因上找抗原表位的基本特性富集区

原标题:常规分析找不到差异基洇GSEA分析了解一下 | 学习专栏

常规分析找不到差异基因?GSEA分析了解一下

在上一期中我们云平台的生信工程师为大家带来了一款强大的分析笁具GSEA,很多老师觉得那篇稿子三分钟绘制一张优美的GSEA图 | 云平台看完后仍然意犹未尽不过大家请不要着急,今天会带领大家对一些概念重噺温习一遍

在引出今天的主角GSEA分析之前,我们先来谈一谈大家在挖掘转录组数据中可能会遇到的一些共性问题——差异分析拿到了一夶堆基因无从下手,或者拿不到自己要研究的那个差异基因进行下游的研究

究竟是测序公司分析的有问题还是自己的实验设计有问题呢?别急这个问题我们下面会慢慢聊。

常规差异分析存在的问题

当你想要研究癌症组织和癌旁组织究竟哪些基因有差异表达时你会把组織寄送到测序公司提取RNA进行转录组测序。

测序公司标准的差异分析默认不考虑通路直接进行负二项式分布法、F检验、2×2卡方分析或T-test等各種你听过的或没有听过的统计学方法,对所有有表达的基因进行差异分析这种方法简单粗暴,每个基因在每组差异分析中都会得到一个p value囷fold change值

最后你会拿到一个测序公司发给你的差异分析表格。从上图中我们可以看到,这21个基因基本上差异倍数非常大且p value都接近于0。通瑺我们认为从纯统计学角度来看,只要p</p/be1211dce097)

曾经一段时间基因芯片microarray技术的风靡产生了对下游分析的极大需求, over-representation analysis (ORA) 应运而生从一系列基因裏根据阈值提取出部分基因进行显著性分析,也就是统计学常见的“2X2 交叉表格法”对每个pathway进行统计分析,常见tests都建立在 hypergeometric

① 只考虑了差异基因列表并不考虑差异基因的表达情况

② 只检验了通过设定阈值筛选标准的基因,对差异微弱的基因并未考虑但实际上会造成bias

③ 每个基因会作为独立存在事件考虑,未加入相互影响干扰因素

④ Pathway也是作为独立存在事件考虑

我们日常分析中最常见的GO/KEGG 分析就是基于这种原理雖然老旧但实用

FCA 的推测设想认为虽然强烈的单个基因的改变可以影响到pathways,但是微弱的相互协同的功能相关基因的变化也可以拥有这种影响所以这种方法的输入数据是一个基因水平的统计数据(标准化后食用更佳),随后把gene-level的数据输入到pathway-level进行统计现有方法包括Kolmogorov-Smirnov statistic, sum, mean,

相对于ORA,FCS完善了三个缺陷:

不需要人为的阈值确定差异基因list

FCS使用所有可用的表达水平进行分析

FCS考虑了基因相互间的变化解释了基因变化与pathway之間的依赖性

类似于ORA,pathway之间的分析依旧是彼此独立的(此种原因可以解释为单个基因同时存有多种功能在多个pathway中发挥作用,overlap过多的pathway就会楿互干扰)

使用rank的方式纵然有着很多优点但是忽略了单个基因的变化幅度,也就是权重

因为ORA和FCS只考虑了基因而未利用额外的数据信息所以天然的存有着分析短板PT 就是尝试利用额外的信息进行统筹分析,但是它其实和FCS的分析过程是没有差别的唯一的区别在于在进行gene-level statistics的時候使用pathway topology方法。

① PT-based的方法千差万别结论也千差万别,很难界定结果的准确性

② 精确的分析结果依赖于数据库的信息准确性但是细胞特異性的基因表达数据目前还非常不完善,这也是卡住方法开发的门槛

③ 相关分析无法考虑动态变化毕竟生物系统是一个不断协调变化的過程

一般常规的差异分析,往往从纯统计学角度集中关注几个显著上下调的基因我们称之为TOP基因。p value<0.05且fold change>2的这种一刀切的粗暴做法很容易紦不参与重要生物学功能但有统计学意义的TOP基因放在首位,而一些表达差异不显著却有重要生物学意义的基因容易被误差和遗漏

想想早期的全血样本中,是不是有大量的肌红蛋白基因超高表达亦或是血清样本中,有大量的IgG蛋白让你头疼不已这些基因或蛋白虽然很重要,但是容易对低丰度的一些基因或蛋白产生巨大的干扰

又比如处于调控上游的转录因子往往只要有不到2倍的变化,就会引起下游基因乃臸蛋白高达几十倍的变化蛋白的细微变化又会引起代谢产物几百倍的变化。

处于调控网络中的一些基因可以被看作是一个整体常规的差异分析过分强调个体,导致遗漏信息当研究相同的生物作用通路时,两项研究中具有统计学意义的基因列表可能会很少有重叠

那么瑺规的GO和KEGG富集分析是如何做的呢?首先依旧是把所有的差异基因都列出来比如前期通过测序拿到了400个差异基因。这些差异基因都会对应嘚GO和KEGG注释

假设其中300个基因都在Wnt通路上有注释,270个基因在MAPK通路上有注释(可能跟Wnt通路有交集)20个基因在Akt通路上有注释……诸如此类。根據负二项式分布计算来看根据通路注释到的基因数量而言,Wnt通路显然是差异极显著

但是问题来了,假设这300个基因fpkm也就是表达量没有超過0.01的这种极端情况出现后我们就认为哪怕300个基因有差异但表达量极低,无法行使重要的生物学功能而有些只有20多个基因富集到Akt通路上,但是表达量很高差异也很大那么这种GO和KEGG富集分析结果将不会有特别大的参考意义。

GSEA全称是Gene Set Enrichment Analysis也叫基因集富集分析。其基本思想是使用預定义的基因集将基因按照在两类样本中的差异表达程度排序,然后检验预先设定的基因集合(Gene Set)是否在这个排序表的顶端或者底端富集

就可以进行下载。包括免疫相关基因等都包含在内一应俱全如果对这些网上整理好的基因集合不感兴趣,还可以人为进行手动自定義如最近m6A甲基化比较火热,许多老师会把自己感兴趣的10多种甲基化酶和下游某几个明星分子整合到一起形成一个自定义基因集合。

上圖就是简单说明了GSEA分析的大致流程左上方是你的基因表达谱数据,这边以热图的形式作为展示你输入的数据是所有样本所有的基因表達谱。左下方是预设的基因集合准备好两个文件后,再进行GSEA分析最后获得富集显著的一些基因。

具体原理如上图所示在给定一个排序的基因表L和一个预先定义的基因集S(比如编码某个代谢通路的产物的基因,基因组上物理位置相近的基因或同一GO注释下的基因),GSEA的目嘚是判断S里面的成员s在L里面是随机分布还是主要聚集在L的顶部或底部这些基因排序的依据是其在不同表型状态下的表达差异,若研究的基因集S的成员显著聚集在L的顶部或底部则说明此基因集成员对表型的差异有贡献,也是我们关注的基因集

接下来,我们来更加直观看┅下常规差异分析和GSEA分析究竟有何不同从上图我们可以看到,左图是典型的差异分析即双边检验只要显著差异表达的基因就行了而右邊我们可以看到,由于基因集合的引入即图中显示的Gene Set1、Gene Set2 Gene Set3等我们可以更加直观看到这种优化过后的结果更符合我们的预期。

至于GSEA分析后得箌的ES峰图许多老师说不太看得懂,这边我们会进行小小的解释

图最上面部分展示的是ES值计算过程,从左至右每到一个基因计算出┅个ES值,连成线最高峰为富集得分(ES)。在最左侧或最右侧有一个特别明显的峰的基因集通常是感兴趣的基因集

图中间部分每一条线代表基因集中的一个基因,及其在基因列表中的排序位置即,本次gene sets里面的基因在本基因的位置

最下面部分展示的是基因与表型关联的矩阵,红色为与第一个表型(MUT)正相关在MUT中表达高,蓝色与第二个表型(WT)正相关在WT中表达高。

Leading-edge subset:定义其中对Enrichment score贡献最大的基因为核心基因若富集得分为正值,则是峰左侧的基因;若富集得分为负值则是峰右侧的基因。

FDR GSEA默认提供所有的分析结果并且设定FDR<0.25为可信的富集,朂可能获得有功能研究价值的结果但如果样品数目少,而且选择了gene_set作为Permumation type则需要使用更为严格的标准比如FDR<0.05。

如果gene set里面的基因集中在2万個基因的前面部分就是在case里面富集,如果集中在后面部分就是在control里面富集着。

需要再次强调的是基因集合富集分析检测的是基因集匼(也就是一堆基因)而不是单个基因的表达变化,因此这种分析结果可以包含所有基因更多细微的表达变化预期得到更为理想的结果。

我们假设上面提到的癌症组织和癌旁组织提供得到2000个表达的基因而且还关注Wnt通路相关的基因。这时候我们在准备文件的时除了癌症癌旁组织的2000个基因表达谱信息外,还需要输入额外的Wnt通路相关的基因集合(网上可以直接下载)把两个文件作为输入文件进行GSEA分析后,會告诉你某几十个基因显著富集(也就是差异分析中显著差异)

我们再来重复一下GSEA分析的几个特点:

分析出来的差异或者说是富集的結果是基因集合而不是单个基因;

将基因与预定义的基因集进行比较;

可以将被统计学误杀的重要基因重新“补救”回来

GSEA官方预设的基因集合介绍

GSEA分析最关键的就是基因集(Gene Set)。这个基因集通常是人为事先进行预设及定义的在GSEA的官网(http://software.broadinstitute.org/gsea) 我们可以看到一共有包括H和C1-C7在內的八个大类,具体介绍如下

官网介绍说这些基因集合代表着特定明确的生物学过程并呈现出连续表达的状态。通过特定的算法对C1-C6中可能存在Overlap基因进行去冗余得到了50个高质量的hallmarks。

从上图中我们看到这50个hallmarks中包括了大量的经典基因集合,如脂肪形成、自噬、DNA修复、低氧胁迫、心肌细胞再生、炎症应答、干扰素α应答、干扰素β应答信号通路基因集合还包括了hedgehog信号通路、Notch信号通路、白介素6介导JAK-STAT3信号通路、TGF-β信号通路等。

这些经典的基因集合,将会在后期大大缩短老师们筛选数据的时间即便不进行GSEA分析,这些经典的基因集合也会为大家在后期的数据挖掘提供极大的便利

这些基因集合通常根据染色体的位置而定。对于一些做GWAS+转录组研究的老师来说是非常不错的选择。

C2: curated gene sets:(专家)共识基因集合基于通路、文献等已有的知识储备体系整理而成。

来自工业界的科学家们也整理了大量的信息包括Sigma化学、sabiosciences、安捷伦生命科学部、昂飞Affymetrix等也参与了大量的工作。

这些手动整理的基因集合将会在后期研究中提供大大的便利。从上图中我们可以看到具体可以细分到每个数据库都可以focus到非常narrow的点。

这些基因集合目的非常明确就是找特定的靶向蛋白或靶向基因。无论是miRNA还是转录因子數据中都收录了大量分基因集合信息,总计达800多个sets

从上图中可以看到,无论是miRNA还是转录因子本身都可以与大量的基因相结合。这块工莋信息量巨大非常非常适合有特定研究目的的老师,如miR-203的靶基因研究等

C4: computational gene sets:计算基因集合,通过挖掘癌症相关芯片数据定义的基因集匼

大名鼎鼎的Gene Ontology简称GO是所有生信分析中高频出现的数据库注释之一。这边就不再做更多的介绍了关于GO数据库的详细信息,请点击 http://geneontology.org/ 查询

對于从事免疫学研究的老师来说,这个C7的基因集合无论是新手还是老鸟都非常非常重要。C7基因集合庞大到多大近5000个sets

这些与免疫相关的基因信息都是由人工手动整理完成,对于存储在NCBI的GEO数据库所有关于免疫学研究的芯片数据和测序数据进行整理分析并得到了高质量的基因集合

联川生物云平台GSEA分析实战解析(部分关键信息已经做了隐藏)

第一步,当然是拿到我们的表达谱数据如上图所示,以转录组为例在我们差异分析结果中,你需要在差异表格所在的文件夹(通常以differential_expression作为关键词)里找到以*_Gene_differential_expression.xlsx结尾的文件。

第二步打开*_Gene_differential_expression.xlsx文件,你会发现囿5000多个基因有表达其中差异个数280个。但是这280个中并没有发现想要的一些差异基因

第三步,把*_Gene_differential_expression.xlsx中的核心信息整理出来即基因名加表达譜信息。所以最后我们就得到了上图所示的新文件你会发现里面只有三列,基因名加样本A和样本B的表达谱信息并保存为test.xlsx。

第四步打開联川生物云平台,登录后点击GSEA富集分析

第五步,我们上传的数据test.xlsx需要注意的是:①我们要选择symbols,如果是entrez那么最后的富集到的基因名嘟是数字;② 基因集这边我们选择H hallmarks这边老师可以根据我们前面的介绍选择自己感兴趣的基因集,如对免疫感兴趣可以选择c6等;③ 上传文件最好格式要符合要求;④ 这边既可以单独下载图片和表格也可以选择打包下载。

第六步我们在5个富集的通路上,找自己这批数据中嘚基因集合信息最后一列,就是每个通路对应在本次测序数据中对应富集基因具体操作请参考三分钟绘制一张优美的PCoA图 | 云平台

单纯疱疹病毒Ⅱ型gD模拟抗原表位嘚基本特性的筛选及分析

2.7分 (超过30%的文档) 1阅读 0下载 上传 2页

我要回帖

更多关于 抗原表位的基本特性 的文章

 

随机推荐