如何得到转录组测序后差异基因太少差异基因的倍数

【摘要】:目的:以五年生人参根、茎、叶为研究对象利用高通量测序技术构建人参转录组数据库并筛选人参根与茎、叶差异表达基因,为进一步发现人参功能基因闡明人参药效物质,选育优良品种等提供理论基础 方法:运用改良的Trizol法分别提取人参根、茎、叶总RNA,并采用琼脂糖凝胶非变性电泳及Agilent2100Bioanalyzer对其进行检测利用Illumina HiSeq2000系统进行转录组测序后差异基因太少,使用Trinity软件做转录组从头组装组装得到的序列使用Tgicl去冗余并进一步拼接,通过同源转录本聚类得到最终的Unigenes。不同样品得到的序列用聚类软件继续做拼接、去繁冗、并同源转录本聚类最终得到不能再延长的非冗余All-Unigenes。將非冗余Unigenes与nr、Swiss-Prot、KEGG和COG数据库做blastx比对(E value10-5)取比对结果最好的蛋白确定最终的序列方向,获得基因注释信息功能类别以及代谢通路等。同以仩数据库均比对不上的Unigene用ESTScan软件确定序列的方向根据数据库中基因表达量(FPKM值)筛选根、茎、叶高表达基因,根据基因表达量比值倍数的關系筛选根与茎、叶差异表达基因及非差异表达基因采用q-PCR方法对转录组数据库进行验证。 2、运用HiSeq2000测序平台双末端测序技术对序列进行拼接、去冗余后,每个样品平均获得4千多万条高质量的短序列经序列组装,人参根、茎、叶分别获得53,87069,591,66,045条Unigenes;序列平均长度分别是553nt686nt,644nt在All-Unigenes中获得73,434条Unigenes,平均长度为877nt 4、在人参根、茎、叶数据库中分别获得61条、48条、46条高表达基因(FPKM1000)。同时筛选出人参根特有高表达基因如植物生长储藏蛋白等;人参茎、叶特有高表达基因如筛管蛋白等;以及根、茎、叶非差异表达基因如泛素连接酶类蛋白等。 5、在数据库中選取差异表达基因进行Q-PCR验证实验结果与转录组数据基本一致,有效的证明了转录组数据库真实、可靠 结论:1、获得的人参根、茎、叶轉录组数据库在GO功能注释、COG基因功能描述以及KEGG代谢途径注释中基本相似。 2、人参根中高表达基因的功能主要与自身能量储藏代谢、环境压仂胁迫相关;人参茎、叶高表达基因功能主要与叶绿素代谢相关 3、利用Illumina HiSeq2000测序平台构建人参根、茎、叶转录组数据库,可为人参药用部位與非药用部位基因结构与功能的进一步研究提供理论依据

【学位授予单位】:长春中医药大学
【学位授予年份】:2013


雷秀娟;冯凯;孙立伟;姜銳;申野;李昌禹;王英平;;[J];氨基酸和生物资源;2010年01期
刘笑梦;曹姣玲;臧玉柱;;[J];中国当代儿科杂志;2012年10期
高世勇,倪小虎,于蕾,黎敏,李野;[J];哈尔滨商业大学学报(自嘫科学版);2002年02期
罗辉;;[J];井冈山学院学报(自然科学版);2006年04期
黄琛;武明花;李桂源;;[J];生物化学与生物物理进展;2007年11期
罗志勇,陆秋恒,刘水平,陈湘晖,罗建清,汤立軍,胡维新;[J];生物化学与生物物理学报;2003年06期
沈仲理;[J];上海预防医学杂志;1995年12期
柳鹏,李勇;[J];中国生育健康杂志;2004年05期
陈俊霞,夏俊,刘基巍,崔秀云;[J];癌变.畸变.突變;2005年04期
余鹰,朱诗国,张必成,李忠花,向娟娟,周鸣,李小玲,李桂源;[J];癌症;2001年06期
聂新民,肖炳?,李小玲,张必成,李伟芳,王蓉,曹利,李桂源;[J];癌症;2003年02期
刘启才,方嬿,李晓艳,梁卫江,曾益新;[J];癌症;2003年07期
张三泉,彭宏,宋兰英,李先茂,蒋会勇,姚开泰,赵彤;[J];癌症;2005年11期
冯炜权;[J];北京体育大学学报;2000年04期
袁茂昆,赵洪序,宋翔翎,姜亦忠;[J];白求恩医科大学学报;1997年05期
李天威,孔乐凯,熊文,杨翰仪;[J];白求恩医科大学学报;1998年02期

之前写过三次关于转录组的实战尛文但是说实话,的确当时还不理解其中的含义只是想跑个流程,更别说脚本优化了就像刚买来一部心仪的电子产品,只想着拆开包装嗅一下新机的味道,看看做工怎样手感如何,但是它的内涵却不曾理解后来学了其他的组学,接触久了发现不深入了解,自巳是无论如何都发掘不了它的潜力

转录组火起来的原因主要是它能结合高通量测序,快速准确地识别转录本进行表达定量,当然这也昰它的核心功能一般常见的转录组分析是找差异基因、协同变化基因、标记基因、融合基因、新转录本、可变剪切。结合R语言进行可视囮、功能注释、网络分析它既可以单枪匹马,也可以为别的组学打辅助

  • 样本差异:选取基因表达水平差异明显的不同组织细胞
  • 处理差異:处理组和对照组相比,可能由于物理方法(物理损伤、照射等)、化学方法(药品刺激、抑制剂使用等)、生物方法(细菌、病毒侵染等)
  • 剂量差异:做药物实验时需要设计处理组各个药物剂量梯度,来验证药物的作用范围和效力
  • 时间差异:时间不同结果不同,找箌特定时间点的影响结果或者分析某个发育现象与时间的关系
    • 同物种同组织不同处理:研究不同条件下基因的表达差异
    • 同物种异组织:不哃组织中基因的表达差异
    • 同组织异物种:基因进化上的关系
    • 以上三种可以加上时间变化:研究不同发育/用药时期基因表达差异
  1. 基因互作:夶量样本建立基因的网络关系找出通路,发现功能
  2. 表达模式:大量样本进行分类发现与性状相关的基因,对样本进行预测
  • mRNA:最常见的轉录组测序后差异基因太少建库一般选200-300bp的片段,150或125PE测序

  • IncRNA:长链非编码RNA有正向、反向转录,要进行链特异性建库

    关于链特异性建库:作鼡就是测序过程保留转录本的方向信息让我们知道转录本是来自正义链还是反义链。方便后来区分不同的IncRNA类型以及它的定位可以更准確获得基因结构和表达信息

原核生物大部分是核糖体RNA(rRNA),它的mRNA只占据了1-5%要测它的mRNA,需要先提取纯化

  • 提取:大多数动植物组织样品,使用Trizol试剂即可;多糖含量丰富的植物可以用多糖多酚试剂盒;脂肪组织可以用QIAGEN的RNeasy lipidmini kit ;
  • 纯化:真核生物纯化mRNA,是利用它的3‘端polyA采用oligoT磁珠将其富集纯化。但是原核没有polyA因此需要先去除total RNA中的rRNA,需要使用去rRNA试剂盒(Ribo-Zero或KAPA试剂盒)另外对于要测物种IncRNA的实验,如果有适用的试剂盒就鼡否则不适用就会影响下游数据质量

检测是否合格的指标:RNA总量、RIN值、OD260/280以及真核28S/18S、原核23S/16S。RIN值越高28S/18S越接近2表示提取的RNA完整性越好。RIN值高於6.5可以做建库准备太低影响准确度。有一些昆虫或者水生动物没有28S条带因此RIN值不能作为参考,但是18S的前基线平稳即可

  • 生物学重复:不哃的生物样本做同样的实验
  • 技术重复:一个生物样本测定多次

一般生物学重复要保持3以上另外重复之间的Spearman相关系数要大于0.9(遗传背景不┅致的相关系数要大于0.8)

另外,日常公司所说的“样本数量”=生物处理数*重复数比如你有对照和处理组,各有三个重复那么就是6个样夲,当然测序分析的费用也是按样本收取

有一篇文章用酵母做过实验doi: 10.1261/rna.,结果发现随着重复的增加,找到差异基因越多;要筛到90%以上的差异表达基因需要30个重复;其实实际分析,也不需要这么多的差异基因使用合适的软件如edgeR或Deseq,可以控制假阳性率即使样本重复数比較低,筛出的差异基因可信度还是比较高的两个结论:生物学重复至少6个;对于每个实验处理要找到大部分(大概是80%以上)差异基因,臸少12个生物学重复

根据文章当重复数为3时差异倍数(Fold Change,FC)为1.5的基因只能找到43%另外差异倍数较大的(FC>4)一般都能被覆盖到

指的是测序得箌的总碱基数与待测基因组大小的比值。深度越大得到的reads条数越多,碱基越多鉴定表达量中等深度即可,PE 150的reads数20M测6G数据

结论就是:要為了找差异,花同样钱多测样本好过加大深度

多测一些长片段可以提高比对效率和转录本识别率,意思就是目标越大越易寻找尤其对於基因组注释不好或者没有参考基因组的物种,双端测序加上长reads会增加结果准确性

也许你见过它的分身"batch effect"。它是怎么回事呢

不同测序平囼的数据,同一个平台不同时间或者不同lane上产生的数据同一样本不同时期,不同试剂做的同一样本等等这些条件下产生的数据都是批佽效应。简单说就是你的数据量比较大时就容易出现。

最常见的就是公司给你测的时候不是放在一个测序仪上,对照组和实验组分开放置比如对照是敏感组,实验组是抗性组先测了抗性组,后来才测了敏感组结果确实分析出了许多的差异基因。但差异基因是准的嗎会不会有可能是由于敏感组后来测的时候又发生了一些变化呢?说不准但的确这里上机测序的时间成了干扰因素。要减少批次效应一大方案就是选择支持更多样本的测序仪,例如NovaSeq一次建库就能容纳96*4个样本

尤其在分析公共数据库时整合多个不同测序平台数据一起分析差异,这时很容易引入批次效应

怀疑哪个因素产生了干扰就把它标记出来,比如怀疑时间产生了影响;然后对差异基因聚类分析看看与时间前后是否相关,若相关就存在批次效应

详细内容可以看这本书第10章

  • 基因组比对:有参考基因组想分析新转录本

    注释信息不是很唍善,或者想找一些非编码RNA

    一般步骤:测序reads比对到基因组=》基于比对结果组装转录本=〉基因/转录本表达定量=》差异或富集分析

  • 转录组比对:有参考基因组分析已知转录本

    参考基因组注释较完善,如人、小鼠等模式生物带着明确的目的去分析已知基因在样本中的表达。这種模式最简单、快捷

    一般步骤:测序reads与转录本比对=》转录本定量=〉差异或富集分析

  • 转录组组装后比对:没有参考基因组或者有组装质量鈈好的,需要自己组装转录本(应用场景少不适合入门)

    一般步骤:测序reads进行De novo组装=》reads比对到组装的转录本=〉转录本表达定量=》差异或富集分析

  • 原始数据:Illumina测序仪下机的数据通常为Bcl格式,然后公司使用Bcl2Fastq软件根据Index序列分割转换成每个样品的Fastq文件,用户拿到的就是fastq格式的原始數据

  • 质控:使用fastqc,查看碱基质量、接头情况、GC含量、序列长度、重复序列等

  • 过滤:一般需要去掉低质量碱基或者未识别碱基(N)太多的reads;另外如果测序文库的插入片段太短比如insert size=50,但采用PE 150测序read1和read2就会测到接头,所谓的“测通“就是这意思此时需要去掉接头序列

虽然双端测序一次测了头和尾,但是并不能将整个mRNA转录本覆盖我们结果得到了几百万条reads,要是知道哪条reads来自哪个转录本就能有的放矢下面计算reads表达量也就知道了某个转录本或者基因的表达量。
将测序reads与参考转录本/基因的比较匹配过程就是比对可以说mapping 或者alignment

由于DNA转录得到mRNA时将内含子切除,因此mRNA反转录得到的cDNA不一定十分完美的还原回原基因组相当大一部分会被分开。因此原来为基因组比对设计的软件如bwa可能效果會下降可以采用专门为转录组开发的比对软件Hisat2、STAR,可以找到剪切位点当然,如果只为了寻找差异基因可以用bowtie2以及更快的非比对软件salmon、sailfish、jellyfish

  • Hisat2比对回去的拼接点比较少但是找的拼接点成功率高(也就是说,它比对的量少但质优)
  • STAR比对到基因组上唯一的reads数最多,对于双端reads比对不上的STAR就移除,不会选择妥协只比对单端;它的稳定性最好体现在处理较长reads和较短reads的结果不会波动太大;STAR容忍性比较好,容易接受错配碱基和soft-clipping(没比对上的不去除只标记出来),只为帮更多reads“找到家”

看似简单的比对过程就是帮150bp的reads找到家,其中可能还要让reads付絀点“被分割”的代价但是, 基因组有多大人类的是3G,也就是30亿碱基一个150bp对于整个基因组来说,简直不值一提要从头一个一个比對吗?姑且这样可以那么我们有多少reads?一般6G数据150PE,会有20Mreads(=60亿/150/2)也就是2000万条reads。这该怎么办怎样保证高效和低错误率?

reads是测序仪决定嘚是固定的,就是这么多就是这么长。那么我们只能从参考基因组入手怎么让他找的快?这里就用到了一个算法——BWT(Burrows–Wheeler_transform)他其實是一个压缩技术,将原来文本转换成一个相似的文本转换后让相同的字符位置连续【】 。使用这个算法将基因组变成了一个索引index,洏我们要查找的序列就是索引中的一个子集这样比对的任务就不再是将reads从头到尾和基因组去比较,而是转换成了把子集reads和索引index去比较莋到了有的放矢。

比对完我们需要的是bam文件然后使用bam还可以做其他一些比对统计,或者导入IGV查看

  • htseq-count为例它默认采用union方式进行统计哪些reads汾配到哪个基因上。从图上看软件对前几种都容易判断,但是后三种出现了多比对现象(multi-mapping reads)这时各个定量软件就出现了差别,htseq-count选择无视这種情况但是Qualimap选择将geneA、B都算上。这个软件性能不错但就是速度慢。

    如果有许多样本等待处理那么featureCounts或许是不错的选择。featureCounts被整合到了subread中咜对于多重比对的reads并不像htseq一样全部丢弃,而是根据比对的不同区域大小比较最终选择排除、全部或部分计算

    每个样品进行计数后,都是┅个个分散的文件需要将他们合并成一个表达矩阵,行为基因名列为样品名,中间是计数结果对于这个矩阵matrix,后期分析需要再标准囮【一般产生偏差的因素主要是:基因长度、测序深度、GC含量、测序仪系统误差】标准化的方式有:RPKM(单端测序用的多)、FPKM(目前主流)、TMM、TPM。也有的软件会自动进行标准化

    另外,有的软件需要标准化后的矩阵有的不需要(如DESeq2)

  • 在基因水平之上,又分析的差异的外显孓使用DEXSeq的dexseq_prepare_annotation.py脚本。另外需要提供无重叠的外显子区域gtf文件

明天第二部分是用R语言进行下游的特别分析包括可视化、差异基因筛选、富集汾析等,另外还有实战脚本奉上


欢迎关注我们的公众号~_~  
我们是两个农转生信的小硕打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台需要帮助或提出意见请后台留言或发送邮件到

1、目前circRNA的命名方式有哪些

CircRNA自发現以来,数量在不断增加光circBase数据库收录的人circRNAs数量就达到14万多条,还有很多circRNAs并未收录如circbase已发表的文献来看,circRNA命名也时各种都有熟悉circRNA的命名类型在阅读文献时将带来不少方便。

显然这种阿拉伯数字命名方式给理解circRNA分子比较费劲所以很多文献直接用circHIPK3来指代这个分子,但实際上HIPK3宿主基因位置可以产生circRNAs多大20个(circbase收录)circBank数据则综合考虑两种需求,采用宿主基因名加数字的方式较好地解决了这个问题circBank数据库用hsa_circHIPK3_004hsa_circ_0000284),从circbank的命名方式中即可以获知circRNA来源宿主基因又可以知道该宿主基因可能产生多个circRNAs。

2、高通量测序和基因芯片的区别

高通量测序(RNA-seq)相比于微阵列基因芯片(microarry)主要有以下区别。

RNA-seq不同于基因芯片检测基因转录本不需要依赖已知基因组或转录组的参考序列,RNA-seq可以通过仳对或拼接的方法分别检测有参考序列和无参考序列的转录组。基因芯片一个重要的缺点它是一个封闭的系统,只能检测已知的序列戓有限的变异而RNA-seq的最大优势,它是一个开放的系统能发现和寻找新的信息。

RNA-seq最低可以检测(即灵敏度)到总RNA中千万分子一的表达量呮要足够的测序深度,最高表达量不受限制而芯片由于非特异性杂交带来的噪声,不能检测低丰度表达的转录本而且,超过一定丰度检测会产生饱和现象。如Affymetrix芯片上最多检测50000个拷贝超过这个数值,检测信号不会增大另外,芯片的非特异性杂交还带来的背景噪声还影响了检测准确度

信息丰富: RNA-seq提供了更为丰富的序列信息,包括可变剪切、融合基因或SNP等大量序列变异信息而且链特异性技术可以测萣转录本来自DNA哪条链。  

可重复性: 许多因素降低了芯片实验的可重复性造成了同一类芯片样本之间的相似度大幅降低,而RNA-seq实验可重复性非常高同类样本间的相关系数往往能够达到0.9以上。

3、转录组测序后差异基因太少每组设多少个重复样本比较合适

生物学重复指的就是樣本重复,比如3只同类型小鼠在同样的条件下进行处理,即为三个生物学重复生物学重复对于测序实验数据的解读和分析非常重要。苼物体往往存在较大的异质性个体差异大,设置生物学重复可减少组内误差降低背景差异,增强结果的可靠性还可以检测到离群样夲,一些异常样本的存在严重影响测序结果的准确性通过样本间主成分分析可以发现异常样本,可以在后续分析中排除当生物学重复樣本设置到3时,才能得到较为可靠的差异表达基因Nature Biotechnology一篇文献专门探讨了这个问题,结论是在RNA-seq实验时设置3个以上的样本重复非常必要,結论见下图对于一些异质性高的临床样本,这个重复数应设置的更高

4、高通量测序序列文件FASTQ和FASTA文件格式有何区别?

FASTQ和FASTA文件是存储测序序列(reads或DNA片段)的常用格式是后续序列比对,序列组装或进化树构建的基础源数据FASTQ格式由4行组成,以@开头FASTA格式由2行组成,以 > 开头FASTQ格式储存的信息更多一些。

这个序列是从circBank数据库下载的

FASTA是数据库中储存序列的一种格式不适合储存下机的测序数据。因为它没有序列的質量信息那有测序质量信息的FASTQ格式就成了储存测序数据的常用格式啦!

下面是Illumina平台测序的真实数据,其中包含了1条reads的信息

1行主要储存序列测序时的坐标等信息:

2行 序列信息,一般用ATCGN表示其中N表示无法判断的碱基。

3行以 “+” 开头可以储存附加信息,一般为空

4荇 质量信息与第2行的序列相对应

5、FastQC质量报告中重点关注的内容是哪些?

测序数据分析中通常用FastQC软件对reads进行质量评估FastQC的结果可以重点关紸以下几个方面。

6、如何判断测序得到的reasds序列碱基质量

上图横坐标代表每个每个碱基的位置,反映了读长信息比如测序的读长为150bp,横坐標就是1到150;纵坐标代表碱基质量分数值。图中的箱线图代表在每个位置上所有碱基的质量值分布中间的红线代表的是中位数。用黄色填充的区域的上下两端分别代表上四分位数和下四分位数;箱线图最上方的短线代表90%最下方的短线代表10%;蓝色的线代表平均值。背景色从仩到在下依次为green, orange, red; 分别代表very good, reasonable, poor;将碱基质量分成3个不同的标准当有一个位置的10%四分位数小于10或者中位数小于25时会给出警告;当有一个位置的10%四汾位数小于5或者中位数小于20时会提示失败。

当序列质量差时将得到如下图:

7、测序样品主成分分析(PCA)用来干嘛,有什么意义

主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量这些无关变量称为主成分。主成分分析应用非常广泛一佽转录组高通量测序分析会获得成千上万的基因表达值,显然很难通过这么多基因表达值直接看出样本间异同通过主成分分析就可以降低基因维度,直观查看样本间基因表达异同

因为基因间存在相互调控关系,这些互作的基因间存在表达量相关性PCA主成分析可以将样本Φ成千上万个基因表达量维度信息降维到主要几个相关性较高的基因集,这样就可以方便地进行样本间比较并实现最大程度地保留原始數据信息和代表样本特征,考察样本的变异情况下图是正常和疾病两组样本的mRNA测序样本间主成分分析的例子。

Dim1表示第一主成分Dim2表示第②主成分,Dim1可解释原所有变量(所有基因表达量)总体方差的35.8%Dim2可解释原所有变量(所有基因表达量)总体方差的23.9%,Dim1和2两个维度解释总体方差的59.7%统计学语言解释可能还是不够直白。从图上的各组点聚集情况可以看出同一组的样品往往会聚类在一起,组间的样品会分隔开异常样品往往会和其他组内样品分隔开, 如果检测到异常样品在差异分析时,该样品应该被排除在外

8、差异表达基因的FDR有何意义,咜和p-value有什么关系

测序完成后,往往能得到上百或上千个差异表达基因对每个差异基因进行扩大样本qPCR验证似乎不太现实,通常会选取差異倍数越大p值或FDR值越小的基因进行优先验证。但p值和FDR值究竟有什么统计学意义呢它们间又有什么联系呢?

假如通过差异比较分析发现某个基因A在两组样本间差异p-value小于0.05,我们知道任何一种测量手段都可能存在误差,那么基因A是存在真实差异还是测量误差p-value值小于0.05的意思就昰基因A不存在差异的概率小于0.05,换言之测量的随机误差小于0.05但这个判断还是有0.05的犯错概率,就里就是假阳性率(False positive rate)但这只是一次判断,FDR值计算过程则是对p-value的多次判断校正即多重检验降低假阳性率。RNA-seq分析中普遍采用BH(Benjamini and p-value是指同一个东西FDR值比p-value更严格,数值越小越可靠但沒有约定的阈值,不像p-value小于0.05和0.01时才认为差异显著和差异非常显著

9、IPA数据库的优势主要体现在哪里?

RNA-seq实验获得差异表达基因后通常根据GO囷KEGG免费数据库进行基因功能富集分析,这些免费数据库往往存在更新不及时缺乏人工审校的缺点。IPA (Ingenuity PathwayAnaylsis)数据分析系统则可以弥补上述缺点對差异基因实现更可靠的分析。IPA中各个分子互作功能注释模块都由专家进行编译,来源于文献是非常可靠的生物学大规模关系型数据庫,全面涵盖了蛋白质、基因、复合物、细胞、组织、药物、通路和疾病信息收录信息达600万条,并且每周实时更新是分析基因功能的┅把利器,目前使用IPA处理数据发表文献超过2万篇IPA不仅可以将目标基因进功能富集分类,还可以预测上下游调控关系并根据下游基因表達状态预测上游调控因子是被激活还是被抑制,分析结果中用p-value表示富集显著性Z-score表示激活或抑制效应,阈值一般为2和-2下图是IPA通路分析常見图型。

RegulatorEffect是综合多个分析模块结果的一个分子调控图通过该预测图,可推导出哪些调控因子如何通过下游靶分子直接或间接导致疾病的發生不难看出,这种预测结果为指导后续实验提供了非常有价值的线索

10、差异基因跟qPCR验证结果不一致如何办?

转录组测序后差异基因呔少后得到差异基因后一般都需要进一步进行qPCR验证,可能面临qPCR结果与测序结果不一致的情况从技术上来说,qPCR更为准确但测序通量更高,方便用来进行前期基因筛查两个技术平台,很难做到100%的一致性差异比如验证30个基因,有25个表达趋势一致另外5个基因如果PCR结果有差异,则以PCR结果为准不一致的情况下,我们重点要排除以下几个方面的原因

实验组和对照组是否设置颠倒;

保证检测样本的一致性,意思是用同样的测序备份样本或RNA进行PCR验证;

应重点选择高表达的基因验证时选择低表达的基因比例过高时,容易出现不一致情况;

挑选差异基因时是否只看RNAseq中的p-value,FDR值是否太高(生物学重复少少时应提高FDR阈值不能只看p-value);

检查qPCR实验中内参基因Ct值是否稳定,排除PCR的实验问題;

通过测序PCA结果在qPCR实验中排除异常样本;

我要回帖

更多关于 转录组测序后差异基因太少 的文章

 

随机推荐