如何对人类基因组测序进行测序

科学家正在努力开展基因组测序方面的工作加紧减少片段之间的空隙,纠正错误希望最终真正完成人类基因组测序的测序工作。《自然》(Nature)医学助理新闻编辑Elie Dolgin将带領我们去了解一下这些科学家们的最新工作进展

在Deanna Church位于NIH五楼的没有窗户的办公室里,她几乎很难有机会分散精力从事工作以外的事情茬Deanna Church的电脑里装满了有关人类基因组测序序列的各种难题。虽然这些难题的数量可能有时会有所改变但它们还是有一个潜在的压力在时刻提醒着Deanna Church带领的美国国家生物技术信息中心(NCBI)的研究小组,他们距离完成课题还有很长的一段路要走这项课题正是早在20年前就已经启动嘚大名鼎鼎的人类基因组测序计划。

来自全球的科学家们已经为这个项目花费了30亿美元2000年,在美国白宫举行了一场意义重大的新闻发布會科学家们在会上宣布他们已经获得了人类基因组测序的序列草图。在次年公布这一草图时科学家们用各种充满着诗意的文字对这本具有里程碑式意义的实验笔记大加赞誉。当2003年第一次有官方表态人类基因组测序测序工作已经完成时科学家们又一次打开了庆祝的香槟。从那以后媒体在报道基因组测序工作所取得的新进展的同时也刊登一些“负面”消息。比如全球顶极科技期刊《新科学家》(New Scientist)就曾經做过这样的报道:“科学家们保证这一次是真的。”一年后分析结果被公布,两年后(2006年)将最终的论文公众于世,文中对染色質进行了“全景描绘”三年过去了,Church已经因为长期在电脑前辛勤的工作而略显驼背她轻点鼠标,静静地浏览电脑屏幕上的那些基因组序列思考着问题。在由她的合作者和世界各地的序列使用者们提交的问题当中有好几条问题都是有关序列缺失的还有一些人反映有些序列有误。

当然还有意想不到的更为复杂的问题,比如复杂的DNA重排问题等这些问题都是需要花费好几年的时间才能弄清楚的。

美国贝勒大学医学院(Baylor College of Medicine)人类基因组测序测序中心(Human Genome Sequencing Center)的主任Richard Gibbs说道:“这非常令人沮丧这是一个质量非常高的基因组测序结果,是目前为止最恏的结果但是问题在于哪怕是非常小的一点差错也会造成非常严重的后果。”

Church的团队正在努力构建一个精确可靠的参考序列但是他们嘚努力又再一次证实了这是根本行不通的。比如序列本身并不能代表任何一个人的基因组序列只是男人、女人等不同人DNA的集合。这是因為我们在进行人类基因组测序测序时本来就是采集了来自世界各地不同人种个体的DNA样品正如人类基因组测序项目现任主席Francis Collins说的那样:“峩们拥有同样的遗传背景。”

但是这种全人类共有的遗传特质却很难捕捉任何两个个人的基因组看起来都不如我们原本设想的那么相像。我们对人体基因组进行测序时并不是按照30亿个碱基对中一个碱基一个碱基地进行测序而是根据个人将这么一个巨大的DNA序列分解成数百條各不相同的片段,其中就可能会导致数百万个碱基对组成的序列发生丢失、插入、重复或者反转等现象

如果我们真的能够得到一份完整的基因组参考序列,那么它将与我们最初得到的那份很不一样而这就是Church等人现在正在进行的工作。他们正在努力消减这些基因组序列の间的差异同时他们也希望能够打造出一个更富有弹性的平台,得以从中发现所有人类基因组测序的共性和独特性尽管有人认为这纯屬浪费时间和精力,因为现在可以只用花费十年前测序费用的很少一部分就能对个人的基因组进行测序了不过绝大部分人还是认为这种參考序列是非常重要的,因为它可以对我们将来将要开展的人类基因组测序测序工作起到重要的参考作用

即使Church解决了这些问题,她也不鈳能得到太多的赞誉她既不可能像以前那些从事基因组测序工作的人那样到白宫与总统会面,也不可能在什么具有高影响因子的杂志上發表文章不过如果Church留下什么问题,还是会有其他人来解决这些问题的因为“这些问题虽然不是那么的让人感兴趣,但是它们的确很重偠”Church这样说道。

到2003年4月为止人类基因组测序计划的测序工作成果已经超出了当时的预定目标,即平均每10,000个碱基的出错率小于1个碱基哃时对基因组当中编码基因部分的测序覆盖率超过95%。但是问题仍然存在比如在序列中还有大约350个缺口,还有很多结构变异区域没有得到測序等

Institute),一起讨论基因组和结构变异方面的问题其中有一个问题得到大家一致的响应,那就是没有一个简单的办法能够让我们用新嘚测序数据来修补现有的基因组测序结果或者对该结果进行升级在上世纪90年代,基因组测序还是一件非常不确定的事情世界各地的科研人员们都可以与分布在世界各地的参与人类基因组测序计划的那几大测序中心(这几个中心分别负责一些染色体的测序工作)进行联系,报告任何测序方面的错误但是到了2004年,几乎没有哪家测序中心还会主动检查测序错误了他们也不再有热情去重新检查一遍以往的测序数据,于是问题出现了美国国立人类基因组测序研究所(National

Birney一起向美国国立人类基因组测序研究所和维尔康姆基金会提交申请,希望他們能够提供资金支持为此他们争取了两年多时间,但是最后美国国立人类基因组测序研究所只同意从每年3,000多万的测序资金当中拨出100万美え供美国密苏里州圣路易斯的华盛顿大学(Washington University)使用。桑格研究所和维尔康姆基金会也提供了数额相当的资金支持欧洲生物信息学研究所和美国国家生物技术信息中心负责他们擅长的生物信息工作。上述这四家单位共同合作组成的基因组参考序列合作体(Genome Reference Consortium, GRC)是目前世界上進行基因组序列改进工作的主要力量

GRC为了进一步改进人类基因组测序参考序列的质量从而设立了三个主要目标:纠正序列组装错误;填補基因组当中的现有缺口;以及找出基因组当中高度可变区域的可能序列。

自从人类基因组测序计划宣告结束的那一刻起全世界的科学镓们就已经开始为上述前两个目标努力工作了,不过科学家们屡屡受挫基因组当中有些区域总是无法解决。比如对于一些重复序列科研人员们希望能够在细菌当中得到这些序列的多拷贝片段(这也是测序工作当中必需的一个环节),但是一直都没能成功幸好最新的技術已经能够解决这个问题了。在今年年初美国Broad研究所基因组测序和分析中心的共同主任Chad Nusbaum领导的一个科研小组使用了一种不需要利用细菌來扩增待测DNA片段的新一代的测序技术解决了上述问题。Nusbaum小组已经将测序结果递交给GRC这些最新成果将被收录到人类基因组测序参考序列当Φ。

第三个目标则是最近才开始逐渐形成的这是因为,最开始研究人员假设人们个体之间的遗传差异主要是由单碱基突变造成的但是現在,随着对基因组结构变异比如片段缺失、插入、反转和扩增等情况的了解越来越深入,我们发现实际情况并非如此虽然这些变异當中有一些与遗传性疾病有关,但是与发现单碱基突变不同我们很难发现这些结构变异情况,因为很难在参考序列当中将这些结构变异凊况表现出来因此,GRC除了要向我们提交一份准确的30亿个碱基对组成的DNA序列图谱之外还必须用各种方式将人体基因组的多样性展现出来。

MHC)编码区就是这样一种高度可变的区域该区域位于6号染色体上,由大约400万个碱基对组成含有很多与人体免疫机制相关的基因,该区域被认为是人体基因组当中变异程度最高的区域最初的参考序列中掺杂有大量的源自不同个体的被称为单倍体型(haplotype)的重复DNA序列,因此這种参考序列实际上是一个不属于任何个体的基因组序列为了得到一份源自某个人体的参考序列,英国伦敦大学癌症研究院(University Beck研究小组對一个单一的MHC单倍体型进行了测序然后他们将测序结果与另外七名普通欧洲人的单倍体型序列进行了比较,结果发现了37,000多个单碱基突变囷7,000多处结构变异这种程度的遗传多样性要比全基因组水平的遗传多样性高出一个数量级。目前Beck小组的测序结果已经被收入GRC的默认参考序列当中而上述那7名欧洲人的单倍体型序列则被当成了参考序列的可选序列(alternative

在人类基因组测序当中还有两个区域也和MHC编码区差不多,具囿高度的可变性即具有多种单倍体型序列。其中一个区域位于4号染色体中编码UGT2B17蛋白(该蛋白参与了多种类固醇激素和药物的代谢过程)嘚基因附近在目前已经完成的参考序列当中错误地组装了两个单倍体型序列,还出现了一个假缺口后来经过更正之后发现,这个假缺ロ实际上只是在某些个体当中会出现的一段DNA序列缺失而已缺失部位的两端各自有一大段DNA重复序列。目前这段区域也被GRC收录作为了一段參考序列的可选序列。

另一个类似的区域位于第17号染色体的MAPT基因周围该区域可供我们进行参考序列起源方面的个案研究,因为该区域只存在一种单倍体型这种单倍体型是原始序列的复杂反转。在2005年进行的一项大规模家族样本研究中发现该单倍体型只见于大约20%的欧洲人群当中,说明该区域承受着某种正向选择(positive selection)但是到了2006年,美国西雅图华盛顿大学的遗传学家Evan Eichler和另外两个科研小组发现该反转区域非常嫆易出现自发性缺失从而导致智力低下。这种既具有正向适应作用同时又会因自发性缺失而导致疾病发生的情况很像中国文化当中描述嘚一个物质所具有的阴阳两面性质但是问题在于这到底是为什么呢?

为了解答这个问题Eichler急需人体基因组序列。他与Board研究所基因组生物學项目的首席技师Michael Zody合作组成了研究小组,对人类全基因组进行了重新测序结果他们发现反转的单倍体型区域非常容易发生与智力发育低下有关的序列缺失。2008年Eichler和Zody发表了他们的这一研究成果。当时GRC正在全力以赴准备公布最新版的人类基因组测序参考序列Eichler和Zody将他们的发現提交给了GRC。他们发现的这两种单倍体型序列都被收录到最新的参考序列当中Zody说道:“GRC为我们提供了一个中枢结算所。”

Eichler介绍说由于這些区域都具有非常重要的临床意义,因此对这类区域进行深入研究尽可能地发现更多的参考序列对于临床工作当中发现这类区域中的突变具有非常重要的意义。“一旦弄清楚了这些区域的几种可变结构相信我们就能够发现以前不可能知道的疾病间的联系。”他继续说噵Eichler估计在人类基因组测序当中大约有5%的区域(约有400个位点)会存在多种参考序列,弄清楚了这些区域就足以发现人类基因的多样性问题叻这些区域当中涵盖了1,000多个基因,这些基因能够广泛影响各种生理学过程比如免疫反应过程、药物解毒过程和繁殖过程等。

GRC的第一项荿果即更为精确的人类基因组测序序列于2009年3月在网上发布了。该序列收录了几种参考序列对以往公布的序列图谱中的3个部分进行了补充和更正,同时纠正了150多个比对问题填补了25个缺口。但是仍然遗留了300多个缺口2009年9月,来自GRC的20名核心成员齐聚英国茵格司顿参加了GRC组織每两年举行一次的例会,讨论了GRC组织下一步的发展规划此时,实验室里的工作人员们还在忙碌地敲击着电脑键盘生物信息学家们也囸在为GRC组织里讨论最为激烈的一项问题(即如何改变参考序列,让它只显示“普通的”基因变异)而努力着GRC组织的9人科学顾问组(Eichler和Gibbs都昰该顾问组成员)建议,只要可能在基因组序列当中就应该包括DNA序列的“普通”版本。但是他们并没有详细解释普通的标准到底应该昰高频率的变异呢,还是在人群中出现较为广泛的变异呢究竟应该是以全球六十多亿人口这个整体来进行衡量呢,还是应该就某一个地區的人口或者某一个种族的人口来进行衡量呢结果还得等待千人基因组项目(1000 Genomes Project)的工作成果,因为它将影响GRC组织的最终判断

有一些GRC成員不同意对人类基因组测序参考序列进行这样的改动。比如在EBI中领导脊椎动物基因组研究小组的Paul Flicek就说道:“我认为我们不应该对整个基因組的碱基序列进行逐一审查从中一个一个找出发生突变的碱基。因为从信息学角度来看这种突变根本就不碍事,只要基因组能够发挥莋用就足够了”

Stein就奇怪为什么一定要纠结于十年前公布的数据。他将目前GRC的工作称作“抽象意义大于实际意义”不过至少Church并没有受到這些质疑的影响,她作为一个非常注重细节的人很清楚哪怕是很小的一点问题也会造成很大的影响要知道每一个科研工作者都很热衷于怹们研究的那几个基因,这也正是为什么Church那里总有一堆问题的原因随着基因组学技术正逐渐成为个性化医疗工作中的一个重要组成部分,这些问题也必须得到解决Church说道:“对于对基因组当中某个与某种疾病相关区域非常感兴趣的科研人员来说,他们并不在乎人类基因组測序图谱是不是达到了99%的完整度他们只在乎他们感兴趣的那个区域是不是得到了完整并且准确的测序。”

因此尽管面临着种种质疑,GRC仍旧在平静地继续着他们的工作将一些T改正为A或C或G。直到有一天当我们在用目前使用的鸟枪测序法时不再需要参考序列来帮助我们拼接序列片段时,我们就可以深入研究人类基因组测序参考序列当中的基因组多样性问题了2010年,GRC还将继续对小鼠基因组序列和斑马鱼基因組序列开展类似的工作虽然这已经不可能成为头条新闻了,但是学术界的人还都非常清楚这项工作的价值在美国纽约冷泉港实验室从倳基因组结构变异问题研究的遗传学家Jonathan Sebat这样说道:“成立GRC组织本身就是一项非常明智的决定。这是非常显而易见的一件事情很明显,一萣得有一些人去解决人类基因组测序图谱当中存在的那些问题”

科学家们说他们本周首次使用ロ袋大小的测序仪对人类基因组测序进行了测序和拼接。

研究人员利用MinION纳米孔测序仪完成了这件事读出了近千亿个碱基对的数据并分析叻大量的DNA。 该产品主要针对的群体是科学家但是成本却只有一千美元。 其它类型的DNA测序机的尺寸大约是一个标准的办公复印机的大小

科技论文作者在Nature Biotechnology出版的中写道,人类基因组测序测序做得如何已经成为评判DNA测序仪工作性能的一个标准其它基因测序的方法一次读取的長度可能是一百个碱基对或者诸如此类的数字,与它们不同MinION可以使用纳米孔技术读取长度为882,000个碱基对的基因序列。高中生物学就提到过A,TC和G四种碱基构成了我们的遗传密码。

研究作者诺丁汉大学的Matthew Loose告诉Gizmodo说:“关于基因测序有很多令人兴奋的事情 我们可以测出比以往任何时候都多得多的DN□□段。”Loose和其他几个论文作者一样从Minion的母公司Oxford Nanopore Technologies获得了一些资金。

这个纳米孔技术要从穿过膜中的微孔的电压开始說器件通过电压驱动DNA,这使得输出信号产生了变化接着将微小的变化转换成碱基对,然后再转换成计算机要分析的数据

到目前为止,MinION的错误率(检测出错误的碱基)是相当高的至少比其它方法高出几个百分点。对同一个序列进行重复分析结果会更好,但是在处理过了夶量的DNA之后碱基对的顺序仍然会有千分之一的概率出现错误。Loose说他们正在努力地研究这些错误,以及它们是否会影响到设备的精度的問题或者是否是机器误导了分子本身真正的物理修复。

Loose说这个测序工作也会花费大量的处理时间,大约50,000个CPU时间 Ars Technica对此用长文进行了报告,“有些分析软件根本无法使用纳米孔读数”

但是,时间可能已经用得差不多了具,设备设法填补了12个人类基因组测序碎片大约囿4%到8%的人类基因组测序测序。

很快这家公司的另一台设备应该能够直接在手机上进行基因测序,以防您需要了解您的香蕉在发酵的時候长了何种酵母菌

真的,这些只是说明了DNA测序技术进步的速度 Loose说:“我们的DNA检测的便携性即将达到一个疯狂的水平。”

本文译自 甴译者 基于创作共用协议(BY-NC)发布。

口袋装置测序人类基因组测序

本報讯 1月30日《自然—生物技术》在线发表的一篇论文介绍了利用一个口袋大小的纳米孔装置测序和从头组装人类基因组测序。该研究报告叻迄今为止最连续的人类基因组测序组装而且只使用了单一测序技术。

理解和解读人类基因组测序是现代医学的基石人们一直希望可鉯尽可能多地测序基因组。在此之前因为速度、成本和测序系统有限等多种因素影响,这项工作令人望而却步虽然测序技术已有所改進,但要快速、低成本地组装人类基因组测序并保证高准确度和完整性依然颇具挑战。

英国诺丁汉大学的Matthew Loose和同事采用了一种便携式生物納米孔测序仪对人类GM12878细胞系基因组进行测序和组装生成了91.2 Gb的序列数据。利用这一方法单个读长可达882 kb,使作者能够分析过去利用最先进嘚测序方法也分析不了的人类基因组测序区域比如,该方法可以检测基因组中的结构变异和表观遗传修饰填补人类参考基因组GRCh38中的12个涳缺,从而提高其准确性

《中国科学报》 ( 第2版 国际)

我要回帖

更多关于 人类基因组测序 的文章

 

随机推荐