生物信息和大数据可视化方向 两个方向哪个前景更好

当复杂疾病遇到非编码,便有了从信息学角度研究生物学的新挑战。

当32岁的陈兴教授遇到矿大,便有了与世界生物信息研究竞逐的梦想。

当前最前沿的大数据、智能算法与生物医学正在他的研究工作中紧密连接在一起,成为开发治愈人类疾病药物的金钥匙。

当选择与事业追求一致,于个人而言,收获的不仅仅是一个工作岗位,还有一份对事业追求的动力与行动;当人才引进与政策支持协同,对学校来说,收获的不仅仅是一名教授,而是一份引智纳贤的吸引力。

2012年,陈兴获得中国科学院数学与系统科学研究院运筹学与控制论博士学位,在中国科学院数学与系统科学研究院、国家数学与交叉科学中心数学与生物\医学交叉研究部从事研究工作。

2016年6月,陈兴通过我校“越崎学者计划”正式进入信控学院(原信电学院)工作,担任中国矿业大学信息与控制工程学院教授、博士生导师,中国矿业大学生物信息研究所所长。

当陈兴决定离开原单位时,已经收到了一所“985”高校的offer并有意到该校工作,但为何最后会选择来到矿大呢?

“人事处的领导和我几次的谈话对我的影响很大,其中最打动我的是一句‘来到矿大,你的研究和发展是没有天花板的’”。

根据自己的设想组建团队,和矿大生物信息研究者一起在世界领域写下更多矿大的名字,这对一位有志于开拓一番事业的年轻人来说,比地域、名校、职称、待遇等,更加吸引人。

“我希望能组建自己的团队,带领这个团队开辟研究方向。”陈兴说,这是吸引他来矿大的最直接原因。进入学校已经10个月,陈兴说自己从未后悔。预想之外的是,学校研究确定成立生物信息研究所,学院配备团队成员、建设100余平实验室,学校和学院对生物信息研究的重视,让他更加确定自己的选择是正确的。

“别人跟我说找到一个理想的工作要找一年,实际上我就找了一个星期。”陈兴笑着说。

入职以来,陈兴被聘任为JCR一区杂志《BMC Systems Biology》杂志副主编,成为该杂志第五位来自中国的副主编,同时也是其中最年轻的副主编(32岁);共以中国矿业大学为单位发表SCI论文影响因子累计已经超过113;不到一年时间中科院一区论文达到12篇,5篇论文入选ESI高被引论文;短短不到一年时间以通讯作者(3篇)和第一作者(3篇)身份在Briefings in

2016年,陈兴教授与信控学院王雪松教授等合作申报的项目“复杂生物数据的特征建模及高效学习理论与应用”获得教育部高等学校科学研究优秀成果奖自然科学奖二等奖。

生命之灯因热情而点燃,生命之舟因拼搏而前行。

陈兴和团队成员主要从事生物信息学、系统生物学、生物医学大数据和智能算法领域的相关研究。

他集中在开发和利用复杂网络、机器学习、深度学习、图论、组合数学等方法对复杂疾病、非编码RNA、网络药理学和微生物组等方面的重要问题进行探索和研究,并取得一系列重要进展,具有很重要的理论意义和实际指导价值。

复杂疾病的致病因素到底有哪些?基因、非编码RNA、微生物、环境?有否可能从信息学角度进行预测?

“从最简单的角度来讲,人类基因有两万多个,针对一个疾病开展实验研究时要先从哪一个或哪些基因开始呢?生物学家很多都靠经验,从生物信息角学角度,就可以告诉你哪些是最有可能的,或者哪十个是最可能的,再做实验就能比较迅速找到真正要找的东西。” 陈兴说。

陈兴和他的团队把信息学和生物学结合在一起,利用信息学的方法对复杂疾病进行预测研究,为更细致的医学研究提供指导,为寻找疾病早期诊断的生物标志物提供帮助。他介绍,目前团队开展的人类复杂疾病和微生物关系的预测和研究,相关成果《基于KATZ测度的非传染性疾病相关微生物预测》已经发表在生物信息学顶级杂志Bioinformatics上,是国际最早开展此项研究的。

同时,团队还进行药物学相关研究,一方面进行药物组合的预测,利用复杂网络、机器学习、组合数学等方法,研究药物组合的治疗效果。

“两个药物中原本有一个是治疗某种疾病的,另一个药物对此疾病没有治疗效果,或者两个药物都不是某一疾病的治疗药物,但是通过数据分析和药物实验,两个药物加在一起不仅能治疗而且效果特别好,我们希望能通过大数据分析和智能算法建模找到这种药物的组合。”另一方面围绕寻找药物靶点开展研究,“通俗地来说,药物靶点就是药物进入人体以后作用的位点,药物会与人身上的靶点蛋白发生作用,导致功能恢复正常,从而治愈疾病。”

当前微生物组学已经成为世界各国争相发展的战略性科技领域,“人类微生物组学计划”是继“人类基因组计划”之后开始的又一重大国际基因组测序计划,其目标是把人体内共生微生物群的基因组序列信息测定出来,而且要研究与人体发育和健康有关的基因功能。我国科学家也相继提出微生物组计划建议,陈兴说,“我希望我们能把这方面的研究做到前面!”

陈兴很忙,甚至无暇解决单身问题。他说,学校和学院在平台建设、条件支持上,给予他极大的信任和鼓励,他唯有拼搏,履行自己的责任,回馈支持他的人。来校工作后,除了春节,陈兴没给自己和自己团队的成员放过一天假,他笑言,从来没有这么累过。“学校和学院给我和团队很大的信任、政策支持和科研支持,我们只有做好自己的工作来回报。”

从一个专职的科研人员到高校教师,从一个相对轻松的研究环境到带领团队前进,陈兴说,角色的转变带给他更大的挑战。

“我参加本科毕业生答辩时,还被老师误认为是学生。”谈起去年初来学校时的小插曲,陈兴说,学院本科生的毕业设计做得非常扎实,“他们的毕业设计都不是为了应付做的,而是都能做出一个实实在在的成果,一个工具、一个硬件等等。”而这次参加答辩,也让陈兴更加意识到自己“教师”这一角色的重任。

在给研究生上“生物学信息基础”课程时,结合选课学生不多的实际情况,陈兴采取了开放课题的形式授课,围绕一篇篇高水平研究论文,老师和学生展开讨论。在这一过程中,陈兴注重引发学生科研兴趣、传授科学研究的思维和论文写作方法,他要求学生课程结业时提交高水平论文,同时,在学生进行写作时,他进行一对一的讨论、指导、修改,“一篇SCI论文的非成熟产品,能让学生直观地感受科研的过程,同时也提高学生科研获得感。”

陈兴的团队中有博士后、博士和硕士研究生,也有客座访问的本科生和研究生,他要求学生每晚9点前,将当日的学习工作报告发送给他,陈兴会逐一了解学生学习情况,并逐一和学生交流。“我想让学生明白,我们的努力不是为别人做的,不是为了导师或者所谓的团队PI做的,这是每个人发展的本职任务,我们一定要付出百分百的努力。”目前,团队中已有本科访问生发表了中科院一区五分以上的文章。

和陈兴同龄的很多科研工作者或者高校教师,大多有海外留学、访学经历,陈兴求学、工作一直在国内。“我觉得各有各的优势,就像不管白猫黑猫,能抓耗子的都是好猫。我的优势就在于从毕业开始就带领团队,有团队经验。另外,我有一个很好的导师,和她在一起学习工作的九年,她教会了我如何科研、如何做项目、如何做人、如何带团队,这样的经历对我影响帮助要远远超过出国”。与国际同行交流,与相关国际组织交流,陈兴希望自己在有限的时间里投入更多的精力到研究中去。

同时,陈兴认为,年轻人要根据自己的发展兴趣、研究水平,确认目标并为之付出所有的信心、勇气和拼搏。他是这么做的,也这样教导自己的学生。一名本科生和陈兴交流时谈起自己参加比赛一晚只能睡三四个小时,陈兴想起自己本科时期参加国际数学建模比赛,96小时比赛中他只休息了2个小时,“为自己感兴趣的事情去努力,根本不会觉得累”。

“既然我是团队负责人,我就要和同事们一起,打造出一支在生物信息领域领先的矿大团队。”

当确定来校工作后,矿大人,成为陈兴的新角色;壮大矿大生物信息研究队伍,成为陈兴的责任。他决心,让生物信息领域写下更多矿大的名字,让矿大吸引更多的生物信息人才。

“你怎么会到矿大工作?还是信息与控制工程学院?”许多朋友得知陈兴的选择后都会这样问。“中国矿业大学陈兴?他是谁(很多人只认识中科院的陈兴)?”在和行业内学者交流,许多人会这样问。

面对这些问题,陈兴说,“别人或许是一句玩笑话,但对我触动很大,我觉得首先要让别人知道矿大不仅有生物信息学,而且也做得挺好。”

来校工作后,陈兴担任了生物信息研究所所长,在学院的帮助下,三位副教授加入陈兴团队,博士、硕士研究生也陆续进入团队,目前学校其他相关学科教师也积极与研究所合作,进行交叉研究,相关合作成果已经发表。团队还开设了微信公众号,宣传研究成果。“我们希望进行一些研究方法的创新,希望矿大能在生物信息学方面作出自己的贡献。”

除了开展校内合作,陈兴还希望能通过自己的选择和发展,影响更多的人来矿大交流、工作。

决定来矿大工作时,陈兴的父母说,“又不是没有别的选择,为什么去徐州这样一个工业城市?”对此,陈兴有另外一种看法。“待遇是对个人价值认可的方式之一,真正吸引我的,是学校本身,学校人才政策、个人发展前景、学校人文环境。何况,今日的徐州和矿大比人们脑海中的那个真的好得要多得多。”陈兴说,“来校前,听说学校研究让我成立生物信息研究所,我特别受鼓舞。”

每当外出交流,陈兴都会向别人“推销”自己是矿大人,“推销”矿大的生物信息研究情况,“科普”中国矿业大学。

他还提到,学校的越崎学者计划、越崎学者论坛等,都是让更多人认识、了解矿大的好平台。“矿大有多美、学校有多好,并不是我们自吹自擂,亲自来矿大看一看,感受一下矿大的氛围,增加对矿大的了解,他们就会和我一样爱上矿大。”

有人说,有时候选择比努力更重要,有人说,比选择更重要的是持之以恒地为某个小目标而奋斗。

对陈兴来说,选择题已经完成,他决心要做的,是通过努力无愧于自己的选择,无愧于选择他的人。

内容提示:大数据时代的生物信息学与系统生物学

文档格式:PDF| 浏览次数:88| 上传日期: 22:02:21| 文档星级:?????

全文阅读已结束,如果下载本文需要使用

该用户还上传了这些文档

分析模块用于识别重测序数据中的单核苷酸多态性(SNP),本分析采用经验优化的灵敏和准确的分析算法,极大地保证SNP识别的高准确率和重复验证率。数据分析算法的优化考虑多种处理降低7类主要造成假阳性的错误来源(例如PCR错误,低质量区域,依据倍型信息质量得分判断错误等)。

该分析模块采用重新比对优化的处理方式分析,有利于识别测序读长中存在的新Indel位点。提高变异体的识别灵敏度,特异度和识别的效率。对于人类单基因遗传病研究,可以进一步将患病与对照组对应起来,针对插入缺失突变导致的蛋白质编码阅读框的位移分析找出致病位点(例如下图所示是针对近亲婚配患病兄妹情形)。

图例-插入缺失突变导致的蛋白质编码阅读框的位移分析

  • 该分析模块用于识别重测序数据中的单核苷酸多态性(SNP),本分析采用经验优化的灵敏和准确的分析算法,极大地保证SNP识别的高准确率和重复验证率。

  • 该分析模块将对NGS数据分析获得变异体(SNP、Indel)进行详尽的注释,包括突变类型(纯合、杂合突变,以及同义,非同义突变);突变等位基因频率(AF)以及变异体覆盖的基因组元件注释(外显子,内含子,启动子区等)。

  • 本项分析依据深度测序或低覆盖度测序模式,分别可采用不同分析技术准确识别基因组拷贝数变异-CNV。精细度取决于测序深度。测序深度(coverage)与测序数据量直接相关,并与CNV的探测解析度(windows size)有一定的相关性。

  • 本项分析模块主要针对肿瘤基因组相对自身对照的正常细胞基因组的体细胞突变进行系统分析,识别体细胞突变并统计相应体细胞突变类型,包括非同义突变,短插入缺失导致的阅读框移码等。并结合相关背景突变率统计显著的驱动突变基因(即Driver mutation)。

  • 本项目方案针对循环肿瘤细胞(CTC)与外周血游离DNA(ctDNA)进行全基因组(或外显子组)测序,获得肿瘤突变基因。通过严谨的统计学算法计算推导CTC或ctDNA中肿瘤细胞比重。

  • 基于免疫信息学对免疫原性预测方法的发展,本方案针对全基因组或外显子组测序捕获分析得到的突变基因产物蛋白进行免疫原性预测。

  • 本项模块可分析正向选择位点, 依据全基因组测序SNP标记,计算每基因位点样本之间的SNP相关性(图a),筛选出显著性P值的位点,即与样本表型(phenotype)相关的点突变。

  • 自然选择可以通过以下方式影响基因周围区域DNA变异的水平:(1)非常具有危害性的突变会被自然选择快速地消除;(2)具有微弱有害的突变可能分散于群体中,但是很少被固定存留下来。

  • 选择相关清除作用(selective sweep)是指由于某一位点或座位(locus)受到强选择后,其周围位点因受该位点牵连而发生基因多态性(gene polymorphism)或杂合性(heterozygosity)降低的现象。

  • 本分析模块是对群体基因组的世系结构进行分析,将采用混合模型(admixture model)与K-mean聚类分析算法评估世系比例。另外,可采用主成性分析(PCA)对群体基因组进行分类。

  • 农艺性状大多由微效应基因控制,其位置叫数量性基因座(QTL)。理论上群体越大,等位基因分离越彻底,检出QTL的能力越强,此外,不同的群体所用的亲本的亲缘关系不同,基因型的差异大小不一致,特定性状潜在的QTL数目不一样,检出的QTL数目也不一致。

  • 随着高通量测序技术的出现和不断发展,一种广义的GWAS概念开始出现,即在全基因组范围内,利用关联分析的原理和方法进行各种组学研究,不仅包括SNP,还包括插入缺失、结构变异(包括CNV)、基因表达、表观遗传修饰等。

  • 本分析模块目的是将不同重测序分析结果有层次的展示在基因组序列结构上,例如将染色体间和染色体内部的结构变异,杂合体缺失与等位基因不平衡的状况,拷贝数变异以及高可信度的SNV等不同情况展示在基因组序列的不同层次。

  • 肿瘤基因组学研究揭示肿瘤基因组自身可以发生适应性进化。本分析方案则可以根据肿瘤原发与转移组织的基因组重测序数据重构肿瘤基因组的进化距离用于判断突变进化过程是否影响到癌症的原发和转移事件的发生。

  • 生物学通路(Biologicalpathway),包括代谢通路和信号转导通路是生物功能的重要组成部分,我们将各种形式的突变、变异,包括SNV和SNP,的对应基因映射到生物学通路中进行系统化分析,考察功能性突变对生物通路的影响。

  • 蛋白质相互作用也是生物分子功能增益和缺失的重要途径,因此我们针对蛋白质相互作用网络中的突变的蛋白及其收到影响的网络节点蛋白进行系统分析,并对收到影响的网络子结构进行功能注释分析和聚类分析。

  • 本分析模块可通过全基因组测序识别IBD区域。IBD,即同源等位基因,分析对于复杂性状和疾病表型研究来说是通常需要考虑的内容。

  • 突变基因以及携带者的临床表型相关性可以通过生存分析(overallsurvivalcurve)和timetotreatmentfailure(TTF)体现。对于病理表型的诊断,根据突变个体和非突变个体的生存曲线和TTF曲线对比,我们可以判断潜在可能的突变是否对病理产生贡献。

  • 该分析模块主要针对家系内三人家庭单元结构(trios)的基因型进行de novo突变体(DNMs)识别和突变频率的计算分析。de novo突变在常见和罕见疾病,以及遗传疾病中的作用有很多功能是未知的。

  • 采取低覆盖度重测序完成对子代基因组的测序,同时配合深度测序完成对亲本基因组的测序完成SNP采集;或者采用简化基因组RAD-Seq(在无参考基因组情况下采用)方式获取SNP位点;并后续完成数量性状分析(QTL/QTN)或全基因组关联分析(GWAS)。

我要回帖

更多关于 大数据可视化方向 的文章

 

随机推荐