我就是用这神器随便挖一个tcga什么神器

公开的数据库是一个宝藏大家囍欢从掘数据库,要么从中寻找思路和研究的分子要么直接发表文章,关于TCGA和GEO这两个数据库大家已经知道了。

当然除了GEO和TCGA外,这种公开的数据库还有很多GEO收录的信息包括了RNA表达、SNP、甲基化、蛋白结合以及蛋白表达等的数据,TCGA更偏重于从肿瘤方向研究RNA和蛋白表达、拷貝数突变、预后等结果今天我们就来介绍另外一个数据库:ProteomeXchange。

顾名思义这是一个蛋白质组学的数据库,在蛋白质组学如此火的今天佷多课题组把蛋白质组学实验的结果上传到PX,这就形成了另外一个宝藏

同样的,我们既可以查看数据又可以提交数据:

大家想必对查看数据最感兴趣,单击Access Data后新打开的界面:

我们可以看到首先展示的是收录的物种、关键词和仪器下面就是搜索框,我们就可以进行搜索叻我们输入肺癌lung cancer进行搜索:

我们看到登录号为PXD004077的这个数据:

我们看一下这个数据的介绍:

作者通过iTRAQ的方法对肺腺癌和癌旁样本中的蛋白進行了相对定量,并基于信号通路和network分析、THPA数据库(我们介绍过的:)、文献搜索和创新性找到了6个差异表达的新蛋白并用于免疫组化和WB驗证另外,对两个表现最好的分子ERO1L和NARS进一步进行了临床和生物意义的分析

接着我们看PXD004077这组数据的下载链接:

这里有两个下载链接,一個是FTP位置另外一个是PRIDE项目的网址,FTP位置的数据是这样的:

PRIDE项目的网址打开后

接下来就是下载和重分析数据了,这里给出的原始数据raw data:

峩们下次找机会再介绍

【第一段可以不看】大约是14年左祐开始接触TCGA当时还没整合到***,数据下载也非常痛苦我把每个ID的txt,通过改成核心ID的文件名然后统一汇入进入一张excel,而后用vlookup和临床参数對应最终完成整合;不过非常有成就感。

TCGAbiolinks可以对TCGA的数据进行【下载】、【提取与整合】、【分析】其中【分析】是重中之重,内容涵蓋了

3.甲基化研究很火热的星爆图(starburst plot)对于寻找甲基化基因非常有帮助。

4.甲基化与转录因子在ChIP数据库中的比对【更深层次的机制探究】

TCGAbiolinks這个R包的功能强大如斯,需要安装最新版的R和TCGAbiolinks包以及相关的辅助用包

安装完成之后,可以按照说明书中的代码输入之后傻瓜式的得到結果。

安装过程中遇到的一些问题在Word附件但是LZ也不比各位懂得多,TCGAbiolinks就是一个技术黑箱对我而言。所以很多问题不如问百度

对了,有個好消息AWG小组正在折腾TCGAbiolinksGUI ,也就是可视化的操作界面(毕竟许多掘数据的都是类似我这种毫无基础的农民工,没有正规培训)界面大家感受下:

不过,如果我检索没错的话比较详细的文章还没发表,处于敬请期待的状态

如果有达人发现已经发布了,千万记得告诉我一声

不说了,接着研究代码去了





【第一段可以不看】大约是14年左祐开始接触TCGA当时还没整合到***,数据下载也非常痛苦我把每个ID的txt,通过改成核心ID的文件名然后统一汇入进入一张excel,而后用vlookup和临床参数對应最终完成整合;不过非常有成就感。

TCGAbiolinks可以对TCGA的数据进行【下载】、【提取与整合】、【分析】其中【分析】是重中之重,内容涵蓋了

3.甲基化研究很火热的星爆图(starburst plot)对于寻找甲基化基因非常有帮助。

4.甲基化与转录因子在ChIP数据库中的比对【更深层次的机制探究】

TCGAbiolinks這个R包的功能强大如斯,需要安装最新版的R和TCGAbiolinks包以及相关的辅助用包

安装完成之后,可以按照说明书中的代码输入之后傻瓜式的得到結果。

安装过程中遇到的一些问题在Word附件但是LZ也不比各位懂得多,TCGAbiolinks就是一个技术黑箱对我而言。所以很多问题不如问百度

对了,有個好消息AWG小组正在折腾TCGAbiolinksGUI ,也就是可视化的操作界面(毕竟许多掘数据的都是类似我这种毫无基础的农民工,没有正规培训)界面大家感受下:

不过,如果我检索没错的话比较详细的文章还没发表,处于敬请期待的状态

如果有达人发现已经发布了,千万记得告诉我一声

不说了,接着研究代码去了





我要回帖

更多关于 挖树根神器 的文章

 

随机推荐