本篇内容主要讲解“如何通过GDC Legacy Archive下载TCGA原始数据”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“如何通过GDC Legacy Archive下载TCGA原始数据”吧!
创新互联专注为客户提供全方位的互联网综合服务,包含不限于做网站、网站设计、中原网络推广、小程序制作、中原网络营销、中原企业策划、中原品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等,从售前售中售后,我们都将竭诚为您服务,您的肯定,是我们最大的嘉奖;创新互联为所有大学生创业者提供中原建站搭建服务,24小时服务热线:18980820575,官方网址:www.cdcxhl.com
在2016年之前,TCGA项目的相关结果文件存放在CGhub和TCGA Data Coordinating Center简称DCC提供的TCGA Data Portal中,当时的结果是以hg19或者hg18为参考得到的。
在DCC中,将数据划分为了3个等级。level 1代笔原始的,未经处理的数据的,比如芯片下机数据;level2 代表处理的中间结果,比如测序深度对应的wig文件;level 3 代表处理完成后的最终结果,比如基因的定量结果。
2016年之后,CGhub和DCC相继关闭,所有的数据统一迁移到现在用的GDC数据库,而且通过GDC的pipeline将原有的结果转换为hg38参考基因组版本。目前在GDC中检索到的结果都是经过了GDC pipeline处理过后的,从这里也可以看出,迁移到hg38是一个大的趋势。
当然目前使用hg19的还是挺多的,如果你需要基于hg19版本的TCGA数据,在GDC中也可以找到。其实GDC中的数据可以分为以下两个部分
GDC harmonized data
GDC legacy archive
在R包TCGAbiolinks
中,介绍了二者的区别,如下图所示
第一部分就是默认使用的基于hg38版本的数据,第二部分则是对原始的TCGA结果的一个存储,通过GDC首页的GDC APPs
, 可以找到CDC Legacy Archive
的入口,链接如下
https://portal.gdc.cancer.gov/legacy-archive
在左侧的面板可以根据相关属性对Cases和Files进行筛选,Cases相关的属性如下
Files相关的属性如下
数据的下载方式和前面文章中介绍的相同,这里不赘述,从文件名称可以看到对应的level, 不同level的文件示意如下
1. level1
通过Data Type
为Raw intensitites
进行筛选,得到芯片的原始数据, 示意如下
2. level2
通过Data Type
为Coverage WIG
进行筛选,得到比对的测序深度数据, 示意如下
3. level3
通过Data Type
为miRNA gene quantification
进行筛选,得到miRNA表达定量数据, 示意如下
通过GDC Legacy Archive, 可以找到基于hg19的数据结果文件,但是由于相关的网站已经关闭,无法确认该数据分析的pipieline等细节信息,所以需要谨慎使用。
到此,相信大家对“如何通过GDC Legacy Archive下载TCGA原始数据”有了更深的了解,不妨来实际操作一番吧!这里是创新互联网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!
名称栏目:如何通过GDCLegacyArchive下载TCGA原始数据
浏览地址:http://scgulin.cn/article/gddgio.html