TCGA数据库学习一:基本知识

TCGA数据库学习一:基本知识参数默认为 FALSE 下载 GDCDataPorta hg38

大家好,欢迎来到IT知识分享网。

TCGA是什么
TCGA:The Cancer Genome Atlas Program,癌症基因组图谱计划。

TCGA存储了哪些信息

  • 临床样本信息:Biospecimen Clinical
  • 测序数据:RNA sequencing MicroRNA sequencing DNA sequencing SNP-based platforms Array-based DNA methylation sequencing Reverse-phase array
    可以说包括了基因组、转录组、表观遗传、蛋白质组等各个组学的数据。

并不是所有数据都可以下载。测序数据分为四层:level1、level2、level3、level4,其中level3和level4都是开放下载的,level1是最原始的数据,level2是做了进一步处理的,这些数据一般是不开放的,需要申请才能下载。

数据下载

gdc-client方法参考:

利用R包TCGAbiolinks进行各种数据下载

TCGA数据下载–TCGAbiolinks包参数详解

此处跟学生信技能树的笔记,下载的是肝脏肝细胞癌(LIHC)的count值,下载数据最主要用到的函数是GDCquery(),其共有十一个参数:

  • project:指的是癌症的各个项目id,下面的命令可以得到TCGA里的全部id编号,各个代表的含义参考文末文章;
    TCGAbiolinks:::getGDCprojects()$project_id)
  • data.category:指的是数据类型,共有七种;
    case_count为病人数,file_count为对应的文件数。
TCGAbiolinks:::getProjectSummary(project) TCGAbiolinks:::getProjectSummary(TCGA-HNSC) data_category 1 Copy Number Variation 2 Sequencing Reads 3 Simple Nucleotide Variation 4 DNA Methylation 5 Clinical 6 Transcriptome Profiling 7 Biospecimen 8 Proteome Profiling 9 Structural Variation 
  • data.type:筛选要下载的文件类型;
 #下载rna-seq的counts数据 data.type = "Gene Expression Quantification" #下载miRNA数据 data.type = "miRNA Expression Quantification" #下载Copy Number Variation数据 data.type = "Copy Number Segment" 
  • workflow.type:不同的数据类型,有其对应的参数可以选择;
HTSeq - FPKM-UQ:FPKM上四分位数标准化值 HTSeq - FPKM:FPKM值/表达量值 HTSeq - Counts:原始count数 

但现在已经更新了,只有STAR - Counts这个参数,对其的处理方法见此文章:

TCGA_改版后STAR-count处理方法

cancer_type="TCGA-HNSC" data_type <- "Gene Expression Quantification" data_category <- "Transcriptome Profiling" workflow_type <- "STAR - Counts" query_TranscriptomeCounts <- GDCquery(project = cancer_type, data.category = "Transcriptome Profiling", data.type = "Gene Expression Quantification", workflow.type = "STAR - Counts") 
  • legacy=FALSE

这个参数主要是因为TCGA数据有两个入口可以下载,GDC Legacy Archive 和 GDC Data Portal,区别主要是注释参考基因组版本不同分别是:GDC Legacy Archive(hg19和GDC Data Portal(hg38)。参数默认为FALSE,下载GDC Data Portal(hg38)。这里小编的建议是,下载转录组层面的数据使用hg38,下载DNA层面的数据使用hg19,因为比如做SNP分析的时候很多数据库没有hg38版本的数据,都是hg19的。

  • access:数据开放和不开放;
  • platform:这里涉及到的平台种类非常多,可以具体去官网看每种数据都有什么平台的可以下载。这个参数可以省略不设置。
  • file.type:主要是在GDC Legacy Archive下载数据的时候使用;
  • barcode:设置此参数就只下载某一个样本;
  • experimental.strategy:下载路口;
    GDC Data Portal:WXS, RNA-Seq, miRNA-Seq, Genotyping Array;
    Legacy: WXS, RNA-Seq, miRNA-Seq, Genotyping Array, DNA-Seq, Methylation array, Protein expression array, WXS,CGH array, VALIDATION, Gene expression array,WGS, MSI-Mono-Dinucleotide Assay, miRNA expression array, Mixed strategies, AMPLICON, Exon array, Total RNA-Seq, Capillary sequencing, Bisulfite-Seq;

  • sample.type:可以对样本进行过滤下载。

实操代码:

#1.安装TCGAbiolinks包 options("repos"=c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) install.packages("BiocManager") BiocManager::install("TCGAbiolinks") library(TCGAbiolinks) #2.选定要下载的cancer类型 #全部癌症英文缩写 这里跟教程选择一样的HNSC头颈癌 TCGAbiolinks::getGDCprojects()$project_id cancer_type="TCGA-HNSC" #3.选择下载你想要的数据 #此处下载的clinical临床实验数据 一行是一个病例 列是病人的相关信息 clinical <- GDCquery_clinic(project = cancer_type,type ="clinical") save(clinical,file="BRCA_clinical.Rdata") write.csv(clinical,file="TCGAbiolinks-BRCA-clinical.csv") #4.下载实验相关数据:RNA-seq的count数据 library(dplyr) library(DT) library(SummarizedExperiment) #数据类型为基因定量表达 #数据类别为转录组 data_type <- "Gene Expression Quantification" data_category <- "Transcriptome Profiling" workflow_type <- "STAR - Counts" query_TranscriptomeCounts <- GDCquery(project = cancer_type, data.category = "Transcriptome Profiling", data.type = "Gene Expression Quantification", workflow.type = "STAR - Counts") #将上一步搜索得到的结果下载下来 自带存储到所设置目录下的文件夹 GDCdownload(query_TranscriptomeCounts,method = "api") #将搜索得到的数据转换为适用于R的形式(a summarizeExperiment or a data.frame) 行名为基因 列名为样本名  expdat <- GDCprepare(query = query_TranscriptomeCounts) count_matrix=assay(expdat) write.csv(count_matrix,file = "TCGAbiolinks_HNSC_COUNTA.CSV") #5.下载实验相关数据:RNA-seq的FPKM数据 Expr_df <- GDCquery(project = cancer_type, data.category = data_category, data.type = data_type, workflow.type = "HTSeq - FPKM") GDCdownload(Expr_df,method = "api",files.per.chunk = 100) expdat_2 <- GDCprepare(query = Expr_df) Expr_matrix=assay(expdat_2) write.csv(Expr_matrix,file="TCGAbiolinks_HNSC_FPKM.csv") 

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/131620.html

(0)
上一篇 2025-08-06 18:20
下一篇 2025-08-06 18:26

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信