1.TCGA RNA-seq数据更新情况
2022年3月29日,GDC官网(https://portal.gdc.cancer.gov/)发布了新的更新版本(Data Release 32.0)数据。此次数据更新范围广、变化大,导致许多网上的教程一夜之间不再直接可用。
- 测序数据比对注释的基因组版本更新 了,从GENECODE v22更新到了v36版本;
- 不同格式(Counts、FPKM、FPKM-UQ、TPM)的RNA-seq数据不再分为数个单独的文件,而是 同个样本的多种格式数据存储于同一个文件 ;
- 数据文件的格式 从txt格式改为了 tsv格式 ;
- 数据表格中 直接匹配了基因ID、基因名和基因类别信息 ,无需单独再从注释文件中提取;
- Counts数据 提供了Non-stranded Counts和Stranded Counts数据 。
Non-stranded RNA-Seq与Stranded RNA-seq的建库方法有所不同,有文献(DOI: 10.1186/s12864-015-1876-7)分析认为Stranded RNA-seq 得到的mRNA数据更为准确。
但是,对于大多数的分析来说,Non-stranded RNA-Seq数据用于常规分析已经足够(https://web.azenta.com/stranded-vs-non-stranded-rna-seq)。
Stranded RNA-Seq is strongly recommended if you’re trying to accomplish one or more of the following, as it’s important to capture information about tran directionality:
Identify antisense trans
Annotate a genome
Discover novel trans
Non-stranded RNA-Seq, on the other hand, is often sufficient for measuring gene expression in organisms with well-annotated genomes.
2. 更新后的TCGA RNA-seq数据的下载与读取
2.1应用R包TCGAbiolinks下载和读取TCGA RNA-seq数据
TCGAbiolinks是一个常用的强大的检索、下载和预处理 The National Cancer Institute (NCI) Genomic Data Commons (GDC)数据的R包。如若使用该包,需引用相关的文献:
If you use TCGAbiolinks, please cite:
Colaprico, Antonio, et al. “TCGAbiolinks: an R/Bioconductor package for integrative analysis of TCGA data.” Nucleic acids research 44.8 (2015): e71-e71.
Silva, Tiago C., et al. “TCGA Workflow: Analyze cancer genomics and epigenomics data using Bioconductor packages.” F1000Research 5 (2016). (https://f1000research.com/articles/5-1542/v2)
Mounir, Mohamed, et al. “New functionalities in the TCGAbiolinks package for the study and integration of cancer data from GDC and GTEx.” PLoS computational biology 15.3 (2019): e1006701. (https://doi.org/10.1371/journal.pcbi.1006701)
if(!requireNamespace( "BiocManager", quietly= TRUE))
install.packages( "BiocManager") # BiocManager::install("TCGAbiolinks", force = TRUE) # 若未安装最新的版本,请选中运行上行代码
if(!requireNamespace( "BiocManager", quietly = TRUE))
install.packages( "BiocManager") # BiocManager::install("BioinformaticsFMRP/TCGAbiolinksGUI.data")# BiocManager::install("BioinformaticsFMRP/TCGAbiolinks")# 若安装开发版本,请选中运行上两行代码
1.2.1 R包TCGAbiolinks下载TCGA RNA-seq数据
使用TCGAbiolinks处理数据,常规需要3步走,分别是检索、下载和读取数据,依次对应以下3个函数 GDCquery、GDCdownload 和 GDCprepare 。
GDCquery可以通过多个参数检索限定需要下载的数据,各参数的详细说明可参阅帮助文档。此处,以样本量较少的ACC数据集为例。对于TCGA RNA-seq数据来说,一般仅需更改project参数即可。
query <- GDCquery(project = "TCGA-ACC",
data.category = "Tranome Profiling",
data.type = "Gene Expression Quantification",
workflow.type = "STAR - Counts")
下载检索的数据 如不设置特定的存储文件夹,TCGAbiolins下载的数据会在工作目录下新建一个名为GDCdata的文件夹用来存储下载的数据文件,数据有特定的命名和组织形式。下载数据仅需在前述query的基础上一行代码搞定,速度快慢取决于文件大小和网络情况。
# 若文件夹中已下载,可掠过此步骤GDCdownload(query)
1.2.2 R包TCGAbiolinks读取TCGA RNA-seq数据
data <- GDCprepare(query)
data数据是以SummarizedExperiment class格式组织的,此类数据对象的详细介绍请参阅https://bioconductor.org/help/course-materials/2019/BSS2019/04_Practical_CoreApproachesInBioconductor.html。
该data数据中同时包含了多种不同格式的RNA-seq数据,可以使用assayNames函数查看包含的数据名称。主要包含以下几种,依次对应index 1-6。
data_counts <- assay(data, i = 1)
data_counts_first <- assay(data, i = 2)
data_counts_second <- assay(data, i = 3)
data_tpm <- assay(data, i = 4)
data_fpkm <- assay(data, i = 5)
data_fpkm_uq <- assay(data, i = 6)
head(data_counts)[, 1: 2]
## TCGA-OR-A5JD-01A-11R-A29S-07 TCGA-OR-A5L5-01A-11R-A29S-07
## ENSG00000000003.15 2086 3813
## ENSG00000000005.6 2 3
## ENSG00000000419.13 2086 2909
## ENSG00000000457.14 300 476
## ENSG00000000460.17 79 135
## ENSG00000000938.13 110 374
rowdata <- rowData(data)
coldata <- colData(data)
2.2直接从GDC官网下载和读取TCGA RNA-seq数据
2.2.1 从GDC官网下载下载TCGA RNA-seq数据
进入GDC Data Portal主页https://portal.gdc.cancer.gov/,见到如下图页面,点击Repository。
然后,如下图,点击额右侧的Add All Files to Cart,然后进入Cart。
中间会提示推荐使用工具下载,不要取消,忽略就行,等待弹出窗口(等待时间可能与网速有关)。我这大致按照下图的速度下载,下载完成差不多15分钟,压缩文件大小1.18G,解压后4.84G,比使用GDC Data Transfer Tool工具下载还是快很多的。
2.2.2 R中读取手动下载的TCGA RNA-seq数据
library(tidyverse) # 数据清洗与读取的利器library(vroom) # vroom可以快速读取tsv文件library(jsonlite) # 读取metadata文件library(tictoc) # 计时器
Sys.setenv( "VROOM_CONNECTION_SIZE"= 10^ 6)
metadata 信息提取函数 这个函数可以方便快捷地提取下载的json格式的metadata文件内的有用信息。函数代码如下,运行代码之后,就可以使用了。此处不再逐行解释。
TCGA_metadata <- function(path = json_file) {
metadata <- jsonlite::read_json(path, simplifyVector = T)
metadata <- tibble::tibble(
file_name = metadata$file_name,
md5sum = metadata$md5sum,
TCGA_id_full = bind_rows(metadata$associated_entities)$entity_submitter_id,
TCGA_id = stringr::str_sub(TCGA_id_full, 1, 16),
patient_id = stringr::str_sub(TCGA_id, 1, 12),
tissue_type_id = stringr::str_sub(TCGA_id, 14, 15),
tissue_type = sapply(tissue_type_id, function(x) { switch(x, "01"= "Primary Solid Tumor", "02"= "Recurrent Solid Tumor", "03"= "Primary Blood Derived Cancer - Peripheral Blood", "05"= "Additional - New Primary", "06"= "Metastatic", "07"= "Additional Metastatic", "11"= "Solid Tissue Normal")}),
group = ifelse(tissue_type_id == "11", "Normal", "Tumor")) return(metadata)
metadata <- TCGA_metadata(path = "metadata.cart.2022-06-05.json")
tsv_files <- list.files(path = ".",
pattern = "counts.tsv",
full.names = T,
recursive = T)
metadata <- metadata %>%
left_join(y = tibble(file_name = basename(tsv_files), tsv_files))
## Joining, by = "file_name"
id2symbol <- vroom::vroom(tsv_files[ 1], # 读取第一个文件
col_select = 1: 3, # 只选择前3列读取
comment = "#", # 设置注释符号
skip = 5, #前5行信息不需要,跳过
show_col_types = FALSE) %>% # 隐藏提示信息
set_names( "gene_id", "gene_name", "gene_type") # 设置列名head(id2symbol) # 查看数据
## # A tibble: 6 x 3
## gene_id gene_name gene_type
## <chr> <chr> <chr>
## 1 ENSG00000000003.15 TSPAN6 protein_coding
## 2 ENSG00000000005.6 TNMD protein_coding
## 3 ENSG00000000419.13 DPM1 protein_coding
## 4 ENSG00000000457.14 SCYL3 protein_coding
## 5 ENSG00000000460.17 C1orf112 protein_coding
## 6 ENSG00000000938.13 FGR protein_coding
读取以及合并 tsv files
这部分是最主要的代码块,关键在map_dfc函数。如若有不了解的地方,可以查看一下相关函数的说明文档。vroom函数里设置col_select = 4,读取的就是counts数据,其他数字对应的数据格式,如下图。
counts_df <- map_dfc(.x = metadata$tsv_files,
.f = ~ vroom::vroom(.x,
col_select = 4,
comment = "#",
skip = 5,
show_col_types = FALSE,
progress = F,
.name_repair = "minimal")
) %>%
set_names(metadata$TCGA_id_full) %>%
bind_cols(id2symbol[ , "gene_id"], .)
## 19.66 sec elapsed
# 23.5 sec elapsed 我的电脑上不到半分钟搞定数据读取与合并head(counts_df)[ 1: 3]
## # A tibble: 6 x 3
## gene_id `TCGA-E2-A1L7-11A-33R-A144-07` `TCGA-E2-A1L7-01A-11R-A144~`
## <chr> <dbl> <dbl>
## 1 ENSG00000000003.15 4209 1689
## 2 ENSG00000000005.6 71 16
## 3 ENSG00000000419.13 1611 1810
## 4 ENSG00000000457.14 1217 1098
## 5 ENSG00000000460.17 346 715
## 6 ENSG00000000938.13 787 624
