在转录组测序(RNA-Seq)中,对基因或转录本的read counts数目进行标准化(normalization)是一个极其重要的步骤,因为落在一个基因区域内的read counts数目取决于基因长度和测序深度。
基因长度的影响:在同一个样本中,基因越长,随机打断得到的片段就越多,该基因被测到的概率就越大,比对到该基因的reads就越多。
测序深度的影响:不同样本中,样本的测序深度越高,同一基因被测到的次数越多,比对到该基因的reads就越多。
RNA-seq是通过NGS技术来检测基因表达量的测序方法,在衡量基因表达量方面,若是单纯以比对到参考基因的Reads个数(我们通常称之为Count值)来衡量基因的表达量,在统计上是一件相当不合理的事,所以需要一种方法进以横向比较。今天就为各位介绍一下基因表达量的衡量指标:RPKM、FPKM、TPM。
RPKM:Reads Per Kilobase Million,代表每百万reads中来自于某基因每千碱基长度的reads数。RPKM是将map到基因的read数除以map到基因组上的所有read数(以million为单位)与RNA的长度(以KB为单位),RNA-seq中用来表示基因表达量或丰度的方法。
total exon reads:某个样本mapping到特定基因的外显子上的所有的reads
mapped reads (Millions) :某个样本的所有reads总和
exon length(KB):某个基因的长度(外显子的长度的总和,以KB为单位)
FPKM:Fragments Per Kilobase of exon model per Million mapped fragments(每千个碱基的转录每百万映射读取的fragments),FPKM与RPKM计算方法基本一致。
FPKM和RPKM的原理是相似的,区别在于FPKM对应的是DNA片段(fragments),而RPKM计算的是数据(reads),Fragment比read的含义更广,因此FPKM包含的意义也更广。比如在一个Illumina的pair-end(双尾)RNA-seq中,一对(两个)reads对应是一个DNA片段。
有了FPKM(RPKM)概念,我们就能比较:同一个样本中基因A和基因B的相对表达量;或者不同样本中,同一个基因的相对表达量。RNA-Seq的基因表达值通常用RPKM或者FPKM表示。现今TPM变得越来越流行。
TPM:Trans Per Kilobase of exon model per Million mapped reads (每千个碱基的转录每百万映射读取的Trans)
Ni:比对到第i个exon的reads数
Li:第i个exon的长度
sum(N1/L1+N2/L2 + ... + Nn/Ln):所有 (n个)exon按长度进行标准化之后数值的和
TPM其实跟RPKM,FPKM也很相似。TPM唯一不同的地方就是计算次序不一样。所以,当计算TPM的时候,先对基因长度进行归一化,其次是测序深度的归一化。然而,归一化次序不一样,对结果影响差别就很大。当使用TPM时候,每个样本的TPM总和是一样的。这使得比较同一个基因的reads数在不同样本间的比例变得容易。FPKM和RPKM与此相反,每个样本的FPKM或RPKM的累加和可以不一样,造成样本间不能直接比较FPKM或RPKM值。
除了RPKM、FPKM、TPM之外还有许多算法,比如TMM、DESequ等,这里面就不逐一为各位介绍了,如果感兴趣可自行查询~- 本文固定链接: https://oversea.maimengkong.com/learn/770.html
- 转载请注明: : 萌小白 2021年8月26日 于 卖萌控的博客 发表
- 百度已收录