RNAseq基因表現量常用指標:RPKM, FPKM,TPM

在RNAseq的分析中,如何將比對到特定基因範圍內的reads數量轉換成“這段基因的基因表現量”,一直是RNAseq分析的起頭,但也是還沒有定論的部分,這邊紀錄最一開始用來轉換比對到特定基因範圍內的read數量到“此基因表現量”的方式,那就是RPKM,緊接者則是FPKM,和2012年開始提出的TPM,這三種指標某種程度來說,觀念類似,主要都有考慮到基因長度和總reads數量。

文獻回顧
第一篇提出用RPKM來代表某個基因的表現量的論文:
Mortazavi, A., Williams, B.A., McCue, K., Schaeffer, L., Wold, B.(2008).Mapping and quantifying mammalian transcriptomes by RNA-seq. Nature Methods. 5, 621-628

這一篇在2012年提出來TPM代表轉錄體表現量的論文,則有詳細對於RPKM, FPKM, TPM的公式解說
Gunter P. Wagner, Koryu Kin, Vincent J. Lynch.(2012). Measurement of mRNA abundance using RNA-seq data: RPKM measure is inconsistent among samples. Theory in Biosciences. 131(4), 281-285

基本上,在RNAseq中,實際上每一個sample的mRNA總量可以想成:
mRNA_total = \sum{mRNA_g}
而以下三種指標其實都是建立在這看法下,考慮到mRNA長度、總reads數、transcript數等來調整成代表基因表現量的數值

RPKM(Reads Per Kilobase per Million)
RPKM = \frac{10^6 * n_r}{L * N}
n_r 代表單一個gene其上的reads數量,L代表是這段基因的總長度除1000(轉換成kilobase的單位),N則是總共的reads數,通常用於singel reads

FPKM(Fragments Per Kilobase per Million)
FPKM = \frac{10^6 * n_f}{ L * N}
同上,這邊的fragments其實是代表一組paired-end reads所捕捉到的transcripts,所以其實適合用來在paired read的實驗中使用

TPM(Transcripts Per Million)
TPM = \frac{n_r * rl * 10^6}{fl_g * T}
T = \sum{\frac{r_g * rl}{fl_g}}
這邊的rl代表read lengths,然後fl_g 則代表是這基因的exon總長度

看完這三者的公式便能理解為何會說RPKM, FPKM , TPM都是一種樣本內的標準化方式(within normalization),它代表的是單一個gene或是transcript相對於所有樣本的表現總量。而當RNAseq的實驗設計較為複雜,要用來比較樣本間(between samples)各個基因表現量差異時,就會多少造成一些低表現向的基因之偏差,因為單一基因在不同組中比較時,用其mRNA的長度來做調整變顯多於,也引入偏差。

閱讀參考
What the FPKM? A review of RNA-Seq expression units
Somnath Datta, Dan Nettleton.(2016).Statistical Analysis of the next generation sequencing data. Frontiers in Probability and the Statistical Sciences, Springer
基因组学技术专题(二)—— 为什么说FPKM/RPKM是错的

發表留言