RNAseq基因表現量常用指標：RPKM, FPKM,TPM

在RNAseq的分析中，如何將比對到特定基因範圍內的reads數量轉換成“這段基因的基因表現量”，一直是RNAseq分析的起頭，但也是還沒有定論的部分，這邊紀錄最一開始用來轉換比對到特定基因範圍內的read數量到“此基因表現量”的方式，那就是RPKM，緊接者則是FPKM，和2012年開始提出的TPM，這三種指標某種程度來說，觀念類似，主要都有考慮到基因長度和總reads數量。

文獻回顧：
第一篇提出用RPKM來代表某個基因的表現量的論文：
Mortazavi, A., Williams, B.A., McCue, K., Schaeffer, L., Wold, B.(2008).Mapping and quantifying mammalian transcriptomes by RNA-seq. Nature Methods. 5, 621-628

這一篇在2012年提出來TPM代表轉錄體表現量的論文，則有詳細對於RPKM, FPKM, TPM的公式解說
Gunter P. Wagner, Koryu Kin, Vincent J. Lynch.(2012). Measurement of mRNA abundance using RNA-seq data: RPKM measure is inconsistent among samples. Theory in Biosciences. 131(4), 281-285

基本上，在RNAseq中，實際上每一個sample的mRNA總量可以想成：
$mRNA_total = \sum{mRNA_g}$
而以下三種指標其實都是建立在這看法下，考慮到mRNA長度、總reads數、transcript數等來調整成代表基因表現量的數值

RPKM(Reads Per Kilobase per Million)
$RPKM = \frac{10^6 * n_r}{L * N}$
$n_r$ 代表單一個gene其上的reads數量，L代表是這段基因的總長度除1000（轉換成kilobase的單位），N則是總共的reads數，通常用於singel reads

FPKM(Fragments Per Kilobase per Million)
$FPKM = \frac{10^6 * n_f}{ L * N}$
同上，這邊的fragments其實是代表一組paired-end reads所捕捉到的transcripts，所以其實適合用來在paired read的實驗中使用

TPM(Transcripts Per Million)
$TPM = \frac{n_r * rl * 10^6}{fl_g * T}$
$T = \sum{\frac{r_g * rl}{fl_g}}$
這邊的rl代表read lengths，然後 $fl_g$ 則代表是這基因的exon總長度

看完這三者的公式便能理解為何會說RPKM, FPKM , TPM都是一種樣本內的標準化方式(within normalization)，它代表的是單一個gene或是transcript相對於所有樣本的表現總量。而當RNAseq的實驗設計較為複雜，要用來比較樣本間(between samples)各個基因表現量差異時，就會多少造成一些低表現向的基因之偏差，因為單一基因在不同組中比較時，用其mRNA的長度來做調整變顯多於，也引入偏差。

閱讀參考：
What the FPKM? A review of RNA-Seq expression units
Somnath Datta, Dan Nettleton.(2016).Statistical Analysis of the next generation sequencing data. Frontiers in Probability and the Statistical Sciences, Springer
基因组学技术专题（二）—— 为什么说FPKM/RPKM是错的

	Kotlin 在可擴展標記語言XML是什麼？
	Cupid.K 在 2021 臨床次世代定序實務與應用概論
	kuoYH 在 2023 生物資訊學習資源彙整
	路人乙在從醫院到個人，從中心到去中心
	路人乙在重灌更新Pop!_OS：miniconda, R, Rstu…

	Kotlin 在可擴展標記語言XML是什麼？
	Cupid.K 在 2021 臨床次世代定序實務與應用概論
	kuoYH 在 2023 生物資訊學習資源彙整
	路人乙在從醫院到個人，從中心到去中心
	路人乙在重灌更新Pop!_OS：miniconda, R, Rstu…

分享此文：

發表留言 取消回覆

發表留言取消回覆