RNAseq:Differential Gene Expression

Han Y, Gao S, Muegge K, Zhang W, Zhou B. (2015) Advanced Applications of RNA Sequencing and Challenges. Bioinform Biol Insights 9(Suppl 1):29-46. [article]

轉錄體(Transcriptome)代表著單一細胞或是一群細胞中所有的RNA,而RNAseq其中一個很重要的應用,便是藉由比較不同情況下,轉錄體的表現差異,來探討細胞在不同發育階段、特定刺激下的基因表現等等。比較基因表現量差異的關鍵便是要能辨別不同isoform transcripts的量,另一方面,也代表要對genomic functional element的劃分要更清楚,因為這些都會決定某一個transcripts的表現量高低,這種比較不同狀況下轉錄體表現量差異的分析就叫做DEG analysis,目前已有些統計的方式來計算這些轉錄體中不同transcripts的表現量,有部分方法是來自於之前microarrary資料處理的方法。

最常用來表達某一個transcripts的表現量為RPKM(reads per kilo base per million mapped reads),這數值顧名思義就是將transcripts的長度以及總量對此transcripts的表現量做normalization後的數值,但其實還有許多因素會影響到評估transcripts的表現量,像是sequencing depth、gene length、isoform abundance。目前RPKM這統計數值被質疑的地方便是其每有考慮到同一個transcripts isoform的影響,而另一種新的數值RSEM(reads per expectation maximization),其有考慮進去isoform的角色,

大多數用來分析的演算法,其只用最簡單的count-based 機率分布(Poisson distribution)以及Fisher’s exact test來做表現量差異的統計檢定。

這樣的檢定方法,並沒有考慮到biological variability,而要降低biological variability可以藉由分析重複實驗的資料,使用permutational-derived methods。

另一方面,假如資料有足夠多實驗重複資料時,可以使用extended Poisson distribution來做更進階的分析。

但RNAseq的研究非常的貴,要有多組重複實驗顯得不切實際,也有人在有限的檢體實驗中,直接模擬biological variability,並且使用pariwise或是multiple group comparisons來分析。有幾個工具已被開發出來進行表現量比較的分析,如Cuffdiff、DESeq、EdgeR。

在read counts計算上,其分布常呈現skewed,需要使用演算法來把分佈轉換,才能繼續使用統計檢定,有研究者開發出一款工具PoissonSeq,便是使用Poisson log-linear model來做DEG分析。

除此之外,有科學家使用從microarrary分析而來的工具來做RNAseq的表現量分析,其使用limma package中的voom 函式來將資料轉換成Gaussian distribution,在進行統計檢定!

這邊有一篇研究來比較目前所有的DEG分析,可以參考此論文的意見再來決定要用什麼分析工具

Soneson C, Delorenzi M. A comparison of methods for differential expression analysis of RNA-seq data. BMC Bioinformatics. 2013;14:91.(被引用231次)
91. Kvam VM, Liu P, Si Y. A comparison of statistical methods for detecting dif- ferentially expressed genes from RNA-seq data. Am J Bot. 2012;99(2):248–56(被引用125次)

關於DEG分析還有許多挑戰需要解決,像是

How to uniform the reads coverage along the genome with the nucleotide composition variation;

How to detect the “within-sample” variations without simply assuming that the underlying conditions or treatments affect all individual gene equally;

How to improve current methods to detect differences in gene isoform preferences and abundance level in varying conditions;

How to account for the dif- ferent probability in read coverage in long genes versus short genes since we can gain great sequencing depth nowadays.

對「RNAseq:Differential Gene Expression」的一則回應

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s