Functional Analysis中的Over representation analysis分析:以binomial test為例

傳統上的資料庫是以gene-base query的方式來設計,所以當我們取得一個有特異表現的基因列表之時,就得一個個搜尋,並且記錄其可能參與的pathway,如此就可以獲得一個個基因參與的路徑列表。而當某個特定生物路徑里參與的基因獲得顯著差異表現越多,就暗示者此路徑有可能扮演重要的角色。
那如何從統計上去著手,來看此特定之路徑是否有“顯著”呢?
這時候就可以用Over-representation analysis,這一套分析的邏輯就是取得在兩個狀態下有差異性表現的基因列表(這步是ORS蠻關鍵的步驟,但也是其侷限所在,相對於Gene Set Enrichment Analysis(GSEA))。
Over-representation analysis所使用的概念非常簡單,舉例來解釋,假如在某個功能路徑上的基因已被注釋知道有150個基因跟此路徑相關,而我們在分析基因表現差異後取得1000個基因在此情況下,會顯著表現,假如其中有70個基因屬於這群基因中,那麼我們可以來計算說這功能路徑是不是特別顯著,讓其中所歸屬的基因顯著比例特別高,還是這70個基因只是洽好隨機被分配進來的,其實這就是一個hypergeometric distribution的分佈,如同我們以前數學學過的布袋裡有2000黑色球和150白色球,而我們剛好抽到70個白球的機率多少,其實就可以來算p-value。

P(X = x| N, M ,K) = \frac{\binom{M}{x}\binom{N-M}{K-x}}{\binom{N}{K}}

p_o(x) = 1 - \sum_{i =0}^{x-1} \frac{\binom{M}{i}\binom{N-M}{K-i}}{\binom{N}{K}}

p_u(x) = P(X=1) + P(X=2) + ... + P(X=x) = \sum_{i=0}^{x} \frac{\binom{M}{i}\binom{N-M}{K-i}}{\binom{N}{K}}

但當我們gene個數很多時候,像是hgu133plus2就有54670個基因,整個分布就會趨近於binomial distribution。

P\left(  X = x|K, M/N \right) = \binom{k}{x}(\frac{M}{N})^{x}(1 - \frac{M}{N})^{K-x}

這邊除了可以做binomial test, chi-square test (在分析sage experiment時,效果最好的方法)或是 Fisher’s exact test。
 ORS很重要的關鍵是需要提供previous selection of a subset of differentiall expressed genes ,而這部分也是比較容易被詬病的地方。

Mi, H., Muruganujan, A., Casagrande, J. T., & Thomas, P. D. (2013). Large-scale gene function analysis with the PANTHER classification system. Nat. Protocols, 8(8), 1551–1566. Retrieved from http://dx.doi.org/10.1038/nprot.2013.092

 

各種相關Over-representation analysis的討論串

bioinfomaticas.ca 教學簡報

 

 

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s