傳統上的資料庫是以gene-base query的方式來設計,所以當我們取得一個有特異表現的基因列表之時,就得一個個搜尋,並且記錄其可能參與的pathway,如此就可以獲得一個個基因參與的路徑列表。而當某個特定生物路徑里參與的基因獲得顯著差異表現越多,就暗示者此路徑有可能扮演重要的角色。
那如何從統計上去著手,來看此特定之路徑是否有“顯著”呢?
這時候就可以用Over-representation analysis,這一套分析的邏輯就是取得在兩個狀態下有差異性表現的基因列表(這步是ORS蠻關鍵的步驟,但也是其侷限所在,相對於Gene Set Enrichment Analysis(GSEA))。
Over-representation analysis所使用的概念非常簡單,舉例來解釋,假如在某個功能路徑上的基因已被注釋知道有150個基因跟此路徑相關,而我們在分析基因表現差異後取得1000個基因在此情況下,會顯著表現,假如其中有70個基因屬於這群基因中,那麼我們可以來計算說這功能路徑是不是特別顯著,讓其中所歸屬的基因顯著比例特別高,還是這70個基因只是洽好隨機被分配進來的,其實這就是一個hypergeometric distribution的分佈,如同我們以前數學學過的布袋裡有2000黑色球和150白色球,而我們剛好抽到70個白球的機率多少,其實就可以來算p-value。
但當我們gene個數很多時候,像是hgu133plus2就有54670個基因,整個分布就會趨近於binomial distribution。
這邊除了可以做binomial test, chi-square test (在分析sage experiment時,效果最好的方法)或是 Fisher’s exact test。
ORS很重要的關鍵是需要提供previous selection of a subset of differentiall expressed genes ,而這部分也是比較容易被詬病的地方。
Mi, H., Muruganujan, A., Casagrande, J. T., & Thomas, P. D. (2013). Large-scale gene function analysis with the PANTHER classification system. Nat. Protocols, 8(8), 1551–1566. Retrieved from http://dx.doi.org/10.1038/nprot.2013.092
各種相關Over-representation analysis的討論串: