這篇文章蠻值得看的,尤其是想做基本的pathway analysis,他簡單概結目前此類方法在這十年的遞進,主要有三個方法學上的改變,分別從over-representation analysis、Functional Class Scoring、再到Pathway Topology,每個方法的調整其實都進一步改善前一代的方法,而最早使用到現在的Over-representation analysis到目前還是會使用的,但更清楚他的局限性在那邊。除此之外,作者在這篇論文中也提高接下來這類的方法,還有哪些需要解決的困難和挑戰。
第一種:Over-Representation Analysis Approaches
這種ORA(Over-Representation Analysis)是目前生物學家、醫師等使用最為方便且簡單的方法,但這方法本質的限制非常多。其主要有四個特性,第一個是ORA背後所使用的檢定原理如hypergeometric distribution、chi-square、binomial distribution等,都只考慮“顯著”的基因列表個數,單個基因的表現“大小”沒有影響到整個統計上的預測。第二點ORA方法只處理通過檢定的表現差異基因,那些沒有通過闕值的基因就因此被剔除掉,這樣會造成某種bias出現。第三點ORA把每個基因的表現當作獨立事件,不會互相干擾,第四點ORA裡面的計算假設每個路徑之間是相互獨立的。
第二種:Functional Class Scoring Approaches
FCS的方法則是改進了ORA方法把每個基因都當作獨立來計算其統計量(gene-level statistics),其方式可以簡單分成三部分,第一部份則是取得每基因的統計量,第二部份則是將gene-level statics整合成一個pathway-level statistics,常用來處理這個統計值方法有Kolmogorov-Smirnov statistic, sum, mean, median of gene-level statistics。這值可以是多變量、單變量的。最後一步則是檢定這個pathway-level statistics顯不顯著。這個方法改進了ORA在統計值處理時把基因單獨處理的問題,但另一個還沒有解決的則是pathway之間是不獨立的這件事,這就必須要使用到Pathway Topology-Based Approaches的方式。
第三種:Pathway Topology Approaches
目前路徑裡面三種方法都不一樣!
Over-representation analysis | |
Onto-Express | http://vortex.cs.wayne.edu |
GeneMAPP | http://www.genemapp.org |
GoMiner | http://discover.nci.nih.gov/gominer |
FatiGO | http://babelommics.bioinfo.cipf.es |
GOstat | http://lgostat.wehi.edu.au |
FuncAssociate | http://llama.mshri.on.ca/funcassociate/ |
GOToolBox | http://genome.crg.es/GOToolBox/ |
GeneMerge | web |
GOEAST | http://omicslab.genetics.ac.cn/GOEAST/ |
ClueGO | http://www.ici.upmc.fr/cluego/ |
FunSpec | http://funspec.med.utoronto.ca/ |
GARBAN | web |
GO:TermFinder | http://search.cpan.org/dist/GO-TermFinder |
WebGestalt | http://bioinfo.vanderbilt.edu/webgestatlt |
agriGO | http://bioinfo.cau.edu.cn/agriGO |
GOFFA | http://edkb.fda.gov/webstart/arraytrack/ |
WEGO | http://wego.genomics.org.cn/cgi-bin/wego/index.pl |
Functional Class Scoring | |
GSEA | http://broadinstitue.org/gsea |
sigPathway | bioconductor |
Category | bioconductor |
SAFE | bioconductor |
GlobalTest | bioconductor |
PCOT2 | bioconductor |
SAM-GS | http://www.ualberta.ca/~yyasui/software.html |
Catmap | http://bioinfo.thep.lu.se/catmap.html |
T-profiler | http://www.t-profile.org |
FunCluster | httpL//corneliu.hengar.info/FunCluster.html |
Functional Class Scoring | |
ScorePAGE | No implementation |
Pathway-Express | yne.eduhttp://vortex.cs.wa |
SPIA | bioconductor |
NetGSA | no implementation |
Khatri, P., Sirota, M., & Butte, A. J. (2012). Ten years of pathway analysis: Current approaches and outstanding challenges. PLoS Computational Biology, 8(2). http://doi.org/10.1371/journal.pcbi.1002375
對「論文閱讀:Ten Years of Pathway Analysis: Current Approaches and Outstanding Challenges」的一則回應