Bioconductor:基因體學研究的好幫手(一)

什麼是Bioconductor?

簡單來說,Bioconductor是一個含有936個R語言packeges的開源軟體平台,開始與2001年,其原始開發團隊由Robert Gentlemen領軍,由美國的Fred Hutchinson Cancer Research center領頭發展,成立的目的是為了提供高通量基因體學研究資料更好的分析工具,相對於R的發展開源且沒有任何資金贊助,bioconductor其實是一個有接受NIH資助的計畫,目的便是發展直接處理高通量資料的工具。

所以假如你是一個生物領域的研究人員,那麼一定不能不知道它,雖然目前市面上有很多商業軟體,但此工具通常會有最新資料處理的工具,像最近火紅的NGS資料,就常常需要依靠它。

我們可以利用Bioconductor裡面的packages做什麼?

在今年的Nature Methods (2015). Orchestrating high-throughput genomic analysis with Bioconductor.這篇文章裡有非常詳盡的介紹,關於其中可以使用的套件以及緣起,基本上來說,Bioconductor裡頭的packages可以處理從Microarray、Image Analysis、Flow Cytometry、ChIPSeq、Gene Annotation、multiassay QC、NGS….。

該如何下手?

Bioconductor本身有個網站Bioconductor.org,裡面有非常豐富的學習資源,基本上,裡頭的package質量都非常的好,但反而因此會讓人無從下手。這邊分享網站裡面一些不錯的地方,可以找到比較快速上手的資料和資源,減少一開始在大海裡面撈針所花費的時間。

第一個頁面:BiocViews

在這個頁面下,可以快速看到整個Bioconductor中packages的分類,主要分成三種類型:Software, AnnotationData, ExperimentData。


Software,主要是各種執行分析生物資料的軟體,內容遍佈用來處理各種生物資料的工具、針對高通量數據的統計方法、特定實驗儀器數據的數入等。

AnnotationData,第二大宗的軟體包,裡頭包含各式各樣的資料庫相關工具包、各式基因陣列基因的探針資料等、Gene Ontology、BioGrid、KEGG、Reactome、Ensembl、NCBI等幫忙串接重要網站資料庫API所使用的工具。

ExperimentData,包含特定物種或是實驗的資料,上傳到Bioconductor上讓大家可以使用。

第二個頁面:Courses

這個頁面是對於初學者受用頗大的地方,有每年跟Bioconductor相關工作坊的簡報,像是BioC年會、CSAMA( Statistical Data Analysis for Genome-Scale Biology )會議,裡頭的講者都是這領域的領導者,所以可以很快吸收到近幾年重要的相關知識。

第三個頁面:Common Work Flow

這個頁面是有一點使用Bioconductor相關軟體包使用和基因序列資料分析專案經驗的人可以快速複習,還有可以用來觀摩大師級的人物是如何分析的,提供一整個分析流程中,所使用到的軟體包,因為是依據每個人的習慣,所以多少需要閱讀者一些基本知識,才能判斷說哪個流程,適不適用在自己的資料分析上,因為通常無法整個流程套用下來,但能因此獲得很多整合性的知識。

Book
1. Bioconductor Cases Study,2008
2. Bioinformatics and Computational Biology Solutions Using R and Bioconductor,2005,Springer
3. Bioconductor: An Introduction to Core Technologies, 2016, Leanpub

Online Material
1.PH525x series – Biomedical Data Science link
2.Bioconductor for Genomic Data Science link

發表留言