Ensembl API(一):簡介

Ensembl是一個由European Bioinformatics Institute和Wellcome Trust Sanger Institute 的科學家所推動的計畫,從1999年便開始參與人類基因體計畫的執行,其致力於統整基因註釋和定序資料的整合,讓其他科學家可以輕易地使用網路來獲取需要的資料,這計畫下面主要分成8個小組(Genebuild小組產生基因定序資料、 Core Softward小組發展核心資料庫的api、 Compara小組負責進行各物種間比較計算、 Variation小組處理基因變異的資料、Regulation小組處理整體工作準則的制定、Web team小組建構網站和網路應用、Production小組打造一些分之的軟體和版本的維持、 Outreach推展ensembl計畫)約莫50人在進行。

為何要學習如何使用Ensembl API

Ensembl資料庫跟NCBI以及UCSC並列目前三大資料庫,相對於NCBI和UCSC的資料庫,Ensembl在處理個版本和註釋的處理比較一致,另外,理解Ensembl API可以讓我們將原本的資料處理workflow更好的整合在一起

Ensembl 資料庫的基本架構

Ensembl的資料庫主要是以MySQL來儲存資料的,所以基本上也可以用MySQL的語法來query裡頭的資料,基本上,在Ensembl的架構下有很多不同種類的資料庫,最主要的為Core database,儲存基因體的序列、基因註釋等等,而每一種物種都有一個獨立的Core Database,除了Core database,還有Variation database裡頭置放SNP、strains等等資料、Compara database則是放由ensembl團隊將各物種core database裡的基因序列比較後的資訊。

Ensembl資料庫幾乎每三個月都會更新一次,而直接使用Ensembl API就可以設定固定版本的database來獲取其資料,且ensembl資料庫裡放的所有資料都由實驗結果整理而成,有一套嚴謹的歸類方式。

Ensembl API主要以Perl所撰寫

Ensembl API是以物件導向的方式來撰寫(object-oriented perl),裡頭的documentation非常仔細,大觀念就是其分為Data object,和Data adaptor兩大類,Data object就是把資料連起來的集合,而Data adaptor就是取的這個方法,之後再仔細介紹其撰寫的細節。

對「Ensembl API(一):簡介」的一則回應

發表留言