做GSEA分析的重要基因組(gene set)參考資料庫: The Molecular Signatures Databases (MSigDB)

在當下這個高通量測序的時代,找到幾百個有表現差異的基因後,通常就要進行一系列更複雜的分析,這些分析便是建立在用目前已知的生物醫學知識建立相關的調控路徑等,做更進一步的路徑分析或是網絡分析來看這些有表現差異的基因是用什麼方式在什麼pathway上對生物體造成影響所以找出一組(set)跟目標生物功能或路徑相關的基因,便是很重要的,而The Molecular Signatures Databases是Broad institute維護用來提供gene set作為Gene Set Enrichment Analysis(GSEA)的工具,這裡頭便是放了很多大家用來分析的基因set。

MSigDB資料庫跟常見的gene set資料庫(廣義來看)如GO, BioCarta, GeneMAPP不同的地方是裡面儲存的資料便是為了導入GSEA分析的格式,另外,相對於GO, BioCarta, GeneMAPP在註釋上較為嚴謹和封閉,MSigDB背後維護的團隊很樂意大家把自己研究領域的gene set寄過去跟他們分享,另外,MSigDB便沒有像上述資料庫有所謂的pathway diagram,畢竟他curated的方式主要是用crowdsourcing,且目的不同。

MSigDB將裡頭的gene set分成幾類:c1,c2,c3,c4,c5,c6,c7

分類     介紹   
  H: Hallmark Gene Set       為MSigDB團隊整合整個資料庫裡來自各個使用者所貢獻的Gene Set,使用一整套計算分析的流程,去除掉重複性,梳理比較具有代表性的founder sets     
C1: Positionl Gene Set       裡頭包含326組gene sets, 這邊的Gene Sets是以染色體上的位置來分類的,可以用來找出跟染色體上序列缺失、或是片段放大,表觀遺傳學上或是區域相關的效應
C2: Curated Gene Set     裡頭包含4729組gene sets,整合來自其他的資料庫如pubmet、reactome 、pathway database、BioCarta pathway database、KEGG gene sets等
C3: Motif Gene Set      裡頭包含836組gene sets,為基因cis-regulatory motif相關的基因資訊,包含跟promoter、3-UTR相關的資訊、transcription factor targets(主要由TRANSFAC資料庫而來)、microRNA targets  
C4: Computational Gene Set       包含858組gene sets,主要computational的方法從microarray的資料得出跟癌症相關的資訊,其中分成Cancer Gene Neighborhoods、Cancer Module兩類。 
C5: GO Gene Set       包含6166組gene sets,跟Gene Ontology內的分類一樣,分成BP、CC、MF 
C6: Oncogenic Signatures      包含189組gene sets,主要為跟癌症dis-regulated相關的細胞內路徑,由NCBI GEO和一些未公佈的實驗數據,以及文獻中已有的。
C7: Immunologic Signatures      包含4872組gene sets,主要在看不同細胞狀態下免疫系統相關的改變,由老鼠或是人類的實驗而來。    

可以先從Hallmark Gene Set裡頭來看,因為其是由所有其他分類整理而來,去除掉很多重複,所以使用Hallmark Gene Set當作起手,而假如針對特定很細的路徑,則再去細看那個collection中已有的各種gene sets。

對「做GSEA分析的重要基因組(gene set)參考資料庫: The Molecular Signatures Databases (MSigDB)」的一則回應

發表留言