ENCODE Project 基因字典-幫人類基因序列寫註解

在Human Genome Project後,科學家打開了研究基因體的新紀元,此計畫將基因定序技術到位,而2003年九月開始的ENCODE計劃則是要把這本無字天書作註解(ENCODE=The Encyclopedia of DNA Elements),也因為這個計畫,所以我們有了許多可以使用的各式基因功能單位的注釋資料庫,了解ENCODE計劃所產出的各式資料庫也許能幫助我們理解目前使用的各式各樣的functional element資料的來源和怎麼來的。(其實,ENCODE Project的重要性不亞於Human Genome Project)

 

ENCODE計劃

ENCODE project(https://www.encodeproject.org/)由美國的National Human Genome Institute 出資,為跨國研究計畫,時間從2003年的小型pilot計劃到2007年計劃擴大,已經在2012年結束。

ENCODE計劃產出的論文數量非常驚人,從2007-2012年就有超國30篇論文(散布在Nature, Cell, BMC genomics, Genome Biology, Genome Research等等),共建立了1640組資料,24種實驗模式於147種不同的細胞株中,發現大約80.4%基因組裡的序列有功能上的意義。

 

一張圖看ENCODE做了什麼事情

Figure 1-jdf-01 

 簡單說,ENCODE project主要想要研究的基因調控elements有:

  • Gene annotation
  • Transcripts analysis
  • Chromatin analysis
  • Transcription factor binding
  • Methylation, three dimensional space interaction and disease-assoicated variation

 

依據這些想要研究的elements,ENCODE都有發展不同的實驗方法和策略,其實可以發現這些技術都是基於NGS的定序技術再加上樣本前處理的變化,以下整理ENCODE project裡面發展的研究技術和簡介(因為要整合不同實驗室的資料,所以ENCODE的網頁有發展各式的標準pipeline來統一):

  • RNA-seq
    • 將想要研究之細胞株的RNA 萃取且純化,反轉成cDNA後可以使用PCR放大,在使用NGS定序方式來獲得此細胞株的transcriptome.
  • CAGE
    • 特殊的前處理要看在RNA 的5’處的methylated cap, 在5’end RNA 處加上tag,再完成NGS定序
  • RNA-PET
    • 同時要看RNA的5’ cap 和 3’ poly A sites, 其實就是要看full-length的RNA
  • ChIP-seq
    • 使用免疫沈澱的技術將和細胞內DNA和特定蛋白質結合的片段抓下來定序和表現量,其中使用抗體是能針對那些和DNA結合的如transcription factor、chromatin binding protein和特殊的chemical modification histone proteins之epitope。
  • DNase-seq
    • 其實是利用傳統的DNase I enzyme regulatory sequence assay結合定序技術,其利用DNase I enzyme來把chromatin裡面那些會被打開,無histone包裹的區域切下來,這些區域便是所謂的DNase hypersensitive site,用這些區域來看不同細胞株種類其可以被transcription factor調控的片段是否不同。
  • FAIRE-seq
    • 全名為Formaldehyde assisted isolation of regulatory elements,用來分離nucleosome-depleted genomic region,來探討有nucleosome和sequence-specific regulatory factor binding 片段間crosslinking efficiency的不同。
  • RRBS
    • 全名為Reduced Representation Bisulphite Sequencing.主要是為了研究DNA methylation所開發的技術,因為大多數的DNA methylation發生在CpG islands,這些區域需要深度很高或是比較昂貴的定序方式,所以為了降低定序所需深度,利用Bisulphite將unmethylated Cytosine 變成Uracil, 再將這些片段切出來,定序這些片段裡面cytosine的methylation status.

 

ENCODE project整體發現了什麼insights

  • 在Human Genome Project完成後,我們發現人類序列中已知的gene region只佔一小部分,傳統上定義gene為能encode出protein或是non-coding RNA(這也是近年才開始發現的!),這部分變成一個很奇怪的謎題!
  • ENCODE project完成後發現其實genome region中百分之80.4%的區域都多少有功能上的意義(至少在某一種細胞株中有功能),且這些已知的gene region百分之95%都位於regulatory region上下游8kb左右
  • 在一些基因片段中,可以觀察到negative selection的現象,可能暗示這些片端有功能存在
  • 在比對完其關於transcription factor binding 於promoter的片段,會發現大部分的基因表現變異性的,和promoter被調控有關係

 

這樣的ENCODE project資料庫裡的限制

  • 雖然ENCODE project有設定其主要分析的cell type種類,但其中大部分的細胞株種類其實不是其Pipeline所設定的
  • 這些資料都是用現有的reference genome,所以這部分會有biasis存在

 

 

參考論文:

  1. An integrated encyclopedia of DNA elements in the human genome,2012,Naure
  2. A User’s guide to the encyclopedia of DNA elements,2011,PLoS Biology
  3. A brief review on the human encyclopedia of DNA elements project,2013,Genomics Proteomics Bioinformatics

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s