VCF(Variant Call Format) 基因突變資料儲存格式

次世代定序技術出來後,緊接者是許多高通量資料的處理問題,從一開始單純看定序品質到後面用定序資料組成的基因體後,來看其變異資訊,此時就需要一個很好的儲存方式,這時候就有了VCF(Variant Call Format),這格式主要是由1000 Genomes Project所推動產生的,這計畫的目的希望用定序不同種族的正常人類來探討族群基因體間的異同。

一份VCF檔案大致長得像下面這樣
screenshot.png

基本上分成兩大部分:VCF header (描述所使用的工具、篩選標準、紀錄的細節名稱)和 body (變異資料本身)。screenshot.png

變異資訊基本上會有9行,分別紀錄CHR染色體號碼、POS位置、ID變異編號(是否在dbSNP中)、REF此位點在參考基因上的序列、ALT變異的序列、QUAL此序列的定序品質、FILTER是否通過所設定的篩選條件、INFO進一步的資訊、FORMAT格式資訊、SAMPLES各樣本在此位點的狀況。

會很驚訝於這樣的表示方法,其實就可以包含各種複雜的基因變異形式,如下圖所表現的樣子
screenshot.png

1 thoughts on “VCF(Variant Call Format) 基因突變資料儲存格式

發表留言