Gene Set Enrichment Analysis(GSEA)資料格式介紹:gct, cls, gmt

資料種類 內容 格式
基因表現量資料Expression dataset 主要為基因表現量資料 res, gct, pcl, txt
實驗設計資料Phenotype labels 主要為實驗設計,標記各樣本 cls
基因集Gene sets 要用來檢定的各個基因集(可以直接使用GSEA軟件的) gmt, gmx

注意事項:
1. 基因表現量資料中的基因名稱跟基因集都要使用HUGO中基因的名稱,假如使用的是microarray的資料,要注意使用的是哪個平台,要提供那平台的probe註釋(大部分affymetrix的都有內建資料,所以不用太擔心)

基因表現量資料
GCT:Gene Cluster Text
為tab分隔的資料,可以使用純文本編輯器或是excel,不太推薦使用excel,有時候會出現一些數字被轉換成日期的問題

基本原則:

  1. 第一行一定要有#1,2這字串。
  2. 第二行總共要有兩個數字,第一個數字代表這筆基因表現資料總共有幾行,第二行數字代表有幾個樣本。
  3. 接者便是基因表現量資料,第一列為基因名稱或是probe編號,第二行為這些基因或是probe的描述,再來就是所有樣本個別的表現量多寡。
    screenshot.png

實驗設計資料
CLS:Categorical/Continuous files format
screenshot.png
主要用三行表示
1. 第一行有三個數字,第一個數字代表樣本總數,第二個數字為總共有幾個類別,第三個數字都一定為1
2. 第二行要以#開頭,然後有兩個數字,緊接者為各個類別的名稱
3. 第三行則是各個樣本的類別種類

注意事項:
1. 樣本類別也可以是連續變數,比如時間序列的,可以用下面的方式來表示
#numeric
#IncreasingProfle
30 60 90 120 150

基因集資料
這邊介紹兩個主要基因集資料的格式,分別是GMT和CMX,兩個資料格式有兩個差別:
1. GMX基因集資料是以列方式儲存
2. GMT基因集剛好反過來,用行來儲存,適合儲存大於256個以上的基因集
GMX: Gene Matrix file format
screenshot.png
GMT: Gene Matrix file format
screenshot.png

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 /  變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

w

連結到 %s