資料種類 | 內容 | 格式 |
---|---|---|
基因表現量資料Expression dataset | 主要為基因表現量資料 | res, gct, pcl, txt |
實驗設計資料Phenotype labels | 主要為實驗設計,標記各樣本 | cls |
基因集Gene sets | 要用來檢定的各個基因集(可以直接使用GSEA軟件的) | gmt, gmx |
注意事項:
1. 基因表現量資料中的基因名稱跟基因集都要使用HUGO中基因的名稱,假如使用的是microarray的資料,要注意使用的是哪個平台,要提供那平台的probe註釋(大部分affymetrix的都有內建資料,所以不用太擔心)
基因表現量資料
GCT:Gene Cluster Text
為tab分隔的資料,可以使用純文本編輯器或是excel,不太推薦使用excel,有時候會出現一些數字被轉換成日期的問題。
基本原則:
- 第一行一定要有#1,2這字串。
- 第二行總共要有兩個數字,第一個數字代表這筆基因表現資料總共有幾行,第二行數字代表有幾個樣本。
- 接者便是基因表現量資料,第一列為基因名稱或是probe編號,第二行為這些基因或是probe的描述,再來就是所有樣本個別的表現量多寡。
實驗設計資料
CLS:Categorical/Continuous files format
主要用三行表示
1. 第一行有三個數字,第一個數字代表樣本總數,第二個數字為總共有幾個類別,第三個數字都一定為1
2. 第二行要以#開頭,然後有兩個數字,緊接者為各個類別的名稱
3. 第三行則是各個樣本的類別種類
注意事項:
1. 樣本類別也可以是連續變數,比如時間序列的,可以用下面的方式來表示
#numeric
#IncreasingProfle
30 60 90 120 150
基因集資料
這邊介紹兩個主要基因集資料的格式,分別是GMT和CMX,兩個資料格式有兩個差別:
1. GMX基因集資料是以列方式儲存
2. GMT基因集剛好反過來,用行來儲存,適合儲存大於256個以上的基因集
GMX: Gene Matrix file format
GMT: Gene Matrix file format