閱讀自Practical Computing for biologists by Haddock Dunn
基本上,電腦的檔案都是一連串binarary numbers所組成的,另一種人類看得懂的格式則是文本形式(text files),而資料分析的起點便是如何處理這些text file,即使是我們引以為常的數字或是文字,電腦要呈現給我們看得懂,就必須要轉換格式,最常見的數字或是英文文字的格式便是American Standard Code for Information Interchange (ASCII)。
這些為了讓人類能理解而加上的許多格式,在我們要分析的時候就變得很棘手,因為其賦予資料格式的符號很容易影響我們處理資料時的手續,所以一套看“純的”工具,便很重要!
目前最基本的文本架構為character-delimited text,就是由column和line來組成整個資料架構,其中delimited就是將每一行資料分開的符號,可以是空白鍵、逗點或tab,而第一行的資訊通常就是header.
目前主流操作系統為windows、mac和linux,以下就這三個系統推薦好用的純文本編輯器,各個功能強大。
系統
|
推薦程式
|
MAC
|
|
Windows
|
|
Linux
|
不同系統間,會有一些細微的差異,這邊提兩個:
- Line ending:每個編輯器在處理每一個行最後結尾的標記不太一樣
- 主要分成兩大類型標記:
- Carriage return(CR) :使用\r
- Line feed(LF): 使用\n
- 主要分成兩大類型標記:
- Display font:編輯器展現出來的樣子,這邊的展示通常都不會直接改變原本的資料
- Proportionally spaced:字所佔空間一樣
- Fixed-space:字所佔空間不一樣
- Proportionally spaced:字所佔空間一樣
對「給生物學家的計算分析(一):文本乃資料分析之底」的一則回應