如何組織每次的分析專案檔案

每一次的資料分析，都會產生大量各式檔案，有原始資料、前處理過的、分析的程式碼，所以多花點心思在每個步驟都稍微整理回顧一下，長久來說會減少很多“災難”，讓自己能有reproducible research skill. （其實就算是wet實驗也都是如此，只是dry的分析，幾乎都在電腦上，所以好的習慣變得很重要）。

論壇上其實有不少人也有這樣的問題，故整理一些不錯的文章，雖然每一個人的做法些許不同，但重點是要建立自己一套流程。

第一個重點是以project為單位來整理，不要用時間或是分散式的，所有跟某一次實驗或是分析相關的就用一組架構，架構裡最主要就分三類：資料、分析結果、分析程式碼，也是根據這三類來分，另外，可以用subproject來往下。而可以多多利用command line的技巧來減緩創建資料夾的麻煩（使用wild card），而在README文件要有良好的documentation，且可以用純文字撰寫，但可以用markdown的風格撰寫，可以在使用工具轉換成pdf、doc，使用像是pandoc的工具。

主要多花時間整理自己電腦裡的資料，整體分析的工作流程會進步更快，雖然一開始在資料量少的時候會比較煩！之後再分享用git來做版本控制！

	臨床次世代定序NGS Workshop… 在使用國網中心超級電腦台灣衫建置定序分析流程(二）
	臨床次世代定序NGS Workshop… 在使用國網中心超級電腦台灣衫建置定序分析流程(一）
	Kotlin 在可擴展標記語言XML是什麼？
	Cupid.K 在 2021 臨床次世代定序實務與應用概論
	kuoYH 在 2023 生物資訊學習資源彙整

	臨床次世代定序NGS Workshop… 在使用國網中心超級電腦台灣衫建置定序分析流程(二）
	臨床次世代定序NGS Workshop… 在使用國網中心超級電腦台灣衫建置定序分析流程(一）
	Kotlin 在可擴展標記語言XML是什麼？
	Cupid.K 在 2021 臨床次世代定序實務與應用概論
	kuoYH 在 2023 生物資訊學習資源彙整

分享此文：

發表留言 取消回覆

發表留言取消回覆