tidy data- 怎麼樣的資料才是“整齊乾淨的”

在一開始使用ggplot2時，一定會被其要的data input格式所困擾，其實那是養成好習慣和觀念的開始，在Hadley Wickham 最近剛完成的R for Data Science 裡頭很重要的一件事就是使用tidy的data來“往返”整個資料分析的過程，讓各個package之間的I/O能完美的銜接，且從根源解決常因資料格式不同而要從新處理的問題。

關於怎樣的資料才算是“tidy”的呢？這篇論文中Hadley Wickham已經非常仔細地探討了，有興趣可以進一步點開。

三個重點決定了一筆資料的乾淨與否

每行就代表一個變數（量測的性質）
每一列為一個觀察點（樣本、或是病人、檢體..）
每一個table就是在講一類事情

髒的資料，無法直接filter，需要進一步整理

乾淨的資料，可直接filter，甚至在excel中就可以處理

相關跟處理tidy data的包，有下面這些：

magrittr: 主要將pipe的概念帶入R中，使用%>%符號
dplyr: 一整套處理data.frame的包
tidyr: 將資料整理成tidy form的包，其中gather, spread是最關鍵的函數
broom: 將R內建常見的統計輸出整理成tidy form

	Kotlin 在可擴展標記語言XML是什麼？
	Cupid.K 在 2021 臨床次世代定序實務與應用概論
	kuoYH 在 2023 生物資訊學習資源彙整
	路人乙在從醫院到個人，從中心到去中心
	路人乙在重灌更新Pop!_OS：miniconda, R, Rstu…

	Kotlin 在可擴展標記語言XML是什麼？
	Cupid.K 在 2021 臨床次世代定序實務與應用概論
	kuoYH 在 2023 生物資訊學習資源彙整
	路人乙在從醫院到個人，從中心到去中心
	路人乙在重灌更新Pop!_OS：miniconda, R, Rstu…

tidy data- 怎麼樣的資料才是“整齊乾淨的”

對「tidy data- 怎麼樣的資料才是“整齊乾淨的”」的一則回應

發表留言取消回覆

分享此文：

對「tidy data- 怎麼樣的資料才是“整齊乾淨的”」的一則回應

發表留言 取消回覆

發表留言取消回覆