tidy data- 怎麼樣的資料才是“整齊乾淨的”

在一開始使用ggplot2時,一定會被其要的data input格式所困擾,其實那是養成好習慣和觀念的開始,在Hadley Wickham 最近剛完成的R for Data Science  裡頭很重要的一件事就是使用tidy的data來“往返”整個資料分析的過程,讓各個package之間的I/O能完美的銜接,且從根源解決常因資料格式不同而要從新處理的問題。

關於怎樣的資料才算是“tidy”的呢?這篇論文中Hadley Wickham已經非常仔細地探討了,有興趣可以進一步點開。

三個重點決定了一筆資料的乾淨與否

  1. 每行就代表一個變數(量測的性質)
  2. 每一列為一個觀察點(樣本、或是病人、檢體..)
  3. 每一個table就是在講一類事情

 

 

髒的資料,無法直接filter,需要進一步整理
screenshot.png
乾淨的資料,可直接filter,甚至在excel中就可以處理
screenshot.png
相關跟處理tidy data的包,有下面這些:
  • magrittr: 主要將pipe的概念帶入R中,使用%>%符號
  • dplyr: 一整套處理data.frame的包
  • tidyr: 將資料整理成tidy form的包,其中gather, spread是最關鍵的函數
  • broom: 將R內建常見的統計輸出整理成tidy form

對「tidy data- 怎麼樣的資料才是“整齊乾淨的”」的一則回應

發表留言