在一開始使用ggplot2時,一定會被其要的data input格式所困擾,其實那是養成好習慣和觀念的開始,在Hadley Wickham 最近剛完成的R for Data Science 裡頭很重要的一件事就是使用tidy的data來“往返”整個資料分析的過程,讓各個package之間的I/O能完美的銜接,且從根源解決常因資料格式不同而要從新處理的問題。
關於怎樣的資料才算是“tidy”的呢?這篇論文中Hadley Wickham已經非常仔細地探討了,有興趣可以進一步點開。
三個重點決定了一筆資料的乾淨與否
- 每行就代表一個變數(量測的性質)
- 每一列為一個觀察點(樣本、或是病人、檢體..)
- 每一個table就是在講一類事情
髒的資料,無法直接filter,需要進一步整理
乾淨的資料,可直接filter,甚至在excel中就可以處理
相關跟處理tidy data的包,有下面這些:
沒圖沒真相!
讚讚