深入探索R tibble包

2016 年 08 月 29 日2018 年 01 月 28 日發表留言

tibble包其實就是將原本dpylr裡面tbl_df S3 class提取出來完善，而讓dpylr包更專注在data.fram資料的挪移操作。而tbl_df class 以S3的形式把data.frame包起來，以提供更好的展示能力和資料操作的方便性。

我們可以由三個方面來理解tibble包：

tibble中有什麼function可以操作、tbl_df中有哪些method。
如何創建一個tibble data structure或是從傳統data.frame轉換
其操作上跟data.frame有什麼差別

tibble包中有什麼？

在tbl_df class其主要有四個base method，其實就是基於data.frame的基本操作，如[,[[,$等subsetting的操作，還有print的顯示改善。

而tibble包中提供很多function來操作變化tbl_df的資料結構。

add_row：直接新增資料到原有的數據中
all_equal：辨別兩個tbl_df是否相同
as_tibble：將data.frame轉換為tbl_df/tibble
enflame：將atomic轉換成tbl_df
frame_data：使用row-wise的方式建立tbl_df,適合資料量小的操作
glimpse：展示資料中的變數
has_name：展示資料中的名稱
is.tibble：判定資料是否為tbl_df格式
tibble: 建立tbf_df資料格式

如何使用tibble

創建

創建的方式，跟使用data.frame類似，在資料量小時，也可以使用frame_data的方式來創建，可以格外的直覺。

轉換

基本上，就很像使用as.data.frame一樣，as_data_frame為as_tibble的別稱（alias），所以基本上是相同的。

跟data.frame最大的差別

在操作tbl_df格式的資料和操作傳統data.frame最大的差別在於subsetting和printing上。tbl_df的邏輯其實就是要讓資料呈現簡單，另外，subset造成的資料格式轉化能消失，讓人盡量使用dplyr裡頭的方式。

tbl_df的subsetting還是個tbl_df，這點跟純data.frame不同，要小心。

tbl_df的printing預設只呈現10行，但可以使用options來調整。

閱讀參考 link

張丹 R语言数据科学新类型tibble
Hadley Wickham R for data science tibble chapter

Docker指令筆記

2016 年 08 月 27 日發表留言

Docker技術，在近年來逐漸被應用在建立很多生物資訊的環境上，Docker可以提供很好的環境隔離，很多生物資訊的軟件其dependency不同，常常會造成衝突問題，而Docker的出現剛好可以解決這樣得問題。尤其最近雲端計算領域的興起，造就docker的狂潮。

Docker官網裡面的documentation非常清楚，這邊簡單整理常用的幾個。

docker基本指令

Docker環境訊息：info , version
容器生命週期管理：create, exec, kill, pause, restart, rm, run, start, stop, unpause
鏡像倉庫命令：login, logout, pull, push ,search
鏡像管理：build, images, import, load, rmi, save ,tag, commit
容器運維操作：attach, export, inspect, port, ps, rename , stats, top, wait, cp, diff
系統日誌管理：events, history, logs

[閱讀筆記]從小工到專家第二章注重實效的途徑

2016 年 08 月 11 日2016 年 08 月 27 日發表留言

原文：程序員修煉之道-從小工到專家

這時代很多領域都開始需要會寫程式來幫助其提高工作效率，已經不限於本科“計算機科學”的人了，而寫程式過了第一關基本語法的學習後，後多時候就是要培養好的思惟架構和技巧，如何讓自己在寫程式這件事情上事半功倍，絕對很重要。

這章提到如何提升編成效率的原則可以由下面的這句話總結：

“假如你做了，那麼你往後的效率會越來越好，因為…你沒有留給自己爛攤子，並且為自己的未來打造好的工具。”

兩個提升編成效率的要點分別是：

1. 不要重複 Don’t Repeat Yourself （~~幫未來的自己打造好工具~~）

2. 代碼的正交性(~~沒有給自己留爛攤子~~)

第一個提升自己編成效能的重點：不要重複
在由不同脈絡下的重複行為來分類：

DRY:Don’t repeat yourself

a. 強加的重複 Imposed duplication

多多利用Snippet
常常我們在撰寫代碼或是分析時候，都會編著一些基本架構，像是日期、誰編的、分類等等，重複性的敘述，這邊往往可以藉由編寫簡單的過濾器、或是代碼生成器就可以解決。
另外，編譯器都可以設定snippet等，第一手解決很多重複撰寫的問題。

文檔與代碼
代碼的註解能精簡就精簡，不要註解很“簡單”的代碼。

b. 無意的重複 Inadvertent duplication

這邊指得是代碼撰寫時“設計”不良，所造成的重複，或是data model設計不好，造成後續引用或是修改時候會重複的緩存數據。
c. 無奈的重複 Impatient duplication

“欲速則不達時”我們就會把很多該參數化的代碼混過去，這樣造成後面無法簡單的去引用。
d. 開發者之間的重複 Interdeveloper duplication

在團隊合作開發時，要是沒有很好的策劃，容易重複開發“功能一樣”的模塊，這時候就會浪費時間。

第二個提升自己編成效能的要點：考慮代碼間的正交性

Eliminate effects between unrelated things

這點蠻好理解的，要撰寫的模塊之間彼此獨立，優點可以提高“往後”的生產效率，和降低開發風險，有一些小細節是可以注意的：

從一開始的設計就要抱持者layer by layer的概念
謹慎地挑選要引入的技術或是工具
讓代碼解離
避免全局數據的使用
模塊測試
文檔的撰寫（當你為代碼模塊撰寫文檔，要是這些文檔能輕易的單獨閱讀，當然代表這些代碼模塊之間是獨立的）

[閱讀筆記]從小工到專家：第一章注重實效的哲學

2016 年 08 月 04 日發表留言

原文書: 程序員修煉之道-從小工到專家

第一章的重點大概分成三個：
1. 軟件的熵
2. 細心地規劃自己的知識資產
3. 積極的交流

第一個重點便是要自律性的規劃自己要撰寫的軟件，可以套用在個人或是團體，在團體中更為重要，不然當專案越來越大的時候，“坑”也會越來越多，書裡面的提示蠻生動的：

Don’t Live with Broken Window! ——提示四

可能代表….你在代碼裡留了個“坑”，當別人要跟你的代碼相接的時候，就代表得往你的窗戶丟東西惹！

第二個重點將知識當作投資

雖然這道理很簡單，但要認真的態度去實現卻是困難的，可是在變化越快速的領域，似乎知識價值的漲跌也如同股票一樣，要小心配置規劃。最好要：

定期投資
多元化
管理風險
低買高賣
重新評估和平衡

這幾點似乎可以當作一個循環來操作，定期的投資代表要適時規劃時間在做“學習”，而多元化則代表廣而淺的接觸，管理風險則是決定自己要學習什麼樣的東西，低買高賣的概念則是盡量讓自己所學的可以被“看到”，不管是自己想一個小計劃來實現，或是實際使用新學的東西在工作上，最後則是一段時間就重新評估一下整體的配置。所以想要成為專家，就要不停的“學到老活到老”。

第三個重點交流

我相信，被打量比被忽略要好 —–Mar West, Belle of the Nineties, 1934

裡頭的重點其實第一步是心態，要抱持者上面這句話的精神，不要龜縮，而實現上則是要注重溝通的技巧，裡頭提供一個很棒的小口訣WISDOM

W:你想讓他們知道什麼？讓他們學到什麼？
I：他們對什麼感興趣？
S：他們本身經驗多豐富？能否聽懂你說的話？
D：要透露多少細節？或是他們想知道多深？
O：對方適合知道這些嗎？
M：你如何讓他們想聽你說話

當然除了對交流對象事先了解很重要外，選擇對的時機，對的溝通方式，讓對方參與，傾聽和回覆都是重要的技巧。

	臨床次世代定序NGS Workshop… 在使用國網中心超級電腦台灣衫建置定序分析流程(二）
	臨床次世代定序NGS Workshop… 在使用國網中心超級電腦台灣衫建置定序分析流程(一）
	Kotlin 在可擴展標記語言XML是什麼？
	Cupid.K 在 2021 臨床次世代定序實務與應用概論
	kuoYH 在 2023 生物資訊學習資源彙整

	臨床次世代定序NGS Workshop… 在使用國網中心超級電腦台灣衫建置定序分析流程(二）
	臨床次世代定序NGS Workshop… 在使用國網中心超級電腦台灣衫建置定序分析流程(一）
	Kotlin 在可擴展標記語言XML是什麼？
	Cupid.K 在 2021 臨床次世代定序實務與應用概論
	kuoYH 在 2023 生物資訊學習資源彙整