給生物學家的計算分析(二):用Regular Expression來搜尋及處理文本

閱讀自Practical Computing for biologists by Haddock Dunn

給生物學家的計算分析(一):文本乃資料分析之底

Regular Expression是什麼呢?對於生物背景的人來說,一開始對於這名詞總是霧茫茫的。想要深入研究的話,可以看這篇文章 。簡單來說,Regular Expression(正規表達式)是用來標記某種特定文字pattern的符號表達方式,讓我們能用更強大的方式搜索文本並且修改,要注意的地方是不同程式之間所使用的Regular Expression會有一些差異,這邊想要介紹是Regex

Regular Expression在表達一個搜尋pattern時,主要由三類型符號組成:

  • Anchors :代表要搜尋字串的相對位置
  • Character Sets:在此位置上的符號是什麼
  • Modifiers:多少次符合上面Character Sets的表達

威力強大的工具:搜尋+取代

搜尋字彙(character sets)
意思
\w
可代表文字、數字或是底標
\t
代表Tab符號
\s
代表空白鍵、Tab、和end of line
\r      \n
代表end of line
\d
代表數字0-9
.
代表任何符號除了end of line
Anchor
意思
第一個符號
最後一個符號
Modifiers
意思
[   ]
客製化wildcard
{   }
創建一個array
(    )
指定此內符號被置換

來看一下實際的例子

RE.001

對「給生物學家的計算分析(二):用Regular Expression來搜尋及處理文本」的一則回應

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 /  變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s