閱讀自Practical Computing for biologists by Haddock Dunn
Regular Expression是什麼呢?對於生物背景的人來說,一開始對於這名詞總是霧茫茫的。想要深入研究的話,可以看這篇文章 。簡單來說,Regular Expression(正規表達式)是用來標記某種特定文字pattern的符號表達方式,讓我們能用更強大的方式搜索文本並且修改,要注意的地方是不同程式之間所使用的Regular Expression會有一些差異,這邊想要介紹是Regex
Regular Expression在表達一個搜尋pattern時,主要由三類型符號組成:
- Anchors :代表要搜尋字串的相對位置
- Character Sets:在此位置上的符號是什麼
- Modifiers:多少次符合上面Character Sets的表達
威力強大的工具:搜尋+取代
搜尋字彙(character sets)
|
意思 |
\w
|
可代表文字、數字或是底標
|
\t
|
代表Tab符號
|
\s
|
代表空白鍵、Tab、和end of line
|
\r \n
|
代表end of line
|
\d
|
代表數字0-9
|
.
|
代表任何符號除了end of line
|
Anchor
|
意思
|
^
|
第一個符號
|
$
|
最後一個符號
|
Modifiers
|
意思
|
[ ]
|
客製化wildcard
|
{ }
|
創建一個array
|
( )
|
指定此內符號被置換
|
來看一下實際的例子
對「給生物學家的計算分析(二):用Regular Expression來搜尋及處理文本」的一則回應