學習正則表達式

寫在最前面的話

最近在瀏覽Github Star榜時發現了關于學習正則表達式的介紹,感覺非常不錯,可以邊看邊學邊練習,所以Fork過來學習分享。作為字符匹配的神器,學會使用正則表達式無疑可以幫助我們方便進行各種文本處理。

因為文章中的例子采用的是html格式,簡書的md編輯器解析不了,我就全部刪除掉了。如果你想要查看原文的話,點擊https://github.com/ShixiangWang/learn-regex/blob/master/README-cn.md

什么是正則表達式?

正則表達式是一組由字母和符號組成的特殊文本, 它可以用來從文本中找出滿足你想要的格式的句子.

一個正則表達式是在一個主體字符串中從左到右匹配字符串時的一種樣式.
"Regular expression"這個詞比較拗口, 我們常使用縮寫的術語"regex"或"regexp".
正則表達式可以從一個基礎字符串中根據一定的匹配模式替換文本中的字符串、驗證表單、提取字符串等等.

想象你正在寫一個應用, 然后你想設定一個用戶命名的規則, 讓用戶名包含字符,數字,下劃線和連字符,以及限制字符的個數,好讓名字看起來沒那么丑.
我們使用以下正則表達式來驗證一個用戶名:

以上的正則表達式可以接受 john_doe, jo-hn_doe, john12_as.
但不匹配Jo, 因為它包含了大寫的字母而且太短了.

目錄

1. 基本匹配

正則表達式其實就是在執行搜索時的格式, 它由一些字母和數字組合而成.
例如: 一個正則表達式 the, 它表示一個規則: 由字母t開始,接著是h,再接著是e.

"the" => The fat cat sat on the mat.

在線練習

正則表達式123匹配字符串123. 它逐個字符的與輸入的正則表達式做比較.

正則表達式是大小寫敏感的, 所以The不會匹配the.

在線練習

2. 元字符

正則表達式主要依賴于元字符.
元字符不代表他們本身的字面意思, 他們都有特殊的含義. 一些元字符寫在方括號中的時候有一些特殊的意思. 以下是一些元字符的介紹:

元字符 描述
. 句號匹配任意單個字符除了換行符.
[ ] 字符種類. 匹配方括號內的任意字符.
[^ ] 否定的字符種類. 匹配除了方括號里的任意字符
* 匹配>=0個重復的在*號之前的字符.
+ 匹配>=1個重復的+號前的字符.
? 標記?之前的字符為可選.
{n,m} 匹配num個中括號之前的字符 (n <= num <= m).
(xyz) 字符集, 匹配與 xyz 完全相等的字符串.
| 或運算符,匹配符號前或后的字符.
\ 轉義字符,用于匹配一些保留的字符 <code>[ ] ( ) { } . * + ? ^ $ \ |</code>
^ 從開始行開始匹配.
$ 從末端開始匹配.

2.1 點運算符 .

.是元字符中最簡單的例子.
.匹配任意單個字符, 但不匹配換行符.

在線練習

2.2 字符集

字符集也叫做字符類.
方括號用來指定一個字符集.
在方括號中使用連字符來指定字符集的范圍.
在方括號中的字符集不關心順序.
例如, 表達式[Tt]he 匹配 theThe.

在線練習

方括號的句號就表示句號.
表達式 ar[.] 匹配 ar.字符串

在線練習

2.2.1 否定字符集

一般來說 ^ 表示一個字符串的開頭, 但它用在一個方括號的開頭的時候, 它表示這個字符集是否定的.
例如, 表達式[^c]ar 匹配一個后面跟著ar的除了c的任意字符.

在線練習

2.3 重復次數

后面跟著元字符 +, * or ? 的, 用來指定匹配子模式的次數.
這些元字符在不同的情況下有著不同的意思.

2.3.1 *

*號匹配 在*之前的字符出現大于等于0次.
例如, 表達式 a* 匹配以0或更多個a開頭的字符, 因為有0個這個條件, 其實也就匹配了所有的字符. 表達式[a-z]* 匹配一個行中所有以小寫字母開頭的字符串.

在線練習

*字符和.字符搭配可以匹配所有的字符.*.
*和表示匹配空格的符號\s連起來用, 如表達式\s*cat\s*匹配0或更多個空格開頭和0或更多個空格結尾的cat字符串.

在線練習

2.3.2 +

+號匹配+號之前的字符出現 >=1 次個字符.
例如表達式c.+t 匹配以首字母c開頭以t結尾,中間跟著任意個字符的字符串.

在線練習

2.3.3 ?

在正則表達式中元字符 ? 標記在符號前面的字符為可選, 即出現 0 或 1 次.
例如, 表達式 [T]?he 匹配字符串 heThe.

在線練習

在線練習

2.4 {}

在正則表達式中 {} 是一個量詞, 常用來一個或一組字符可以重復出現的次數.
例如, 表達式 [0-9]{2,3} 匹配 2~3 位 0~9 的數字.

在線練習

我們可以省略第二個參數.
例如, [0-9]{2,} 匹配至少兩位 0~9 的數字.

如果逗號也省略掉則表示重復固定的次數.
例如, [0-9]{3} 匹配3位數字

在線練習

在線練習

2.5 (...) 特征標群

特征標群是一組寫在 (...) 中的子模式. 例如之前說的 {} 是用來表示前面一個字符出現指定次數. 但如果在 {} 前加入特征標群則表示整個標群內的字符重復 N 次. 例如, 表達式 (ab)* 匹配連續出現 0 或更多個 ab.

我們還可以在 () 中用或字符 | 表示或. 例如, (c|g|p)ar 匹配 cargarpar.

在線練習

2.6 | 或運算符

或運算符就表示或, 用作判斷條件.

例如 (T|t)he|car 匹配 (T|t)hecar.

在線練習

2.7 轉碼特殊字符

反斜線 \ 在表達式中用于轉碼緊跟其后的字符. 用于指定 { } [ ] / \ + * . $ ^ | ? 這些特殊字符. 如果想要匹配這些特殊字符則要在其前面加上反斜線 \.

例如 . 是用來匹配除換行符外的所有字符的. 如果想要匹配句子中的 . 則要寫成 \. 以下這個例子 \.?是選擇性匹配.

在線練習

2.8 錨點

在正則表達式中, 想要匹配指定開頭或結尾的字符串就要使用到錨點. ^ 指定開頭, $ 指定結尾.

2.8.1 ^

^ 用來檢查匹配的字符串是否在所匹配字符串的開頭.

例如, 在 abc 中使用表達式 ^a 會得到結果 a. 但如果使用 ^b 將匹配不到任何結果. 因為在字符串 abc 中并不是以 b 開頭.

例如, ^(T|t)he 匹配以 Thethe 開頭的字符串.

在線練習

在線練習

2.8.2 $

同理于 ^ 號, $ 號用來匹配字符是否是最后一個.

例如, (at\.)$ 匹配以 at. 結尾的字符串.

在線練習

在線練習

3. 簡寫字符集

正則表達式提供一些常用的字符集簡寫. 如下:

簡寫 描述
. 除換行符外的所有字符
\w 匹配所有字母數字, 等同于 [a-zA-Z0-9_]
\W 匹配所有非字母數字, 即符號, 等同于: [^\w]
\d 匹配數字: [0-9]
\D 匹配非數字: [^\d]
\s 匹配所有空格字符, 等同于: [\t\n\f\r\p{Z}]
\S 匹配所有非空格字符: [^\s]
\f 匹配一個換頁符
\n 匹配一個換行符
\r 匹配一個回車符
\t 匹配一個制表符
\v 匹配一個垂直制表符
\p 匹配 CR/LF (等同于 \r\n),用來匹配 DOS 行終止符

4. 前后關聯約束(前后預查)

前置約束和后置約束都屬于非捕獲簇(用于匹配不在匹配列表中的格式).
前置約束用于判斷所匹配的格式是否在另一個確定的格式之后.

例如, 我們想要獲得所有跟在 $ 符號后的數字, 我們可以使用正向向后約束 (?<=\$)[0-9\.]*.
這個表達式匹配 $ 開頭, 之后跟著 0,1,2,3,4,5,6,7,8,9,. 這些字符可以出現大于等于 0 次.

前后關聯約束如下:

符號 描述
?= 前置約束-存在
?! 前置約束-排除
?<= 后置約束-存在
?<! 后置約束-排除

4.1 ?=... 前置約束(存在)

?=... 前置約束(存在), 表示第一部分表達式必須跟在 ?=...定義的表達式之后.

返回結果只瞞住第一部分表達式.
定義一個前置約束(存在)要使用 (). 在括號內部使用一個問號和等號: (?=...).

前置約束的內容寫在括號中的等號后面.
例如, 表達式 [T|t]he(?=\sfat) 匹配 Thethe, 在括號中我們又定義了前置約束(存在) (?=\sfat) ,即 Thethe 后面緊跟著 (空格)fat.

在線練習

4.2 ?!... 前置約束-排除

前置約束-排除 ?! 用于篩選所有匹配結果, 篩選條件為 其后不跟隨著定義的格式
前置約束-排除 定義和 前置約束(存在) 一樣, 區別就是 = 替換成 ! 也就是 (?!...).

表達式 [T|t]he(?!\sfat) 匹配 Thethe, 且其后不跟著 (空格)fat.

在線練習

4.3 ?<= ... 后置約束-存在

后置約束-存在 記作(?<=...) 用于篩選所有匹配結果, 篩選條件為 其前跟隨著定義的格式.
例如, 表達式 (?<=[T|t]he\s)(fat|mat) 匹配 fatmat, 且其前跟著 Thethe.

在線練習

4.4 ?<!... 后置約束-排除

后置約束-排除 記作 (?<!...) 用于篩選所有匹配結果, 篩選條件為 其前不跟著定義的格式.
例如, 表達式 (?<!(T|t)he\s)(cat) 匹配 cat, 且其前不跟著 Thethe.

在線練習

5. 標志

標志也叫修飾語, 因為它可以用來修改表達式的搜索結果.
這些標志可以任意的組合使用, 它也是整個正則表達式的一部分.

標志 描述
i 忽略大小寫.
g 全局搜索.
m 多行的: 錨點元字符 ^ $ 工作范圍在每行的起始.

5.1 忽略大小寫 (Case Insensitive)

修飾語 i 用于忽略大小寫.
例如, 表達式 /The/gi 表示在全局搜索 The, 在后面的 i 將其條件修改為忽略大小寫, 則變成搜索 theThe, g 表示全局搜索.

在線練習

在線練習

5.2 全局搜索 (Global search)

修飾符 g 常用語執行一個全局搜索匹配, 即(不僅僅返回第一個匹配的, 而是返回全部).
例如, 表達式 /.(at)/g 表示搜索 任意字符(除了換行) + at, 并返回全部結果.

在線練習

在線練習

5.3 多行修飾符 (Multiline)

多行修飾符 m 常用語執行一個多行匹配.

像之前介紹的 (^,$) 用于檢查格式是否是在待檢測字符串的開頭或結尾. 但我們如果想要它在每行的開頭和結尾生效, 我們需要用到多行修飾符 m.

例如, 表達式 /at(.)?$/gm 表示在待檢測字符串每行的末尾搜索 at后跟一個或多個 . 的字符串, 并返回全部結果.

在線練習

在線練習

貢獻

許可證

MIT ? Zeeshan Ahmed

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,401評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,011評論 3 413
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,263評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,543評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,323評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,874評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,968評論 3 439
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,095評論 0 286
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,605評論 1 331
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,551評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,720評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,242評論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 43,961評論 3 345
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,358評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,612評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,330評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,690評論 2 370

推薦閱讀更多精彩內容