使用RE庫

RE庫是python標準庫,主要用于字符串匹配。

re庫采用raw string類型。書寫格式為r'text'

原生字符串,是不包含轉義符的字符串。如果直接使用string 類型表示正則,則需要轉義掉轉義符。因此直接使用原生字符串較為簡單。

RE 的主要函數

re.search() #在字符串中搜索和正則匹配的第一個位置。
re.match() #從字符串開始位置起匹配。
re.findall() #搜索字符串,以列表返回全部匹配的子串。
re.split() #將一個字符串正則匹配結果進行分割,返回一個列表。
re.finditer() #搜索字符串,返回迭代類型,每個迭代元素都是一個match對象。
re.sub() #在一個字符串中替換所以匹配正則的子串,返回替代后的。

re.search

re.search(pattern, string, flags = 0)
利用正則pattern 匹配string,同時利用flags 控制查找。

其中的flags,表示正則表達式使用的控制標記。常用標記包括:

re.I #re.IGNORECASE,忽略正則的大小寫區分,[A-Z]可以匹配大小寫字母。
re.M #re.MULTILINE,可以使^ 能夠匹配給定字符串每行的開始部分。
re.S #re.DOTALL,可以使. 匹配所有的字符,包括默認下無法匹配的換行符。

嘗試一下

>>> import re
>>> match = re.search(r'[1-9]\d{5}', 'AHAU 200036')
>>> if match:
...     print(match.group(0))
... 
200036

re.match

re.match(pattern, string, flags = 0)
參數和search 一樣。

需要注意的是,如果是使用match,會從字符串的起始部分進行匹配。因此若不進行調整,即依舊為'AHAU 200036',match 則匹配不到。

>>> import re
>>> match = re.match(r'[1-9]\d{5}', '200036 AHAU')
>>> if match:
...     print(match.group(0))
... 
200036

re.findall

以列表返回全部匹配到的子串。

>>> match = re.findall(r'[1-9]\d{5}', '200036AHAU TSU100084 345')
>>> if match:
...     print(match)
... 
['200036', '100084']

re.split

將正則與字符串匹配的部分刪除,并將剩下內容進行分割。
re.match(pattern, string, maxsplit = 0, flags = 0)
maxsplit 表示最大分割數(識別并進行切割的最大數字),超過最大分割部分以整體輸出。

>>> re.split(r'[1-9]\d{5}', 'AHAU200036 TSU100084')
['AHAU', ' TSU', '']

增加maxsplit參數,只匹配并切割一次,剩下的部分以整體輸出。

>>> re.split(r'[1-9]\d{5}', 'AHAU200036 TSU100084', maxsplit = 1)
['AHAU', ' TSU100084']

re.finditer

迭代獲得每次匹配結果,返回一個match類型。

>>> for m in re.finditer(r'[1-9]\d{5}', 'AHAU200036 TSU100084'):
...     if m:
...             print(m.group(0))
... 
200036
100084

re.sub

re.sub(pattern, repl, string, count = 0, flags = 0)
repl 表示替換匹配字符串的字符串
count 表示匹配的最大替換次數。(和maxsplit 的功能差不多)

>>> re.sub(r'[1-9]\d{5}', 'unknown', 'AHAU:200036 TSU:100084')
'AHAU:unknown TSU:unknown'

可以加一個count 參數

>>> re.sub(r'[1-9]\d{5}', 'unknown', 'AHAU:200036 TSU:100084', count = 1)
'AHAU:unknown TSU:100084'

re 的其他用法

對于一套正則表達式的多次使用,如果每一次都重新定義一遍pattern,未免顯得非常的繁瑣。我們可以使用一種面向對象的做法。

先講正則經過一次編譯,將正則的原生字符串編譯為一個正則表達式對象。

import re
zcode = re.complie(r'[1-9]\d{5}')
match = zcode.match('200036 AHAU')
search = zcode.search('TSU 100084')

而它的使用,也和基本使用是一摸一樣的。


詳談RE庫的match 對象

match 對象是search, match, finditer 這些方法返回的結果。

>>> match = re.search(r'[1-9]\d{5}', '200036AHAU TSU100084 345')
>>> match.group(0)
'200036'
>>> match
<re.Match object; span=(0, 6), match='200036'>
>>> type(match)
<class 're.Match'>

match對象的屬性

.string #待匹配的文本
.re #匹配時使用pattern對象(正則)
.pos #正則表達式搜索文本開始
.endpos #正則表達式搜索文本末尾
>>> m = re.search(r'[1-9]\d{5}', '200036AHAU TSU100084 345')
>>> m.string
'200036AHAU TSU100084 345'
>>> m.re
re.compile('[1-9]\\d{5}')
>>> m.pos
0
>>> m.endpos
24

match 對象的方法

.group(0) #獲得匹配后字符串
.start() #匹配字符串在原始字符串的開始位置
.end() #匹配字符串在原始字符串的結束位置
.span() #返回元組類型,包含start與end
>>> m.group(0)
'200036'
>>> m.start()
0
>>> m.end()
6
>>> m.span()
(0, 6)
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,238評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,430評論 3 415
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,134評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,893評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,653評論 6 408
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,136評論 1 323
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,212評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,372評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,888評論 1 334
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,738評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,939評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,482評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,179評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,588評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,829評論 1 283
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,610評論 3 391
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,916評論 2 372