本章主要講解,如何在where子句中使用正則表達式從而精確篩選數據。
正則表達式干啥的?
用來匹配文本的特殊串,比如從一段文本中提取郵箱和電話號碼,再比如查找指定規則的文件名,再再比如將頁面的URL替換為實際的HTML鏈接等等。
Mysql中正則表達式
mysql用where子句對正則表達式提供了初級支持,允許用你指定的正則表達式過濾select出來的數據。
幾個簡單的例子
找出address字段所有包含‘47’的行。
從上圖可以看出,REGEXP和LIKE的用法很是相似。但是并沒發現它的優勢,繼續看。
找出address字段所有‘102’的行,可以是任何字符。
‘.’字符可以匹配任何一個字符,所以匹配出來的結果中有‘1027’,‘1029’,‘102 ’(102空格)。
當然這個功能用LIKE和通配符依然可以完成,那么我還用正則干什么呢?
LIKE和REGEXP的區別
LIKE只有在完全匹配的情況下才會返回值,而REGEXP是包含的情況下就能返回值。我看根據結果可以對比一下。
聰明的你,也許看完這三張圖就都明白了。
前面說過mysql在匹配結果時是忽略大小寫的
但是使用正則表達式就可以區分大小寫,而不必修改mysql的配置,畢竟不是所有人都是DBA。
為了區分大小寫,可以使用BINARY關鍵字,比如where address REGEXP BINARY 'Beijing .000'。
OR匹配
匹配address中所有包含‘47’或者‘35’的行。
在邏輯表達中,‘|’表示或者,多個“或者”條件放在一起時,只要滿足其中一個就返回值,所以,返回的數據集合應該是滿足任何一個條件的合集。
匹配特定的字符
如果你想匹配特定的字符,需要給特定的字符設置一個字符集,用中括號[]表示,有點像我們編程時用的數組。
上圖是想匹配,包含‘10’,‘11,‘12’,‘13’的address字段的值。
其實這種方式也是一種OR,我們還可以這么寫,REGEXP '10|11|12|13'。
個人覺得分組看起來更清晰,而且隨著匹配規則的愈加復雜,|會干擾邏輯運算,稍不注意就會影響我們篩選數據的結果。
匹配范圍
仍然用到剛才的分組,比如你想匹配0-9的數字,[0-9].
比如我想比配字符a,b,c,...,x,y,z,[a-z]。
如果你想匹配0-3,6-9的范圍,[0-36-9]。字符也是同理,這樣進行范圍匹配就很方便編寫正則表達式了。
例如我們常見的電話號碼,QQ號,郵箱賬號等等,都會用到。
正則表達式中,特殊符號要轉義
我們知道.在正則表達式中,表示匹配任意一個字符,但是在字段的值中也很有可能出現,我想匹配值中的‘.’時,就需要轉義。
轉義很簡單,在‘.’前面加個'\'就行。
其他需要轉義的常見字符還有, . \ | [],以及下面這些元字符
轉義時咋是兩個斜杠?
我們剛學C語言時,也聽過或者用過轉義,一般用一個\就搞定了,為什么mysql中需要兩個?
因為,這是mysql官方要求,其中一個\由mysql負責解析,另一個由正則表達式庫來解析。
大致原因如此,原理不詳。
mysql幫你定義好了的字符類
下面是預定義的字符集,使用時可以參考下表
匹配多個實例
之前的例子都是匹配單次出現,但是實際工作中會匹配多次出現的情況,所以我們要學會對出現次數的控制來強化我們的正則表達式。
上一張書上的配圖
要注意放置的次序,一般放在[]后面,字符串后面。
比如,我想在city表中查找city字段中帶(),并且括號中的英文字符數至少有8個的行。聽起來有點拗口是吧?
然后我們解讀一下REGEXP后面的內容吧,首先轉義(,就是\(。
然后用[]分組,確定英文字符的范圍,小寫a-z以及大寫A-Z,就是[a-zA-Z]。
然后用{}來控制字符出現的次數,{8,},表示出現8次或者8次以上。
最后,再次轉義,\)。
這些正則還算是簡單的,當你看到了更加復雜的正則表達式時,一定要慢慢看,逐字分析,不然心態很容易爆炸,尤其是和我一樣的菜鳥,切記。
匹配特定位置的文本
之前我們學習的都是匹配任意位置的文本,現在我們要學習匹配特定位置的文本,比如以xxx開頭,或者以xxx結尾,再或者以xxx開頭中間包含ss,又以yy結尾的。
匹配特定位置的文本的話,需要使用定位符,那么我們得知道都有什么定位符
那我們看一個簡單的例子,找出以數字開頭,并包含‘Drive’的行。
我作了一個錯誤的示范,不要犯同樣的錯誤哦。
我把2個條件都寫在了一個正則表達式里了,然后根本查不出數據來,如圖:
然后仔細一讀正則,發現了問題,圖中的正則表示找出以數字drive開頭的數據,當然,數據庫中并不存在這樣的數據。
我想要的是包含drive,而不是從頭匹配drive。這是兩個條件,所以我們應該分開寫,把regexp寫在兩個where子句中。
這樣一來,我們想要篩選的數據就出來了。
注意 ^
^有兩種用途,第一種,表示從頭匹配字符串。
另一種,否定集合內容。[^1-5],表示,除了1-5的字符之外的字符,可以是6,7,8,a,b,c等等。
好啦,第九章,搞定。