Python 3 爬蟲學習筆記 2 -findAll 正則表達式 lambda表達式

此學習筆記整理于 Ryan Mitchell Web Scraping with Python- Collecting Data from the Modern Web (2015) Chapter 2 Advanced HTML Parsing

首先說明下我為什么要用這本書,因為這本書并不是入門書籍。那么我是不是小白呢!肯定是,那么為什么不用入門書籍呢?原因在于我之前自學過Python,然后斷了,然后再學,然后再斷。所以就選了這本,硬著來吧。

一,來,說一個函數吧。findAll



網頁代碼


findAll(tag, attributes, recursive, text, limit, keywords)?

第一個參數,tag。即上圖中的span,string或者list (string就是文本,list就是列表,都是Python中的單元,可以查下看下就行,不查也行,字面意思,可能有些語法問題,暫時也不用知道吧)

第二個參數,attributes。即上圖中的class=‘red’。dictionary (dictionary就是字典,key和value,即有鍵和值(鍵可以理解為索引),class是鍵,red是值)

第三個參數,recursive。我們打開的html形式的內容類似樹狀結構。如下圖。這個參數就是問你是否要深挖結構,如果不深挖,就是大的樹枝,如果深挖,set it true,就是大樹枝挖完后還要挖大樹枝上面的小樹枝。例如,span下面如果還有一個低層級的span。當然了我也不知道有沒有這樣的結構,只是理解。默認值是True,深挖,畢竟是findAll。


html 結構

第四個參數,text。作者說不常用,就是找對應的text。可以算出來對應的text在page里面出現了幾次。findAll(text='XX')

第五個參數,limit,就是找?guī)讉€吧。

第六個參數,keywords.直接上attributes我的理解,class=‘red’。作者說了,一般不用keywords,因為class是Python的保留詞,雖然也可以加一個小橫線class_=‘red’來用,但是也可以用 findAll(“”,{“class”:"red")來替代findAll(class_='red')。作者又說了,keywords可以幫我們進一步refine我們的內容,進一步篩選。

findAll是根據名字和屬性attributes來確定tags的。

ok,函數說完。

下面的是如何根據位置來確定需要的tag的。

主要的就是兩點,父子關系,后代和姐妹關系。children & parent,descendants and siblings。


子關系,children是緊挨著下一層,對應.descendants 是所有的下層包括下一層(children)


兄弟姐妹關系

在兄弟姐妹關系上,跳過了第一個,因為是next_siblings.同樣的還有next_sibling。單數的兄弟姐妹

還有就是previous_sibling and previous_siblings。


父關系

二,正則表達式

先來一個笑話吧

Let’s say you have a problem, and you decide to solve it with regular expressions. Well, now you have two problems。

但我覺得,既然決定了要學Python,so, the only thing we have to fear is fear itself. 如果有一天我停更了,真是啪啪打臉啊。

舉個栗子

下面有幾個規(guī)則:

1,a至少寫1遍,開頭

2,后面正好跟了5個b

3,后面跟了偶數個c

4,最后d可選結尾。

感覺很直觀吧!ok,rewrite in regular expression. regex

aa*bbbbb(cc)*(d | )

a 一個a

a* 若干個a,從0開始計數

(cc)這樣的組合cc

(cc)* 這樣的如何若干次

d | ?d or nothing

(d | )這樣的組合

完成!

三,結合


結合

需要加載re import re

\. 表示.

\/ 表示/

../img/gifts/imgXX.jpg (XX表示一位數或者兩位數或者多位數)

四,lambda表達式

lambda表達式省去了定義函數的麻煩,直接用!findAll支持lambda表達式,但是!有一個前提,這個lambda的參數是tag,返回值是邏輯值boolean。

舉個栗子



P.S.:沒能上車的小伙伴歡迎留言,如果我會我直接回答你!如果不會,我谷歌后回答你!如果要加我微信,不行。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,572評論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現死者居然都...
    沈念sama閱讀 98,071評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,409評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,569評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,360評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 54,895評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,979評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,123評論 0 286
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發(fā)現了一具尸體,經...
    沈念sama閱讀 48,643評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,559評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,742評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,250評論 5 356
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 43,981評論 3 346
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,363評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,622評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,354評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,707評論 2 370

推薦閱讀更多精彩內容