Python入門網絡爬蟲之精華版

Python學習網絡爬蟲主要分3個大的版塊:抓取,分析,存儲

另外,比較常用的爬蟲框架Scrapy,這里最后也詳細介紹一下。

首先列舉一下本人總結的相關文章,這些覆蓋了入門網絡爬蟲需要的基本概念和技巧:寧哥的小站-網絡爬蟲

當我們在瀏覽器中輸入一個url后回車,后臺會發生什么?比如說你輸入http://www.lining0806.com/,你就會看到寧哥的小站首頁。

簡單來說這段過程發生了以下四個步驟:

查找域名對應的IP地址。

向IP對應的服務器發送請求。

服務器響應請求,發回網頁內容。

瀏覽器解析網頁內容。

網絡爬蟲要做的,簡單來說,就是實現瀏覽器的功能。通過指定url,直接返回給用戶所需要的數據,而不需要一步步人工去操縱瀏覽器獲取。

抓取

這一步,你要明確要得到的內容是什么?是HTML源碼,還是Json格式的字符串等。

1. 最基本的抓取

抓取大多數情況屬于get請求,即直接從對方服務器上獲取數據。

首先,Python中自帶urllib及urllib2這兩個模塊,基本上能滿足一般的頁面抓取。另外,requests也是非常有用的包,與此類似的,還有httplib2等等。

Requests:

import requests

response = requests.get(url)

content = requests.get(url).content

print "response headers:", response.headers

print "content:", content

Urllib2:

import urllib2

response = urllib2.urlopen(url)

content = urllib2.urlopen(url).read()

print "response headers:", response.headers

print "content:", content

Httplib2:

import httplib2

http = httplib2.Http()

response_headers, content = http.request(url, 'GET')

print "response headers:", response_headers

print "content:", content

此外,對于帶有查詢字段的url,get請求一般會將來請求的數據附在url之后,以?分割url和傳輸數據,多個參數用&連接。

data = {'data1':'XXXXX', 'data2':'XXXXX'}

Requests:data為dict,json

import requests

response = requests.get(url=url, params=data)

Urllib2:data為string

import urllib, urllib2

data = urllib.urlencode(data)

full_url = url+'?'+data

response = urllib2.urlopen(full_url)

相關參考:網易新聞排行榜抓取回顧

參考項目:網絡爬蟲之最基本的爬蟲:爬取網易新聞排行榜

2. 對于登陸情況的處理

2.1 使用表單登陸

這種情況屬于post請求,即先向服務器發送表單數據,服務器再將返回的cookie存入本地。

data = {'data1':'XXXXX', 'data2':'XXXXX'}

Requests:data為dict,json

import requests

response = requests.post(url=url, data=data)

Urllib2:data為string

import urllib, urllib2

data = urllib.urlencode(data)

req = urllib2.Request(url=url, data=data)

response = urllib2.urlopen(req)

2.2 使用cookie登陸

使用cookie登陸,服務器會認為你是一個已登陸的用戶,所以就會返回給你一個已登陸的內容。因此,需要驗證碼的情況可以使用帶驗證碼登陸的cookie解決。

import requests

requests_session = requests.session()

response = requests_session.post(url=url_login, data=data)

若存在驗證碼,此時采用response = requests_session.post(url=url_login, data=data)是不行的,做法應該如下:

response_captcha = requests_session.get(url=url_login, cookies=cookies)

response1 = requests.get(url_login) # 未登陸

response2 = requests_session.get(url_login) # 已登陸,因為之前拿到了Response Cookie!

response3 = requests_session.get(url_results) # 已登陸,因為之前拿到了Response Cookie!

相關參考:網絡爬蟲-驗證碼登陸

參考項目:網絡爬蟲之用戶名密碼及驗證碼登陸:爬取知乎網站

3. 對于反爬蟲機制的處理

3.1 使用代理

適用情況:限制IP地址情況,也可解決由于“頻繁點擊”而需要輸入驗證碼登陸的情況。

這種情況最好的辦法就是維護一個代理IP池,網上有很多免費的代理IP,良莠不齊,可以通過篩選找到能用的。對于“頻繁點擊”的情況,我們還可以通過限制爬蟲訪問網站的頻率來避免被網站禁掉。

proxies = {'http':'http://XX.XX.XX.XX:XXXX'}

Requests:

import requests

response = requests.get(url=url, proxies=proxies)

Urllib2:

import urllib2

proxy_support = urllib2.ProxyHandler(proxies)

opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)

urllib2.install_opener(opener) # 安裝opener,此后調用urlopen()時都會使用安裝過的opener對象

response = urllib2.urlopen(url)

3.2 時間設置

適用情況:限制頻率情況。

Requests,Urllib2都可以使用time庫的sleep()函數:

import time

time.sleep(1)

3.3 偽裝成瀏覽器,或者反“反盜鏈”

有些網站會檢查你是不是真的瀏覽器訪問,還是機器自動訪問的。這種情況,加上User-Agent,表明你是瀏覽器訪問即可。有時還會檢查是否帶Referer信息還會檢查你的Referer是否合法,一般再加上Referer。

headers = {'User-Agent':'XXXXX'} # 偽裝成瀏覽器訪問,適用于拒絕爬蟲的網站

headers = {'Referer':'XXXXX'}

headers = {'User-Agent':'XXXXX', 'Referer':'XXXXX'}

Requests:

response = requests.get(url=url, headers=headers)

Urllib2:

import urllib, urllib2

req = urllib2.Request(url=url, headers=headers)

response = urllib2.urlopen(req)

4. 對于斷線重連

不多說。

def multi_session(session, *arg):

retryTimes = 20

while retryTimes>0:

try:

return session.post(*arg)

except:

print '.',

retryTimes -= 1

或者

def multi_open(opener, *arg):

retryTimes = 20

while retryTimes>0:

try:

return opener.open(*arg)

except:

print '.',

retryTimes -= 1

這樣我們就可以使用multi_session或multi_open對爬蟲抓取的session或opener進行保持。

5. 多進程抓取

這里針對華爾街見聞進行并行抓取的實驗對比:Python多進程抓取 與 Java單線程和多線程抓取

相關參考:關于Python和Java的多進程多線程計算方法對比

6. 對于Ajax請求的處理

對于“加載更多”情況,使用Ajax來傳輸很多數據。

它的工作原理是:從網頁的url加載網頁的源代碼之后,會在瀏覽器里執行JavaScript程序。這些程序會加載更多的內容,“填充”到網頁里。這就是為什么如果你直接去爬網頁本身的url,你會找不到頁面的實際內容。

這里,若使用Google Chrome分析”請求“對應的鏈接(方法:右鍵→審查元素→Network→清空,點擊”加載更多“,出現對應的GET鏈接尋找Type為text/html的,點擊,查看get參數或者復制Request URL),循環過程。

如果“請求”之前有頁面,依據上一步的網址進行分析推導第1頁。以此類推,抓取抓Ajax地址的數據。

對返回的json格式數據(str)進行正則匹配。json格式數據中,需從’\uxxxx’形式的unicode_escape編碼轉換成u’\uxxxx’的unicode編碼。

7. 自動化測試工具Selenium

Selenium是一款自動化測試工具。它能實現操縱瀏覽器,包括字符填充、鼠標點擊、獲取元素、頁面切換等一系列操作。總之,凡是瀏覽器能做的事,Selenium都能夠做到。

這里列出在給定城市列表后,使用selenium來動態抓取去哪兒網的票價信息的代碼。

參考項目:網絡爬蟲之Selenium使用代理登陸:爬取去哪兒網站

8. 驗證碼識別

對于網站有驗證碼的情況,我們有三種辦法:

使用代理,更新IP。

使用cookie登陸。

驗證碼識別。

使用代理和使用cookie登陸之前已經講過,下面講一下驗證碼識別。

可以利用開源的Tesseract-OCR系統進行驗證碼圖片的下載及識別,將識別的字符傳到爬蟲系統進行模擬登陸。當然也可以將驗證碼圖片上傳到打碼平臺上進行識別。如果不成功,可以再次更新驗證碼識別,直到成功為止。

參考項目:驗證碼識別項目第一版:Captcha1

爬取有兩個需要注意的問題:

如何監控一系列網站的更新情況,也就是說,如何進行增量式爬取?

對于海量數據,如何實現分布式爬取?

分析

抓取之后就是對抓取的內容進行分析,你需要什么內容,就從中提煉出相關的內容來。

常見的分析工具有正則表達式,BeautifulSoup,lxml等等。

存儲

分析出我們需要的內容之后,接下來就是存儲了。

我們可以選擇存入文本文件,也可以選擇存入MySQL或MongoDB數據庫等。

存儲有兩個需要注意的問題:

如何進行網頁去重?

內容以什么形式存儲?

Scrapy

Scrapy是一個基于Twisted的開源的Python爬蟲框架,在工業中應用非常廣泛。

相關內容可以參考基于Scrapy網絡爬蟲的搭建,同時給出這篇文章介紹的微信搜索爬取的項目代碼,給大家作為學習參考。

參考項目:使用Scrapy或Requests遞歸抓取微信搜索結果

楚江數據是一家專業的互聯網數據技術服務商,我們為客戶提供網站APP數據采集和爬蟲軟件微博爬蟲定制開發服務,服務范圍涵蓋社交網絡、電子商務、分類信息、學術研究等,我們的服務和產品已經獲得數千家客戶的好評。

官方網站http://www.chujiangdata.com

轉載請注明:寧哥的小站 ? Python入門網絡爬蟲之精華版

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,428評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,024評論 3 413
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,285評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,548評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,328評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,878評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,971評論 3 439
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,098評論 0 286
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,616評論 1 331
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,554評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,725評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,243評論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 43,971評論 3 345
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,361評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,613評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,339評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,695評論 2 370

推薦閱讀更多精彩內容

  • 首先列舉一下本人總結的相關文章,這些覆蓋了入門網絡爬蟲需要的基本概念和技巧:寧哥的小站-網絡爬蟲當我們在瀏覽器中輸...
    Python程序媛閱讀 299評論 0 0
  • 1 前言 作為一名合格的數據分析師,其完整的技術知識體系必須貫穿數據獲取、數據存儲、數據提取、數據分析、數據挖掘、...
    whenif閱讀 18,097評論 45 523
  • 一、網絡爬蟲的定義 網絡爬蟲,即Web Spider,是一個很形象的名字。把互聯網比喻成一個蜘蛛網,那么Spide...
    隨風化作雨閱讀 1,104評論 0 0
  • 目錄: Python網絡爬蟲(一)- 入門基礎[http://www.lxweimin.com/p/9dfbe35...
    一只寫程序的猿閱讀 6,977評論 0 22
  • 文/居里社 假如生命只剩下兩個月的光陰 一眼望到頭 是該恐慌,還是該淚流 左臉寫下不舍,右頰填上離殤 從哪里來 又...
    居里葉閱讀 251評論 0 2