首先列舉一下本人總結的相關文章,這些覆蓋了入門網絡爬蟲需要的基本概念和技巧:寧哥的小站-網絡爬蟲當我們在瀏覽器中輸入一個url后回車,后臺會發生什么?簡單來說這段過程發生了以下四個步驟:查找域名對應的IP地址。向IP對應的服務器發送請求。服務器響應請求,發回網頁內容。瀏覽器解析網頁內容。網絡爬蟲要做的,簡單來說,就是實現瀏覽器的功能。通過指定url,直接返回給用戶所需要的數據,而不需要一步步人工去操縱瀏覽器獲取。抓取這一步,你要明確要得到的內容是什么?是HTML源碼,還是Json格式的字符串等。1. 最基本的抓取抓取大多數情況屬于get請求,即直接從對方服務器上獲取數據。首先,Python中自帶urllib及urllib2這兩個模塊,基本上能滿足一般的頁面抓取。另外,requests也是非常有用的包,與此類似的,還有httplib2等等。Requests:
import requests
response = requests.get(url)
content = requests.get(url).content
print "response headers:", response.headers
print "content:", content
Urllib2:
import urllib2
response = urllib2.urlopen(url)
content = urllib2.urlopen(url).read()
print "response headers:", response.headers
print "content:", content
Httplib2:
import httplib2
http = httplib2.Http()
response_headers, content = http.request(url, 'GET')
print "response headers:", response_headers
print "content:", content
此外,對于帶有查詢字段的url,get請求一般會將來請求的數據附在url之后,以?分割url和傳輸數據,多個參數用&連接。data = {'data1':'XXXXX', 'data2':'XXXXX'}
Requests:data為dict,json
import requests
response = requests.get(url=url, params=data)
Urllib2:data為string
import urllib, urllib2
data = urllib.urlencode(data)
full_url = url+'?'+data
response = urllib2.urlopen(full_url)
相關參考:網易新聞排行榜抓取回顧參考項目:網絡爬蟲之最基本的爬蟲:爬取網易新聞排行榜2. 對于登陸情況的處理2.1 使用表單登陸這種情況屬于post請求,即先向服務器發送表單數據,服務器再將返回的cookie存入本地。data = {'data1':'XXXXX', 'data2':'XXXXX'}
Requests:data為dict,json
import requests
response = requests.post(url=url, data=data)
Urllib2:data為string
import urllib, urllib2
data = urllib.urlencode(data)
req = urllib2.Request(url=url, data=data)
response = urllib2.urlopen(req)
2.2 使用cookie登陸使用cookie登陸,服務器會認為你是一個已登陸的用戶,所以就會返回給你一個已登陸的內容。因此,需要驗證碼的情況可以使用帶驗證碼登陸的cookie解決。import requests
requests_session = requests.session()
response = requests_session.post(url=url_login, data=data)
若存在驗證碼,此時采用response = requests_session.post(url=url_login, data=data)是不行的,做法應該如下:response_captcha = requests_session.get(url=url_login, cookies=cookies)
response1 = requests.get(url_login) # 未登陸
response2 = requests_session.get(url_login) # 已登陸,因為之前拿到了Response Cookie!
response3 = requests_session.get(url_results) # 已登陸,因為之前拿到了Response Cookie!
相關參考:網絡爬蟲-驗證碼登陸參考項目:網絡爬蟲之用戶名密碼及驗證碼登陸:爬取知乎網站3. 對于反爬蟲機制的處理3.1 使用代理適用情況:限制IP地址情況,也可解決由于“頻繁點擊”而需要輸入驗證碼登陸的情況。這種情況最好的辦法就是維護一個代理IP池,網上有很多免費的代理IP,良莠不齊,可以通過篩選找到能用的。對于“頻繁點擊”的情況,我們還可以通過限制爬蟲訪問網站的頻率來避免被網站禁掉。proxies = {'http':'http://XX.XX.XX.XX:XXXX'}
Requests:
import requests
response = requests.get(url=url, proxies=proxies)
Urllib2:
import urllib2
proxy_support = urllib2.ProxyHandler(proxies)
opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)
urllib2.install_opener(opener) # 安裝opener,此后調用urlopen()時都會使用安裝過的opener對象
response = urllib2.urlopen(url)
3.2 時間設置適用情況:限制頻率情況。Requests,Urllib2都可以使用time庫的sleep()函數:import time
time.sleep(1)
3.3 偽裝成瀏覽器,或者反“反盜鏈”有些網站會檢查你是不是真的瀏覽器訪問,還是機器自動訪問的。這種情況,加上User-Agent,表明你是瀏覽器訪問即可。有時還會檢查是否帶Referer信息還會檢查你的Referer是否合法,一般再加上Referer。headers = {'User-Agent':'XXXXX'} # 偽裝成瀏覽器訪問,適用于拒絕爬蟲的網站
headers = {'Referer':'XXXXX'}
headers = {'User-Agent':'XXXXX', 'Referer':'XXXXX'}
Requests:
response = requests.get(url=url, headers=headers)
Urllib2:
import urllib, urllib2
req = urllib2.Request(url=url, headers=headers)
response = urllib2.urlopen(req)
4. 對于斷線重連不多說。def multi_session(session, *arg):
retryTimes = 20
while retryTimes>0:
try:
return session.post(*arg)
except:
print '.',
retryTimes -= 1
或者def multi_open(opener, *arg):
retryTimes = 20
while retryTimes>0:
try:
return opener.open(*arg)
except:
print '.',
retryTimes -= 1
這樣我們就可以使用multi_session或multi_open對爬蟲抓取的session或opener進行保持。5. 多進程抓取這里針對華爾街見聞進行并行抓取的實驗對比:Python多進程抓取 與 Java單線程和多線程抓取相關參考:關于Python和Java的多進程多線程計算方法對比6. 對于Ajax請求的處理對于“加載更多”情況,使用Ajax來傳輸很多數據。它的工作原理是:從網頁的url加載網頁的源代碼之后,會在瀏覽器里執行JavaScript程序。這些程序會加載更多的內容,“填充”到網頁里。這就是為什么如果你直接去爬網頁本身的url,你會找不到頁面的實際內容。這里,若使用Google Chrome分析”請求“對應的鏈接(方法:右鍵→審查元素→Network→清空,點擊”加載更多“,出現對應的GET鏈接尋找Type為text/html的,點擊,查看get參數或者復制Request URL),循環過程。如果“請求”之前有頁面,依據上一步的網址進行分析推導第1頁。以此類推,抓取抓Ajax地址的數據。對返回的json格式數據(str)進行正則匹配。json格式數據中,需從'\uxxxx'形式的unicode_escape編碼轉換成u'\uxxxx'的unicode編碼。7. 自動化測試工具SeleniumSelenium是一款自動化測試工具。它能實現操縱瀏覽器,包括字符填充、鼠標點擊、獲取元素、頁面切換等一系列操作。總之,凡是瀏覽器能做的事,Selenium都能夠做到。這里列出在給定城市列表后,使用selenium來動態抓取去哪兒網的票價信息的代碼。參考項目:網絡爬蟲之Selenium使用代理登陸:爬取去哪兒網站8. 驗證碼識別對于網站有驗證碼的情況,我們有三種辦法:使用代理,更新IP。使用cookie登陸。驗證碼識別。使用代理和使用cookie登陸之前已經講過,下面講一下驗證碼識別。可以利用開源的Tesseract-OCR系統進行驗證碼圖片的下載及識別,將識別的字符傳到爬蟲系統進行模擬登陸。當然也可以將驗證碼圖片上傳到打碼平臺上進行識別。如果不成功,可以再次更新驗證碼識別,直到成功為止。參考項目:驗證碼識別項目第一版:Captcha1爬取有兩個需要注意的問題:如何監控一系列網站的更新情況,也就是說,如何進行增量式爬取?對于海量數據,如何實現分布式爬取?分析抓取之后就是對抓取的內容進行分析,你需要什么內容,就從中提煉出相關的內容來。常見的分析工具有正則表達式,BeautifulSoup,lxml等等。存儲分析出我們需要的內容之后,接下來就是存儲了。我們可以選擇存入文本文件,也可以選擇存入MySQL或MongoDB數據庫等。存儲有兩個需要注意的問題:如何進行網頁去重?內容以什么形式存儲?ScrapyScrapy是一個基于Twisted的開源的Python爬蟲框架,在工業中應用非常廣泛。相關內容可以參考基于Scrapy網絡爬蟲的搭建,同時給出這篇文章介紹的微信搜索爬取的項目代碼,給大家作為學習參考。
選擇自己學習方法
每個人都有適合自己的方法,有的人去選擇自學,有的人選擇看視頻學習,有的人選擇報名培訓班,那在這個時候,你就要自己考慮清楚,到底那樣對的幫助是最大的,個人覺得是跟著培訓班最好的,畢竟人家的實戰項目多,我們學軟件開發的都知道實戰項目對于學好一門語言是 很重要的。
學習python有那些誤區
具體里面的誤區非常的多,那些就不需要我去寫出來,我給你說的一般都是心態的問題,首先一個覺得自己會java和c++,然后我學習python就很牛,但是你要知道語言是有很多相同的地方,但是不是通用,一定要自己學習的仔細。還有一種就是覺得我不會英語,我要先去把英語學習好在來學python。因為自己想還壞主意然后學習,這樣的都是容易找進誤區的。
怎么樣才能學好python
學好python你需要一個良好的環境,一個優質的開發交流群,群里都是那種相互幫助的人才是可以的,我有建立一個python學習交流群,在群里我們相互幫助,相互關心,相互分享內容,這樣出問題幫助你的人就比較多,群號是304加上050最後799,這樣就可以找到大神聚合的群,如果你只愿意別人幫助你,不愿意分享或者幫助別人,那就請不要加了,你把你會的告訴別人這是一種分享。
感覺寫的好,對你有幫助,就點個贊唄,別光只收藏哈.~( ̄▽ ̄)~
?