無標題文章

首先列舉一下本人總結的相關文章，這些覆蓋了入門網絡爬蟲需要的基本概念和技巧：寧哥的小站-網絡爬蟲當我們在瀏覽器中輸入一個url后回車，后臺會發生什么？簡單來說這段過程發生了以下四個步驟：查找域名對應的IP地址。向IP對應的服務器發送請求。服務器響應請求，發回網頁內容。瀏覽器解析網頁內容。網絡爬蟲要做的，簡單來說，就是實現瀏覽器的功能。通過指定url，直接返回給用戶所需要的數據，而不需要一步步人工去操縱瀏覽器獲取。抓取這一步，你要明確要得到的內容是什么？是HTML源碼，還是Json格式的字符串等。1. 最基本的抓取抓取大多數情況屬于get請求，即直接從對方服務器上獲取數據。首先，Python中自帶urllib及urllib2這兩個模塊，基本上能滿足一般的頁面抓取。另外，requests也是非常有用的包，與此類似的，還有httplib2等等。Requests：

import requests

response = requests.get(url)

content = requests.get(url).content

print "response headers:", response.headers

print "content:", content

Urllib2：

import urllib2

response = urllib2.urlopen(url)

content = urllib2.urlopen(url).read()

print "response headers:", response.headers

print "content:", content

Httplib2：

import httplib2

http = httplib2.Http()

response_headers, content = http.request(url, 'GET')

print "response headers:", response_headers

print "content:", content

此外，對于帶有查詢字段的url，get請求一般會將來請求的數據附在url之后，以?分割url和傳輸數據，多個參數用&連接。data = {'data1':'XXXXX', 'data2':'XXXXX'}

Requests：data為dict，json

import requests

response = requests.get(url=url, params=data)

Urllib2：data為string

import urllib, urllib2

data = urllib.urlencode(data)

full_url = url+'?'+data

response = urllib2.urlopen(full_url)

相關參考：網易新聞排行榜抓取回顧參考項目：網絡爬蟲之最基本的爬蟲：爬取網易新聞排行榜2. 對于登陸情況的處理2.1 使用表單登陸這種情況屬于post請求，即先向服務器發送表單數據，服務器再將返回的cookie存入本地。data = {'data1':'XXXXX', 'data2':'XXXXX'}

Requests：data為dict，json

import requests

response = requests.post(url=url, data=data)

Urllib2：data為string

import urllib, urllib2

data = urllib.urlencode(data)

req = urllib2.Request(url=url, data=data)

response = urllib2.urlopen(req)

2.2 使用cookie登陸使用cookie登陸，服務器會認為你是一個已登陸的用戶，所以就會返回給你一個已登陸的內容。因此，需要驗證碼的情況可以使用帶驗證碼登陸的cookie解決。import requests

requests_session = requests.session()

response = requests_session.post(url=url_login, data=data)

若存在驗證碼，此時采用response = requests_session.post(url=url_login, data=data)是不行的，做法應該如下：response_captcha = requests_session.get(url=url_login, cookies=cookies)

response1 = requests.get(url_login) # 未登陸

response2 = requests_session.get(url_login) # 已登陸，因為之前拿到了Response Cookie！

response3 = requests_session.get(url_results) # 已登陸，因為之前拿到了Response Cookie！

相關參考：網絡爬蟲-驗證碼登陸參考項目：網絡爬蟲之用戶名密碼及驗證碼登陸：爬取知乎網站3. 對于反爬蟲機制的處理3.1 使用代理適用情況：限制IP地址情況，也可解決由于“頻繁點擊”而需要輸入驗證碼登陸的情況。這種情況最好的辦法就是維護一個代理IP池，網上有很多免費的代理IP，良莠不齊，可以通過篩選找到能用的。對于“頻繁點擊”的情況，我們還可以通過限制爬蟲訪問網站的頻率來避免被網站禁掉。proxies = {'http':'http://XX.XX.XX.XX:XXXX'}

Requests：

import requests

response = requests.get(url=url, proxies=proxies)

Urllib2：

import urllib2

proxy_support = urllib2.ProxyHandler(proxies)

opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)

urllib2.install_opener(opener) # 安裝opener，此后調用urlopen()時都會使用安裝過的opener對象

response = urllib2.urlopen(url)

3.2 時間設置適用情況：限制頻率情況。Requests，Urllib2都可以使用time庫的sleep()函數：import time

time.sleep(1)

3.3 偽裝成瀏覽器，或者反“反盜鏈”有些網站會檢查你是不是真的瀏覽器訪問，還是機器自動訪問的。這種情況，加上User-Agent，表明你是瀏覽器訪問即可。有時還會檢查是否帶Referer信息還會檢查你的Referer是否合法，一般再加上Referer。headers = {'User-Agent':'XXXXX'} # 偽裝成瀏覽器訪問，適用于拒絕爬蟲的網站

headers = {'Referer':'XXXXX'}

headers = {'User-Agent':'XXXXX', 'Referer':'XXXXX'}

Requests：

response = requests.get(url=url, headers=headers)

Urllib2：

import urllib, urllib2

req = urllib2.Request(url=url, headers=headers)

response = urllib2.urlopen(req)

4. 對于斷線重連不多說。def multi_session(session, *arg):

retryTimes = 20

while retryTimes>0:

try:

return session.post(*arg)

except:

print '.',

retryTimes -= 1

或者def multi_open(opener, *arg):

retryTimes = 20

while retryTimes>0:

try:

return opener.open(*arg)

except:

print '.',

retryTimes -= 1

這樣我們就可以使用multi_session或multi_open對爬蟲抓取的session或opener進行保持。5. 多進程抓取這里針對華爾街見聞進行并行抓取的實驗對比：Python多進程抓取與 Java單線程和多線程抓取相關參考：關于Python和Java的多進程多線程計算方法對比6. 對于Ajax請求的處理對于“加載更多”情況，使用Ajax來傳輸很多數據。它的工作原理是：從網頁的url加載網頁的源代碼之后，會在瀏覽器里執行JavaScript程序。這些程序會加載更多的內容，“填充”到網頁里。這就是為什么如果你直接去爬網頁本身的url，你會找不到頁面的實際內容。這里，若使用Google Chrome分析”請求“對應的鏈接(方法：右鍵→審查元素→Network→清空，點擊”加載更多“，出現對應的GET鏈接尋找Type為text/html的，點擊，查看get參數或者復制Request URL)，循環過程。如果“請求”之前有頁面，依據上一步的網址進行分析推導第1頁。以此類推，抓取抓Ajax地址的數據。對返回的json格式數據(str)進行正則匹配。json格式數據中，需從'\uxxxx'形式的unicode_escape編碼轉換成u'\uxxxx'的unicode編碼。7. 自動化測試工具SeleniumSelenium是一款自動化測試工具。它能實現操縱瀏覽器，包括字符填充、鼠標點擊、獲取元素、頁面切換等一系列操作。總之，凡是瀏覽器能做的事，Selenium都能夠做到。這里列出在給定城市列表后，使用selenium來動態抓取去哪兒網的票價信息的代碼。參考項目：網絡爬蟲之Selenium使用代理登陸：爬取去哪兒網站8. 驗證碼識別對于網站有驗證碼的情況，我們有三種辦法：使用代理，更新IP。使用cookie登陸。驗證碼識別。使用代理和使用cookie登陸之前已經講過，下面講一下驗證碼識別。可以利用開源的Tesseract-OCR系統進行驗證碼圖片的下載及識別，將識別的字符傳到爬蟲系統進行模擬登陸。當然也可以將驗證碼圖片上傳到打碼平臺上進行識別。如果不成功，可以再次更新驗證碼識別，直到成功為止。參考項目：驗證碼識別項目第一版：Captcha1爬取有兩個需要注意的問題：如何監控一系列網站的更新情況，也就是說，如何進行增量式爬取？對于海量數據，如何實現分布式爬取？分析抓取之后就是對抓取的內容進行分析，你需要什么內容，就從中提煉出相關的內容來。常見的分析工具有正則表達式，BeautifulSoup，lxml等等。存儲分析出我們需要的內容之后，接下來就是存儲了。我們可以選擇存入文本文件，也可以選擇存入MySQL或MongoDB數據庫等。存儲有兩個需要注意的問題：如何進行網頁去重？內容以什么形式存儲？ScrapyScrapy是一個基于Twisted的開源的Python爬蟲框架，在工業中應用非常廣泛。相關內容可以參考基于Scrapy網絡爬蟲的搭建，同時給出這篇文章介紹的微信搜索爬取的項目代碼，給大家作為學習參考。

選擇自己學習方法

每個人都有適合自己的方法，有的人去選擇自學，有的人選擇看視頻學習，有的人選擇報名培訓班，那在這個時候，你就要自己考慮清楚，到底那樣對的幫助是最大的，個人覺得是跟著培訓班最好的，畢竟人家的實戰項目多，我們學軟件開發的都知道實戰項目對于學好一門語言是很重要的。

學習python有那些誤區

具體里面的誤區非常的多，那些就不需要我去寫出來，我給你說的一般都是心態的問題，首先一個覺得自己會java和c++，然后我學習python就很牛，但是你要知道語言是有很多相同的地方，但是不是通用，一定要自己學習的仔細。還有一種就是覺得我不會英語，我要先去把英語學習好在來學python。因為自己想還壞主意然后學習，這樣的都是容易找進誤區的。

怎么樣才能學好python

學好python你需要一個良好的環境，一個優質的開發交流群，群里都是那種相互幫助的人才是可以的，我有建立一個python學習交流群，在群里我們相互幫助，相互關心，相互分享內容，這樣出問題幫助你的人就比較多，群號是304加上050最後799，這樣就可以找到大神聚合的群，如果你只愿意別人幫助你，不愿意分享或者幫助別人，那就請不要加了，你把你會的告訴別人這是一種分享。

感覺寫的好，對你有幫助，就點個贊唄，別光只收藏哈.~(￣▽￣)~

最后編輯于：2017.12.07 00:46:45

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,702評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,143評論 3贊 415
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,553評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,620評論 1贊 307
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,416評論 6贊 405
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 54,940評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,024評論 3贊 440
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,170評論 0贊 287
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,709評論 1贊 333
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,597評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,784評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,291評論 5贊 357
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,029評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,407評論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,663評論 1贊 280
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,403評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,746評論 2贊 370

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

無標題文章

無標題文章

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

無標題文章

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频