requests使用get/post抓取數(shù)據(jù)踩過(guò)的坑

不知道初入門(mén)python爬蟲(chóng)的朋友是否有過(guò)跟我一樣的經(jīng)歷,書(shū)是早幾年的,書(shū)上的示例代碼可能已經(jīng)不適用了,需要做一些調(diào)整,才能將程序跑通。本人在學(xué)習(xí)python前三章的內(nèi)容,就沒(méi)少碰到這樣的尷尬事,為此耗費(fèi)了較多精力搜索、查閱相關(guān)資料。

前三章主要講如何通過(guò)python的requests庫(kù)使用get/post方法爬取網(wǎng)頁(yè)或者API數(shù)據(jù)。本文說(shuō)說(shuō)我在這方面踩的坑。

1)安裝requests庫(kù)

書(shū)上的建議在pycharm中安裝requests庫(kù),即打卡pycharm,單擊“file”(文件菜單),選擇“default settings”(默認(rèn)設(shè)置)命令,如下圖

圖1

選擇“project interpreter”(項(xiàng)目編輯器)命令,確認(rèn)當(dāng)前選擇的編譯器,然后單擊右上角的加號(hào),如下圖

圖2

在搜索框輸入:requests(注意,一定要輸入完整,不然容易出錯(cuò)),勾選“Install to user's site packages directory”(安裝到用戶(hù)的站點(diǎn)庫(kù)目錄)選項(xiàng),如果不勾選該選項(xiàng)則會(huì)安裝在臨時(shí)目錄中,然后單擊左下角的“Install Package”(安裝庫(kù))按鈕,如下圖

圖3

到這一步就悲劇了,跟書(shū)上展示的完全不一樣,此路不通。而書(shū)中的下一步應(yīng)該如下圖一般

截取自其它網(wǎng)頁(yè)

本人從網(wǎng)上查閱了很多資料,至今都無(wú)法修復(fù)圖3中“nothing to show”的情況,如果你有相應(yīng)的解決辦法,歡迎一起討論哦。

2)get/post方法調(diào)用

I、get方法獲取數(shù)據(jù)

書(shū)上只簡(jiǎn)單的給了一個(gè)示例,示例如下

# 使用GET方式抓取數(shù)據(jù)

import requests# 導(dǎo)入requests包

url ='http://www.cntour.cn/'

strhtml = requests.get(url)# GET方式獲取網(wǎng)頁(yè)數(shù)據(jù)

print(strhtml.text)

注:requests.get(url)只適用于不需要表頭參數(shù)的信息獲取,當(dāng)API接口對(duì)表頭數(shù)據(jù)有要求時(shí),該方法已不使用,如下圖API接口

阿里云市場(chǎng)上的天氣信息API接口
接口的python示例代碼

python3已經(jīng)刪除了urllib2的調(diào)用,若用requests調(diào)用接口,該代碼要更改為

#獲取城市列表

import requests#導(dǎo)入requests包

import json#導(dǎo)入json包

host ='http://weather-ali.juheapi.com'

path ='/weather/citys'

method ='GET'

appcode ='65070e518c474ff68837606434083cfa'

querys ='dtype=json'

bodys = {}

url = host + path +'?' + querys

headers = {'Authorization':'APPCODE ' + appcode}? ? ? ?#設(shè)置http包頭

response = requests.get(url,headers=headers)? ? ? ? #調(diào)用http接口

# print(response)

data = response.text#獲取response文本

# print(data)

data = json.loads(data)? ? ? ?#將str字符串轉(zhuǎn)換成dict字典

del data['resultcode']? ? ? ? ? #通過(guò)del刪除字典的前兩個(gè)元素

del data['reason']

print(data)

for item in data['result']:

? ? ?print(type(item))

? ? print(item)

注:API接口調(diào)用時(shí),必傳表頭信息,表頭信息的設(shè)置和接口的調(diào)用如下兩行代碼所示

headers = {'Authorization':'APPCODE ' + appcode}? ? ? ?#設(shè)置http包頭

response = requests.get(url,headers=headers)? ? ? ? #調(diào)用http接口

II、post方法爬取百度翻譯上的信息

輸入網(wǎng)址“https://fanyi.baidu.com/?aldtype=16047#zh/en/”,按F12進(jìn)入谷歌開(kāi)發(fā)者模式,在待翻譯框中輸入“我愛(ài)中國(guó)”,顯示如下

圖4
圖5

post方法獲取網(wǎng)站信息,信息的爬取是動(dòng)態(tài)的,代碼中需要包含Request URL、Request Headers、Form Data的信息,三者缺一不可。代碼如下:

# 使用POST抓取數(shù)據(jù)

import requests

import json

def get_translate_date(word =None):

? ? ? url ='https://fanyi.baidu.com/v2transapi'

? ? ? chinese = word

? ? ? form_data =? ? ? ? ? ? ? ? ? ? ? ? {'from':'zh','to':'en','query':chinese,'transtype':'realtime','simple_means_flag':'3','sign':'731618.1034963','token':'595cdd9cc5535f5221b042f98a8dff9e'}

? ? ? request_headers = {'Accept':'*/*','Accept-Encoding':'gzip, deflate, br','Accept-Language':'zh-CN,zh;q=0.9','Connection':'keep-alive', \

'Content-Length':'154','Content-Type':'application/x-www-form-urlencoded; charset=UTF-8','Cookie':'REALTIME_TRANS_SWITCH=1; FANYI_WORD_SWITCH=1; HISTORY_SWITCH=1; SOUND_SPD_SWITCH=1; SOUND_PREFER_SWITCH=1; BIDUPSID=44BBBD72ED6CC7036FE60E4B97D24B27; PSTM=1494408740; hasSeenTips=1; MCITY=-179%3A; BDUSS=9NU1RzQ3pMc2p0Y1FrNlhCR3N5dDZ6ekl0cXdZUHJKQ3VUN1dtRjgydHRZRUJjQUFBQUFBJCQAAAAAAAAAAAEAAADNlc0beWV6aTA4MDYxNzE3AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAG3TGFxt0xhcQW; BAIDUID=5AACF8785E214AF7E5AD9394BE0D9F82:FG=1; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; H_PS_PSSID=1446_21125_28607_28584_26350_28603_20718; BDRCVFR[feWj1Vr5u3D]=I67x6TjHwwYf0; delPer=0; PSINO=5; locale=zh; Hm_lvt_64ecd82404c51e03dc91cb9e8c025574=1552198524; Hm_lpvt_64ecd82404c51e03dc91cb9e8c025574=1552198524; to_lang_often=%5B%7B%22value%22%3A%22zh%22%2C%22text%22%3A%22%u4E2D%u6587%22%7D%2C%7B%22value%22%3A%22en%22%2C%22text%22%3A%22%u82F1%u8BED%22%7D%5D; from_lang_often=%5B%7B%22value%22%3A%22en%22%2C%22text%22%3A%22%u82F1%u8BED%22%7D%2C%7B%22value%22%3A%22zh%22%2C%22text%22%3A%22%u4E2D%u6587%22%7D%5D', \

'Host':'fanyi.baidu.com','Origin':'https://fanyi.baidu.com','Referer':'https://fanyi.baidu.com/?aldtype=16047','User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Mobile Safari/537.36', \

'X-Requested-With':'XMLHttpRequest'}

# 請(qǐng)求表單數(shù)據(jù)

? ? response = requests.post(url,data = form_data,headers = request_headers)

# 將JSON格式字符串轉(zhuǎn)字典

? ? content = json.loads(response.text)

# 打印翻譯后的數(shù)據(jù)

? ? print(content['trans_result']['data'][0]['dst'])

if __name__ =='__main__':

? ? get_translate_date('我愛(ài)中國(guó)')

注:輸入的中文不同,F(xiàn)orm Data中的sign和token會(huì)不同,本人暫未解決該問(wèn)題,期待與大家一起討論批量出入中文時(shí),該如何動(dòng)態(tài)獲取Form Data中的sign和token

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,882評(píng)論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,208評(píng)論 3 414
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 175,746評(píng)論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 62,666評(píng)論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,477評(píng)論 6 407
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 54,960評(píng)論 1 321
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,047評(píng)論 3 440
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 42,200評(píng)論 0 288
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,726評(píng)論 1 333
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,617評(píng)論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,807評(píng)論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,327評(píng)論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,049評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 34,425評(píng)論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 35,674評(píng)論 1 281
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,432評(píng)論 3 390
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,769評(píng)論 2 372

推薦閱讀更多精彩內(nèi)容