import os,requests,html5lib,re,threading
from bs4 import BeautifulSoup
def downloadXXOOimage(startComic,endComic):
pre_url = 'XXX_' #網(wǎng)址隱藏
headers = {"Accept": "text/html,application/xhtml+xml,application/xml;",
"Accept-Encoding": "gzip",
"Accept-Language": "zh-CN,zh;q=0.8",
"Referer": "http://www.example.com/",
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36"
}
for urlNumber in range(startComic,endComic):
print('已進(jìn)入%s頁面' % (urlNumber)) # 進(jìn)入目錄頁
url=pre_url+str(urlNumber)+'.html'
res1 = requests.get(url, headers)
res1.raise_for_status()
soup1 = BeautifulSoup(res1.text, 'html5lib')
comElem1 = soup1.select('div[class="typelist"] > ul li a') # 在目錄頁查找圖片頁地址集合
for content_url in comElem1: # 取出當(dāng)前目錄頁地址集合的的每張個(gè)圖片頁地址
imgpage_url ='XXX' + content_url.get('href') #網(wǎng)址隱藏
res2 = requests.get(imgpage_url, headers)
res2.raise_for_status()
soup2 = BeautifulSoup(res2.text, 'html5lib')
title = soup2.title.string
title_name = re.findall('(.*?)-', title) # 過濾掉網(wǎng)站名
print('已打開%s頁面' % title_name[0]) # 進(jìn)入圖片頁地址
path_name = os.path.join("d:\\photo", title_name[0])
os.mkdir(path_name)
os.chdir(path_name)
comElem2 = soup2.select('#view1 img') # 查找圖片頁地址上的每張圖片
for test_url in comElem2: # 取出每張圖片的地址
img_url = test_url.get('src')
res3 = requests.get(img_url, headers=headers)
# imgFile = open(cur_path+"\\"+title_name[0]+"\\"+os.path.basename(img_url), 'wb')
imgFile = open(os.path.basename(img_url), 'wb')
print('正在下載%s張圖片' % os.path.basename(img_url)) # 進(jìn)入圖片頁地址
for chunk in res3.iter_content(10000):
imgFile.write(chunk)
imgFile.close()
downloadThreads =[]
for i in range(1,160,10):
downloadThread=threading.Thread(target=downloadXXOOimage,args=(i,i+9))
downloadThreads.append(downloadThread)
downloadThread.start()
多線程圖片爬蟲
最后編輯于 :
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
- 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
- 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
- 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
- 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
- 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
- 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
- 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
- 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
- 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
- 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
推薦閱讀更多精彩內(nèi)容
- 哎,太晚了,有空再寫注釋 首先是隊(duì)列文件mongodb_queue的代碼,復(fù)制臥槽哥的 獲取主題頁面all_the...
- 批評 Python 的人通常都會(huì)說 Python 的多線程編程太困難了,眾所周知的全局解釋器鎖(Global In...
- 這一次分析主要是針對上 分布式爬蟲筆記(一)- 非框架實(shí)現(xiàn)的Crawlspider 的一次改進(jìn),從單機(jī)的爬蟲改成多...
- 引言 在多線程編程出現(xiàn)之前,電腦程序的運(yùn)行由一個(gè)執(zhí)行序列組成,執(zhí)行序列按順序在主機(jī)的CPU中運(yùn)行。無論是任務(wù)本身要...
- 愛過,就夠了,誰也回不到過去的那段時(shí)間,時(shí)間留下的印記實(shí)在是太深了,明明熟悉,卻又那么陌生,陌生的到質(zhì)疑自己的過去...