簡(jiǎn)易數(shù)據(jù)分析 05 | Web Scraper 翻頁(yè)——控制鏈接批量抓取數(shù)據(jù)

image

這是簡(jiǎn)易數(shù)據(jù)分析系列的第 5 篇文章。

原文首發(fā)于博客園：Web Scraper 翻頁(yè)——控制鏈接批量抓取數(shù)據(jù)

上篇文章我們爬取了豆瓣電影 TOP250 前 25 個(gè)電影的數(shù)據(jù)，今天我們就要在原來(lái)的 Web Scraper 配置上做一些小改動(dòng)，讓爬蟲把 250 條電影數(shù)據(jù)全部爬取下來(lái)。

前面我們同時(shí)說(shuō)了，爬蟲的本質(zhì)就是找規(guī)律，當(dāng)初這些程序員設(shè)計(jì)網(wǎng)頁(yè)時(shí)，肯定會(huì)依循一些規(guī)則，當(dāng)我們找到規(guī)律時(shí)，就可以預(yù)測(cè)他們的行為，達(dá)到我們的目的。

今天我們就找找豆瓣網(wǎng)站的規(guī)律，想辦法抓取全部數(shù)據(jù)。今天的規(guī)律就從常常被人忽略的網(wǎng)址鏈接開(kāi)始。

1.鏈接分析

我們先看看第一頁(yè)的豆瓣網(wǎng)址鏈接：

https://movie.douban.com/top250?start=0&filter=

https://movie.douban.com 這個(gè)很明顯就是個(gè)豆瓣的電影網(wǎng)址，沒(méi)啥好說(shuō)的
top250 這個(gè)一看就是網(wǎng)頁(yè)的內(nèi)容，豆瓣排名前 250 的電影，也沒(méi)啥好說(shuō)的
? 后面有個(gè)start=0&filter= ，根據(jù)英語(yǔ)提示來(lái)看，好像是說(shuō)篩選（filter），從 0 開(kāi)始（start）

image

再看看第二頁(yè)的網(wǎng)址鏈接，前面都一樣，只有后面的參數(shù)變了，變成了 start=25，從 25 開(kāi)始；

image

我們?cè)倏纯吹谌?yè)的鏈接，參數(shù)變成了 start=50，從 50 開(kāi)始；

image

分析 3 個(gè)鏈接我們很容易得出規(guī)律：

start=0，表示從排名第 1 的電影算起，展示 1-25 的電影

start=25，表示從排名第 26 的電影算起，展示 26-50 的電影

start=50，表示從排名第 51 的電影算起，展示 51-75 的電影

…...

start=225，表示從排名第 226 的電影算起，展示 226-250 的電影

規(guī)律找到了就好辦了，只要技術(shù)提供支持就行。隨著深入學(xué)習(xí)，你會(huì)發(fā)現(xiàn) Web Scraper 的操作并不是難點(diǎn)，最需要思考的其實(shí)還是這個(gè)找規(guī)律。

2.Web Scraper 控制鏈接參數(shù)翻頁(yè)

Web Scraper 針對(duì)這種通過(guò)超鏈接數(shù)字分頁(yè)獲取分頁(yè)數(shù)據(jù)的網(wǎng)頁(yè)，提供了非常便捷的操作，那就是范圍指定器。

比如說(shuō)你想抓取的網(wǎng)頁(yè)鏈接是這樣的：

http://example.com/page/1
http://example.com/page/2
http://example.com/page/3

你就可以寫成 http://example.com/page/[1-3]，把鏈接改成這樣，Web Scraper 就會(huì)自動(dòng)抓取這三個(gè)網(wǎng)頁(yè)的內(nèi)容。

當(dāng)然，你也可以寫成 http://example.com/page/[1-100]，這樣就可以抓取前 100 個(gè)網(wǎng)頁(yè)。

那么像我們之前分析的豆瓣網(wǎng)頁(yè)呢？它不是從 1 到 100 遞增的，而是 0 -> 25 -> 50 -> 75 這樣每隔 25 跳的，這種怎么辦？

http://example.com/page/0
http://example.com/page/25
http://example.com/page/50

其實(shí)也很簡(jiǎn)單，這種情況可以用 [0-100:25] 表示，每隔 25 是一個(gè)網(wǎng)頁(yè)，100/25=4，爬取前 4 個(gè)網(wǎng)頁(yè)，放在豆瓣電影的情景下，我們只要把鏈接改成下面的樣子就行了；

https://movie.douban.com/top250?start=[0-225:25]&filter=

這樣 Web Scraper 就會(huì)抓取 TOP250 的所有網(wǎng)頁(yè)了。

3.抓取數(shù)據(jù)

解決了鏈接的問(wèn)題，接下來(lái)就是如何在 Web Scraper 里修改鏈接了，很簡(jiǎn)單，就點(diǎn)擊兩下鼠標(biāo)：

1.點(diǎn)擊 Stiemaps，在新的面板里點(diǎn)擊 ID 為 top250 的這列數(shù)據(jù)；

image

2.進(jìn)入新的面板后，找到 Stiemap top250 這個(gè) Tab，點(diǎn)擊，再點(diǎn)擊下拉菜單里的 Edit metadata；

image

3.修改原來(lái)的網(wǎng)址，圖中的紅框是不同之處：

image

修改好了超鏈接，我們重新抓取網(wǎng)頁(yè)就好了。操作和上文一樣，我這里就簡(jiǎn)單復(fù)述一下：

點(diǎn)擊 Sitemap top250 下拉菜單里的 Scrape 按鈕
新的操作面板的兩個(gè)輸入框都輸入 2000
點(diǎn)擊 Start scraping 藍(lán)色按鈕開(kāi)始抓取數(shù)據(jù)
抓取結(jié)束后點(diǎn)擊面板上的 refresh 藍(lán)色按鈕，檢測(cè)我們抓取的數(shù)據(jù)

如果你操作到這里并抓取成功的話，你會(huì)發(fā)現(xiàn)數(shù)據(jù)是全部抓取下來(lái)了，但是順序都是亂的。

image

我們這里先不管順序問(wèn)題，因?yàn)檫@個(gè)屬于數(shù)據(jù)清洗的內(nèi)容了，我們現(xiàn)在的專題是數(shù)據(jù)抓取。先把相關(guān)的知識(shí)點(diǎn)講完，再攻克下一個(gè)知識(shí)點(diǎn)，才是更合理的學(xué)習(xí)方式。

這期講了通過(guò)修改超鏈接的方式抓取了 250 個(gè)電影的名字。下一期我們說(shuō)一些簡(jiǎn)單輕松的內(nèi)容換換腦子，講講 Web Scraper 如何導(dǎo)入別人寫好的爬蟲文件，導(dǎo)出自己寫好的爬蟲軟件。

參考閱讀：

簡(jiǎn)易數(shù)據(jù)分析 04 | Web Scraper 初嘗--抓取豆瓣高分電影

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,702評(píng)論 6贊 531
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 98,143評(píng)論 3贊 415
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人，你說(shuō)我怎么就攤上這事。” “怎么了？”我有些...
開(kāi)封第一講書人閱讀 175,553評(píng)論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我，道長(zhǎng)，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書人閱讀 62,620評(píng)論 1贊 307
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 71,416評(píng)論 6贊 405
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書人閱讀 54,940評(píng)論 1贊 321
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音，去河邊找鬼。笑死，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,024評(píng)論 3贊 440
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書人閱讀 42,170評(píng)論 0贊 287
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 48,709評(píng)論 1贊 333
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 40,597評(píng)論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 42,784評(píng)論 1贊 369
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,291評(píng)論 5贊 357
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 44,029評(píng)論 3贊 347
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書人閱讀 34,407評(píng)論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書人閱讀 35,663評(píng)論 1贊 280
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個(gè)月前我還...
沈念sama閱讀 51,403評(píng)論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 47,746評(píng)論 2贊 370

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

簡(jiǎn)易數(shù)據(jù)分析 05 | Web Scraper 翻頁(yè)——控制鏈接批量抓取數(shù)據(jù)

簡(jiǎn)易數(shù)據(jù)分析 05 | Web Scraper 翻頁(yè)——控制鏈接批量抓取數(shù)據(jù)

1.鏈接分析

2.Web Scraper 控制鏈接參數(shù)翻頁(yè)

3.抓取數(shù)據(jù)

參考閱讀：

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

簡(jiǎn)易數(shù)據(jù)分析 05 | Web Scraper 翻頁(yè)——控制鏈接批量抓取數(shù)據(jù)

1.鏈接分析

2.Web Scraper 控制鏈接參數(shù)翻頁(yè)

3.抓取數(shù)據(jù)

參考閱讀：

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频