參考:
有關webscraper的問題,看這個就夠了(建議收藏)
少年派web Scraper介紹
鹵蛋實驗室-web scrapy 教程
選擇器css
輕量級工具,使用瀏覽器插件進行爬蟲,不用寫代碼。
應用:爬取網頁單個表格
Web Scraper 高級用法——抓取表格數據 | 簡易數據分析 11<br />
- 1.下載chrome Web Scraper 插件

- 2.測試的網站,抓取上海到北京的所有列車時刻表。
http://www.huochepiao.com/search/chaxun/result.asp?txtChuFa=???&txtDaoDa=????
表格如下:

- 使用F12 打開 web scraper

- 4.填寫具體爬蟲內容 :先創建一個包含整個表格的 container,Type 類型選為
Table
,表示我們要抓取表格。
- 5.如果上面表格,填寫正確,在這個面板下向下翻,會發現多了一個不一樣的面板。觀察一下你就會發現,這些數據其實就是表格數據類型的分類,在這個案例里,他把車次、出發站、開車時間等分類都列了出來。
在 Table columns
這個分類里,每一行的內容旁邊的選擇按鈕默認都是打勾的,也就是說默認都會抓取這些列的內容。如果你不想抓取某類內容,去掉對應的勾選就可以了。<br />在你點擊 Save selector
的按鈕時,會發現 Result key 的一些選項報錯,說什么 invalid format
格式無效:<br />解決這個報錯很簡單,一般來說是 Result key 名字的長度不夠,你給加個空格加個標點符號就行。如果還報錯,就試試換成英文名字:<br />

解決報錯保存成功后,我們就可以按照 Web Scraper 的爬取套路抓取數據了。
- 下載爬取的表格

總結:
掌握了 Web Scraper 的使用,基本上可以應付學習工作中 90% 的數據爬取需求。相對于 python 爬蟲,雖然靈活度上受到了限制,但是低廉的學習成本可以大大節省學習時間,快速解決手頭的工作,提高整體的工作效率。綜合來看,Web Scraper 還是非常值得去學習的。
Web Scraper 的優點
? 輕量:非常的輕量。上手只需要一個 Chrome 瀏覽器和一個 Web Scraper 插件。對于一些限制安裝第三方軟件的公司電腦,可以很輕易的突破這層限制
? 提效:Web Scraper 支持絕大多數的網頁的爬取,可以無侵入的加入你的日常工作流中
? 快:抓取速度取決于你的網速與瀏覽器加載速度,其他的數據采集軟件可能有限速現象(充錢就能不限速)
Web Scraper 的缺點
? 只支持文本數據抓取:圖片短視頻等多媒體數據無法批量抓取
? 不支持范圍抓取:例如一個網頁有 1000 條數據,默認是全量抓取的,無法配置抓取范圍。想停止抓取,只能斷網模擬數據加載完畢的情況
? 不支持復雜網頁抓取:對于那些加了復雜交互、酷炫的特效和反人類的反爬蟲網頁,Web Scraper 無能為力(其實這種網頁寫 python 爬蟲也挺頭疼)
? 導出數據亂序:想讓數據正序就得用 Excel 或者用 CouchDB,相對復雜了一些
? 模擬人瀏覽網頁操作,不支持并行,側重小規模獲取網站數據