前言
-
1.什么是scrapy?為什么要用scrapy?
scrapy的官方解釋如下:Scrapy是一個為了爬取網站數據,提取結構性數據而編寫的應用框架。 可以應用在包括數據挖掘,信息處理或存儲歷史數據等一系列的程序中。
其次為什么要用scrapy呢?相信你能了解到scrapy那肯定也對python爬蟲有一些了解,基于個人的學習經驗,我覺得之所以要用scrapy,是因為當我們在做大規模爬蟲的時候,我們會發現僅僅依靠beautifulsoup,requests等這些第三方爬蟲庫的時候會顯得非常吃力,往往難以實現難度稍高點的爬蟲項目,比如:爬蟲的迭代回調,暫停恢復,異常捕捉,反爬機制,多線程等都是我們在做一個具有一定數據規模的爬蟲時所需要考慮的因素。
-
2.哪些人適合學習scrapy,或者說適合閱讀本文?
本文適合對python以及爬蟲有一定了解最好是有一些簡單的實戰基礎的,換而言之scrapy屬于python爬蟲的進階學習,如果你還不具備相關的基礎知識,建議先去學習一些python基礎知識,能達到運用beautifulsoup和requests熟練的爬取大部分頁面小規模的爬取。
-
3.本文關于scarpy的學習思路?以及亮點?
本文將圍繞目前本人對百度貼吧的爬蟲的項目,從最基本的scrapy實現到全網數據的實時抓取,本文的所有內容將會圍繞此次爬蟲項目為中心,不斷的完善各個模塊,各種細節功能的實現,希望能在自我成長學習的過程中也能給大家大家帶來一些學習經驗,避免走一些彎路。
本文的亮點:scrapy官方文檔無疑是最好的學習資料,但是文檔中各個模塊的功能都獨立開來,并且列舉的demo往往都比較簡單常常無法滿足我們自身項目實戰的需要,因此本人希望本文也能給一些正在學習scrapy的同學提供一些參考。
正文
目錄
scrapy的安裝
- 現在的scrapy安裝相比之前版本時候的安裝已經是方便了太多了,貌似是pip升級了吧,之前安裝scrapy這種高級庫需要自行下載很多依賴包,各種依賴關系傻傻分不清楚,好的是還沒折騰過的同學你們有福氣了,只需下面一條同python其他普通庫一樣的安裝命令即可自行加載各種依賴包。
pip install scrapy
- 要不要這爽,就是這么簡單,除次之外還有一個小坑需要注意:
Microsoft Visual C++ Compiler for Python 2.7
- 如果你是第一次安裝scrapy并且之前沒有安裝過這個微軟的插件則會報錯,根據錯誤提示去微軟官網下載對應的安裝包,安裝成功之后再次pip install scrapy即可。