1 背景
朋友在研究股票相關資訊,再加上自己對股票也比較有興趣,于是研究能否通過Scrapy爬取雪球數據。本次主要爬取粉絲在5w以上的大v名單。
xueqiu.com
2 輸出結果
5w粉以上大V共171人
3 使用工具:Scrapy
Scrapy是一個為了爬取網站數據,提取結構性數據而編寫的python應用框架。相較于通過urlib庫來爬取數據,Scrapy則更為專業、快捷,尤其在遞歸爬取這塊。
4 編碼思路
從一個雪球大V開始出發,找到它的粉絲列表,如果他的粉絲列表中有5w粉以上的,則遞歸一次。
5 編碼
Scrapy主要工作量就是spider代碼,如下:
spider文件code
6 注意點
注 1:通過以下鏈接可以查看指定用的粉絲列表,該鏈接可以通過訪問用戶列表的時候通過fiddler工具抓取出來:https://xueqiu.com/friendships/followers.json?pageNo=9&uid=5964068708
小小辛巴分頁粉絲返回結果
注 2 :通過該段代碼可以模擬用戶登錄,否則會出現Not allowed或者fobbiden字樣,headers信息可通過firefox的f12的網絡里找。
注 3 :防止重復爬取,否則無線循環
注 4:輸出到文本。通過這種方式可以即時看到爬取的用戶信息,而且雪球整體5w粉以上的并不多
注 5:限制爬取頁面數量,節省計算資源,至于為什么是20000,因為最大的大v小小辛巴也就2w頁
?不再爬取未完善資料用戶
注 6:該處為遞歸,處理好要處理的鏈接后,重新進行迭代計算。
業余興趣學習中,歡迎指導,希望能認識互聯網行業產品、運營、技術潛力股。