爬蟲分析
1.拿到目標網站
2.分析url,判斷網站的動靜態
3.靜態網站和靜態網站
如果是靜態網站可以在分析好url之后進行數據的匹配獲取,可以用正則re,xpath,bs4,pyquery等;另外某些網站會對html文件進行壓縮,這時會遇到一個解壓縮的問題,不然獲取到的靜態頁面數據是亂碼。這里我用的是谷歌瀏覽器,按F12檢查,找到network,在主頁的html頁面接口處查看請求頭參數是否有Accept-Encoding,一般的壓縮格式都有gzip,那么在發起請求的時候需要把這些參數加到headers里面,這時請求成功之后拿到的數據就是正常的了。
在這里插入圖片描述
剩下的則是動態網站,一般都是ajax請求的數據,也就是返回的json數據,在拿到目標url之后發起請求,進行一系列的編碼解碼操作,再用正則re進行匹配需要的字段和內容。
4.數據持久化
數據持久化也就是將獲取到的數據存儲到本地,可以是存儲為txt,csv,html,xlse等文件格式。另外就是數據庫存儲,可以選擇mysql,redis,mongodb,這三個數據庫也是我們必須會用的。