?? 筆者在寫文章的一個月前因為工作需要,剛剛接觸python爬蟲,用的scrapy框架。剛開始抓了兩個小型的電商網站,也沒遇到什么難題,但是就在抓第三個網站時發現該網站所有商品都是通過js生成的,無奈baidu解決辦法,看到了幾個有用的文章,最終確定了使用spynner,于是找spynner的安裝使用教程,但是真正對我有用的很少,而其redhat系統安裝包很麻煩,大多數教程都是針對ubuntu和centos的,找來找去,試了無數次,只好用了源碼包,最后終于稀里糊涂的竟然安裝成功了。下面總結一下在redhat5.5上安裝和使用spynner,作為學習記錄,以后自己使用也方便。
下面只是粗略的回憶,在安裝和使用過程中其實遇到了很多棘手問題,但是當時沒有及時記錄的習慣,現在完全想不起來那些棘手問題是怎么解決的,以后一定要及時整理文檔。
安裝:
1、安裝anaconda,在網上下載的Anaconda2-4.0.0-Linux-x86.sh;這個東西其實就是python的IDE的一種實現,用它管理、下載、卸載、安裝python包很方便,自帶pip,scrapy可以直接用它安裝;
2、但是上面的工具卻不能安裝spynner;安裝spynner需要:
?x11的庫:即支持Xwindow,不然會報錯安裝失敗;(我的服務器自帶,不用安裝,但有些????? 生產環境中的服務器默認不安裝Xwindow,據說單獨安裝很麻煩,筆者也沒試過)
PyQt4:python的開發工具,其實spynner底層調用的是PyQt自帶的模塊webkit,webkit其實是目前很多瀏覽器的核心,本質就是無界面的瀏覽器,所以用它模擬瀏覽器訪問頁面。下載PyQt-x11-gp1-4.11.4.tar.gz解壓包,tar -xzvf 解壓,安裝。(它還支持模擬點擊事件,模擬提交事件等,不過這些暫時沒用到)
sip: 下載sip-4.18.tar.gz包,解壓并安裝。
spynner: 下載spynner-2.5.zip包,解壓并安裝
(安裝過程中遇到的問題也很多,一時想不起來,后續會來補充)
使用:
使用其實不必多說了,這篇文章已經說的很好很詳細了:利用spynner抓取動態頁面?