安裝Scrapy框架
直接運行pip install scrapy后出現錯誤提示:
error: command 'cl.exe' failed: No such file or directory
查看官方文檔,發現scrapy需要一些依賴包
image
解決方案:
①進入https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted,找到對應版本的Twisted(Python版本和操作系統版本)
比如我是python 3.6 + window 64位系統,單擊后直接下載
image.png
②下載后會得到一個Twisted-18.4.0-cp36-cp36m-win_amd64.whl文件,在cmd中進入該文件目錄,輸入pip install Twisted-18.4.0-cp36-cp36m-win_amd64.whl進行安裝
image.png
③安裝完Twisted后,重新執行pip install scrapy即可
開始今天的爬蟲(爬取妹子圖片)
建立scrapy項目后
在Terminal中建立模塊find
scrapy startproject find
文件目錄結構如下
image.png
解析scrapy框架結構:
find/spiders/: 放置spider代碼的目錄。
find/ __init__.py:爬蟲項目的初始化文件,用來對項目做初始化工作。
find/items.py:爬蟲項目的數據容器文件,用來定義要獲取的數據。
find/middlewares.py:爬蟲項目的中間件文件。
find/pipelines.py:爬蟲項目的管道文件,用來對items中的數據進行進一步的加工處理。
find/settings.py:爬蟲項目的設置文件,包含了爬蟲項目的設置信息。
scrapy.cfg:爬蟲項目的配置文件。