1. python3的安裝
- 官網地址: http://python.org
- 下載地址: https://www.python.org/downloads
- 第三方庫: https://pypi.python.org/3
1.1 windows下安裝
有兩種方法
- 通過Anaconda安裝,官方下載地址為https://www.continuum.io/downloads 選擇python3版本進行下載
- 通過安裝包直接進行安裝,因為安裝包中含有pip.exe,可以通過pip3 -V驗證是否安裝成功
1.2 Linux下安裝
Ubuntu中安裝命令 sudo apt-get install -y python3
pip3的安裝命令 sudo apt-get install -y python3-pip
2. 請求庫安裝
2.1. requests的安裝
2.1.1 相關鏈接進行安裝
- GitHub: https://github.com/requests/requests
- PyPI: https://pipy.python.org/pypi/requests
- 官方文檔: https://www.python-requests.org
- 中文文檔: https://docs.python-requests.org/zh_CN/latest
2.1.2 使用pip進行安裝
無論在Windows,Linux 還是在 Mac 中,都可以通過pip進行安裝
pip install requests
這是最簡單有效的方式,一般我們都使用這種方法
2.1.3 驗證方法
需要先進入python的環境里,輸入import requests
2.2 Selenium的安裝
Selenium是一個自動化安裝工具,利用它我們可以驅動瀏覽器執行特定的動作,列如:點擊、下拉等操作,對一些Javascript渲染的界面來說,這種抓取方式非常有效。
2.2.1 相關鏈接進行安裝
- 官方網站:http://www.seleniumhq.org
- Github: https://github.com/SeleniumHQ/selenium/tree/master/py
- PyPI: https://pypi.python.org/pypi/selenium
- 官方文檔:https://selenium-python.readthedocs.io
- 中文文檔:https://selenium-python-zh.readthedocs.io
2.2.2 pip進行安裝
pip install selenium
這里推薦使用pip進行安裝
2.2.3 驗證方法
需要先進入python的環境里,輸入import selenium
3.解析庫安裝
抓取網頁代碼之后,下一步就是從網頁中提取信息。提取信息的方式有很多種,可以使用正則表達式進行提取,但是提取過程過于繁瑣,我們可以可以使用強大的解析庫,如:lxml、BeautifulSoup、pyquery等。此外,還提供了非常強大的解析方法,如XPath解析和CSS選擇器解析等,通過他們我們可以快速獲取我們需要的信息。
3.1 lxml的安裝
lxml是python的一個強大的解析庫,支持HTML和XML的解析,支持XPath的解析,而且解析效率特別高。
3.1.1 相關鏈接進行安裝
- 官方文檔: http://lxml.de
- Github: https://github.com/lxml/lxml
- PyPI: https://pypi.python.org/pypi/lxml
3.1.2 Windows 下的安裝
pip install lxml
如果出現錯誤,比如提示出現libxml2庫等信息,可以采用wheel方法安裝
3.1.3 Linux 下的安裝
pip install lxml
3.1.4 Max下的安裝
pip install lxml
如果產生錯誤,可以執行如下命令將必要的類庫安裝
xcode-select --install
然后重試pip的安裝命令,就可以了
3.1.5 驗證安裝
需要先進入python的環境里,輸入import lxml
3.2 BeautifulSoup的安裝
Beautiful Soup 是 Python 的一個HTML或XML的解析庫,我們可以用它來方便的從網頁中提取數據。它擁有API和多樣的解析方式
3.2.1 相關鏈接進行安裝
- 官方文檔:https://www.crummy.com/software/BeautifulSoup/bs4/doc
- 中文文檔:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh
- PyPI: https://pypi.python.org/pypi/beautifulsoup4
3.2.2 準備工作
Beautiful Soup的HTML和XML解析器是依賴于lxml庫的,所以之前請確保已成功安裝好了lxml庫
3.2.3 pip安裝
目前,BesutifulSoup的最新版本是4.x版本,之前版本都已停止開發了,這里推薦使用pip進行安裝
pip install besutifulsoup4
3.2.4 驗證安裝
需要先進入python的環境里,輸入import bs4