python標準庫+內置函數+第三方庫
欲善其事,必先利其器
這其器必是python的標準庫+內置函數,話說許多第三方庫, 也是對標準庫的使用,進行封裝,使得使用起來更方便。
這些庫以使用場景來分類:
一. 文件讀寫
二. 網絡抓取和解析
三. 數據連接
四. 數清洗轉換
五. 數據計算和統計分析
六. 圖像和視頻處理
七. 音頻處理
八. 數據挖掘/機器學習/深度學習
九. 數據可視化
十. 交互學習
十一. 集成開發
二、網絡抓取和解析
網絡抓取和解析用于從互聯網中抓取信息,并對HTML對象進行處理,有關xml對象的解析和處理的庫在“01 文件讀寫”中找到。
# 2.1 requests
# 類型:第三方庫
# 描述:網絡請求庫,提供多種網絡請求方法并可定義復雜的發送信息
# 2.2 urllib
# 類型:Python標準庫
# 描述:Python自帶的庫,簡單的讀取特定URL并獲得返回的信息
# 2.3 urllib2
# 類型:Python標準庫
# 描述:Python自帶的庫,讀取特定URL并獲得返回的信息,相 對于urllib可處理更多HTTP信息,例如cookie、身份驗證、重定向等
# 2.4 urlparse
# 類型:Python標準庫
# 描述:Python自帶的URL解析庫,可自動解析URL不同的域、參數、路徑等
# 2.5 HTMLParser
# 類型:Python標準庫
# 描述:Python自帶的HTML解析模塊,能夠很容易的實現HTML文件的分析
# 2.6 Scapy
# 類型:第三方庫
# 描述:分布式爬蟲框架,可用于模擬用戶發送、偵聽和解析并偽裝網絡報文,常用于大型網絡數據爬取
# 2.7 Beautiful Soup
# 類型:第三方庫
# 描述:Beautiful Soup是網頁數據解析和格式化處理工具,通常配合Python的urllib、urllib2等庫一起使用