1.1. 刀未佩妥,出門已是江湖——第一個爬蟲程序
創(chuàng)建自己的爬蟲工作目錄,我個人工作目錄位置:
/home/damu/work_spider/spider_01/
創(chuàng)建第一個爬蟲程序:demo01_hw.py
目標:采集新浪網(wǎng)首頁數(shù)據(jù)
資源:url地址(http://www.sina.com.cn)
程序開發(fā):編輯demo01_hw.py
# coding:utf-8
# 引入爬蟲模塊
import urllib2
# 訪問服務(wù)器,獲取服務(wù)器返回的響應(yīng)數(shù)據(jù)
response = urllib2.urlopen(‘http://www.sina.com.cn’)
# 控制臺打印展示數(shù)據(jù)
print(response.read())
運行程序:python demo01.py,控制臺可以看到采集到的數(shù)據(jù)
采集的數(shù)據(jù)
小結(jié):urllib2是Python2版本中專門用于進行網(wǎng)絡(luò)數(shù)據(jù)請求訪問的一個基礎(chǔ)模塊,包含了最基本的操作網(wǎng)絡(luò)數(shù)據(jù)的各種類型和函數(shù),如上述程序中訪問新浪網(wǎng)并獲取響應(yīng)數(shù)據(jù)的函數(shù)urlopen就是一個非常核心重要的操作函數(shù)!