這里我們利用強大的python爬蟲來爬取一篇文章。僅僅做一個示范,更高級的用法還要大家自己實踐。
好了,這里就不啰嗦了,找到一篇文章的url地址:http://www.duanwenxue.com/article/673911.html
(注意,有一些網站會做一些反爬處理,關于這些網站的爬取會在近期的文章中說明)
這是一篇散文,)
但在解碼是要decode(’GB18030‘),
具體說明:http://www.cnblogs.com/jjj-fly/p/6696523.html
下面開始實現代碼:
#coding=GB18030
import urllib.request
from bs4 import BeautifulSoup
import re
url="http://www.duanwenxue.com/article/673911.html"
a=urllib.request.urlopen(url)
htmlstr=a.read().decode('GB18030')
soup=BeautifulSoup(htmlstr,'html.parser')
y=re.compile(r'<p>([\s\S]*?)</p>')
text=y.findall(str(soup))? ? ? #第一次正則表達式篩選所有<p></p>中的內容
x=''
print(len(text))
for i in range(0,len(text)):
? ? x=x+text[i]
text1=re.sub("</?\w+[^>]*>",'',x)? #去掉html標簽
text2=text1.replace("。",'。\n\n\0\0')? #讓文本更好看
print(text2)
?輸出結果
主編曾經是全棧工程師,有5年的編程開發經驗,主修p -ython,目前正轉行做p-ython編程老師,想學習爬v蟲,數據分析,自動化辦公,機器學習,人工智能的小伙伴可以點個關注,主播私人vx:lin257147