在不同的論壇和問(wèn)答中,經(jīng)常會(huì)遇到新浪微博的數(shù)據(jù)采集爬蟲程序怎么寫,或是已經(jīng)完成了某部分后面需要協(xié)助幫助怎么做,楚江數(shù)據(jù)結(jié)合網(wǎng)上資料整理了幾個(gè)微博爬蟲開源項(xiàng)目。
SinaSpider- 基于scrapy和redis的分布式微博爬蟲。SinaSpider主要爬取新浪微博的個(gè)人信息、微博數(shù)據(jù)、關(guān)注和粉絲。數(shù)據(jù)庫(kù)設(shè)置 Information、Tweets、Follows、Fans四張表。爬蟲框架使用Scrapy,使用scrapy_redis和Redis實(shí)現(xiàn)分布 式。此項(xiàng)目實(shí)現(xiàn)將單機(jī)的新浪微博爬蟲重構(gòu)成分布式爬蟲。
sina_reptile- 這是一個(gè)關(guān)于sina微博的爬蟲,采用python開發(fā),并修改了其sdk中的bug,采用mongodb存儲(chǔ),實(shí)現(xiàn)了多進(jìn)程爬取任務(wù)。 獲取新浪微博1000w用戶的基本信息和每個(gè)爬取用戶最近發(fā)表的50條微博,使用python編寫,多進(jìn)程爬取,將數(shù)據(jù)存儲(chǔ)在了mongodb中
sina_weibo_crawler- 基于urlib2及beautifulSoup實(shí)現(xiàn)的微博爬蟲系統(tǒng)。利用urllib2加beautifulsoup爬取新浪微博,數(shù)據(jù)庫(kù)采用mongodb,原始關(guān)系以txt文件存儲(chǔ),原始內(nèi)容以csv形式存儲(chǔ),后期直接插入mongodb數(shù)據(jù)庫(kù)
sina-weibo-crawler-方便擴(kuò)展的新浪微博爬蟲。WCrawler.crawl()函數(shù)只需要一個(gè)url參數(shù),返回的用戶粉絲、關(guān)注里面都有url,可以向外擴(kuò)展爬取,并且也可以自定義一些過(guò)濾規(guī)則。
weibo_crawler-基于Python、BeautifulSoup、mysql微博搜索結(jié)果爬取工具。本工具使用模擬登錄來(lái)實(shí)現(xiàn)微博搜索結(jié)果的爬取。
SinaMicroblog_Creeper-Spider_VerificationCode- 新浪微博爬蟲,獲得每個(gè)用戶和關(guān)注的,粉絲的用戶id存入xml文件中,BFS,可以模擬登陸,模擬登陸中的驗(yàn)證碼會(huì)抓取下來(lái)讓用戶輸入。
不過(guò)在這之前,一些功能和語(yǔ)法藥了解,比如list,dict,切片,條件判斷,文件讀寫操作等;
網(wǎng)頁(yè)的基本知識(shí),分析語(yǔ)言能力要具備;開發(fā)者工具會(huì)熟練運(yùn)用;