室內(nèi)數(shù)據(jù)包括開放數(shù)據(jù),爬蟲抓取,傳感器和日志采集,他們各有特點。
1、開放數(shù)據(jù)一般是針對行業(yè)的數(shù)據(jù)庫,比如美國人口調(diào)查局開放了美國的人口信息,地區(qū)分布,交易情況數(shù)據(jù)除了政府外企業(yè)高校也會開放相應(yīng)的大數(shù)據(jù)這方面相對來說做得好一些,國內(nèi)貴州做了不少大量嘗試云平臺,逐漸開放了旅游,交通商務(wù)等領(lǐng)域的數(shù)據(jù)量。
2、爬蟲抓取一般針對特定的網(wǎng)站或APP,如果我們想要抓取指定的網(wǎng)站數(shù)據(jù),比如購物網(wǎng)站的購物評價,就需要穩(wěn)住定的話中抓取。
3、第三類數(shù)據(jù)源是傳感器,它基本上采取的是物理信息,圖像視頻,某個物體的速度、熱度、壓強等。
4、日志采集,這是統(tǒng)計用戶的操作,我們可以在前端進行買點,在后端進行腳本收集統(tǒng)計,來分析網(wǎng)站的訪問情況以及使用瓶頸。
知道了室內(nèi)數(shù)據(jù)源如何采集這些數(shù)據(jù)
如何使用開放數(shù)據(jù)?
1、開放數(shù)據(jù)源,可以從兩個角度來看,是單位的委托,比如政府,企業(yè),高校,一個就是行業(yè)維度,比如交通金融能源等。開放數(shù)據(jù)平臺如:北京大學(xué)開放數(shù)據(jù)平臺
2、如何使用爬蟲抓取?
最直接的方法就是使用Python編寫爬蟲代碼,前提是需要費用的基本語法,除此之外php也可以完善,尤其是涉及到多線程的操作。在這個過程中會經(jīng)歷三個過程。
*?使用request內(nèi)容,我們可以使用request庫來抓取網(wǎng)頁信息,可以說是拍攝的利器,也就是Python通過這個苦爬取網(wǎng)頁中的數(shù)據(jù),非常方便,可以幫助我們節(jié)約大量的時間。
*?使用x path解析內(nèi)容,XPath,是XML Path所寫,也就是xml路徑語言,它是一種用來確定xml文檔中某部分位置的語言,在開發(fā)中經(jīng)常用來當(dāng)做小型查詢語言x可以通過元素和屬性進行位置索引
*?使用Pandas保存數(shù)據(jù)判斷是讓數(shù)據(jù)分析工作變得更加簡單的高級數(shù)據(jù)結(jié)構(gòu),我們可以用它保存的數(shù)據(jù)最后通過再寫入xls或者MySQ;等數(shù)據(jù)庫中。
這款常用的工具火車采集器、八爪魚、集搜客
火車采集器已經(jīng)有13年歷史,是老牌的采集工具,不僅可以做抓取工作,也可以做數(shù)據(jù)清理,數(shù)據(jù)分析,數(shù)據(jù)挖掘和可視化等工作,書記員適用于絕大部分的網(wǎng)頁,網(wǎng)頁中能看到的內(nèi)容都可以通過采集規(guī)則進行抓取。
八爪魚是知名的采集工具,它有兩個版本,一個是免費的采集版本,還有一個就是云彩及付費免費采集模板,實際上就是內(nèi)容采集規(guī)則,包括電商生活服務(wù)類,社交媒體內(nèi)論壇類的網(wǎng)站都可以采集,用起來非常方便,也可以自定義任務(wù)。
云采集就是當(dāng)你配置好,采集任務(wù)可以交給八爪魚的云端進行采集,八爪魚,一共有5000臺服務(wù)器,通過云丹多節(jié)點并發(fā)采集,采集速度遠遠超過本地采集,此外還可以自動切換多個IP,避免IP被封影響采集,做過工程項目的同學(xué)應(yīng)該能體會到云采集這個功能太方便了,很多時候自動切換IP以及語音采集才是自動化采集的關(guān)鍵。下一篇詳細介紹八爪魚的使用。
集搜客,這個工具的特點是完全可視化操作,無需編程,整個采集過程是所見即所得,抓取信息結(jié)果錯誤信息都反映在軟件中。相比于八爪魚來說,沒有流程的概念,用戶只需關(guān)注抓取什么數(shù)據(jù),而流程細節(jié)完全交給軟件處理
缺點是沒有云采集功能,所有爬蟲都在用戶電腦上跑
3、如何做日志采集?
日日采集最大的作用就是通過分析用戶訪問情況,提升系統(tǒng)性能,從而提高系統(tǒng)承載量,及時發(fā)現(xiàn)系統(tǒng)存在瓶頸,方便技術(shù)人員基于用戶實際的訪問情況進行優(yōu)化。
日志就是日記的意思,它記錄了用戶訪問網(wǎng)站的全過程,那些人在什么時間通過什么渠道(比如搜索引擎網(wǎng)址輸入)執(zhí)行了哪些操作系統(tǒng)是否產(chǎn)生錯誤請求時間用戶代理這些數(shù)據(jù)都可以寫在一個日志文件中,分成不同的日志文件,訪問日志和錯誤日志
日志采集分為兩種形式
1、通過Web服務(wù)器采集
2、自定義采集用戶行為
埋點是什么??
埋點就是在有需要的位置,采集相應(yīng)的信息進行上報。每一個買點就像一臺攝像頭,采集用戶行為數(shù)據(jù),將數(shù)據(jù)進行多維度的交叉分析和真實還原出用戶使用場景,用戶使用需求。
買點就是在需要統(tǒng)計數(shù)據(jù)的地方植入統(tǒng)計代碼,當(dāng)然植物代碼可以自己寫,也可以使用第三方統(tǒng)計工具。之前講過不重復(fù)造輪子的原則,一般來說需要自己寫的代碼,一般是主營核心業(yè)務(wù),對于買點這種監(jiān)測性的工具,市場上已經(jīng)比較成熟第三方的工具比如友盟、Google Analysis,talking data。
日采集有助于我們了解用戶的操作數(shù)據(jù),用于運維監(jiān)控,安全審計,業(yè)務(wù)分析等場景一般外服務(wù)器會自帶,也可以使用是從不同的服務(wù)器集群中采集傳輸大量的日志數(shù)據(jù),當(dāng)然我們也可以使用第三方的統(tǒng)計工具或者制定以得到自己想要的統(tǒng)計內(nèi)容。
總結(jié)
數(shù)據(jù)采集是數(shù)據(jù)分析的關(guān)鍵。數(shù)據(jù)采集的方法很廣,開放數(shù)據(jù)、爬蟲、日志、傳感器。
需求不用,采集數(shù)據(jù)也不同。及同行業(yè),數(shù)據(jù)采集會和攝像頭或者測速儀有關(guān),對于運維人員日志采集和分析這些觀點,我們針對特定的場景選擇合適的采集工具,Kaggle。
預(yù)想比特幣的未來走勢需要哪些維度的數(shù)據(jù)源?
交易量,歷史價格、熱度指數(shù)(分析下降原因)、政府政策、股市走勢、(是否有相關(guān)性)