文·blogchong
一、俺不是打廣告的
本文的標題是“如何打造類似數據蟲巢官網系列教程之XX”,那主角當然我們的“數據蟲巢官網”,不多說上鏈接www.mite8.com。
直接上鏈接好像有點打廣告的嫌疑,其實真不是,首先說一下,數據蟲巢主要的外在體現是爬蟲+數據分析+數據可視化,應簡書互聯網專題IT彭大主編之邀,特地做一個這個系列。
其實目的很明確,讓玩爬蟲、數據分析、以及數據可視化的同行朋友,打通數據從收集,到處理,到分析,到網站數據可視化整套流程。
整個數據流向的掌握,外在的展現,細節的把控,最終讓人看到你的各種炫麗的圖表以及相關勞動成果,是一件很有成就感的事。
當然,這是感官上的好處,實際的好處就是,你把整個流程涉及到技術都掌握了,那么,不想成為半個大牛都難。
對于玩爬蟲的應屆生朋友,或者有找相關崗位工作的朋友,你把你做好的類似數據蟲巢官網這種數據可視化站點,甩到面試官臉上,你的面試總成績分分鐘可以上揚30%。
因為就這一個東西,說不定比你簡歷上的什么什么項目,都更好使,因為能直接看到呀,更具有說服力。
當然,不能真甩,真甩也別告訴是我教你的,其次你要對其中整個流程環節涉及的技術都清楚,最起碼的標準就是面試官難不倒你。
二、上圖,不然你們不信
這是進入到“數據蟲巢官網”后直接看到的首頁導航,整體網站分首頁模塊、政務輿情模塊、行業洞察模塊、大數據觀,以及關于我們五個模塊。
其實首頁沒有過多東西,就是把中間兩個模塊里的一些比較給力,比較有震撼性的圖表搬到首頁展示,別讓首頁空著。
比如,這張圖的第一個圖表,就是政務輿情模塊中的一個圖表,是動態圖喲,整個圖表會隨時間軸一秒變化一次,做輪詢。
這也是首頁中從其他模塊拿出來的圖表,這是行業洞察里頭的一個圖表,2016年一整年的數據變化曲線圖,看著北京的霧霾影響波動還是蠻有意思的。
大伙兒也可以查一下北京霧霾爆表新聞,看看跟上面的波動能不能對的上,反正我是核查過了,基本上影響波動是一致的,說明俺的分析還是蠻準的嘛。
這同樣是首頁模塊中,一個圖表,這個圖表也是個動態圖,數據不復雜,整個圖表是個典型的動態遷移的數據可視化例子,看看就好啦。
這是首頁模塊的底部信息欄,包括了聯系信息,以及一個公號的二維碼,看著是不是很正式,跟人家商業的數據官網查不了哪去吧,簡直以假亂真,當然,這也不是假的。
這是政務輿情模塊的入口頁,從名稱上也知道,這部分的重點在于做政務方面的輿情分析相關的事。
這部分包括財政統計分析子模塊、問政輿情子模塊、教育輿情子模塊、外界口碑輿情子模塊、人才&招聘輿情子模塊、房產輿情子模塊,數據是我從地方政府網站、門戶網站、地方論壇等爬取而來。
這部分截圖是政務輿情中,財政分析子模塊里的部分數據可視化報表的截圖,涉及到面積圖、折線圖、柱狀圖,還有一些更復雜的可視化圖表等等。
這部分截圖是人才&招聘輿情子模塊涉及的部分數據可視化報表截圖,涉及到變形的占比圖,曲線圖,以及圖表的組合使用等等。
這是行業洞察模塊的入口頁,行業洞察其實是對某一方面的問題從數據分析層面去剖析。
目前有兩個子模塊,如圖,一個從口罩購買的角度分析全國受霧霾的影響情況分析,另一個是以各大主流招聘大數據相關崗位的數據來分分析大數據職位的需求情況。
前部分數據是爬自京東的口罩購買評論數據,后部分數據是爬自各大主流招聘網站。
其實還有一個對電影《長城》的用戶反饋分析,當時《長城》熱播,爭議頗大,所以爬取了不少豆瓣的電影評論數據,做了具體的相關分析,包括涉及的熱點、評論的情感分析等等。
這部分是霧霾影響分析中,涉及的地域分析情況,典型的結合地圖,做的數據可視化,當然這個子模塊還有其他數據可視化形式,鑒于截圖就沒法一個個細說了。
這部分是對于大數據需求分析中的部分圖表,其中會涉及到玫瑰圖、詞云、橫向柱狀圖等數據可視化的形式。
這個大模塊是大數據相關的文章合集,基于數據可視化做的各種數據分析,再輔以大數據相關的文字,能文能武,簡直絕了。
這塊的數據其實就是來自我的大數據公眾號,與官網同名,“數據蟲巢”。
這部分對文章劃了四個不同的類型:
1 大數據觀點,這部分文章偏大數據行業話題討論
2 大數據挖掘,這部分主要是與大數據結合的價值挖掘部分相關的文章
3 大數據技術,這部分的文章偏大數據技術相關的東西
4 感悟雜談,這部分的文章比較雜,有生活感悟、工作感嘆,雞湯等等亂七八糟的
最后一個大模塊,就是關于我們,好吧,這個看著挺唬人的,但是,沒有這個部分怎么讓整個網站看著更“正規”呢?!
哈哈,已經有不止一個人對我說,你們公司的官網挺炫啊,我能怎么說(得意的大笑三聲)。
上面這些基本上數據蟲巢官網的所有模塊了,當然截圖只是截圖而已,只是一部分,并且很多動態的數據可視化效果無法展示,想要了解更多只能上去看看咯。
除此之外,頁頂的背景中,還有很炫的原子散漫效果,鼠標移動上去,原子效果會聚集、磁化,看上去更有科技感、數據感了,是不是更加高端大氣上檔次了。
是的,我要帶你們打造的就是這么一款看著比一些科技公司官網看起來更炫的個人網站,集個人技術大成的技術名片,對外吹牛逼的好工具,通往升職加薪的大門,迎娶白富美的花轎...
好吧,我自己都有點編不下去了~~額,總之,就是這么一個東西啦。
三、飆完圖,咱來說技術
以下幾點,我認為你們需要關注:
1 如何解決數據源的問題:爬。所以它會涉及爬蟲的相關知識。
2 如何做數據的存儲:MySQL。額,可能不是你們想象中的Hadoop,這點幾十萬上百萬的數據,MySQL就夠了嘛,要個蛋HDFS,我有罪,讓你們失望了,沒用高端大氣上檔次的Hadoop。
3 如何做數據分析:Java邏輯處理,數據清洗,再加MySQL的統計分析,所有的業務結果數據就出來了,沒有想象中復雜。
4 如何構建一個網站:阿里云服務器一枚+域名一枚+Spring boot。是的,你需要自己搞個云服務器,上面搭載數據庫、爬蟲服務、數據清洗進程,以及你的網站代碼,聽著就有點復雜,實際真有點復雜。
5 如何做出這么炫麗的可視化圖表:Echarts。大百度開發的可視化框架,流弊的不行不行,好用的不得了。
6 如何解決文字這塊的內容:這個沒轍,自己寫?算了,你還是直接用我的文章吧,俺不受版權費。
上面的信息,我們來總結一下會涉及到哪些技術:
1 你需要會爬蟲,不管是Python也好,Java框架也好,都行,只要能拿到數據,當然,為了拿到數據,你需要會做抓包分析,會一些基礎的破解反爬策略。
2 你得會數據庫操作,最基礎的MySQL得會一些,增刪改查,數據存儲,建表刪表,數據的清洗轉換,這個很基礎的了,不會自己百度吧。
3 對于云服務器的一些東西需要了解,最起碼會XShell客戶端的使用吧,不然你怎么登陸到你的服務器中,學會配置防火墻策略等等。
4 基礎的Linux操作得會點,不然怎么玩云服務器,還指望著你在上頭自己安裝MySQL,自己安裝一些必要的工具、例如Python、Java之類的呢,java服務的部署,一些Shell腳本的編寫等等。
5 域名相關的知識得會些,最起碼得知道一個網站是需要域名的吧,知道從哪購買域名,購買域名之后知道怎么關聯實際的IP等等相關的知識。
6 Java后端框架得會多一些,這里用的是Spring boot,簡單輕便的后端框架,強烈推薦,不妨再告訴你們,前端其實也是用這個一起寫的,很古老的JSP模式,老,但是夠用了。
7 前端的知識得會一些,不然,你以為這么高端大氣上當次的頁面布局,整體頁面規劃哪來的,是的,所以你需要知道一些前端知識,布局啊,CSS啊,JS腳本啊。
8 數據可視化框架需要懂,不懂就沒法玩最酷的部分了,其實不難的,像我這種之前一點都不會js的,不照樣自學上了么?!
好吧,俺錯了,俺不再列了,再TM列下去,讀者全跑了,還打造個毛啊。
是的,整個數據流程,從數據收集,到數據存儲,到處理,到統計分析,到網站,到數據最終展示,涉及的技術,確實不少,真要打造出一個這么東西,應該夠你自豪了。
但是,也不要擔心,我當時玩這個的時候,爬蟲是自學的、JAVA后端的東西是自學,前端更是自學的,細數一下好像除了MySQL在學校學了點,好像其他東西都是自己折騰著出來的,所以比我有更強大大腦的你還怕個鳥。
更何況,還有我,這個系列的終極目的就是帶你打造這么一個東西出來滴,啊不,終極目標是幫你打造一個裝逼的個人網站。
四、你就不好奇,為啥我會折騰出來這個東西
其實這個東西一開始我也沒有想到要搞出來的,畢竟前前后后搞它搞了兩三周(這話好有歧義的樣子),雖然是業余時間。
其實一開始我是對政務輿情這塊的話題感興趣,所以想對自己老家的政務相關的以數據的角度去剖析,就嘗試了爬取了自己老家的地方性政府網站,地方門戶網站相關的數據。
然后結合統計局的數據,做了一些角度的分析,然后發現挺有意思的。
后面又在爬蟲這條路上越走越遠,當時一時好奇,想知道大數據的市場行情如何,每個城市啊,細分的技術方向啊等等對于薪酬的變化影響,所以一時心癢,繼續研究爬蟲一口氣爬了幾個主流招聘網站的大數據相關崗位,做了相關分析。
這條路子越走越黑,緊接著北京連續霧霾警報,朋友圈已經被北京的霧霾占領了,于是想做霧霾造成的影響分析,接著從京東的口罩相關的數據去解析這相關的影響。
在電影《長城》水深火熱之際,我又爬了《長城》的豆瓣數據,做了一次深度的分析。
不知不覺,幾次折騰下來,我發現已經算是爬蟲小入門了,但是很不甘心這些我爬過來的數據就這樣僅僅的在我的公號里曇花一現。
是的,我要把他們給釋放出來,讓數據展現出他們的華麗。
所以,我開始著手打造“數據蟲巢官網”,然后...
然后,敬請期待下一篇《如何打造類似數據蟲巢官網系列教程之二:爬蟲是怎么煉成的》。
相關閱讀: