使用Spark分析拉勾網(wǎng)招聘信息(一):準(zhǔn)備工作

本系列專屬github地址:https://github.com/ios122/spark_lagou

前言

我覺得如果動(dòng)筆,就應(yīng)該努力地把要說的東西表達(dá)清楚.今后一段時(shí)間,嘗試下系列博客文章.簡單說,如果心里想表達(dá)想分享的,就適當(dāng)規(guī)劃組織下,使其相對自成體系,以便于感興趣但可能剛好某個(gè)領(lǐng)域還不是很熟的人,也能很好地入手.系列文章,我會(huì)努力避免過于主觀化的描述,同時(shí)吸取以往的經(jīng)驗(yàn),盡量給每個(gè)系列的文章都設(shè)置一個(gè)單獨(dú)的 github 項(xiàng)目,供查閱參考.

Spark 系列文章規(guī)劃

Spark系列,因?yàn)楸救瞬⒎枪┞氂诖笮蛿?shù)據(jù)公司,也未曾在較大數(shù)據(jù)集上實(shí)踐過,所以內(nèi)容可能僅供初級(jí)入門者參考.目前,我處理過的較大的數(shù)據(jù)集,也僅在百萬條左右,但是也不得不驚嘆 Spark 做為數(shù)據(jù)分析工具的便利性,100w條數(shù)據(jù),在3臺(tái)BMR服務(wù)器結(jié)點(diǎn)上,復(fù)雜查詢一般在十秒以內(nèi).從數(shù)據(jù)分析的工具角度,我覺得 Spark 還是有必要了解的,大多數(shù)時(shí)候,基于數(shù)據(jù)的多個(gè)維度分析出的結(jié)論,可能比某些抽象的統(tǒng)計(jì)數(shù)據(jù),能有說服力.

數(shù)據(jù)源: 拉勾網(wǎng) iOS 職位最近一個(gè)月的公開招聘信息

以拉勾網(wǎng) iOS 職位最近一個(gè)月的公開招聘信息作為樣本.這是一個(gè)樣本,到時(shí)我會(huì)具體說一下數(shù)據(jù)獲取的方法和思路,還會(huì)奉上可用的腳本.

數(shù)據(jù)分析工具:Spark.

Spark是主要分析工具.我前一段時(shí)間,看了那本<<Hadoop 權(quán)威指南>>,然后開始了Spark的學(xué)習(xí).自己感覺 Spark,可能更符合自己目前階段的需要--小規(guī)模數(shù)據(jù)的即時(shí)分析.

數(shù)據(jù)分析平臺(tái): 百度BMR

我會(huì)直接基于百度BMR來分析數(shù)據(jù).至今,我沒有試過自己搭建spark開發(fā)環(huán)境,也暫無打算研究.因?yàn)槲矣X得,大數(shù)據(jù)的分析,硬件還是挺貴的,好在現(xiàn)在有云平臺(tái),即開即用,用完釋放掉即可.還有一個(gè)原因是,單機(jī)版的Spark和分布式的Spark,某些函數(shù)的行為還是有差異的.我看阿里云,也有類似的大數(shù)據(jù)分析平臺(tái),應(yīng)該也是可以的.

準(zhǔn)備事宜

實(shí)名認(rèn)證的百度開發(fā)者賬號(hào),注冊請到 https://login.bce.baidu.com 因?yàn)楸仨毷菍?shí)名認(rèn)證的百度開發(fā)者賬號(hào),才可以創(chuàng)建 BMR 實(shí)例,沒有賬號(hào),可能會(huì)影響到你觀察文章的體驗(yàn).因?yàn)檫@個(gè)實(shí)名認(rèn)證要審核的,最好提前弄.

文章更新具體規(guī)劃

使用Spark分析拉勾網(wǎng)招聘信息(一):準(zhǔn)備工作

交代基本背景,動(dòng)機(jī)與必要準(zhǔn)別事宜等,為進(jìn)一步文章鋪墊.

使用Spark分析拉勾網(wǎng)招聘信息(二): 獲取數(shù)據(jù)

使用腳本自動(dòng)獲取數(shù)據(jù),會(huì)涉及數(shù)據(jù)源的分析,腳本編寫思路,以及一個(gè)最終可用的腳本和實(shí)際采集的完整數(shù)據(jù)附件.

使用Spark分析拉勾網(wǎng)招聘信息(三): BMR 入門

主要講解百度大數(shù)據(jù)平臺(tái)BMR的基礎(chǔ)操作與常用工具的使用.當(dāng)然電腦性能較為強(qiáng)悍的童鞋,可以自己安裝研究下Hadoop,Spark和Zeepline等工具.用BMR,比較省錢,按分鐘計(jì)費(fèi),一小時(shí) 2塊左右,我通常只是有感興趣的數(shù)據(jù)題材時(shí)才開啟.順便插一句,以數(shù)據(jù)的視角,自由組合維度來觀察某些自己關(guān)心的數(shù)據(jù),真的看出來許多刷新自己認(rèn)知的真實(shí).不過,考慮到工具的可擴(kuò)展性,我還是建議掌握下 BMR或者阿里的大數(shù)據(jù)平臺(tái)的基礎(chǔ)使用.

使用Spark分析拉勾網(wǎng)招聘信息(四): 幾個(gè)常用的腳本與圖片分析結(jié)果

這里,會(huì)結(jié)合數(shù)據(jù)結(jié)構(gòu),展示下數(shù)據(jù)分析與提取的基本思路,然后會(huì)選幾個(gè)角度分析下數(shù)據(jù).方法是根本,簡單了解下,再多看看 spark 和 scala 文檔,我相信大家是可以自由使用Spark來分析自己感興趣的數(shù)據(jù)的.


版權(quán)聲明: iOS122 顏風(fēng) 署名系列文章,每日 7:20 首發(fā)于微信公眾號(hào) iOS122gg,其他平臺(tái)次日10點(diǎn)更新.除各大博客平臺(tái)的iOS122官方專欄外,其他任何用途的轉(zhuǎn)載與使用,請務(wù)必注明出處!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,030評(píng)論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,310評(píng)論 3 415
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,951評(píng)論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,796評(píng)論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,566評(píng)論 6 407
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,055評(píng)論 1 322
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,142評(píng)論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,303評(píng)論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,799評(píng)論 1 333
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,683評(píng)論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,899評(píng)論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,409評(píng)論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,135評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,520評(píng)論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,757評(píng)論 1 282
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,528評(píng)論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,844評(píng)論 2 372

推薦閱讀更多精彩內(nèi)容