【CSDN博客遷移】Spark機器學習過程梳理

最近半個月開始研究Spark的機器學習算法,由于工作原因,其實現在還沒有真正開始機器學習算法的研究,只是做了前期大量的準備,現在把早年學習的,正在學習的和將要學習的一起做個梳理,整理一個Spark機器學習完整流程。本文推薦的書籍注重通俗和實戰。

基礎知識


Linux基礎知識和實戰

Linux的學習推薦《鳥哥的Linux私房菜》基礎篇,這本書是成千上萬Linux學習者的入門書籍,詼諧,幽默,深刻,注實戰。我早年看的時候是第三版,今年6月份鳥哥已經更新到了第四版。
繁體網址:http://cn.linux.vbird.org/
簡體網址:https://wizardforcel.gitbooks.io/vbird-linux-basic-4e/content/

網絡知識

在集群運維時,尤其是生產環境下,各個節點之間的網絡問題,至關重要,推薦《鳥哥的Linux私房菜》服務器篇和《Wireshark網絡分析就這么簡單》,后者的作者是EMC網絡存儲部門的主任工程師,主要以自己工作中遇到的各種難題,通過調侃的方式,介紹了網絡的基礎知識(很遺憾,我還沒有讀完)。

Hadoop基礎知識和原理

Hadoop的學習我早年看的書是《Hadoop權威指南》,這本書不推薦,因為確實不好啃,翻譯的水平有限,對于初學者來說,容易放棄,我開始學習Hadoop時,應該是1.0時代,這時的三架馬車是HDFS和MapReduce,HBase,這幾年隨著Hadoop的在業界的迅速發展,進入了2.0時代,集成進了雅虎的Yarn資源管理器。當然不管如何發展,HDFS和MapReduce還是Hadoop的核心,最好動手去搭建Hadoop集群(前面Linux的學習在這里就能發揮作用了)。

Spark基礎知識和原理

Spark的學習推薦《Spark快速大數據分析》和官網指南,這本書是Saprk開源社區的幾位核心貢獻者寫的,讀起來很流程,其中RDD章節是核心,相對于MapReduce每次中間過程都將數據寫入硬盤,IO消耗大,RDD則是放在了內存中,速度不言而語(其實就是犧牲內存換速度)。當然最好也去動手搭建集群,這里可以參考我之前寫的博客
集群搭建:http://www.lxweimin.com/p/4b8b3e2ffe84
開發實例:http://www.lxweimin.com/p/eb6f3e0c09b5

開發語言


在機器學習領域的語言,一定是一門函數式編程語言,其次有強大的第三方科學計算庫。

Python

在科學計算領域,Python無疑是第一語言,Spark也是支持Python的,Python的第三方庫有NumPy(數值處理庫)、SciPy(數學符號計算庫)、matplotlib等。

Scala

Python作為科學計算領域的第一語言,有著龐大的科學計算庫,但是,我個人選擇Scala語言的原因有兩個:一,Scala語言的函數式設計更好,二,Scala是運行在JVM上的,在生成壞境下速度優勢明顯。
基礎語法的學習推薦:http://twitter.github.io/scala_school/zh_cn/Twitter的Scala課堂
推薦視頻1:http://www.imooc.com/learn/613慕課網scala視頻教程),這個視頻是下面英文版視頻的簡化版,每集7分鐘左右,主要理解Scala函數式編程的思想。
推薦文章:https://www.zhihu.com/question/28292740函數式編程思維),和上面的視頻一起看,基本上是scala函數式編程的精髓。
推薦視頻2:https://www.coursera.org/specializations/scalaScala 函數式程序設計原理),視頻是scala語言的設計者Martin Odersky教授講解的,有中文字幕,這個是深入學習Scala視頻。

理論知識


線性代數

如果不熟悉線性代數的概念,要去學習自然科學,現在看來就和文盲差不多 ————瑞典數學家Lars Garding

這句話可能有點過,但至少是機器學習的基礎。
推薦視頻1:麻省理工學院Gilbert Strang教授的線性代數課 ,視頻地址:http://open.163.com/special/opencourse/daishu.html (已看到19集),上學階段未理解的很多概念,如矩陣列空間,零空間,和行空間及線性變換,這門課講的很好。
推薦視頻2:
線性代數的本質
視頻地址:https://www.bilibili.com/video/av6731067/ ,B站翻譯的視頻,作者結合動畫形式從幾何角度講解線性變化,矩陣,行列式,向量空間等意義。講的非常好,謝謝翻譯作者。
推薦文章:《線性代數的本質》 一篇博客,和上面的視頻結合這看。
推薦書籍:David C.Lay 教授的《線性代數及其應用》,這本書對于矩陣的線性變化解釋的很好,是一本很好的工具書,可以隨時翻。

Spark高級數據分析和機器學習

下面才是真正的機器學習開始。這里推薦《Spark高級數據分析》《Spark機器學習》
前者的作者是Cloudera公司的數據科學家,主要以目前業界的案例分析。在理解的基礎上最好去動手實踐,我個人在集群上運行了第八章的案例,可以參考我之前寫的博客:利用Docker搭建大數據處理集群。 后者還沒讀。
機器學習才剛開始,后續會更新。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,967評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,273評論 3 415
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,870評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,742評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,527評論 6 407
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,010評論 1 322
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,108評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,250評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,769評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,656評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,853評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,371評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,103評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,472評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,717評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,487評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,815評論 2 372

推薦閱讀更多精彩內容