Kaggle入門,看這一篇就夠了「轉載」

侵刪。

Kaggle入門,看這一篇就夠了

Kaggle入門,看這一篇就夠了

a2Mia姐

<time datetime="Fri Mar 10 2017 06:02:52 GMT-0500 (EST)">1 年前</time>

這次醞釀了很久想給大家講一些關于Kaggle那點兒事,幫助對數據科學(Data Science)有興趣的同學們更好的了解這個平臺,最好能親身參與進來,體會一下學校所學的東西和想要解決一個實際的問題所需要的能力的差距。雖然不是Data Science出身,但本著嚴謹的科研態度,在進行了大量的調研、學習以及對相關經驗者的訪談之后,決定寫下這篇專欄,一方面讓那些對數據科學(Data Science)有興趣的求職者和申請者能真正了解這個項目,另一方面也讓那些有想法參與進來的人get到正確的打開方式。

注:此文章只允許ApplySquare(申請方)的相關媒體轉賬,其他不給予轉載權。

什么是Kaggle?

Kaggle成立于2010年,是一個進行數據發掘和預測競賽的在線平臺。從公司的角度來講,可以提供一些數據,進而提出一個實際需要解決的問題;從參賽者的角度來講,他們將組隊參與項目,針對其中一個問題提出解決方案,最終由公司選出的最佳方案可以獲得5K-10K美金的獎金。

除此之外,Kaggle官方每年還會舉辦一次大規模的競賽,獎金高達一百萬美金,吸引了廣大的數據科學愛好者參與其中。從某種角度來講,大家可以把它理解為一個眾包平臺,類似國內的豬八戒。但是不同于傳統的低層次勞動力需求,Kaggle一直致力于解決業界難題,因此也創造了一種全新的勞動力市場——不再以學歷和工作經驗作為唯一的人才評判標準,而是著眼于個人技能,為頂尖人才和公司之間搭建了一座橋梁。

這里有一篇對Kaggle首席科學家Jeremy Howard的采訪,介紹了Kaggle的創建初衷及運營模式,即任用最聰明的人解決世界上最棘手的問題;同時,任何公司和組織都可以受益于機器學習的發展進步,感興趣的同學可以戳這里:原文鏈接,來進一步了解。

Kaggle的競賽模式是什么樣的?

Kaggle上的競賽有各種分類,例如獎金極高競爭激烈的的 “Featured”,相對平民化的 “Research”等等。但他們整體的項目模式是一樣的,就是通過出題方給予的訓練集建立模型,再利用測試集算出結果用來評比。同時,每個進行中的競賽項目都會顯示剩余時間、參與的隊伍數量以及獎金金額,并且還會實時更新選手排位。在截止日期之前,所有隊伍都可以自由加入競賽,或者對已經提交的方案進行完善,因此排名也會不斷變動,不到最后一刻誰都不知道花落誰家。

由于這類問題并沒有標準答案,只有無限逼近最優解,所以這樣的模式可以激勵參與者提出更好的方案,甚至推動整個行業的發展。

Kaggle競賽另一個有趣的地方在于每個人都有自己的Profile,上面會顯示所有自己參與過的項目、活躍度、實時排位、歷史最佳排位等,不僅看上去非常有成就感,更能在求職和申請的時候起到Certificate的作用。

Kaggle參賽者的背景大多是什么樣的?

從比賽目標出發,參賽者主要分為兩種,一種是以獎金和排名為目的,包括靠獎金為生的職業Kaggler;另外一種就是以提升相關skills和背景為目的業余愛好者甚至在校學生了。

從背景來看,前者的來源主要有豐富data science、data mining、machine learning工作經驗的業內人士,或者是實力強勁的民間“技術宅”;而后者則往往是一些有一定技術能力,但經驗欠缺,從中進行學習和鍛煉的“長江后浪”。

0基礎的人如何上手Kaggle?

理論上來講,Kaggle歡迎任何數據科學的愛好者,不過實際上,要想真的參與其中,還是有一定門檻的。一般來講,參賽者最好具有統計、計算機或數學相關背景,有一定的coding技能,對機器學習和深度學習有基本的了解。Kaggle任務雖然不限制編程語言,但絕大多數隊伍會選用Python和R,所以你應該至少熟悉其中一種。此外,對于那些對成績有追求的人,Feature Engineering也是必不可少的。但對于Data Science的入門者來說,這樣的要求實在是有些過分了。對于這一塊想要進一步了解的同學可以看這個問題:特征工程到底是什么?其中@城東 的答案(點這里)和@張戎 的答案(點這里)都非常詳細。

當然,如果你從未獨立做過一個項目,還是要從練習賽開始熟悉。因為競賽模式中的任務是公司懸賞發布的實際案例,并沒有標準的答案;而練習賽不僅項目難度低,而且是有官方給出的參考方案的,大家可以用來對比改善自己的測試結果,從中進行提高。所以呢,建議感興趣的同學先去獨立做一下101和playground的訓練賽,至于做多少個案例才能上道,就要看個人素質啦。這里為大家推薦幾篇非常好的文章,里面手把手的教了大家入門級的三個經典練習項目,供大家學習。

1. Titanic(泰坦尼克之災)
中文教程: 邏輯回歸應用之Kaggle泰坦尼克之災
英文教程:An Interactive Data Science Tutorial

2. House Prices: Advanced Regression Techniques(房價預測)
中文教程:Kaggle競賽 — 2017年房價預測
英文教程:How to get to TOP 25% with Simple Model using sklearn

3. Digital Recognition(數字識別)
中文教程:大數據競賽平臺—Kaggle 入門
英文教程:Interactive Intro to Dimensionality Reduction

Kaggle競賽獲獎及取得名次難么?

Kaggle競賽取得獎金乃至取得好的名次的難度都是非常高的,通常一個項目的參與人數都能達到數千人,而其中只有Top 1可以得到獎金,可以說是高手中的高手。通常來說,幾個具有一定水平的業內人士在臨時組隊的情況下最多也就拿到20名左右的成績,想要再往前沖往往都需要有一定程度的默契和合作經驗了。

所以,對于以學習與實踐為目的的小白選手來說,不要太在意排名,從參賽的過程中不斷地提升自己才是最終的目的。當經過一次又一次的洗禮最終取得一個不錯的成績后,相信你也已經成長為可以在相關領域獨當一面的人才了。

Kaggle競賽的認可度高么?

Kaggle作為Data Science業內享有盛名的平臺,在業界擁有極高的認可度。所以如果你是想尋找相關行業的工作,那一個漂亮的Kaggle profile將為你的簡歷增色不少。Quora上的這個問題:How can we use Kaggle? (點擊查看)就提到,把Kaggle的項目經驗寫在Linkedin上可以很直觀的展現自己作為一個Data Scientist的能力。

國內亦有一些高級人才對Kaggle有很高的認知度,比如Edward.Fu - 知乎 一直在知乎各個和Kaggle相關的問題下留言尋覓Kaggle比賽經驗豐富的人,表示常年有這方面的需求,說明國內對Kaggle的項目經驗也是非常認可的。@Lau Phunter在Kaggle 的比賽在 Machine Learning 領域中屬于什么地位? 回答下面所說的:

寫上參加過Kaggle比賽,我會看簡歷。
得過一次10%,我會給電話面試。
得過2次或者以上10%,我會給on site面試。
得過一次前10,我們會談笑風生。

參加Kaggle是一種怎樣的體驗?

在調研的過程中我采訪了幾個Kaggler,將他們的親身經驗做了一下總結:

Kaggler A,NYC Data Science Academy team leader/ 美國數據電子交易公司CEO,多次參加Kaggle比賽:

參加此項目,你不可或缺的品質就是持續的熱情和堅韌不拔的毅力,即使是像我這樣的老司機,和另外兩個專攻CS和統計方向的小伙伴組隊,一個難度中等的項目做下來也要投入兩周,每天工作10h以上。更別提那些有著強迫癥,一遍遍修改方案,直至deadline的完美主義大牛了。我相信沒有一支奪冠隊伍是在提交方案后完全沒改過的,頂尖高手的成功不僅是基于他們的專業素養,還有其背后我們看不到的勤奮。

Kaggler B,某知名大數據公司的數據分析師,在美國讀統計研究生期間曾通過Kaggle項目提升自己數據操作技能:

我是統計本科申請一年半的統計Master,目前剛剛回國工作。在出國前對Kaggle也是聞所未聞,來到美國以后,在導師的引導下知道了Kaggle這個巨大的學習源,經常在上面學習。在我看來,Kaggle的背書還是非常有用的,排位前幾十的都是大神級別,他們從來不需要找工作,都是工作來找他們。而對我們這樣的小白,如果沒有整塊時間找實習或者沒有找到合適的實習機會,利用閑暇時間做一些Kaggle項目,寫在簡歷上也能算做一些項目經驗,更容易得到面試;同時,在做項目的過程中,實實在在的Skills的提高也能讓我們在求職時筆試的表現更好,獲得更好的工作機會。

除此之外,知乎上面著名的“體驗貼”也給出了很多第一手的體驗:參加kaggle競賽是怎樣一種體驗? - 大數據 - 知乎。在這個問題下 Naiyan Wang 給出了一個非常詳細的答案,同時答主也有一個很好的Profile,文中涉及Kaggle側重的能力,比賽的要點,以及關鍵的技術,歡迎大家圍觀~

Kaggle的競爭非常激烈,正如OFuture T - 知乎 所說,很多時候Kaggle的排名即便是前50位流動性也很大,從前幾名跌至幾十名不過一兩天的事,可想而知想要保住排位要在此付出多大的時間和精力,一次次的推翻自己,碾壓別人,真是個磨人的小妖精。。。

Kaggle有什么意義?

  • 從求職者的角度來看:

Kaggle提供了一個非常好的學習平臺,在這里你可以接觸到真正的業界案例,收獲實際的項目經驗,在每一個項目中不斷挑戰自己,甚至在Kaggle榜上占據一席之位,提高自己在業內的知名度,優秀的排位甚至可能帶來的非常好的工作機會。同時,也可以認識一群志同道合的人,擴展自己的professional network,與業內最頂尖的高手互動,尤其是很多隊伍在比賽結束后都會公開自己的解法,如果這個項目恰好你參與過,為之投入過無數個日日夜夜,此時就是不可多得的學習機會。

對于剛剛進入這個行業的菜鳥而言,參加Kaggle的項目是非?!伴L見識”的,可能初期的嘗試會非常吃力,畢竟都是非常前沿的問題,但是如果能堅持完整的把一個項目做下來,且不說coding能力會有一個很大的提高,在實際案例中解決問題的能力也會得到極大的鍛煉,為自己的職業生涯打下一個良好的基礎。如果能在Kaggle這種高手云集的比賽中獲得一個還不錯的成績,寫在簡歷上足以打動你今后的Boss,跳槽就翻倍的高薪工作指日可待!值得一提的是,雖然是匯集精英的社區,Kaggle的論壇氛圍很好,對新人非常友好,大家一定要多看Script多請教!

  • 從留學申請者的角度來看:

對于申請Data Science相關專業的同學來講,大數據的走紅使得Data Science的申請競爭愈演愈烈,因此如何提升背景也是大家非常關心的問題。而Kaggle正好給大家提供了一個非常好的平臺,在這里人人有參與項目的機會,無論你的背景是什么,都可以通過選擇合適的項目來找到屬于自己的位置,利用自己的專業優勢,為整個team作出貢獻,豐富簡歷的同時也能學習一些干貨,為自己以后的學習打好基礎。而其在領域內的知名度足以讓你在眾多申請者中脫穎而出,絕對是申請利器!

對于新人,如何在Kaggle中提升排位?

  • 選擇合適的隊友:

由于Kaggle的項目是由公司提供的,涉及各個行業,所以一般都是不同背景的人組隊參加(如統計、CS、DS,項目相關領域如生物等)。因此對于新手來講,很重要的一點就是要抱好大腿,不僅可以蹭到好的排名,還有機會近距離向大牛學習,技能值必然嗖嗖漲。而自己可以從力所能及的工作做起,如清洗數據等等,積累項目經驗。

  • 選擇“正確”的項目;

首先,選擇數據量小的項目,這樣不管使用什么算法都不會耗時太久,對機器性能要求也不高,出結果也比較快;其次,選擇難度低獎金少的項目,一方面競爭小,另一方面也適合新手;最后,選擇參與人數多的項目,畢竟有那么多“僵尸號”撐著。這樣下來,基本上認認真真做下來排名都不會太難看。

  • 選擇恰當的工具:

我們都知道循序漸進的道理,因此對于剛剛涉獵Kaggle,只是希望從中學習,而不追求高排名的同學,可以先從學習Machine Learning中常用的模型開始,比如Logistic Regression和Random Forest,這兩個模型對于大部分問題就夠了;基礎好的還可以學習一下Gradient Boosting,雖然難度高一點,但是可視化效果會好很多。

當然,說到底,想獲得更好的名次,提高自己的Skills才是終極解決方案!

最后是彩蛋時間:

  • <u>Data Science專業群:</u>

我們準備了Data Science相關的專業群,給準備留學申請DS專業的小伙伴一個聚集地。

群里的福利:

? Program信息
我們會幫助大家分析最新最熱的DS Program申請信息,幫助大家選擇最適合自己的項目。

? 神秘嘉賓分享
我們會邀請資深數據科學家作為嘉賓來跟大家進行語音分享,談一談有關于這個領域背景提升、申請和就業的一系列問題。

? 組隊打怪
你可以找到志同道合的小伙伴,一起組團做project,互通有無share有用信息,在崎嶇的申請路上互相取暖。

詳細信息及報名方式查看這里:老師,我也想申請Data Science呢!

  • <u>學習資源:</u>

給大家匯總了一些超級良心的手把手教程,@Wille 在專欄中發表的文章—Kaggle 入門指南, 詳細介紹了Kaggle項目的大致流程,包括Data Exploration, Statistical Test, Data Processing, Feature Engineering, Model Selection, Ensemble Generation每一步該怎么做,有哪些Tips,最后還給出了一個“Home Depot Search Relevance”的案例,拿到它就可以開始自己的Kaggle排位賽了!祝愿大家都能夠成為一個優秀的Data Scientist!

接下來是我整理的一些相關的學習資源,大家各取所需。

  • <u>基礎準備篇之Python</u>

怎么用最短時間高效而踏實地學習 Python?

你是如何自學 Python 的?

在線教育網站(Coursera網易云edx課堂騰訊課堂等)有哪些值得推薦的 Python 教程?

  • <u>基礎準備篇之R</u>

業余時間如何學數據分析?

如何高效地學好 R?

好看的數據可視化的圖片是怎么樣做的?

  • <u>基礎準備篇之Machine Learning</u>

機器學習該怎么入門?

深度學習如何入門?

JustFollowUs/Machine-Learning

  • <u>基礎準備篇之Kaggle Experience</u>

從Python菜鳥到Python Kaggler的過程:

Python機器學習實踐與Kaggle實戰

經常更新的的大數據博客

TO最愛學習的你:國外大數據博客資源大全 | 36大數據

How to start doing Kaggle competitions?

What do top Kaggle competitors focus on?

A Journey Into Data Science

Techniques to improve the accuracy of your Predictive Models

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,030評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,310評論 3 415
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,951評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,796評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,566評論 6 407
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,055評論 1 322
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,142評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,303評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,799評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,683評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,899評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,409評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,135評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,520評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,757評論 1 282
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,528評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,844評論 2 372

推薦閱讀更多精彩內容