本文由SocialBeta根據一畝三分地Warald (Email: iamxiaoning@gmail.com;博客:http://www.1point3acres.com)數據科學系列文章、Todd Wasserman《So you wanna be a data scientist? A guide to 2015′s hottest profession》和知乎網友Han Hsiao《如何成為一名數據科學家》話題答案編譯整理。
你是精通數學、擅長Python并對某一特定行業有著深入理解的Geek么?
如果你的答案是Yes,不妨考慮一下21世紀最性感的職業——數據科學家。
領英最近評選出了2014年前25大最受歡迎職場技能,其中“統計分析與數據挖掘”名列第一。

而根據Glassdoor的報告顯示,數據科學家的平均薪水高達118709美元,與之相對應的是,程序猿的平均薪水只有64537美元。麥肯錫的研究預測,截止2018年,美國將面臨14萬到19萬擁有深度分析技能的人才缺口,同時懂得運用大數據作出有效決策的分析師和經理也將會有150萬人次的短缺。由此可見,未來數據科學家的前景將非常樂觀。本文就從數據科學家的定義、工作內容和所需技能講起,告訴你如何踏上數據科學家之路。
數據科學家的定義
數據科學(Data Science)是從數據中提取知識的研究。數據科學集成了多種領域的不同元素,包括信號處理,數學,概率模型技術和理論,機器學習,計算機編程,統計學,數據工程,模式識別和學習,可視化,不確定性建模,數據倉庫,以及從數據中析取規律和產品的高性能計算。數據科學并不局限于大數據,但是數據量的擴大誠然使得數據科學的地位越發重要。
營銷人最為關注的數據驅動營銷(Data Driven Marketing)就是數據科學在營銷領域的運用。在此引用一畝三分地W大的博文《現在很火的數據科學到底是什么?你對做DATA SCIENTIST感興趣嗎?》,闡述一個與廣告和營銷密切相關的應用場景:
一家公司要打廣告,有多個選擇:搜索引擎、各種風格迥異的social media、傳統媒體,到底應該把錢投入到那里會帶來最大的回報?
至于伴隨著你的網頁點擊,amazon調整產品顯示的順序,推薦你最感興趣的產品,或者你修改LinkedIn Profile里的skills & projects,這家公司自動給你推薦匹配的工作、從你的connections里查找可能幫忙的人,這些聰明、精準又實時的決策背后,都是data science。
數據科學家,顧名思義就是數據科學的從業者。這個頭銜首次出現于2008年,由D.J. Patil和Jeff?Hammerbacher所提出,他們后來分別成為了LinkedIn和Facebook的數據和分析團隊的負責人。目前已經有數千位數據科學家供職于創業公司和成熟的大型企業。數據科學家在行業中的忽然走俏,反映了這樣一個現狀,企業需要處理的信息正以從未遇見過的規模和渠道涌現。
曾經投資過Facebook,LinkedIn的格雷洛克風險投資公司把數據科學家描述成“能夠管理和洞察數據的人”。在IBM的網站上,數據科學家的角色被形容成“一半分析師,一半藝術家”。他們代表了商業或數據分析這個角色的一個進化。
數據科學家主要做什么
數據科學家能夠駕馭多種職責的工作。《數據之美?Beautiful Data》的作者Jeff Hammerbacher在書中提到:
“對于 Facebook 的數據科學家,我們發現傳統的頭銜如商業分析師、統計學家、工程師和研究科學家都不能確切地定義我們團隊的角色。該角色的工作是變化多樣的:
在任意給定的一天,團隊的一個成員可以用?Python?實現一個多階段的處理管道流、設計假設檢驗、用工具R在數據樣本上執行回歸測試、在?Hadoop?上為數據密集型產品或服務設計和實現算法,或者把我們分析的結果以清晰簡潔的方式展示給企業的其他成員。為了掌握完成這多方面任務需要的技術,我們創造了數據科學家這個角色。”
游戲公司Playstudios?的數據科學家Jon Greenberg說:“每天我都管理著一堆與業務相關的Dashboard——用以向公司匯報我們的用戶正在做什么?!比缃駬谓浝淼腏on比從前花在編程上的時間更少了。通常,他將數據從Hadoop中提取出來,然后用R來運行,最終以可視化的形式來呈現。
Jon熱愛的是這份工作本身?!跋氤蔀閿祿茖W家,首先,你得有一個分析型的頭腦,你需要頭腦靈活、有好奇心、充滿創意,并且總能想到多種解決問題的方法。這份工作的缺點是清洗數據所花費的時間太長,這一部分并不那么令人興奮?!?/p>
數據科學家的工作可能不像人們想象得那樣酷炫有趣。由于Data是一切分析的基礎,所有公司都會雇傭一些人集中做最基本的數據收集和整理,主要用SQL,可能寫一些簡單的程序、做一些粗淺的分析,但是整體上工作比較枯燥無聊,也可以說是“底層人群”;用Machine Learning或者統計建模的則屬于高級人群;同時,分析數據要用到各種軟件工具,可能需要高級的軟件系統來支持experiments,自然也就需要軟件工程師來支持。分析結果最終要用來幫助公司盈利,所以公司的管理層和直接帶來盈利的部門(sales、marketing、business development)也會參與,并作出最終的決策(decision making)。
數據科學家所需的技能素養
“數據科學家應該是藝術和科學的結合體??茖W的部分是顯而易見的:數學/統計、編程等等硬技能。藝術的部分也是同等重要——創造力、深層語境理解。兩部分組合在一起才能造就一個出色的問題解決者?!豹毩祿茖W家及咨詢顧問Anmol Rajpurohit如是說。他同時認為,對于數據科學家來說,懂得通用的編程技能比成為某一特定語言的編程大師更為重要,因為技術發展的速度令人驚奇,而且總有新的程序語言會冒出來代替舊語言。

數據科學家知識譜系圖
數據科學家需要具備的能力,可以用Thomas H. Davenport(埃森哲戰略變革研究院主任)?和?D.J. Patil(美國科學促進會科學與技術政策研究員,為美國國防部服務)的話來總結:
?數據科學家傾向于用探索數據的方式來看待周圍的世界。(好奇心)
?把大量散亂的數據變成結構化的可供分析的數據,還要找出豐富的數據源,整合其他可能不完整的數據源,并清理成結果數據集。(問題分體整理能力)
?新的競爭環境中,挑戰不斷地變化,新數據不斷地流入,數據科學家需要幫助決策者穿梭于各種分析,從臨時數據分析到持續的數據交互分析。(快速學習能力)
?數據科學家會遇到技術瓶頸,但他們能夠找到新穎的解決方案。(問題轉化能力)
?當他們有所發現,便交流他們的發現,建議新的業務方向。(業務精通)
?他們很有創造力的展示視覺化的信息,也讓找到的模式清晰而有說服力。(表現溝通能力)
?他們會把蘊含在數據中的規律建議給Boss,從而影響產品,流程和決策。(決策力)
Han Hsiao在知乎《如何成為一名數據科學家》一帖中將數據科學家的硬性技能作了如下歸類,并附有資源鏈接,供有志于成為數據科學家的朋友參考:
(1)?計算機科學
一般來說,數據科學家大多要求具備編程、計算機科學相關的專業背景。簡單來說,就是對處理大數據所必需的Hadoop、Mahout等大規模并行處理技術與機器學習相關的技能。
(2)?數學、統計、數據挖掘等
除了數學、統計方面的素養之外,還需要具備使用SPSS、SAS等主流統計分析軟件的技能。其中,面向統計分析的開源編程語言及其運行環境“R”最近備受矚目。R的強項不僅在于其包含了豐富的統計分析庫,而且具備將結果進行可視化的高品質圖表生成功能,并可以通過簡單的命令來運行。此外,它還具備稱為CRAN(The Comprehensive R Archive Network)的包擴展機制,通過導入擴展包就可以使用標準狀態下所不支持的函數和數據集。R語言雖然功能強大,但是學習曲線較為陡峭,個人建議從python入手,擁有豐富的statistical libraries,NumPy,SciPy.org,Python Data Analysis Library,matplotlib: python plotting。
(3)?數據可視化(Visualization)
信息的質量很大程度上依賴于其表達方式。對數字羅列所組成的數據中所包含的意義進行分析,開發Web原型,使用外部API將圖表、地圖、Dashboard等其他服務統一起來,從而使分析結果可視化,這是對于數據科學家來說十分重要的技能之一。
(4)?跨界為王
麥肯錫認為未來需要更多的“translators”,能夠在IT技術,數據分析和商業決策之間架起一座橋梁的復合型人才是最被人需要的?!眛ranslators“可以驅動整個數據分析戰略的設計和執行,同時連接的IT?,數據分析和業務部門的團隊。如果缺少“translators“,即使擁有高端的數據分析策略和工具方法也是于事無補的。
天才的“translators”非常罕見。但是大家可以各敬其職,數據戰略家可以使用IT知識和經驗來制定商業決策,數據科學家可以結合對專業知識的深入理解使用IT技術開發復雜的模型和算法,分析顧問可以結合實際的業務知識與分析經驗聚焦下一個行業爆點。
哪些公司在招聘數據科學家
谷歌、亞馬遜、Netflix和Uber這類數據驅動型科技公司都擁有數據科學小組。而現在,連Neiman Marcus、沃爾瑪、Clorox和Gap這樣的非科技公司也開始尋覓數據科學家來為公司找到新趨勢下的商機。
一畝三分地W大對美國工業界也頗有了解,他在《美國哪些公司招聘DATA SCIENTIST?看重數據科學家什么方面的背景?》一文中提到,Information Technology、Insurance、Marketing/BI這三個行業是招募數據科學家的主力。而在不同的公司,同樣是做data scientist或者analytics的工作,要求的技能和工作的內容也非常不同。
比如Google前段時間招聘quantitative analyst跟marketing部門合作,這個部門據說有40多個PhD,來自各個專業,設計各種模型和實驗來幫助google盈利;最讓人驚奇的是,Google每年收200萬份簡歷,HR篩選不過來,干脆也招個做machine learning的高手,要用機器學習來處理世界各地提交的簡歷;微軟Online Service Division有跟marketing更接近的Data Scientist,也有很多學統計或者IE出身的Applied Scientist做randomized controlled experiment;而LinkedIn、Facebook的data scientist感覺要求Java編程技術熟練,可能學Computer Science出身的最適合;Amazon強大的recommendation system,你瀏覽了啥產品,amazon立刻customize你的頁面,全是極其相關的東西推薦給你買。
Insurance行業招的是Predictive Modeler,他們的總體目標就是要基于數據,預測在不同客戶身上收多少保險費能最大化收益、optimize profits,所有相關專業的它們都考慮,比如波士頓城里的liberty mutual這家大公司,predictive analytics team里,OR、Stat、Math、Economics、Machine Learning等各種背景的人都有,論資歷、學歷,從比較新的博士到有經驗的碩士都有。
同時,傳統行業也在加強analytics(他們一般不叫data science),比如做Texas一家工業廢油處理公司的analytics team,目前只是用很基本的統計分析對市場做合理的segmentation,就讓公司在某個地區的利潤增長超過20%;俄亥俄生產化肥的公司、常春藤大學里校友辦公室負責募捐的、美國全國各地的超市等,都在過去的兩年里尤其是2012年,拼命的組建或者擴充自己的analytics?team,分析數據,用數據來支持決策。這類工作,一般更接近Business Intelligence(BI)和Marketing。
數據科學家的前景
《哈佛商業評論》引用Gartner最新的研究報告指出,67%的營銷部門準備在未來兩年內增加與技術相關的預算。更具體的數據是,61%的營銷部門準備提高在技術上的資本投入額度,而65%則準備提高支付給技術服務供應商的費用。
未來,更多的商務決策會建立在data analytics的基礎上,今后會有一些能力很強的data scientist,借著風頭,從技術人員成長為business leaders。而且加盟傳統行業、做統計分析,會更容易出頭。
總的來說,作為一個有廣闊前景、代表著未來方向的職業,data scientist今后發展空間很大,同時這類工作又需要多個專業的技能,最近幾年開始做data scientist的,大體都算是有first mover advantage,前景很好。
數據科學家相關專業、課程和資源
哥倫比亞大學
Master of Science in Data Science
西北大學
Master of Science in Analytics
紐約大學
Master of Science in Data Science
伊利諾伊大學香檳分校
Master of Science in Statistics: Analytics Concentration
Coursera.org:統計學。
Coursera.org:機器學習。
Coursera.org:數據分析的計算方法。
Coursera.org:大數據。
Coursera.org:數據科學導論。
Coursera.org:數據分析。
名校課程,需要一定的英語基礎和計算機基礎:
Statistical Thinking and Data Analysis:麻省理工學院的統計思維與數據分析課。概率抽樣,回歸,常見分布等。
Data Mining | Sloan School of Management:麻省理工學院的數據挖掘課程,數據挖掘的知識以及機器學習算法。
Rice University Data Visualization:萊斯大學的數據可視化,從統計學的角度分析信息可視化。
Harvard University Introduction to Computing, Modeling, and Visualization: 哈佛大學,如何在數學計算與數據交互可視化之間架起橋梁。
UC Berkeley Visualization:加州大學伯克利分校數據可視化。
Data Literacy Course — IAP:兩個MIT的數據研究生,如何分析處理可視化數據。
Columbia University Applied Data Science:哥倫比亞大學,數據分析方法。需要一定的數據基礎。
SML: Systems:加州大學伯克利分校,可擴展的機器學習方法。從硬件系統,并行化范式到MapReduce+Hadoop+BigTable,非常全面系統。
業界有名的數據科學家名錄
Larry Page,谷歌CEO。
Jeff Hammerbacher,Cloudera的首席科學家和DJ Patil,Greylock風險投資公司企業家。
Sebastian Thrun,斯坦福大學教授和Peter Norvig,谷歌數據科學家。
Elizabeth Warren,Massachusetts州美國參議院候選人。
Todd Park,人類健康服務部門首席技術官。
Sandy Pentland,麻省理工學院教授。
Hod Lipson and Michael Schmidt,康奈爾大學計算機科學家。
參考鏈接:
So you wanna be a data scientist? A guide to 2015′s hottest profession
現在很火的數據科學到底是什么?你對做DATA SCIENTIST感興趣嗎?
數據科學家data scientist需要的三大核心技能:Data Hacking、Problem Solving and Communication
想成為數據科學家Data Scientist,需要申請讀什么專業?
美國哪些公司招聘Data Scientist?看重數據科學家什么方面的背景?
MARKETING IS THE NEXT BIG MONEY SECTOR IN TECHNOLOGY, 需要統計分析+軟件編程人才(上)
Marketing is the next big money sector in technology, 需要統計分析+軟件編程人才(中)
Marketing is the next big money sector in technology, 需要統計分析+軟件編程人才(下)
(原文:http://www.socialbeta.com/articles/guide-how-to-be-a-data-scientist.html)