最近參加了tiger組織的解密大數據學習群,他請了幾位數據科學家方面大牛來做分享,從牛人的經歷來看,我們普通人和他們還有多大的差距,如何才能成為一個數據科學家?
一、什么是數據科學家
根據IBM研究院的這張圖,數據科學需要這三方面的知識 Math and statistics(數學與統計),Computer Science(計算機科學),Domain Knowledge(行業知識)。
二、和數據科學家的差距在哪里
如果以上面這張圖為例,衡量與數據科學家的差距,就轉換成掌握這些知識的多少。根據tiger等人的學歷和工作背景,初步估算了一下幾位大牛的情況,100%是最高,結果如下:
tiger等人都是北美高校的統計學博士,顯然數學和統計學知識是非常強的,例如像蒲博士那樣的,在讀博士期間又修了很多計算機編程方面的課程,計算機知識也還是不錯,當然行業知識會弱一些。自己和他們相比,差距還是非常大,主要是受到自己的學習背景所限,數學、統計和計算機科學學習都很少,稍微好一點的是,自己在金融行業,每天做的工作會逐漸增加自己的專業知識。
三、可行的成長之路
目標已經明確,具體的路徑如何選擇呢?
路徑的選擇由自己的起點決定。
第一類,統計學或者理科背景,路徑是補上計算機知識,盡快從事數據分析工作。以tiger他們為例,他們都是北美著名高校的理科博士或者統計學博士,起點還是非常高的,短板是計算機科學和行業知識,他們的最佳路徑就是在博士期間補強計算機知識,然后利用暑期實習等機會增加行業知識,一旦進入互聯網行業或者在金融等行業從事數據分析工作,他們原有的統計學背景結合計算機專業知識,就能夠迅速發揮作用。
第二類,計算機背景,建議的路徑是憑借計算機能力進入互聯網或者相關行業,增加統計知識后通過從事數據分析工作來向數據科學家的方向發展。
第三類,傳統行業背景,建議的路徑是以現有行業為基礎,挖掘可以開展數據分析的具體領域,在應用的過程中學習和掌握統計、計算機知識,逐漸提升自己的數據分析能力。在組織內部,也有機會調動IT等方面的資源,有些工作不一定需要自己親歷親為,但是數據分析的基本邏輯還是要非常熟悉。
PS:關于幾位數據科學家的具體介紹:
硅谷數據科學家成長之路主講人介紹 蒲博士,統計學博士2007年-2011年在上海交大讀核工程專業2011年-2013年在明尼蘇達大學讀物理專業2013年-2017年在加州大學圣地亞哥分校讀統計學專業