余晟以為:大數據漫談(精華版)

經常有朋友問,免費的生意到底是怎么玩的?團購這種“站在跟前打折”的做法沒有貓膩嗎?每次我解釋完這類問題,常會有人感嘆說:好精明。是的,傳統上說做這種生意的人必須“心眼多”、“會算”。但換個角度看,“精明”和“心眼多”并不是獨特的天賦,說到底無非是“駕馭數據的能力”而已。如果說過去駕馭數據很大程度上需要依賴聰明才智,那么現在依靠技術的發展,駕馭數據的門檻已經大大降低了,進入“大數據”時代之后,這一點應該體現得更加明顯。不得不承認,”大數據“已經成了熱門的詞匯,仿佛一夜之間,我們就進入了”大數據“時代,處理數據的各種限制和困難都不復存在了。隨之而來的,大家駕馭數據的能力都應該突飛猛進,玩轉數據再也不是什么難事。但是,事實真的如此嗎?

不幸的是,現在很多所謂的”大數據“,只有量的積累,沒有質的提升,只有規模的增長,沒有價值的飛躍。依靠迅速提升的存儲能力,我們可以保存幾乎無限的數據。但是大家能從數據里挖掘出來多少內容?看來看去,似乎還只是原先的那些指標,充其量是能更快得到結果而已。這就是我們想要的”大數據“嗎?如果不是,真正的”大數據“應該怎樣玩?

要回答這個問題,可以去閱讀各種和”大數據“相關的書籍,得到一大堆”經典“例子,也可以聽聽在每天與數據打交道的先行者們的說法,傾聽來自第一線的感悟。

很多人還沒有為大數據做好準備,最明顯的,還有很多公司仍然在定期清理日志。存儲容量在大數據時代已經不再重要,所以”存儲日志“并沒有嚴格的容量限制。即便是看來簡單的日志,也包含了足夠多的數據,只是尚未挖掘出足夠的價值。《大數據時代》的作者牛津大學教授舍恩伯格推進了一步:傳統觀念里大家把數據視作成本,為了某個目的(或者假設),精打細算地收集數據,分析得出結論。但是到了大數據時代,因為容量不再是問題,所以數據的角色從成本變成了環境,很多探索也變為從“無目的”收集的海量數據中提煉價值的過程。所以在大數據時代,背靠云服務提供商,大家都應當在頭腦里把“容量”和“成本”解綁,改換全新的思維方式。

“非結構化數據”是未來的重要發展方向。長期以來,有很多技術人員——包括我在內——都期望世間萬物都是規范嚴謹、邏輯清晰的,就好像柏拉圖那純凈的理念世界。然而真實的世界里總是充滿了噪音、變異、錯誤,于是大家需要做大量的規范和清洗,而且免不了抱怨連天。近幾年我逐漸想到,或許我們不應該簡單把不規范的世界肢解后硬塞到規范的世界里,而應該用更高明的辦法來駕馭不規范的世界;不應當強求接收的數據都是”結構化“的,而應當努力適應各種非結構化的數據。

現在很多的云服務都側重存儲和計算,而忽略了真正的應用,云服務更習慣扮演簡單的“保險箱”,不去關心箱子里到底裝了什么,能挖掘出什么價值。相應的,很多的應用開發商也只把云服務當“保險箱”來用,所有的應用都由自己來動手。

比如對于常見的視頻類應用,無論是SNS圈中流行的秒拍,還是安防領域熱門的視頻監控,其背后的要求和邏輯是有很多共性的。但是長期以來市場上并沒有這種”數據+應用“的解決方案,所以即便有云服務,應用的開發團隊還是需要花費大量的精力來做鑒權、轉碼、分發、直播等業務。

造成這種現象的重要原因是云服務時代的脫節:網絡上現成的類庫往往側重于功能,在單機來做相當簡單,但是云環境下的玩法不同于單機,所以把單純的功能變成云服務環境下的應用就成了相當有挑戰的工作。結果,應用開發商自己來包裝卻事倍功半,或者云服務提供商提供了一些功能,但往往失之簡單,無法與應用深度結合。結果就是功能和云服務融合不起來,總有功虧一簣的遺憾。

如果云服務提供商能深入理解各種應用,把通用服務抽象出來并以云服務組件的方式提供,就能實現云服務提供商和應用開發商的雙贏。如果要給云服務打分的話,數據的存儲和簡單處理就像是1,各種包裝好的應用組件就像是0,有多少種應用組件,1后面就有多少個0,效能就可以增加多少個數量級。

關于數據的“動靜結合”,我不由得想起以前看過的一本書,《硬球:政治是這樣玩的》,分享的經驗,都在宣示“數據是這樣玩的”,讓大家看到數據的真正玩法,刷新大家對數據的認識。

如何確保“大數據”真正反映了現實,讓我們能基于此認識世界呢?

我們當然可以收集海量的、非結構化的數據,但現實世界高度復雜的,在應對大數據時,我們如何才能證明在我們構建的“數據世界”里已經包括了足夠的數據?比如要分析人的某人運動模式,我們當然需要收集人的運動軌跡,除了常見的經緯度和速度,是否還需要關心高度、溫度、濕度、心跳等等信息?如果某項信息,比如血壓,與我們關心的內容或規律密切相關而又沒有被收集進來,即便有了海量數據,有了超強的數據分析能力,我們是否仍然會茫然無緒?退一步說,如果這些數據已經收集了,但結構不同,分布不同,歸屬不同,我們應該如何把這些數據串通融合起來,真正發現其中的規律?

這些問題我沒有答案,我也認為暫時不可能有答案。因為解答這類問題,不再依賴單純的思辨和邏輯的推理,而是更多需要依靠扎扎實實的探索,尤其需要大量有聰明才智和深厚積累的人才的持續投入。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,572評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,071評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,409評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,569評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,360評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,895評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,979評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,123評論 0 286
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,643評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,559評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,742評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,250評論 5 356
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 43,981評論 3 346
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,363評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,622評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,354評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,707評論 2 370

推薦閱讀更多精彩內容