參加過公司組織的關(guān)于大數(shù)據(jù)的培訓(xùn)也有兩三次了,這本書是每個培訓(xùn)老師都會推薦的讀物。能讓你快速的了解到什么是大數(shù)據(jù),大數(shù)據(jù)有什么用,要怎么用大數(shù)據(jù)。我一直信奉一個觀點,那就是無論何時都要對這個世界上出現(xiàn)的新鮮事物保持一顆好奇心,更何況這個新鮮事物將會對我們未來的生活產(chǎn)生翻天覆地的變化。
人類對數(shù)據(jù)的利用亙古已有。雖然我們很多人并非IT或是統(tǒng)計行業(yè)這樣整日與各式數(shù)據(jù)為伍的專業(yè)人士,但我們的日常生活中也離不開各種各樣對數(shù)據(jù)的記載、分析與利用。主婦們會記錄著家庭賬單,做好開源節(jié)流;備孕的夫妻會記錄好時間,以期迎接一個健康的小生命;電子狗也會提醒著老司機此處產(chǎn)生的罰單較多請小心行駛。
在信息技術(shù)發(fā)展日新月異的今天,人們對于數(shù)據(jù)的定義已有原先的小范圍抽樣數(shù)據(jù)上升到了大數(shù)據(jù)的范疇。簡單來說,大數(shù)據(jù)就是全體而非樣本數(shù)據(jù)。過去人們的數(shù)據(jù)分析基于的都是樣本數(shù)據(jù),這是由于受到了數(shù)據(jù)收集,分析階段技術(shù)的限制。傳統(tǒng)的計算機技術(shù)無法儲存與處理海量的數(shù)據(jù),但是現(xiàn)在我們已有了以云計算為基礎(chǔ)的信息儲存,分享和挖掘手段,科技的進步為我們分析全體數(shù)據(jù)來發(fā)現(xiàn)以往不為人知的秘密提高提供了強有力的保障,它能夠讓大數(shù)據(jù)“發(fā)聲”。
大數(shù)據(jù)主要與三個重大的思維轉(zhuǎn)換有關(guān):1.分析與某事物相關(guān)的所有數(shù)據(jù)而非依靠分析少量的數(shù)據(jù)樣本。2.不再一味追求數(shù)據(jù)的精確度。3.從思想上發(fā)生轉(zhuǎn)變,由因果關(guān)系轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。
相對于大數(shù)據(jù)時代,以前的我們處于小數(shù)據(jù)時代,小數(shù)據(jù)時代對于數(shù)據(jù)的處理采取的是隨機采樣,以期通過最少的數(shù)據(jù)獲得最多的信息。但樣本選擇的隨機性比樣本數(shù)量更為重要,因為統(tǒng)計學(xué)家們證實采樣分析的精準(zhǔn)性隨著采樣隨機性的增加而增加,卻與樣本數(shù)量的增加關(guān)系不大。但現(xiàn)實中實現(xiàn)采樣的絕對隨機性是非常困難的,一旦存在任何的偏見,都會給分析結(jié)果帶來偏差。而且采樣分析還不適用于分析子類別,原因很簡單,由有偏差的結(jié)果再細(xì)分下來,不是錯上加錯嗎?那么最好的解決辦法,就是分析全體數(shù)據(jù)。
隨著數(shù)據(jù)規(guī)模的擴大,我們對數(shù)據(jù)的精準(zhǔn)度要求也會相應(yīng)降低。主婦們的賬簿上可能精確到幾毛錢,而放到國民經(jīng)濟問題上則不必精確至此。
關(guān)于大數(shù)據(jù)將人們的目光由因果關(guān)系轉(zhuǎn)為相關(guān)關(guān)系是我覺得最為神奇的一點,在我看來也是宇宙間兩種哲學(xué)思想的融合。因果規(guī)律是佛教認(rèn)識這個世界的基本方法,而萬事萬物都是有聯(lián)系的是榮格,馬克思提出的觀點。本書作者舉出了谷歌和farecast兩個例子。谷歌通過分析美國所有人在Google上的搜索詞條記錄就可以預(yù)測出哪一個城市將會爆發(fā)流感,farecast通過分析航線以往的票價,就可以預(yù)測未來的機票價格走勢。這些都是利用數(shù)據(jù)分析相關(guān)性繼而做出預(yù)測。這也是大數(shù)據(jù)的核心所在。因果關(guān)系也許并沒有那么重要了,我們無需弄清是什么原因?qū)е铝诉@樣的結(jié)果,而只需知道通過什么辦法就可以解決問題。就像作者舉例,通過大數(shù)據(jù)分析,感冒與橙汁相關(guān)性最大,那么橙汁就是治療感冒的良藥,我們無需知道為什么橙汁可以治療感冒。照此趨勢下去,未來也許醫(yī)生會失業(yè)也未可知。
continuing...