引言:一場生活、工作與思維的大變革
谷歌通過對(duì)海量的網(wǎng)上搜索記錄進(jìn)行分析成功先于衛(wèi)生機(jī)構(gòu)兩周預(yù)測了甲型H1N1流感的傳播趨勢;埃奇奧尼通過對(duì)行業(yè)機(jī)票預(yù)訂數(shù)據(jù)庫的數(shù)據(jù)分析預(yù)測出機(jī)票價(jià)格的走勢預(yù)測,因此消費(fèi)者購買的平均每張機(jī)票可以節(jié)省50美元......
在大數(shù)據(jù)時(shí)代,你并不需要知其因果,只需知其相關(guān)。
隨著爆發(fā)式的數(shù)據(jù)增長,幾何式提高的計(jì)算機(jī)處理能力,從前我們認(rèn)為無法從中提取有效價(jià)值的龐大數(shù)據(jù)庫,如今卻可以不受傳統(tǒng)的約束為我們所用。在不久的將來,世界許多現(xiàn)在在單純依靠人類判斷力的領(lǐng)域都會(huì)被計(jì)算機(jī)系統(tǒng)所改變甚至取代,因?yàn)樗鼮槲覀兊纳顒?chuàng)造了前所未有的可量化維度。
我們的數(shù)據(jù)采納將不再依靠傳統(tǒng)的隨機(jī)抽樣,而是將整個(gè)數(shù)據(jù)庫當(dāng)成樣本;我們不再追求數(shù)據(jù)的絕對(duì)精確,而是通過海量數(shù)據(jù)分析出萬物變化的趨勢;我們的思維不再局限在傳統(tǒng)的由數(shù)據(jù)證明事實(shí),而是通過數(shù)據(jù)來影射出我們從前認(rèn)為和信息根本搭不上邊的事情。
但是隨著這個(gè)可以預(yù)測未來的巫師日益成長,我們的個(gè)人意志是否因此受到挑戰(zhàn)?這會(huì)對(duì)人類的自由和尊嚴(yán)產(chǎn)生什么影響?我們從前的生活方式是否會(huì)從此天翻地覆?
一、更多
當(dāng)數(shù)據(jù)處理技術(shù)已經(jīng)發(fā)生了翻天覆地的變化時(shí),我們需要的是所有的數(shù)據(jù),“樣本=總體”。
? 在大數(shù)據(jù)時(shí)代,我們將有三個(gè)重大思維的轉(zhuǎn)變:
? 1、要分析與某事物相關(guān)的所有數(shù)據(jù),而非少量的數(shù)據(jù)樣本。
? 2、我們要樂于接受多元繁雜,而不再追求精確。
? 3、我們不需要知道“為什么”,我們只需要知道“是什么”。
? ? 統(tǒng)計(jì)學(xué)家們證明:采樣分析的精確性會(huì)隨著采樣隨機(jī)性的增加而大幅提高,但與樣本數(shù)量的增加,關(guān)系不大。當(dāng)樣本數(shù)量達(dá)到了某個(gè)值之后,我們從新個(gè)體身上得到的信息會(huì)越來越少。這就如同經(jīng)濟(jì)學(xué)中的邊際效應(yīng)遞減一樣,效果會(huì)越來越低。在過去,隨機(jī)采樣取得了巨大的成功,成為現(xiàn)代社會(huì)、現(xiàn)代測量領(lǐng)域的中心骨,下至工廠抽樣檢查,大到人口普查都是如此。但這只是一條捷徑,是在不可收集和分析全部數(shù)據(jù)的情況下的無奈選項(xiàng),它本身存在許多固有的缺陷。它的成功大多依賴于采樣的隨機(jī)性,但是實(shí)現(xiàn)采樣的隨機(jī)性卻非常困難。
更糟糕的是,隨機(jī)采樣不適合考察子類別的情況,因?yàn)橐坏┯蛹?xì)分下去,采樣的偏見會(huì)越來越多,使得采樣的立場各不相同,這會(huì)造成采樣結(jié)果的錯(cuò)誤率大大增加。就如同你在1000人的女性中調(diào)查對(duì)政策的看法,你無法使得一線城市的精英女性,與農(nóng)村婦女的觀點(diǎn)和思想會(huì)相同。在宏觀領(lǐng)域起作用的方法在微觀領(lǐng)域失去了作用。
采樣的目的是用最少的數(shù)據(jù)得到最多的信息,但如果我們能夠得到海量信息的時(shí)候,它就沒有什么意義了。隨著你采集的數(shù)據(jù)越多,你的預(yù)測結(jié)果會(huì)越來越準(zhǔn)確。因此,我們需要足夠的數(shù)據(jù)處理和存儲(chǔ)能力,也需要最先進(jìn)的分析技術(shù),這在過去做不到,而現(xiàn)在卻可以。
大數(shù)據(jù)中的“大”并不是絕對(duì)意義上的大,而是指不用隨機(jī)分析法這樣的捷徑,而采用所有數(shù)據(jù)的方法。很長一段時(shí)間內(nèi),隨機(jī)采樣都是一條好的捷徑,它使得數(shù)字時(shí)代之前的大量數(shù)據(jù)分析變成可能,但它不能夠讓我們從不同的角度,更細(xì)致地觀察和研究數(shù)據(jù)的方方面面,而大數(shù)據(jù)卻可以。在任何細(xì)微的層面,我們都可以用大數(shù)據(jù)去論證新的假設(shè),它能讓我們清楚分析微觀層面的情況。
二、更雜
? 執(zhí)迷于精確性是信息缺乏時(shí)代和模擬時(shí)代的產(chǎn)物。只有5%的數(shù)據(jù)是結(jié)構(gòu)化且能適用于傳統(tǒng)數(shù)據(jù)庫的。如果不接受混亂,剩下95%的非結(jié)構(gòu)化數(shù)據(jù)都無法被利用,只有接受不精確性,我們才能打開一扇從未涉足的世界的窗戶。
?歷史上很多時(shí)候,人們會(huì)把通過測量世界來征服世界視為最大的成就。偉大的物理學(xué)家開爾文男爵曾說過:“測量就是認(rèn)知?!边@已成為一條至理名言。同時(shí),很多數(shù)學(xué)家以及后來的精算師會(huì)計(jì)師都發(fā)展了可以準(zhǔn)確收集、記錄和管理數(shù)據(jù)的方法。
然而,在不斷涌現(xiàn)的新情況里,允許不精確的出現(xiàn)已經(jīng)成為一個(gè)新的亮點(diǎn),而非缺點(diǎn)。放松了容錯(cuò)的標(biāo)準(zhǔn),人們掌握的數(shù)據(jù)將比以前更多,而這些數(shù)據(jù)將能用來做更多好的事情,甚至創(chuàng)造出更好的結(jié)果。
事實(shí)證明,大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復(fù)雜算法更有效。谷歌翻譯所利用的是一個(gè)大且繁雜的數(shù)據(jù)庫,也就是全球的互聯(lián)網(wǎng),而非只利用兩種語言間單純的文本翻譯。為了訓(xùn)練計(jì)算機(jī),谷歌翻譯系統(tǒng)會(huì)吸收所能找到的所有翻譯,掌握用不同語言翻譯的質(zhì)量參差不齊的數(shù)十億頁的文檔,來搭配組合出質(zhì)量最好的結(jié)果。谷歌翻譯正是由于利用了成千上萬的數(shù)據(jù),甚至接受了錯(cuò)誤的數(shù)據(jù),它才可以正確地推算出英語詞匯搭配在一起的可能性,來達(dá)到最好的效果。而這并非歸功于它算法的優(yōu)劣,而是其數(shù)據(jù)的龐大。
傳統(tǒng)的樣本分析師們很難容忍錯(cuò)誤數(shù)據(jù)的存在,他們的一生都在研究如何防止和避免錯(cuò)誤的出現(xiàn)。大數(shù)據(jù)時(shí)代要求我們重新審視精確性的優(yōu)劣,執(zhí)著于精確性是信息缺乏時(shí)代和模擬時(shí)代的產(chǎn)物。如今,隨著我們掌握的數(shù)據(jù)越來越全面,我們不再需要擔(dān)心某個(gè)數(shù)據(jù)點(diǎn)對(duì)整套分析的不利影響。我們要做的就是要接受這些紛繁的數(shù)據(jù)并從中受益,而非以高昂的代價(jià)消除所有的不確定性。
大數(shù)據(jù)不僅讓我們不再期待精確性,也讓我們無法實(shí)現(xiàn)精確性。錯(cuò)誤并不是大數(shù)據(jù)固有的特性,而是一個(gè)亟需我們?nèi)ヌ幚淼默F(xiàn)實(shí)問題,并且可能長期存在。
幾個(gè)世紀(jì)以來,人們一直用分類法和索引法來幫助自己存儲(chǔ)和檢索數(shù)據(jù)資源,但一旦數(shù)據(jù)規(guī)模擴(kuò)大幾個(gè)等級(jí),這些預(yù)設(shè)一切都各就各位的系統(tǒng)就會(huì)奔潰。如果清楚的分類被更混亂卻更靈活的機(jī)制所取代了,這些機(jī)制才能適應(yīng)改變著世界。而事實(shí)上,現(xiàn)實(shí)是紛繁復(fù)雜的,天地間存在的事物也遠(yuǎn)遠(yuǎn)多于系統(tǒng)所歸納的。索引都是事先就設(shè)定好了的,這也就限制了人們的搜索。我們現(xiàn)在擁有各種各樣、參差不齊的海量數(shù)據(jù),很少有數(shù)據(jù)完全符合預(yù)先設(shè)定的數(shù)據(jù)分類。
在大數(shù)據(jù)和小數(shù)據(jù)分析之間,社會(huì)將兩個(gè)折中的辦法滲入了我們的處事方法中:①我們默認(rèn)不能使用更多的數(shù)據(jù),我們就不會(huì)去使用更多的數(shù)據(jù)。②在小數(shù)據(jù)時(shí)代,追求精確度是合理的,但是對(duì)于其他事情,想要快速獲得一個(gè)大概的輪廓和發(fā)展脈絡(luò),就需要看起來并不精確卻重要許多的龐大數(shù)據(jù)。其實(shí)這就像是印象派的畫風(fēng)一樣,從近處看,每一筆感覺都雜亂無章,但是你退后一步的時(shí)候,就能看出畫作的整體思路了。相比依賴小數(shù)據(jù)和精確性的時(shí)代,大數(shù)據(jù)更強(qiáng)調(diào)數(shù)據(jù)的完整性和混雜性能夠幫助我們進(jìn)一步接近事實(shí)的真相。
當(dāng)我們的視野僅僅局限在我們能夠分析我們所能得到的數(shù)據(jù)上時(shí),我們對(duì)世界的理解就可能產(chǎn)生偏差和錯(cuò)誤,就算我們可以分析到細(xì)節(jié)中的細(xì)節(jié),也依然會(huì)錯(cuò)過事物的全貌。
三、更好(不是因果關(guān)系,而是相關(guān)關(guān)系)
知道“是什么”就夠了,沒必要知道“為什么”。在大數(shù)據(jù)時(shí)代,我們不必非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己“發(fā)聲”。
在大數(shù)據(jù)背景下,通過應(yīng)用相關(guān)關(guān)系,我們可以比以前更容易、更便捷、更清楚地分析事物。
相關(guān)關(guān)系的核心是量化兩個(gè)數(shù)據(jù)之間的數(shù)理關(guān)系。例如:在一個(gè)特定地區(qū),越多的人通過搜索流感方面的詞條,我們就可以知道該地區(qū)就有更多的人患了流感。通過給我們找到一個(gè)現(xiàn)象的良好的關(guān)聯(lián)物,相關(guān)關(guān)系可以幫助我們捕捉現(xiàn)在和預(yù)知未來。如果A和B經(jīng)常一起發(fā)生,只需要注意到B發(fā)生了,可以預(yù)測到A也即將發(fā)生。
在過去,專家們會(huì)經(jīng)常利用假想分析法來指導(dǎo)自己選擇適當(dāng)?shù)年P(guān)聯(lián)物,但這只適用于小數(shù)據(jù)時(shí)代。在大數(shù)據(jù)時(shí)代,我們擁有這么多的數(shù)據(jù),這么好的機(jī)器計(jì)算能力,因而不再需要人工選擇一個(gè)關(guān)聯(lián)物或者一小部分相似數(shù)據(jù)來逐一分析。我們對(duì)大數(shù)據(jù)的分析將更準(zhǔn)確、更快,而且不易受偏見的影響,因?yàn)閿?shù)據(jù)足夠龐大。
建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測是大數(shù)據(jù)的核心,而且它的應(yīng)用會(huì)越來越高。2011年,F(xiàn)ICO提出“遵從醫(yī)囑評(píng)分”系統(tǒng)。它會(huì)分析一系列變量來確認(rèn)這個(gè)人是否會(huì)按時(shí)吃藥,例如,一個(gè)人在某地居住多久,這個(gè)人結(jié)婚沒有,他多久換一個(gè)工作,他是否有私家車等這些詭異的相關(guān)變量。但這個(gè)評(píng)分會(huì)幫助醫(yī)療機(jī)構(gòu)節(jié)省開支,因?yàn)樗鼈儠?huì)知道哪些人需要得到它們的用藥提醒。
而中英人壽保險(xiǎn)有限公司,則會(huì)將顧客的愛好、常瀏覽的網(wǎng)站、??吹墓?jié)目、收入估計(jì)等看似無關(guān)的關(guān)聯(lián)物,來找出更有可能患高血壓、糖尿病和抑郁癥的人。通過這個(gè)辦法,保險(xiǎn)公司可以在每個(gè)人身上節(jié)省125美元,而這個(gè)數(shù)據(jù)分析的成本僅需5美元。
這個(gè)系統(tǒng)有助于更多人得到保險(xiǎn),這對(duì)于社會(huì)和保險(xiǎn)公司都有好處。
通過找出一個(gè)關(guān)聯(lián)物并監(jiān)控它,我們就能預(yù)測未來。
一個(gè)東西要出故障,不會(huì)是瞬間的,而是慢慢地出問題。比如發(fā)動(dòng)機(jī)在壞掉之前會(huì)出現(xiàn)嗡嗡聲、引擎過熱等故障,而這時(shí)候只需要通過傳感器來實(shí)時(shí)監(jiān)控其各項(xiàng)參數(shù),再將之與平常情況作對(duì)比,便可在故障之前更換零件或者修復(fù)問題,從而避免了更大的經(jīng)濟(jì)損失。而預(yù)測性分析并不能解釋故障可能發(fā)生的原因,它只會(huì)告訴你存著什么問題,而不會(huì)告訴你為什么引擎會(huì)過熱。但是如果想要找出原因這必須要另想辦法,也就是需要更大的成本。這時(shí)候知道“為什么”其實(shí)并不比知道“是什么”來得重要。
在大數(shù)據(jù)時(shí)代,新的分析工具和思路為我們提供了一系列新的視野和有用的預(yù)測,我們看到了許多以前不曾注意到的聯(lián)系。通過去探究“是什么”而非“為什么,相關(guān)關(guān)系幫助我們更好得了解了這個(gè)世界。
普林斯頓大學(xué)心理學(xué)專家,丹尼爾卡尼曼證明了人有兩種思維:①毫不費(fèi)力的快速思維,通過這種思維幾秒鐘就能得出結(jié)果。②比較費(fèi)力的慢速思維,對(duì)于特定的問題,就是需要考慮到位。卡尼曼指出,出于惰性,快速思維模式在我們的生活中占了上風(fēng)。但是,通常這種思維得出的因果關(guān)系都是并不存在的。父親經(jīng)常告訴孩子,天冷時(shí)候不戴帽子和手套就會(huì)感冒,然而事實(shí)上感冒與我們的穿戴沒有太大關(guān)系(起碼跟手套和帽子);我們?nèi)ヒ患也宛^就餐后拉肚子,我們就會(huì)認(rèn)為是餐館的食物有問題。我們的快速思維模式直接將其歸于任何我們能夠第一時(shí)間想到的因果關(guān)系,而這通常都是錯(cuò)誤的。
在小數(shù)據(jù)時(shí)代,我們會(huì)假想世界是怎么運(yùn)作的,然后通過收集分析數(shù)據(jù)來驗(yàn)證假想。在大數(shù)據(jù)時(shí)代,我們會(huì)在大數(shù)據(jù)的指導(dǎo)下探索世界,而非受限于各種假想。