2016年是機器智能歷史上一個具有紀念意義的年份,距1956年香農等提出人工智能概念正好過去60年,當然不是因為60周年才具有劃時代的意義,而是因為它是一個全新時代的開端。Google的AlphaGo戰勝李世石,自動駕駛技術日趨成熟,大量產線工人被機器人取代......它是信息革命之后又一個新的時代變革信號——大數據和機器智能的時代已然來臨。
今天給大家分享的是吳軍老師的新書《智能時代》的讀書筆記,吳軍博士,八年Google中日韓文搜索工作經驗,回國曾任職騰訊副總裁負責搜索業務,現回歸Google,著有《數學之美》、《浪潮之巔》和《文明之光》等暢銷書,現在讓我們一起來預覽一下他的最新力作吧。
第一章 數據——人類建造文明的基石
內容摘要
如果我們把資本和機械動能作為大航海時代以來全球近代化的推動力的話,那么數據將成為下一次技術革命和社會變革的核心動力。
既然數據那么重要,先來區分兩個概念——信息和數據。
信息是關于世界、人和事的描述,它比數據來得抽象,而數據雖然最大的作用在于承載信息,但是并非所有的數據都承載了有意義的信息。
數據中隱藏的信息和知識是客觀存在的,但是只有具有相關領域專業知識的人才能將它們挖掘出來。對數據和信息進行處理后,人類就可以獲得知識。知識比信息更高一個層次,也更加抽象,它具有系統性的特征。
古埃及人觀察天象開創了天文學,美索不達米亞平原的蘇美爾人利用天文觀測數據建立起我們今天所說的數學模型,利用這些模型他們能夠計算出月亮和五大行星的運行周期并預測日食和月食,畢達哥拉斯、阿基米德、托勒密、哥白尼和開普勒等等一個個如雷貫耳的名字,他們的成果都是從數據中總結出來的。其實數據的作用自古有之,并非到了今天大數據時代大家才意識到,在某種程度上講,獲得和利用數據的水平反映出了文明的水平。但是過去數據的作用為什么常常被人忽視呢?一方面是由于過去數據量不足,積累大量的數據所需要的時間太長,以至于在較短的時間內它的作用不明顯。另一方面是因為數據和所想獲得的信息之間的聯系通常是間接的,它要通過不同數據之間的相關性才能體現出來。
相關性是使用數據的鑰匙,統計學是點石成金的魔棒,數學模型則是數據驅動方法的基礎。
我們通過將相關聯的數據信息量化,借助概率論和統計學建立數學模型,當然模型的選擇不是一件容易的事,而找到模型的參數使模型與真實情況非常接近也不是簡單的事。由于現在計算機計算能力水平的指數級提升,現在人們正在通過用很多簡單不完美的模型湊在一起通過機器學習不斷完善去取代一個復雜的模型,這實際上是用計算量和數據量來換取過去漫長的研究時間,這種方法也被稱為數據驅動方法。由此可以看出自古以來人類使用數據的標準流程就是:
數據驅動方法是大數據的基礎,也是智能革命的核心。
第二章 大數據和機器智能
內容摘要
在有大數據之前,計算機并不擅長于解決需要人類智能的問題,但是今天這些問題換個思路就可以解決了,其核心是變智能問題為數據問題。由此全世界開始了新的一輪技術革命——智能革命。
機器智能最初的階段簡單地講,就是首先了解人類是如何產生智能的,然后讓計算機按照人的思路去做,想賦予計算機以思考能力。在這個概念剛被提出的時候,全世界都非常熱衷于這個課題的研究,但是經過十幾年的研究,科學家們發現人工智能遠不是那么回事。到了20世紀70年代,人類開始嘗試另辟蹊徑,采用數據驅動和超級計算的方法來研究機器智能。在2000年以后,由于互聯網特別是后來移動互聯網的出現,數據量不僅劇增,而且開始相互關聯,當數據量足夠大之后量變帶來質變,很多智能問題都可以轉化成數據處理的問題,計算機開始顯得聰明起來。文中通過IBM語音識別和Google機器翻譯的例子論證了大數據是如何引發機器智能革命的。
既然數據如此重要,我們來看看對于大數據的特征吳軍老師是如何定義的,他認為傳統的3V定義(vast大量、variety多樣性和velocity及時性)并不全面準確,他給出的特征如下:
1.體量大
這個是最明顯的特征,這個特征應該不存在異議。語言識別是最早獲得比較多數據的領域,因此數據驅動的方法從這個領域最先產生。
2.多維度
多維度比多樣性更簡明準確。為了獲得相關性通常需要多個維度的信息,這樣預測的準確性就會大很多。
3.全面性,或者說完備性
過去任何基于概率統計的模型都會有小概率事件覆蓋不到,但是當數據具備完備性以后,“黑天鵝效應”這種小概率事件的災難就不會發生了。
當然并不是說及時性不重要,只是及時性不是大數據所必需的特征,但是有了及時性可以做到很多過去做不到的事情,比如城市的智能交通管理就是一個例子。
第三章 思維的革命
內容摘要
在無法確定因果關系時,數據為我們提供了解決問題的新方法,數據中所包含的信息可以幫助我們消除不確定性,而數據之間的相關性在某種程度上可以取代原來的因果關系,幫助我們得到我們想知道的答案,這便是大數據思維的核心。
要說明大數據思維的重要性,先回顧一下自17世紀以來一直指導我們行動的最重要的一種思維方式——機械思維。
今天說起機械思維,很多人馬上想到死板僵化,但是機械思維曾經是改變人類工作方式的革命性的方法論,它直接導致了人類迄今為止最偉大的工業革命,并且在后來全球工業化的過程中起到了決定性的作用,今天它在很多地方依然能指導我們的行動。機械思維的核心思想可以概括為這樣幾句話:
第一,世界變化的規律是確定的;
第二,因為有確定性做保障,因此規律不僅是可以被認識的,而且可以用簡單的公式或者語言描述清楚。
第三,這些規律應該是放之四海而皆準的,可以應用到各種未知領域指導實踐。
但是今天我們面臨的復雜情況,已經不是機械時代用幾個定律就能講清楚的了,不確定性是今天社會的常態。不確定性來自兩方面,首先是當我們對這個世界的方方面面了解得越來越細致之后,會發現影響世界的變量其實非常多,已經無法通過簡單的辦法或者公式算出結果,因此我們寧愿采用一些針對隨機事件的方法來處理它們,人為地把它們歸為不確定的一類。其次,不確定性的第二個因素來自客觀世界本身,它是宇宙的一個特性。從微觀來看在量子力學中有一個測不準原理,也就是說像電子這樣的基本粒子的測量誤差是不可能無限小,因為我們測量活動本身影響了被測量的結果。總之,世界上很多事情是難以用確定的公式或者規則來表示的,但是他們并非沒有規律可循。
香農的信息論完全建立在不確定性基礎上,用不確定性這種眼光看待世界,再用信息消除不確定性,從而把很多智能型的問題轉化成信息處理的問題。其中最大熵原理被廣泛地應用于機器學習,這個原理大意是說,當我們要對未知的事件尋找一個概率模型時,這個模型應當滿足我們所有已經看到的數據,但是對未知的情況不要做任何主觀假設。這和我們過去幾百年“大膽假設、小心求證”的方法論完全不同。
采用信息論的思維方式可以讓過去很多難題迎刃而解,我們逐漸從強調因果關系到尋找數據之間的強相關關系。在大數據時代,我們能夠得益于一種新的思維方法——從大量的數據中直接找打答案,即使不知道原因。如果我們愿意接受這種找不到原因的答案,那么我們的思維方式已經跳出了機械時代單純追求因果關系的做法,開始具有大數據思維了。
當然,大數據思維和原有的機械思維并非完全對立,它更多是對后者的補充。在新的時代,一定需要新的方法論,也一定會產生新的方法論。
第四章 大數據與商業
內容摘要
在未來我們可以看到,大數據和機器智能的工具就如同水和電這樣的資源,由專門的公司提供給全社會使用。
大數據思維不是抽象的,而是有一整套方法讓人民能夠通過數據尋找相關性,最后解決各種各樣的難題。比如南卡羅萊納州的警察通過智能電表收集上來的用電量情況分析解決毒品種植問題,美國稅務部門將企業按照規模、類型和地址進行分類,根據歷史數據對行業大致收入和納稅情況進行分析找到偷稅漏稅的嫌疑者,比如塔吉特百貨商店通過大數據分析比一個十幾歲女孩的父親先知道了他的孩子懷孕了。而亞馬遜和Netflix公司利用大數據對用戶進行個性化推送大幅度提高營業額的例子更是各種介紹大數據書籍中的經典案例。
當然并不是只有具有互聯網基因的公司才可以利用大數據帶來商業利益,比如Prada通過在商品的標簽里植入RFID芯片,數據分析師根據商品的記錄信息可以知道商品銷量不好是因為放在店里沒有人注意到(根本沒拿去試穿),還是因為試穿后不滿意。這樣公司就可以知道問題出在設計上還是銷售環節。風力發電設備公司金風利用互聯網將發電機的各種數據全部收集到公司,進行大數據分析,一方面可以全面了解全球的風能分布情況、各地的風力利用情況等宏觀信息,還可以了解每臺發電機日常運行的每一個細節,不僅能及時發現風機問題并解決,還為技術改進提供了方向。
每次技術革命都會誕生新的思維方式和商業模式,它們通常遵循一個模式,即:
新技術+原有產業=新產業
蒸汽機和電的出現都驗證了這個規律。那些有意或者無意接受了這個規律的企業家,常常在新的時代又站到了浪潮之巔。在今天的大數據和機器智能時代,這條規律依然成立。
對于選擇踏上新時代浪潮的公司,并不意味著一定要成立大數據部門,或者聘請數據科學家和機器智能方面的專家。更切合實際的是,付費使用第三方的服務。
第五章 大數據與智能革命的技術挑戰
內容摘要
大數據的數據量大、維度多、數據完備等特點,使得它從收集開始,到存儲和處理,再到應用,都與過去的數據方法有很大的不同。因此,使用好大數據也需要在技術和工程上采用與過去不同的方法。
以大數據為核心的智能革命之所以在今天這個時間點爆發,主要是因為很多相關技術已經成熟,當然相關技術也有很多亟待攻克的難題。
數據的產生:大數據的第一個來源是電腦本身,第二是傳感器,第三個是那些過去已經存在的、以非數字化形式存儲的信息數字化。還有一個就是今天正飛速增長的UGC(User Generated Content用戶產生內容)。
信息的存儲:摩爾定律導致各種存儲器的單位容量價格迅速下降,SSD等技術的出現也使存取速度得到大幅度提高。
傳輸技術:4G和WiFi的數據傳輸率使得數據在產生后可以迅速傳到服務器上。
信息的處理:云計算的興起,實現了大規模并行運算,大數據的處理才成為可能。
數據收集:傳統的數據收集通常先有一個目的,然后開始收集數據,大數據時代在收集數據時常常沒有預先設定的目標,而是先把所有能夠收集到的數據收集起來,經過分析后,能得出什么結論就是什么結論。此外,傳統的數據是通過少量樣本數據總結規律性,大數據時代常常以全集作為樣本集。
數據存儲的壓力和數據表示的難題:目前數據量增長的速度是高過存儲設備發展速度的,提高存儲效率就變得迫在眉睫。目前節約存儲設備的技術一是去除數據冗余和數據壓縮,存儲同樣的信息占用的空間更小;一是防止數據不丟失不損壞。此外設計文件系統和數據存儲格式使存儲信息能夠便于利用和共享也是當前數據處理的技術難題。
并行計算和實時處理:首先任何一個問題總有一部分計算無法并行,這類計算占比越多,并行處理的效率越低。此外,分開的小任務計算量未必均衡,使用的處理器越多,等待尚未完成計算任務的處理器的時間就越難統一,并行計算的效率就越低。最后對實時性的要求也需要從根本上改變目前的批處理模式,開發新的系統設計和算法。
數據挖掘:大數據能產生的效益很大程度上取決于使用(和挖掘)數據的水平。通過降噪處理后的信號經過機器學習的過程不斷迭代優化模型進而實現期望值最大化,這樣得到的結果就越來越接近真實的情況。
大數據給我們帶來了諸多好處,但是對數據安全的考慮,對隱私的保護在當前正變得非常突出和敏感。大眾對于隱私的重要性普遍重視不夠,用戶在實際行動上通常會選擇放棄隱私以換取便利性,這是人的天性使然。當用戶的隱私暴露之后個人利益就很容易被損害。電商網站根據你過往購物經歷的財富記錄和你是刺頭還是軟柿子來選擇性發真貨還是假貨,航空公司發現某個詢票者最近必須旅行,而且在過去對票價不是很敏感時,它就會給出比其他人更高的報價。
第六章 未來智能化產業
內容摘要
現有產業+機器智能=新產業,未來的農業、制造業、體育業、醫療、律師,甚至編輯記者行業都將迎來嶄新形態,新產業將取代舊產業滿足人類的個性化需求,大數據將導致我們整個社會的升級和變遷。
未來的農業:在引入機器智能之后,農業這個人類最古老的產業將會以嶄新的形態出現。以色列作為嚴重缺水的國家,居然成為了農產品出口大國,有“歐洲廚房”之稱。這主要得益于以色列人發明了滴灌技術,由于澆灌系統有大量的傳感器,能通過檢測植物莖果的直徑變化和地下濕度來決定灌溉量,而且該系統可以對用水量和產量的關系進行學習,改進灌溉量。
未來的體育:2010年,著名風險投資公司凱鵬華盈的合伙人喬.拉格布聯合一些硅谷的風險投資家花了4.5億買下了當時還是魚腩的金州勇士隊,這些硅谷的投資人應用大數據的工程師制定球隊的發展戰略和比賽戰術。根據數據分析的結果,他們認為NBA所追求的打法是低效率甚至是錯誤的,他們發現最有效的進攻是眼花繚亂的傳球和準確的投籃,而不是彰顯個人能力的突破和扣籃。幾十年來NBA得發展一直在追求制空權,靠籃下肉搏拿下2分,而勇士設計了新打法,三分線外投籃得3分,他們選擇科爾做教練也是因為看中了科爾作為喬丹的隊友曾是當時NBA同位置投籃命中率最高的人。因此勇士隊才得以崛起。
未來的制造業:在美國,特斯拉已經嘗試全部使用機器人來裝配汽車,這不僅使得工廠雇用工人的數量大幅度減少,而且還讓出廠的汽車性能和質量更穩定。全球最大的OEM制造商富士康也在裝備機器人來逐漸取代裝配工人。當機器智能逐步滲入到商品制造和銷售的各個環節時,不僅工人數量將減少,很多低技能的工人將失業,整個制造業也將會重新洗牌。
未來的醫療:過去美國專科醫生由于培養時間長和成本高,因此醫療收費也高,比如放射科醫生過去需要太多的專業技能,而今天智能的模式識別軟件通過醫學影像的識別和分析,可能比有經驗的放射科醫生更好地診斷病情。具有了智能的計算機不僅能幫助診斷,還可以進行手術,目前達芬奇手術機器人已經完成了300萬例手術。它準確率很高失誤的可能性很低,而且隨著病例量的增加準確率還在提升,而且它也不會像人一樣受情緒的影響。機器智能在解決醫療資源不足的問題上同樣有效,IBM開發的沃特森智能系統可以理解自然語言,分析各種數據和醫學影像,幫助疾病診斷和醫療信息的管理。目前,如果不引入醫師的干預,僅僅靠計算機通過閱讀病例、傾聽病人的描述和分析化驗結果進行疾病診斷,它也能達到中等醫生水平。在缺少醫生的非洲等地區,有這種“機器醫生”總比沒有強。而未來可能一種疾病會有不同的藥品醫治,對于不同的人會有不同的特效藥,基因工程的研究甚至讓長生不老都有希望?
未來的律師:大數據對司法領域的一個重大影響在于機器智能會逐漸取代律師做一些案例分析工作,這使得訴訟的成本有可能大幅度下降。今天,一些公司利用自然語言處理和信息檢索技術,發明了讓計算機閱讀和分析法律文獻的軟件,可以取代很多人工。位于硅谷帕羅奧圖市的Blackstone Discovery(黑石發現)公司發明了一種處理法律文件的自然語言處理軟件,使得律師的效率可以提高500倍,而打官司的成本可以下降99%,這意味著未來將有相當多的律師(尤其是初級水平的律師)可能失去工作。事實上這件事情在美國已經發生,新畢業的法學院學生找到正式工作的時間比以前長了很多。
未來的記者和編輯:今天很多媒體的新聞已經有計算機輔助寫作。比如IBM發布了去年四季度的財報,計算機就可以寫一篇關于IBM業績的新聞稿。計算機會先“讀”一遍該公司財報的內容,然后從財報中讀出重要的信息并套用根據以前很多報紙上多年積累的財經類的文章,訓練出的各類財經文章的模板,就合成了一篇文章,當然最后在發表前多少還要經過人工的一些潤色處理。計算機寫作大大提高了新聞行業的效率,但是同時也讓記者和編輯這類工作正在萎縮。或許再過若干年,我們在編輯部里看到的景象不再是一批伏案工作的編輯,而是一臺臺計算機,這個行業也就被重新定義了。
第七章 智能革命和未來社會
內容摘要
在歷次技術革命中,一個人、一家企業,甚至一個國家,可以選擇的道路只有兩條:要么加入智能浪潮,成為前2%的人,要么觀望徘徊,被淘汰。
“這是最好的時代,也是最壞的時代”,一方面智能革命無疑將給我們帶來一個更美好的社會,它是智能的、精細化的和人性化的。但是另一方面,智能革命也將給我們帶來空前的挑戰。我們或許會生活在一個沒有隱私的環境里,或許會被一些超級權力在無形中控制,甚至很多人因為沒有掌握未來生存的技能而找不到工作,財富可能會更加集中在少數人手里。
當移動互聯網、物聯網、大數據和機器智能疊加到一起以后,我們將不再有隱私可言。電商假貨,機票溢價,私密的圖片,銀行賬戶和移動支付密碼的泄露,保險公司了解一個人的病史和家族基因會拒保等都會讓我們蒙受損失。今天很多人忽視大數據對個人隱私潛在的危險,原因主要有以下三個:
首先是對這個問題缺乏認識,他們并不知道大數據的威力,不知道多維度的信息湊到一起能夠得到一個人完整的畫像。
其次是低估了機器智能的力量。很多人認為某個公司有了我的那些雜亂無章的數據,也沒功夫和我這個小人物過不去,豈不知在機器智能時代,挖掘個人隱私并不需要人來做,而是由機器完成的。
最后,也是最重要的原因就是很多人一廂情愿地把個人隱私寄托在數據擁有者的善意上。雖然目前為止,Facebook、騰訊和阿里巴巴這些實際上已經掌握了用戶隱私的公司似乎還靠得住,但是掌握了大量用戶數據的公司遠不止這幾家。當掌握大量用戶數據的公司和用戶利益發生沖突時,前者會有意無意地最大化自己的利益,而犧牲掉用戶的利益。
除了喪失隱私以為,機器還會搶掉人的飯碗,每一次重大的技術革命都需要很長的時間來消除它所帶來的負面影響。技術革命會使得很多產業消失,或者產業從業人口大量減少,釋放出來的勞動力需要尋找出路。這個時間有多長呢?事實證明至少要一代人以上,因為那些被淘汰的產業的從業人員能夠進入新行業的其實非常少,消化這些勞動力主要靠的是等待他們逐漸退出勞務市場。智能革命將要走的路也將和歷次技術革命有很多相似之處,智能革命對社會的沖擊甚至有可能超過過去幾次技術革命。
首先,信息革命本身帶來的影響還沒有消化完。全球信息化帶來的效率已經使得很多人無事可做,很少人制造出來的東西就足夠全球人口消費。
其次,今天的世界和200年前已經不同了,消化掉技術革命的影響要比工業革命時難得多,全世界已經沒有空白的市場可以開拓了。
最后,智能革命所要替代的是人類最值得自豪的部門——大腦,這將剝奪人類最后的尊嚴和自豪感——機器不能思考。
那么人類會被機器控制嗎?未來依然會是人的時代,機器在完成任務時甚至不知道自己在做什么。比如Google的AlphaGo其實并不知道自己是在下棋。但是制造智能機器的人就不同了,他們可能只占人口的不到2%甚至更少,卻在某種程度上控制著世界。
這絕不是危言聳聽,實際上今天已經發生。大家不妨想一下每天有多少時間掛在微信上,有多少商品是從電商渠道購買的,有多少次出行是靠網約車。這些公司沒改變產品的形態,億萬用戶的生活卻被它們所左右。更重要的是這些公司完全掌握了我們衣食住行的生活細節,它們可能比我們身邊的任何人甚至我們自己更了解我們,既然做到了對我們如此精確的把控,它們掙我們的錢便是不言而喻的事情。
在每一次重大的技術革命開始的時候,真正勇敢地投身到技術革命大潮中的人畢竟是少數,受益者更少,大部分人則會猶豫和觀望。在智能革命到來之際,每一個人也有兩個選擇,要么加入到這一次浪潮中,要么觀望徘徊,最后被淘汰。當然,大多數人的觀望、猶豫和徘徊,給了2%的人以機會,使得愿意吃螃蟹的人在奮斗的道路上少了很多競爭對手。正是因為知道自己不加入進來就會被淘汰,馬斯克和蓋茨一方面對機器智能的發展非常擔心,另一方面卻選擇加入到機器智能的大潮中。
歡迎關注個人微信公眾號:PMfelix,閱讀更多我的作品,期待和你的交流