近日讀了吳軍博士的《智能時代》一書,全書通過大量實例深入淺出的講述了大數據和人工智能的定義、作用、發展、現狀以及未來趨勢等等。個人覺得很有收獲,所以在這里做一個分享,有興趣的朋友建議去讀一下原書,相信會有更多的收獲。
1、數據在人類文明中起到了基石的作用,人類文明過程就是:獲取數據->分析數據->建立模型->預測未來。
舉例:古埃及人通過觀察天象來判斷一年中的農耕時間和節氣(天文學的起源)。
美索不達米亞人通過天文觀測數據能夠計算出月亮和五大行星的運行周期,并能夠預測日食和月食。
2、統計學,有時又被稱為數理統計,是建立在概率論基礎上之上,收集、處理和分析數據,找到數據內在的關聯性和規律性的學科。
統計學在數據采集上有兩個要點:量和質。在大數據出現之前,想要設計出具有代表性樣本的問題難以解決。
舉例:蔣介石迷信1948年蓋洛普公司預測美國大選結果(前2次都預測準確),結果最終壓錯寶。
3、數據驅動方法:數學模型上,只要數據量足夠,就可以用若干個簡單的模型取代一個復雜的模型。
隨著數據量和計算能力以指數級的速度遞增,數據驅動的方法可以非常準確。
舉例:AlphaGo能從幾十萬盤人類高手對弈中分析總結,而任何一個人類高手是一輩子也學不完這么多盤棋的。
4、什么是機器智能
1)1946年第一臺電子計算機ENAIC誕生,發現電腦一詞的不是任何科學家,而是英國元帥蒙巴頓公爵。
2)真正定義什么是機器智能的還是電子計算機奠基人:阿蘭·圖靈博士。他提出了驗證機器有無智能的判別方法,即讓一臺機器和一個人坐在幕后,讓一個裁判同時跟幕后的人和機器進行交流,如果這個裁判無法判斷自己交流的對象是人還是機器,就說明這臺機器有了和人同等的智能,這種方法被后人稱為圖靈測試。
3)計算機科學家認為如果計算機實現了以下幾件事中的一件,就可以認為它有圖靈所說的那種智能:語音識別、機器翻譯、文本的自動摘要或者寫作、戰勝人類的國際象棋冠軍、自動回答問題。今天,計算機已經做到了這些事情,有些時候還能超額完成任務。
5、全世界各個領域的數據不斷向外擴展,各個維度的數據從點和線漸漸練成了網,在這樣的背景下,出現了大數據。2005年是大數據元年,通過數據量的劇增,使得數據驅動方法的優勢越來越明顯,最終完成了從量變到質變的飛躍。
舉例:Google機器翻譯在2005年NIST評比結果上一鳴驚人,大幅度領先其余團隊。
6、大數據的特征:體量大、多維度、全面性、時效性和抽象意義上的大。
7、通過大數據,將智能問題變為數據問題,計算機就能解決人類智能的問題了。
舉例:AlphaGo下棋的原理就是根據歷史數據,考慮對手可能采用的走法,對不同的狀態給出可能性評估,然后根據對方下一步走法對盤面的影響,找到一個最有利于自己的狀態,并走出這步棋。
8、今天我們面臨的復雜情況,已經不能用機械時代的思維,通過因果關系來解決問題了,而是要采用大數據思維。
大數據思維的核心:從大量的數據中直接找到答案,即使不知道原因。
舉例:Google其實是一家數據公司,成功不僅僅是靠技術和數據,更是采用了大數據思維。
9、沒有大數據之前,我們尋找一個規律很困難,需要經歷“假設-求證-再假設-再求證”這樣一個漫長的過程,找到規律的成本很高。而有了大數據以后,這類問題就變得簡單了。
舉例:美國警察局通過用電數據抓到在豪宅盆栽種植大麻的人。
美國稅務局通過對同類企業日常經營數據來圈定小企業漏稅,從而減少偷漏稅的情況。
10、大數據在商業活動中從細節到整體再從整體到細節雙向的流動,不僅能夠利用大數據對商業進行整體提升,更能夠精確到每一個細節。
舉例:硅谷創業者通過改造酒吧酒架(裝上測量重量的傳感器以及RFID芯片和讀寫器)來解決老板不在店盯著,也能監督和改善經營。
普拉達(Prada)通過在標簽嵌入RFID芯片,能夠搜集試衣信息(分析具體賣的不好衣服的情況)以及智能推薦試衣(不同尺碼和顏色的情況,推薦搭配)。
11、從歷史經驗看大數據和人工智能的作用:現有產業+大數據 =新產業;現有產業+人工智能=新產業。
12、技術將改變商業模式,在大數據時代,IT軟件和IT服務依然會是IT領域最好的行業。
舉例:美國GE公司通過在冰箱上提示用戶更換冰箱取水器濾芯并能一鍵下單,一年通過濾芯的利潤就能抵上一臺冰箱的利潤。
13、數據收集:看似簡單的難題,因為大數據常常以全集作為樣本,而不是過去的抽樣調查。直接搜集全相當困難,聰明的公司往往就是繞一個彎路,間接地收集數據。
舉例:Google要獲取每一個家庭的電視收視情況,直接自己做盒子并沒有成功,轉而通過收購wifi智能空調調節器公司以及家庭錄像監控公司,來獲得更多居家數據。
14、數據挖掘是機器智能的關鍵,信噪比高的數據質量更好。
15、機器學習的過程無一例外是一個不斷迭代、不斷進步的過程。用機器學習的專業術語來說就是期望值最大化的過程:只要事先定出一個學習目標,算法就會不斷優化模型,讓它越來越接近真實的情況。
16、數據安全有兩層含義:首先要保證用戶的數據不損壞、不丟失,還要保證數據不會被偷走或者盜用。
在大數據時代,由于數據量巨大,一旦丟失或者被盜,損失也是巨大的。同時如果黑客得到多維度的數據,也像數據科學家一樣來對大數據進行分析,那么機密泄漏的損失就大得難以估量。
舉例:比商業數據丟失后損失更大的是醫療記錄被盜,在美國黑市上,一個醫療記錄的賣家是個人商業數據的50倍左右。
17、大眾對自己的隱私保護不在意,更看重便利性,在大數據時代將會損害自己的利益。
當移動互聯網(包括物聯網)、大數據和機器智能三者疊加到一起之后,我們不再有隱私可言,因為多維度的信息湊到一起能夠得到一個人完整的畫像。
保護好隱私對大數據長遠的發展非常重要,人們不可能看到隱私最終完全受到侵犯,而依然任由大數據繼續發展下去。隱私受到侵犯已經成為大數據和機器智能發展的障礙。
舉例:在電子商務網站上,同樣的價格有些人總是買到假貨,有些人卻買到真貨,是因為商家通過掌握的個人數據,來判斷用戶是軟柿子還是刺頭,通過欺軟怕硬來給他們帶來更多利益。
美國很多航空公司通過方法發現詢票者過去對票價不是很敏感時,給出的報價會比其他人高很多,可以提高10%左右的銷售額,對于凈利潤只有0.2%的航空業來說,這是幾十倍的利潤提高。
18、未來的智能化產業
1)未來的農業
引入機器智能以后,將能更精確的灌溉,大幅度節省澆水量(95%以上),并且在不破壞生態環境的情況下,提高單產,恢復環境。
舉例:自然環境很差,嚴重缺水的以色列(可耕種面積不到五分之一,降水量比中國最缺水的地方還少)通過科技興農,許多農產品單產量都領先于世界水平,同時讓荒漠逐漸變成綠洲。
硅谷小公司發明的Droplet噴水機器人能夠節省95%以上的澆水量。
2)未來的體育
離不開大數據和機器智能,它們將會利用數據指導訓練,并總結分析,僅靠天賦和苦練將不足以取得最好的成績。
舉例:來自硅谷的勇士一直成績不佳,被來自硅谷的投資人收購后,利用數據分析結果,認為NBA所追求的打法是低效率的(球隊尋找身體條件突出的隊員,全隊費大力氣攻到籃下得2分),發現最有效的進攻是眼花繚亂的傳球和準確投籃,在這個思想指導下,重新改變戰術和挑選球員,并利用數據制定戰略,奪得了40多年來第一個總冠軍,是NBA里面的Google。
3)未來的制造業
機器智能會逐步滲透到制造和銷售的各個環節,不僅工人數量將會逐漸減少,而且各個制造業都會被重新洗牌。僅僅靠降低工人工資的低水平競爭將不再具有制造業方面的優勢。
舉例:特斯拉的汽車制造是盡可能的使用機器人,同時取消存在了一個世紀的汽車代理商制度。
4)未來的醫療
將會通過人工智能降低醫療成本,解決醫療資源短缺的問題,掀起制藥業的革命(不再是都是用一種藥,而是不同的人會有不同的特效藥),延長人類的壽命
舉例:手術機器人達芬奇系統
IBM開發的沃特森(Watson)智能系統可以分析各種數據和醫學影像,幫助疾病診斷和醫療信息管理,目前能達到中等醫生水平,在缺少醫生的非洲和印度,有比沒有強。
Google獨資的IT醫療公司Calico。
5)未來的律師業
機器智能夠解決美國打官司中最費時文件分析(提升效率500倍),意味著未來將會有相當多的律師,尤其是初級水平的。
6)未來的記者和編輯
機器智能夠閱讀和寫作,大大提高新聞行業的效率,同時也會讓記者和編輯這類工作萎縮。
19、大數據和機器智能將把我們社會的管理水平提升到一個前所未有的高度,使得我們生活的環境更加安全,也會讓我們的生活編的更加方便,社會資源的利用率大大提高。
舉例:美國正在4個城市試運行的出行智能交通系統,能夠利用實時的大數據更合理地在空間和時間上分配和利用交通資源(比如道路和停車場)。
20、可以利用區塊鏈技術(比特幣采用的技術),來記錄每一件商品從制造直到被消費的完整行蹤。
21、每一次重大的技術革命都需要時間來消化帶來的負面影響,然而信息革命依然沒消化完,智能革命就來了,只能靠時間來解決問題。因此智能革命對社會的沖擊將是巨大的,會影響到國家、企業、個人的命運。當各個行業從業人數都因為機器智能而減少時,全世界幾十億勞動力怎么辦?淘汰下來的勞動力會帶來更大的社會問題。
22、靠征稅解決不了以上問題,因為歷史證明劫富濟貧的做法從長遠來看是阻礙經濟發展的。當稅率過高時,實際上等于鼓勵懶惰,當全社會都不去創造財富而只考慮再分配的時候,經濟就開始衰退了。事實上,富人的錢財除了少部分用于個人消費以及購買不動產以外,其他又投入了再生產,過高的稅意味著投入再生產的錢減少了。
23、如何讓自己在智能革命中受益而不是被拋棄,就是爭當2%的人,而不是自豪地宣稱自己是98%的人。要敢于投身到技術革命的大潮中,需要在這樣的環境中學會生存。這將是一個讓我們振奮的時代,也是一個給我們帶來空前挑戰的時代。