前言
隨著技術的進步,尤其是信息傳播能力的提升,現今人類文明發展駛入了持續加速的快車道。科學共同體的模式已經將過去幾千年知識技術的臺階式漸進發展變為陡坡式爬升,我們時時刻刻都在進步中。更多分享,更多協作,現在再NB的科學家如果閉門做學問,有個3-5年不與外界接觸,就會被整個時代拋離。前不久看了《流浪地球》,不說情節設計,對背景設定有個最大感觸,真到了太陽壽命快終結的時候,按照現在人類文明的發展速度,探究出宇宙真理不敢說,但銀河系肯定早就邁出去了,亞光速飛行和聚變能源真不是啥太遙不可及的技術,有幾百年肯定能搞定。
說的遠了,回來講本文的主題。現在VR\AR\MR\CR\XR各種R概念紛飛,讓人眼花繚亂,作者希望通過從技術方面的整理分析,對未來5-10年個人終端設備VR\AR\MR的發展做一番展望。首先旗幟鮮明的表明作者個人觀點,智能眼鏡是一定會取代智能手機成為下一代個人終端的最主要形態,這個時間過程可能至少會是3-5年,但肯定不會超過10年,要相信當前技術發展的加速能力,具體在后文“下一代終端”章節中會有描述分析。
為了省事,本文中所有關系到VR/AR/MR三者全體的描述,都以3R表示,反正寫此文純粹是作者興致喜好,不涉及湊字數算稿費的情況。本文的內容全部源自互聯網公開資料,作者僅試圖從自身視角出發,對相關技術內容進行邏輯整理和重組織輸出,更方便同好者學習理解。
作者對所有內容來源的被引用者均致以最誠摯的謝意,因參考引用的源頭太多與較為零散,且本文也非學術性文章,就不一一列出了。閱讀者如果有更深入的學習意愿,也請自行就關鍵字去互聯網檢索,無需詢問作者有哪些推薦閱讀。另外本文適用于WTFPL license,如有讀者希望引用轉載本文中內容時請參考。
概念與產品
首先明確概念,目前被提到最多的VR\AR\MR\CR\XR幾個,就個人理解,現階段技術相對成熟,有可見工程產品的只有VR(虛擬現實)、AR(增強現實)和MR(混合現實)三類;CR(影像現實)僅是一個成像效果概念,跟產品沒任何關系;XR則是個噱頭,X代表啥都能裝,這種就屬于純粹的概念炒作。
VR產品成熟度最高,作為全封閉影像系統,專注于視頻和游戲領域,為用戶打造一個脫離現實的環境,類似于網文中的魔幻玄幻歷史架空類小說。業內知名產品如全球的HTC Vive、Sony PS VR、Facebook Oculus Rift、三星Gear VR,國內也有暴風、小米和華為等大量價格更親民的VR產品。雖然仍有不少技術問題未能完美解決,但VR產業已經進入高速成長期,不影響大規模商用。那種用兩塊透鏡看手機屏幕的特色“VR”不在本文討論范圍內。
AR和MR,都是將虛擬圖像和現實圖像結合在一起進行呈現,類似于網文中的現代都市異能類小說。二者目前概念說法很多,邊界定位不夠清晰,個人傾向于AR僅做數據圖層疊加,MR會將虛擬圖像與現實圖像結合顯示。產品形態上AR眼鏡都不是封閉的,現實景象仍然依靠人眼直接捕捉;而MR現在雖然受困于技術,都是不封閉的,但未來發展方向一定是全封閉的,會通過攝像設備捕捉現實景象,然后與虛擬景象結合計算,再將融合結果在眼球前屏幕上成像。具體的分析請參考下文。
MR技術要求更高,目前主流市場上也僅有微軟HoloLens和Magic Leap這兩款不夠成熟的非商用產品。AR相對簡單,如Google Glass、EPSON BT系列、Meta AR等成熟產品很多,國內目前也有GLXSS Pro、0glass等應用于如醫療、工業制造等不同行業領域的產品,雖然使用場景嚴重受限,但價格也大都可以接受。
AR/MR面臨的最大問題是應用,因為要跟現實相結合,就不能像VR那樣在視頻游戲領域天馬行空的去創造內容。簡單來說就是我們帶著AR/MR設備能干啥是很受限的,如果只針對具體場景如行進指路、醫療手術、工程維修等,就太細碎了,花很多錢研發出來的場景應用,可能帶不來多少使用效果提升,投入產出比不高,市場自然做不起來。
個人感覺AR更快速的普及發展方向應該是對個人辦公系統的替代,通過網絡和云桌面結合,能投影個Windows系統出來,隨時隨地干活兒,取代筆記本和臺式機,便攜性提升很多,同時不屬于新增投資,也更有利于大眾的接受。MR技術成本短期內很難有大的下降,且應用方向不清晰,短期內很難有普及性發展,但AR屬于MR的過渡技術,終將被MR替代,當然受技術成熟速度和商業發展影響,估計至少要5-10年的長周期才行。
我們如何“看”世界
不管是哪個R,其核心技術都是視覺成像,所以先簡單介紹下我們“看”東西的原理,這對后面理解當前3R的技術困境會有很大幫助。
單眼成像
我們看到的景物都是光源發出的光或者物體反射的光。人眼本身是一個可自我調整的精密光學系統,當景物通過晶狀體在視網膜上成像,分布于視網膜上的各視覺系統得以感光并將其從輻射能轉變為電脈沖,最終由大腦解碼產生圖像。
視網膜上的感光細胞分為兩種:視錐細胞和視桿細胞,分別對應人眼的明視覺和暗視覺。視錐細胞又分為紅色、綠色和藍色感光細胞,其對照明的明暗條件敏感度較低,只有當光照強度達到一定條件時,錐細胞才能夠起作用;視桿細胞對光照的敏感度較高,可以在光照條件很暗的情況下對景物成像,卻不能感受顏色,這也解釋了為什么在晚上的時候人仍然能夠看到物體,卻不能有效地分辨物體的顏色的現象。
眼球中最主要的兩個部件就是負責控制進光量的瞳孔虹膜和控制對焦的晶狀體(水晶體),例如近視的主要原因就是總看近處的景物,導致晶狀體長時間維持拉伸狀態導致無法壓縮(就像一直被拉開的彈簧會變得無法自動壓縮回彈),遠處的景物就無法在視網膜上形成對焦了。我們常說的看書看手機看電腦容易近視,就是因為長期視線聚焦在近處小范圍物體上導致的,跟看啥東西其實關系不大。
雙眼聚散與深度
前面講的是單個眼球成像的光學原理,在我們通過視覺系統判斷景物的遠近距離時,要依靠大腦通過雙眼觀察到的兩幅不同圖像進行合成計算。單眼觀測圖像雖然也能簡單依據近大遠小來判斷距離,但往往不夠準確。雙眼觀測這里有兩個重要的計算因素,聚散和深度。我們都知道物體離眼睛越近,左右眼看到的差別就會越大,通過這些物體的光場觀測區別,大腦在合成圖像時,會給出物體距離更準確的判斷。
當看近處物體時,我們稱為匯聚,此時兩只眼睛是朝內的,匯聚的目的是讓你聚焦的地方變清晰。而看遠處物體時,雙眼朝外,我們叫做分散。大家小時候常玩的斗雞眼其實就是聚散效果的體現,首先兩只眼睛都朝著鼻子的方向看,然后慢慢朝遠處望去,雙眼匯聚的焦點越來越遠,遠到無窮遠,這時雙眼視線就近乎平行了。
另外我們通過瞳孔的進光量控制,可以對物體的深度進行判斷。當我們看近處的物體時,瞳孔收縮,減少遠處物體的進光量,使其變得模糊,從而給大腦一個深度的信息,用于位置距離的綜合計算。
視野范圍
視野也被稱為視場,指人眼平視某一個點時的視覺范圍,這個視覺范圍分為三個級別依次降低:最大視野、正常視野和最佳視野。
最大視野指能看到的最大理論角度,包含單眼的范圍極限,實際上對視覺成像影響不大,很多邊緣區域信息在腦中合成時會被自然丟棄,只有部分經過特殊訓練的情況下大腦才會做處理,例如某些橋段中情報人員用視線余光查看追蹤對象這種。
正常視野在水平區域左右30-60度之間,垂直區域上30度下40度范圍以內,具體都是因人而異的。根據這個數據,大家就可以自行計算,多大的屏幕放置在離眼睛多遠的距離是最合適的觀看效果了,對大家在挑選電視顯示器大小和沙發桌椅高度時,有很大的參考意義。
因為視野范圍是考慮到眼球的轉動范圍,那么就還有個最佳視野的概念,指實際最舒適的眼球轉動范圍,這個值一般是在更小的水平左右15度,垂直上25下30范圍內。當然這也是3R智能眼鏡產品應該滿足的最低標準。
人眼分辨率
我們到底能看多清楚,實際上并沒有啥定論,人眼分辨率流行的說法,從400萬到5.76億像素的說法都有,各有各的算法。以5.76億為例,算法如下:
?-?人眼分辨率最小細節0.59角分,按0.6角分計算;
?-?一個線對2個像素,一個像素就是0.3角分;
?-?水平橫向視野120度,等于24000個0.3角分,就是24000個像素;
?-?按照正方形視野框計算,就是24000*24000=5.76億像素
算法很簡單,但實際指導意義不大,人眼的分辨能力因人而異差別極大,除了感光、色彩、視野這些基本條件外,更重要的是大腦。有個開玩笑的說法,上帝作為人眼設計師,水平是很爛的,也就是個膠片照相機的水平,比現在的數碼和光學相機設計差遠了;但其作為大腦設計師真是超神級的,可以把人眼吸收到的亂七八糟圖像各種組合優化。后期處理無敵,才讓我們能清晰地“看”到這個精彩的世界。
因為實際上每個人視覺成像的感知條件相差甚遠,所以這里也不對人眼分辨率做過多的剖析,個人比較贊同的觀點是,考慮分辨率時成像距離更重要。下面舉手機的例子計算。
?1.?假設我們在距離眼睛40cm(15.748英寸)看一個手機,則屏幕上1個英寸對應視野角度約為1.82*2=3.64度(直角三角形兩條直角邊1/2英寸和15.748英寸,得出短邊對應角為1.82度);
?2.?按0.3角分1個像素,3.64度約738個像素,既屏幕分辨率能達到738PPI即可,更高的人眼也分辨不出來。
可以看到上述計算過程中的主要變量只有一個視距,之前蘋果MAC曾提出300PPI最佳分辨率的說法,實際上就是將人眼到顯示器屏幕的視距設置為1米,按照上述算法計算出來的。同理,如Gear VR和Oculus Rift等產品,屏幕距離眼睛約16cm(6.3英寸)左右,可以計算出分辨率能達到1800PPI即可滿足人眼分辨能力。
Google和LG在2018年5月發布的最新VR屏幕已經可以達到1443PPI,隨著硬件技術的進步,顯示分辨率不會成為3R的關鍵瓶頸。
如果再考慮到水平120度、垂直上30下40度的正常視野范圍,可以計算出16cm(6.3英寸)視距的VR產品,合適屏幕長寬為21.82*(3.6+5.3)英寸,理論上點對點分辨率約需達到39000*16000。但這只是個上限值,實際通過眼動追蹤和雙屏顯示等技術,完全可以不必展示這么清晰的全景畫幅出來,人眼也看不過來,要相信大腦的視覺合成與理解能力。
視覺頻率
最后一個跟成像關聯性較大的概念就是視覺頻率了,對應的是屏幕顯示技術中的幀率、刷新率等參數。前面提到眼睛成像主要依靠視錐細胞和視桿細胞感光,那么當光反復變化時,我們眼中就形成了連續的過程圖像,在這個變化過程中,如果速度過快,會造成成像影響,既人眼只能識別出一定頻率的變化,更高的內容會被忽略掉。例如999張黑圖片和1張白圖片按1ms每張速度變化,我們的眼睛根本看不到白色出現,這就是視覺頻率極限。這個頻率一般是個范圍值,同樣會因人而異,通常60hz(120fps)以上的變化大部分人就看不出來了,實際上屏幕顯示技術都已經能達到此指標,所以幀率不是3R技術發展的瓶頸。注意,這里60Hz是個范圍值,而不是說60Hz能看出來,61Hz就看不出了,各人的邊界值會有較大差異,能分辨出144Hz的強人也是存在的。有種說法是本來自然界的光變頻率沒有多高,人眼也能力一般,但隨著當今屏幕顯示技術的進步,人眼的視覺頻率也在逐漸增強進化,當然這還有待求證。
再補充一下,這里只是做了些基礎介紹,視覺頻率實際有著復雜的過程,視覺系統對于不同復雜程度的刺激物也有著不一樣的極限。例如電影只要超過24Hz就能“欺騙”眼睛,告訴我們成像是連續的,而閃光燈哪怕1/1000頻率亮起時,也會被捕捉到。如前所述,光感圖像除了在視網膜上成像外,還有大腦在做著NB的后期,會根據圖像復雜與刺激程度,決定哪些內容需要“告知”我們,哪些直接被裁剪掉即可。
為什么會暈
現在網上一提到智能眼鏡,大家首先想到的就是看時間長了會暈,這也是目前3R產品普及過程中較大的攔路虎。想解決這個問題,就要先搞清楚為什么會暈。
人體是一整套復雜的器官組合,其中和外部世界交互的部分,可以簡單概括為輸入輸出兩類。那么去除掉人體自身發生的系統故障外,和外界交互過程中導致的頭暈,大部分原因都是輸入異常造成的。
本文所要討論的跟3R相關頭暈癥狀,可以依據輸入異常的原因主要區分為兩類:
?1.?視覺成像系統與身體其他輸入系統輸入信息不同步造成的混亂;
?2.?視覺成像系統自身信息輸入混亂。
第一類比較第二類更容易解決,下面分開介紹。
視體不同步問題
人體的耳前庭器官(主要是半規管)是感受運動狀態的重要器官,可以感知速度、重力等人體運動狀態。因此當我們乘坐交通工具的時候,眼睛看到的結果告訴大腦,我們在快速運動,而耳前庭感受到的身體狀態是相對靜止或慢速運動,二者信息的不同步造成了大腦認知的迷惑,出于保護告警目的會通過頭暈等癥狀提醒身體狀態異常。所以我們會出現暈車、暈船、暈機等各種暈動癥。
使用VR系統時,由于全封閉的視覺成像與外部環境脫離,更容易造成與人體運動狀態認知的不同步,大腦多方采集的輸入信號矛盾,進而導致頭暈的產生。
此類暈動癥相對好解決,因為人體有很強的自適應能力,絕大部分人通過多次乘坐交通工具,會訓練身體學習適應此類狀態,進而讓大腦了解到此類視體不同步狀態是正常的,將眼睛成像與體感狀態區分開,減輕甚至不再產生頭暈現象。VR同樣可以在長期使用后訓練適應,如通過模擬倉等一些技術手段幫助人體感受到運動狀態變化,減輕初期的頭暈癥狀。當然因人而異,肯定存在適應力極強和極差的個體,這里只對大部分平常人的狀態進行討論。
簡單來說,使用VR產品時,視體不同步造成的頭暈,多看看就能適應。
成像信息混亂問題
前面成像原理中提到雙眼自然成像時,是通過聚散與深度來幫助大腦進行景物的遠近判斷。當我們使用VR等設備時,雖然可以通過3D技術,給雙眼呈現不同圖像,解決大腦合成圖像時立體成像的問題,但全封閉眼鏡提供的屏幕視距都是很近的,導致雙眼根本無法進行聚散。同時,由于屏幕的平面顯示過程中,自然成像的4維光場被縮減為2維光場,深度信息丟失,進一步給大腦造成了成像的混亂,對物體的遠近無法進行準確判斷。此時大腦就會自動反復調整瞳孔和晶狀體等眼部器官部件進行對焦,最終造成視覺疲勞、眼壓增加,甚至惡心頭暈。
聚散與深度造成的視覺成像頭暈問題,其根本原因都是在于屏幕顯示這種成像技術,目前還無法完美模擬出自然光場效果。
對VR\AR\MR的影響
視體不同步問題通過長期訓練可以很大程度上緩解,但視覺成像信息混亂問題就不是那么好解決的了。
AR由于非封閉顯示,大腦認知上可以清晰辨認出虛擬與現實區別,眼球也可以在不同遠近的真實物體間變換,相對來說視覺壓力要小很多。
VR產品雖然也面臨視覺成像問題,但由于主要應用在視頻和游戲場景中,是完全的虛擬景象,大腦就不會將其“當真”,再加上景象數據制作過程中,可以采用一些其他成像輔助技術調整聚散與景深效果,因此相對來說不適應癥狀沒有那么強烈,更多的不適感還是由前面說的視體不同步造成。
而MR產品,因為其“以假亂真”的定位目標,則受此問題影響較為嚴重,也成為整個技術發展中最大攔路虎。想要徹底解決,目前能看到的只有Magic Leap的光纖投射技術,將4維光場直接投射到眼睛上,在視網膜成像,這樣不存在信息丟失,跟我們自然視覺得到的景象在數學上是沒有區別的,因此理論上我們使用此技術設備時,也將無法區別出虛擬與現實。Magic Leap也是依靠這個技術噱頭,在7年沒有推出產品的情況下,仍陸續吸引了近30億美元的多輪融資,最高估值近百億美元。而微軟的HoloLens,也因為沒有提出很好的解決方案,導致其雖然很早就做出了工程產品,但一直無法大規模商用。
至于網上所說清晰度、幀率和延遲這些問題,雖然也造成了一定的視覺成像影響,但通過硬件的升級,用更好的CPU\顯卡\屏幕\網絡就可以解決,都不是3R至暈的決定性根因。這里就不做深入探討了。
理想與現實
從產品定位來說,MR是VR和AR的未來終極目標。在這個理想目標中,主要需要解決如下4個技術路線難關。數字影像->現實捕捉->虛實合并->視覺成像,成熟度由高到低,困難度由低到高。VR主要涉及數字影像和視覺成像兩項,以數字影像為主;AR四項雖然都會涉及,但都是輕量級使用;MR的目標則需要將四條路線都發展極致。
下面分別來介紹下這四條技術路線的理想與現實差距。
數字影像
靜態影像
數字影像技術發展到現在已經相對成熟,從靜到動,從2D到3D,從2K到4K,概念很多。概括來說,其發展過程就是一個由少到多,由簡單到復雜的圖片組合過程。
最基礎的數字圖像就是一個帶空間坐標的灰度函數,構成的二維矩陣。從分類發展看,經歷了如下幾個主要階段:
?-?二值圖像:最簡單,只有0/1黑白兩種狀態顯示;
?-?灰度圖像:擴展到0(黑)到255(白),256級灰度表示;
?-?彩色圖像:三個256級灰度圖像,組合而成的紅綠藍圖像。真彩色指256*256*256=2^24種彩色組合,既24位。比其低的8位16位都是簡化了部分灰度級別的偽彩色;
?-?立體(三維)圖像:通常是多張彩色(灰度)圖像組合,形成多角度圖像,給人以立體視覺,最終腦海里面可以合成三維圖像。
總體上立體圖像分為兩大類技術手段:一是通過明暗虛實等光影效果造成立體感覺,來源于早期的繪畫技巧,但實際能夠呈現的內容非常有限,只能在一張平面圖中對某幾個重點物體進行立體感塑造,無法形成整體的立體圖像;二是通過左右眼呈現不同的圖像達到立體成像效果,此類方案更接近人眼成像原理,也是當前主流發展方向。
具體來說,第二類雙眼區分成像技術還分為器械流和裸眼流兩派,器械流通過如3D眼鏡等外部設備,采用如紅青互補色或偏振光等原理,讓兩只眼通過不同鏡片過濾,收到不同的圖片信息,進而在大腦中組合成立體圖像。裸眼三維圖像則是以光柵方案為主,通過在顯示屏幕外側增加一層光柵柱透鏡的方式,使平面圖像在向外發光的過程中,不同角度呈現不同圖像,進而在兩眼形成視差,構成立體效果。光柵方案對數字圖像的成像要求較高,必須是同一物體多張不同特定角度的平面圖像合成,加上必須采用增加了柱透鏡的屏幕或特殊紙張等材質進行顯示,技術上相對成熟度較低,沒有器械流的3D眼鏡應用廣泛。
動態影像
剛剛說的都是靜態數字影像的呈現,而我們知道這個世界,靜止是相對的,運動才是絕對的。我們在“看”這個世界的過程中,運動也是不可避免的,即使外界景物不動,眼珠也是在時刻運動的,正是在這種“動”的過程中,大腦才能合成出立體的外部全景影像。
數字影像技術的關鍵也是要動起來,在運動的過程中呈現合理的圖像變化,才能讓大腦感覺到圖像的擬真效果。這里僅介紹幾個比較通俗易懂的關鍵技術點:形狀、紋理、反射、透視、模糊。更多的技術作者能力有限,就不做深入探究了。
?-?形狀,點、線、面(形狀)是我們理解世界的最基本圖像元素,數字化圖像也是要把所有的有型物體解構成這些基本的點線形狀,再進行數字化創造。任何一個復雜物體的數字圖像都是由成千上萬個基礎形狀組成,物體的運動過程也是這成千上萬個形狀的運動過程。舉個例子,當年《指環王》中的咕嚕,眼睛里有25萬個多邊形,而最新《阿麗塔》中女主的虹膜就由830萬個多邊形構筑。
?-?紋理,指物體表面的細節效果。因為實際中的立體物體其細節大都是不平滑的,因此當運動過程中轉換觀察角度時,呈現的紋理細節一定是不一致的,需要在采用軟件創建3D物體圖像的時候細致考慮。
?-?反射,我們看到的圖像都是物體發光或者反射光線到眼睛中的結果,那么當空間中的物體或我們運動到不同的相對位置時,觀察到的反射結果也一定不同,尤其是存在多光源情況下,3D物體設計要考慮的光影反射復雜度也會成指數倍增。
?-?透視,描述當空間中存在多個物體時,物體之間的相對成像關系。完全遮擋當然更簡單,但實際上大部分物體都會存在透視的效果,尤其在運動過程中,透視效果會隨多角度光源及多物體位置關系進行復雜變化。
?-?模糊,人類經過幾十萬年的進化發展,大腦結合視覺成像結果,對物體運動已經形成了一套成型的識別算法。我們對運動速度較快的物體,運動過程中圖像會有意的進行動態模糊,便于節省眼力和大腦成像的計算量。因此在數字成像過程中,也需要適配此能力,當然這種模糊也有助于成像過程中處理設備的計算量降低,屬于多贏的方案。
小結
總體來說,數字影像技術的目的就是構造一個“以假亂真”的世界,但受限于計算能力限制,目前最多能到“仿真”的階段,類似影視作品這種單向展示“想給你看的圖像”場景,相對更成熟些,圖像更“真”些。而游戲類作品這種需要雙向互動的圖像,基本上都還是“一眼假”的階段,離欺騙視覺系統還相差較遠。這也是目前VR視頻發展遠比VR游戲更普遍的原因。
好在數字影像的技術發展方向比較清晰,現階段計算能力的限制,相信隨著硬件的飛躍,數字影像不會成為3R的主要瓶頸。再以近期電影《阿麗塔》舉例,女主的虛擬形象擁有13.2萬根頭發、2000根眉毛、480根睫毛外加50萬根皮膚絨毛,這些毛發在不同光源下都會呈現不同的狀態。為了達到這種近乎亂真的效果,WETA工作室用了3萬臺服務器,進行5.5億小時的渲染處理,當年的《阿凡達》則是1.5億小時。
當然,受主觀意識影響,從我們帶上3R設備的時刻起,無論看到的內容多么“真實”,大腦一定還會告訴你這是“假的”,不是現實。所以理論上想達到類似《黑客帝國》那種效果,只有依靠影響大腦神經信號才能實現,不單單是3R設備從視覺上所能解決的,因此也沒有必要在“成真”這個結果上吹毛求疵。
現實捕捉
AR產品如GoogleGlass,EpsonBT300等都是鏡片透光,讓我們直接能看到現實場景,雖然也有攝像頭可以拍攝實景,但功能簡單,可以理解為就是在一張照片上做文章,例如道路上加個導航箭頭,人物頭頂加個名字紅藍條啥的。如果我們希望將整個現實環境捕捉下來,并在數字化環境中建模,進而實現互動,那么就需要SLAM這個關鍵技術的登場了。
SLAM
SLAM是同步定位與地圖構建 (Simultaneous Localization And Mapping) 的縮寫,上世紀90年代提出的概念,目前仍然處于最尖端的技術前沿,在自然導航AGV、掃地機器人、無人機、自動駕駛、自走機器人等方面都有廣泛應用。
SLAM要解決的是“我在哪里?”和“我周圍是什么?”兩個問題,主要包括了感知、定位和建圖三個部分。
感知,通過傳感器獲取周邊環境信息的過程。這里的傳感器以激光雷達和視覺攝像頭兩類為代表。激光雷達的特點是精度高、范圍廣、實時性強,缺點是貴,視覺攝像頭則與之相反。考慮到應用場景,MR設備需要能夠將現實場景成像,視覺攝像頭就是必不可少的了,也就是VSLAM的范疇(基于視覺的SLAM),激光雷達更多在機器人之類對實景要求不高的場景下應用。
?-?定位,獲取自身位置姿態等狀態信息,了解我們正處于一個什么樣的位置、高度、角度、運動等狀態下觀察周圍。可以配合GPS、陀螺儀等其他硬件設備,通過算法構筑自身與環境的相對關系。
?-?建圖,根據感知與定位結果,描繪出周圍實景圖像結果。這里的建圖不是簡單的在MR視覺中做圖片合成,而是要形成有深度、有寬度、可交互的實體空間圖景。建圖全靠算法,計算量是對設備最大的挑戰。
SLAM是多個學科多個算法的不同策略組合,它融合了圖像處理、幾何學、圖理論、優化和概率估計等學科的知識,需要扎實的矩陣、微積分、數值計算知識,SLAM跟使用的傳感器和硬件平臺也有關系,研究者需要具備一定的硬件知識,了解所使用的傳感器的硬件特性。所以,根據不同的應用場景,SLAM研究者和工程師必須處理從傳感器模型構建到系統集成的各種實踐問題。作者水平有限,這里就不做深究了。
從MR的應用場景來看,重點發展方向是視覺SLAM系統的輕量級和小型化,輔以多類傳感器,如IMU(慣性測量單元)、陀螺儀、磁力計等,最終通過與攝像頭拍攝的圖像融合,將實景通過數字影像方式于MR設備中再現出來。
目前就SLAM技術成熟度而言,軍用的現實捕捉技術精度更高,不論是雷達制導還是精準定位,跟民用的都不在一個數量級上。而民用技術需要綜合考慮準確性與性價比問題,短時間內很難做出大的突破。MR場景產品如HoloLens和Magic Leap都只能數字化很小的范圍,參考下圖,Magic Leap水平40度,垂直30度,HoloLens更小,導致無法獲取完整的視場,看不了大的物體。受限于計算和成像能力,沒有個3-5年,SLAM很難實現大規模的商業化,近期內還將輔以透光方式的肉眼現實捕捉為主。
VSLAM
在MR場景中,主要使用了基于視覺的VSLAM技術,其前置條件就是通過攝像頭去拍攝實景。攝影攝像技術自1839年第一臺銀版相機誕生已經發展了近兩百年,經歷了百萬級像素的膠卷相機和千萬級像素的數字相機兩次革命性飛躍,目前的主流數字攝像技術簡單概括就是光電轉換的過程,將外部景物的光信號捕捉下來,轉換成電信號保存到存儲介質中。參考前文的光學成像原理,目前的單鏡頭在成像上已經很難有大的突破,下一代億級/十億級像素的陣列相機(也有叫光場相機)都是采用多鏡頭(多透鏡)的方案加上超卓的計算能力進行圖像合成,如Lytro illum。但現階段,光場相機受限于每個鏡頭(透鏡)的能力,普遍像素不高,而且在將每個鏡頭記錄的二維光場通過數學計算模擬成四維光場的過程中,勢必會丟失部分數據,損失分辨率。加上相機中能部署的計算能力有限,想要完整的攝取景物光場,只能犧牲拍攝時間。現在想拍個RAW照片出來,需要舉著光場相機近一分鐘才行,用戶體驗相當差勁。由此可見,將微鏡頭陣列應用到MR設備中去做圖像捕捉,還有相當長的一段時間才能技術成熟應用。現有的MR設備都是通過多個攝像頭配合各種傳感器去做現實捕捉,再進行合成,例如HoloLens包含1個慣性測量單元、4個環境理解攝像頭、4個麥克風、1個環境光線傳感器。
小結
除了使用SLAM構建立體圖景,在MR場景的現實捕捉中,追蹤技術也比較重要,其中有三個關鍵應用場景,物體追蹤、手勢追蹤與眼球追蹤。物體追蹤用于識別外部物體運動過程,便于下一步虛實合并時,能夠讓虛擬物體與現實物體保持同步的合理運動行為。手勢追蹤則主要用于人機交互,作為MR重要的輸入手段,手勢動作的識別是必不可少的,如HoloLens。眼球追蹤則是通過識別人眼聚焦方位,減少成像計算量,是為便攜式MR設備減負的關鍵。
上述現實捕捉的技術點,哪個拿出來都夠展開一套大論文的,本文主旨做些體系性介紹,有興趣的童鞋可以自行研究,深入進去是有很多有意思的東西可以學習的。
可能有看官會問,為啥我們一定要把現實世界完整的捕捉下來再做數字化影像顯示呢?類似AR這種透光方式直接觀看世界不是更加真實嘛,還增添了這么多的技術難題。這就跟我們想要的虛擬世界與現實世界結合程度密切相關了,既下面“虛實合并”章節要介紹的內容。捕捉下來的實體成像只是第一步,更關鍵的是對捕捉圖像的識別和處理,只有知道了哪個是桌子,哪個是杯子,才能在虛實合并時對其進行合理的處置,把虛擬的美酒倒進杯子里,而不是灑在桌子上。
有追求才會有困難,有困難才能有進步。
虛實合并
通過數字影像技術,我們創造了虛擬的圖像世界;通過現實捕捉技術,我們將真實世界數字化。接下來要做的就是將二者虛實合并,形成MR混合現實呈現。
數字影像生成的過程中就已經完成了對影像內容的定義,但現實捕捉的圖像還需要進行識別才能知道其中實體代表的意義。二者都具備精準含義后,才能進一步進行合并。理想狀態如下圖中的桌上太陽系所示,虛擬的太陽與行星在運動過程中,桌面上能夠有符合軌跡的光影出現,反光也會隨著佩戴設備的觀察者移動而隨之變化,形成擬真的效果,就像桌子上真的有個太陽在發光一般。
當然這是理想中的虛實合并效果,目前現實中的實現都還比較初級。如游戲Pokemon GO,基于地理位置信息、攝像頭照片與虛擬影像進行了簡單的融合;再如在人像上加個貓耳朵,豬鼻子之類的照片處理APP,則是簡單對面部進行了識別,然后再結合虛擬圖像成像。這些都可以認為是最最基礎的AR類虛實合并應用。
從技術上看,虛實合并階段最關鍵的有兩塊內容,一是對捕捉下來的現實圖像進行圖像識別,二是對生成的虛擬圖像進行實時擬真。
圖像識別
首先說一下圖像識別與SLAM的區別,空間告訴物體如何運動,SLAM是要構筑環境空間圖景,以便后續的運動軌跡規劃,如告訴我們前方1米處有個0.5米高的類正方體物體,便于后續動作中設計與其如何進行運動交互,至于這個物體到底是個桌子還是椅子啥的,就是圖像識別要干的事情了。
圖像識別涉及了目前最火的大數據和AI等領域,人像識別也好,物體識別也罷,粗分下都是提取特征碼、算法比對、模型訓練、提升正確率這幾步過程。目前特征庫的訓練還以手工為主,真正的機器自動學習只是在很少的特殊領域里面能有所應用。有一些三線城市和小縣城的圖像訓練公司,業務就是甲方一次打包發過來的幾萬甚至幾十萬張圖片,乙方從中對指定的人像和物體做標簽標注,合下來標一張圖片幾分錢到幾毛錢不等,一個熟練人員一天能賺到一兩百。過程除了是使用電腦以外,感覺跟流水線上的操作一脈相承。
圖像庫的豐富程度決定了圖像識別的程度,以ImageNet和PASCAL VOC兩個知名項目舉例,普林斯頓的ImageNET擁有約1000個對象類和1400萬個圖像,而歐盟各大學聯合創建的PASCAL VOC(2012年結束,目前重啟了PASCAL2項目)僅有20個對象類20000個圖像。巨大的數據差會造成識別能力的差距,如下圖所示,ImageNET可以識別出具體的犬類,而PASCAL只能認識出圖像是狗。
圖像識別的算法主要有以下幾大流派:
?-?統計法(StatisticMethod):以決策理論為基礎,通過建立貝葉斯或馬爾柯夫隨機場等模型,以大量統計分析的方法,找出圖像中的規律和提取特征進行識別。嚴格的數學論證使其具有最小的分類誤差,但相對處理復雜結構類圖像的能力較差。
?-?句法識別法(Syntactic Recognition):統計法的補充,模仿語言學中句法的分層結構,將復雜圖像分解為多個相對簡單的子圖像,令其空間結構關系信息更易理解。
?-?神經網絡方法(NeuralNetwork):通過神經網絡算法進行圖像識別,由大量簡單的計算單元(神經元)組成,模擬人的認知過程,適合復雜多變環境下的模糊識別,但對局部圖像的精確分類識別能力欠佳。
?-?模板匹配法(TemplateMatching):通過已知模板對未知物體進行匹配,可以認為是統計法的特例。受限于已知模板的依賴性,僅用于精確物體的比對識別,一般來說圖像變個角度就認不出來了。
?-?幾何變換法霍夫變換HT (Hough Transform):快速形狀匹配的一種方法,通過將形狀曲線上所有點變換到霍夫空間中,形成峰點,進而將未知與已知圖像的圖形匹配識別的過程,變成了峰點檢測的數學過程。隨后提出的幾種改進算法,如快速霍夫變換(FHT)、自適應霍夫變換(AHT)及隨機霍夫變換(RHT),都能夠很好的節省內存空間與計算量,進而提升圖像處理能力。可以說霍夫變換是目前應用最廣泛的圖像識別算法。
實時擬真
在虛實合并階段,MR虛擬圖像的擬真,相比較純粹VR環境下生成數字影像,多了實時性的要求。假設現實捕捉可以在數字世界中營造出完全真實場景,而且已經擁有完美的圖像識別能力,可以對場景中的所有景物進行準確識別。那么當我們將虛擬圖像與其進行結合的時候,為了達到以假亂真的效果,還必須進行大量的計算處理。
首先在靜態場景下,需要計算出虛擬圖像與真實圖像之間的影響關系,如前面舉例的虛擬太陽在桌面的反光,還有如遮擋、壓變、陰影等變化。
然后在動態場景下,隨著觀察者自身和場景中虛實景物的移動,上述虛實景物的相互影響都需要隨時重新計算和進行合理變化。這種動態計算對實時性要求非常高,延遲必須在毫秒級別,才能讓我們不會感知到虛擬圖像的“假”。目前的HoloLens和Magic Leap雖然計算配置都很高,如Magic Leap ONE配置CPU:NVIDIA ParkerSOC;2個Denver 2.0 64位內核 + 4 個ARM Cortex A57 64位內核;GPU:NVIDIA Pascal?;256個CUDA內核。但實際上當前這些MR都還是站樁式產品,佩戴的人一動起來就各種圖像混亂和馬賽克了,根本沒法帶出室外使用。
小結
總體來說,在虛實合并階段,圖像識別仍是亟需攻克的技術壁壘,雖然我們在人像識別等特定景物處理上已經擁有一定進展,但在廣泛意義的全景物識別上,能力構建仍然不足,距離商業應用還有很長的路要走,好在隨著其前置技術AI機器學習的飛速進步,圖像識別也將在3-5年內迎來能力的飛躍。而實時擬真方面,其前置技術在數字影像中基本都已點亮,目前主要受困于計算能力的提升,相信隨著CPU/GPU演進速度和云端集中計算模式的推進,不會成為整個MR技術體系的發展瓶頸。但由于實時擬真是在現實捕捉和圖像識別之后進行的動作,光自己快速成長也沒什么大用,還得等著前面兩個技術的成熟。
視覺成像
圖像都準備好的情況下,回到如何讓我們“看到”這些圖像的基本光學問題。視覺成像也是當前3R技術發展的最大攔路虎,前面《我們如何“看”世界》和《為什么會暈》兩個章節都是這部分內容的前置介紹。
總的來說,成像用的頭盔眼鏡類設備就分為透光和不透光兩類,VR都是不透光的,AR都是透光的,MR受限于現實圖景和實時成像技術發展,目前產品都是透光的,未來趨勢也將是不透光的。
不透光的VR
先說不透光的VR類產品,成像重點是把那塊發光的“屏”做好,因為技術聚焦且成熟度較高,顯示效果比起需要透光的AR/MR來說那是杠杠的。屏幕顯示技術兩個最關鍵的點就是“光”和“屏”,技術發展上大體可分為三代。
第一代的陰極射線管CRT是通過陰極電子槍將電子打到熒光屏上,使熒光粉發光,電子槍快速移動,以逐行掃描形成全屏圖像。早期一只電子槍只能通過光線強弱形成黑白圖像,后來通過紅綠藍三只電子槍組成彩色圖像。因為體積較大,CRT基本沒有應用到頭盔顯示系統中,2000年以后逐漸被淘汰,目前大都只能在計算機發展的歷史影像資料中見到了。
第二代,也是現在的主流技術液晶顯示LCD。在屏幕中間的液晶層,通過電壓對液晶分子的控制,將光源發出的白光做減法,從而實現256個層次的灰度,再通過每個像素點細分為紅綠藍三個子圖元,配合前面的濾色片實現彩色顯示。具體的技術細節太多,不深入解釋了,可參考如下兩張圖理解。
這里有個容易被廠家宣傳誤導的知識點,我們常說的LED(發光二極管)顯示屏,仍然屬于LCD的范疇,只是使用白光LED取代上圖中的冷陰極燈管CCFL作為光源,其他都不變,和第三代的OLED顯示原理完全不同。
第二代顯示屏中還曾有兩個主力選手背投屏和等離子屏PDP,背投可以理解類似為投影儀加透光屏,等離子屏則類似CRT,通過電壓使氣體發生等離子效應產生紫外線,照射在熒光屏上產生三色可見光,通過發光時長變化來調整亮度。二者都因為體積無法縮小與移動時穩定性差的問題,逐步被淘汰,背投僅在2005年左右輝煌過幾年,等離子屏則在2014年隨著三星LG等最后幾個廠家陸續宣布面板停產而落幕。
第三代,也就是下一代屏顯技術的代表是OLED(有機發光二極管),目前隨著技術的成熟,正在開始大量應用于手機和pad這種小型設備上,電視等大屏由于成本問題發展相對較慢。OLED也被稱為小分子發光二極管,這個名稱是相對PLED(高分子發光二極管)而言。PLED更適合做大屏幕顯示,但壽命較短導致無法普及。相對LCD液晶屏來說,OLED主動發光的特點可以把屏幕做得更薄、擁有更廣的視角和更快的反應速度,同時由于是全固態組件,抗震性更佳,能適用更多的環境。發光原理上,OLED更類似CRT,可以簡單認為通過數字電路控制一個個小光源發光。OLED根據驅動方式不同,可以分為AMOLED(主動驅動OLED)和PMOLED(被動驅動OLED)兩類,PMOLED單純地以陰極、陽極構成矩陣狀,以掃描方式點亮陣列中的像素,結構簡單但驅動電壓高,不適合高分辨率顯示;AMOLED通過獨立的薄膜層電晶體去控制每個像素,每個像素皆可以連續且獨立的驅動發光,雖然成本更高,但驅動電壓低,壽命也相對更長。目前市面上的OLED顯示屏基本都是AMOLED,可以認為二者商業意義等同。
下一代技術中,另一個有潛力的選手是Micro LED,就是將三色LED燈泡做得足夠小(1~10μm等級),再組成陣列,單獨控制發光,從功耗和亮度都更有優勢。Micro LED需要解決的最大難點是燈體之間的干擾問題,且燈體結構相比較OLED更加復雜,工藝制造成本也更高,量產困難。但蘋果、Sony、三星等玩家均在積極布局,普遍看好其作為新的屏顯技術,行業預測2019年就將有商用產品問世。通過下圖可以更好的比較LCD\OLED\Micro LED三者的結構區別。
了解了屏顯技術的發展,我們回來說VR到底需要什么樣的屏。
?-?輕:重了戴不長,對腦袋負擔重。 小:便于攜帶,現在的頭盔都太大了,只能固定場景用。
?-?快:反應快,尤其是現在畫面清晰度越來越高,屏幕反應慢了圖像拖影現象會很明顯。
?-?清:前面算過智能眼鏡類產品,屏幕到眼約15cm距離時,需要1800PPI。加拿大VueReal公司展示最新的Micro LED產品高達6000PPI,有助于拉近屏幕到眼的距離,進而也可以使VR眼鏡設備體積進一步減小。
?-?廣:曲面屏顯示可以提升視野范圍,更接近人眼的自然視野。順便吐個槽,目前手機的柔性屏純粹是為了外形好看搞的噱頭。按常識來說,凹面曲有助于擴大視野角度范圍,如曲面顯示器,但凸面曲對視覺效果提升能有個卵用,只會有負面影響。說白了就是手機屏幕基本發展到極限,廠商們為了競爭只能開始玩各種花活。
總的來說,OLED和Micro LED都能很好的滿足VR屏幕的上述要求,會是后面VR發展的重點,技術雖有難點,但都在穩步解決中,相信在1-2年之內就會有更為成熟的產品面世。視覺成像技術不會是VR產業的最大絆腳石,數字影像的內容制作才是關鍵。
透光的AR/MR
AR/MR產品的根本需求就是虛擬圖像與現實圖像的疊加,前面說了視頻捕捉等技術還不能完美的在虛擬世界實時展示現實圖像。那么過渡的技術就是通過透射加反射原理,將現實自然圖像與投射出的數字影像進行組合,再由大腦去自行識別內容。
基本原理很好理解,但技術實現起來也是困難重重的。技術大體上可以分為4類,細節上各有優劣。
?1.?離軸光學
早期是應用在飛行員頭盔上的技術,具體的技術細節較復雜,就不細說了,優點是視場大(90度),缺點是體積大。現在的代表產品就是Meta2,基本快趕上VR頭盔了。Meta2并不是最先推出市場的AR產品,只是離軸光學技術的發展較早,因此有時會被稱為第一代AR成像技術。但因受離軸光學技術影響,此類產品有體積無法縮小的問題,在AR/MR市場的發展普遍不被看好。
?2.?棱鏡(PBS偏振分光器)
PBS采用偏振分光膜實現光的過濾與組合,技術代表就是Google Glass了,也是市場上見到的最早AR眼鏡產品。
我們可以看到棱鏡技術眼鏡的側面會伸出一個玻璃塊到眼睛前面的位置,用于把側面的微顯示器投影的信息通過偏振分光膜反射到人眼中,同時外界光線的一半 (分光棱鏡通常會把自然光對半分開,一半反射、一半透射) 也會以同樣的光路進入人眼,這樣的話,只要顯示信息的內容和位置恰當,就會有和真實世界的東西處在同一個空間位置的感覺,也就是通常所說的疊加感。
棱鏡技術的特點是必須以立方體形式呈現,既眼鏡的厚度需要與希望顯示的圖像畫面長寬幾乎相等,如想要顯示2cm*2cm的畫面時,則鏡片厚度也需要達到2cm。同時由于偏振分光膜對光線角度的選擇有較高要求,通常形成的視場角只有15度,造成視覺范圍受限,再加上位置偏離正前方,看久了會形成單眼斜視,因此Google Glass的客戶體驗一直不佳,市場也沒有能夠有較大發展。
?3.?自由曲面棱鏡
通過自由曲面技術,對立方體棱鏡進行了進一步優化。此類產品在設計的過程中通過精密的計算,把原本的立方體表面做成彎曲的表面,甚至膜層也做成彎曲的,最大程度地利用每一個位置的分光效果,以及更好地利用分光膜層,既擴大顯示的范圍,又不產生體積上的增加,同時也能增大視場角的范圍。
自由曲面的代表產品EPSON BT300,視場角達到23度,鏡片厚度25mm,相比較Google Glass有了較大的視覺效果進步。但自由曲面棱鏡從技術上講還是對棱鏡方案的修修補補,改進有限,并不能像最新的第四代技術那樣形成視覺效果的突破。
?4.?波導技術
首先說這個波導跟“手機中的戰斗機”沒任何關系。波導技術的產生是為了解決光的橫向傳播問題,利用了光的全反射原理。簡單地說,就是從玻璃或者塑料這些比空氣折射率大的光密介質中,以一個比較大的角度打到內壁上的光線,全部會經過反射繼續傳播。就像是我們在潛到水下的時候,從某些角度去看水面時,看不到水面以上的物體。這種全反射的方式在平板內部通過“碰壁”方式傳播的過程就叫波導傳輸,平板介質相當于一個傳導波的工具,故名“波導”(waveguide)。通信工程中的光纖傳輸采用的也是相同原理。
目前的波導技術主要分為陣列光波導與全息光柵光波導兩類,主要區別如下圖所示。陣列光波導相對成熟些,在成像效果、鏡片薄厚與透光度等方面占優;而全息光波導的成本是其最大的優勢,可以直接使用玻璃或樹脂加工制取。
陣列光波導的代表產品是Magic Leap,而全息光波導則是HoloLens,二者目前都不是很成熟的商用產品。光波導技術代表了AR/MR的短期未來,會在3-5年間有一定發展,但從長期來看,仍然是不透光的視頻透視模式會取代這種光學透視模式,畢竟光學透視模式無法形成良好的現實捕捉和虛實合并效果,只能在有限的場景應用,如Pokemon GO這種。
總結
理想很豐滿,現實很骨干。3R的技術發展還是任重而道遠,攔路虎很多,可概括為硬軟兩類。“硬”的方面如對計算、存儲、網絡、體積、能耗這些性能上的限制,需要硬件設備能力的不斷進步;“軟”的方面如屏顯透光、SLAM、圖像識別這些,會涉及到光學、材料學、算法、機器學習等多個分支的科學進步,前進方向明確,但道路并不清晰,還有待探索。
再多說一個讓人又愛又恨的四維光場投射技術,這是Magic Leap用來吸引了大家7年目光和海量投資的最大亮點,可惜在18年發布Magic Leap One產品的時候跳票了,產品仍然是采用的光波導技術。四維光場的視覺效果描述很誘人,但估計短期內小型產品化夠嗆。市場是第一位的,Magic Leap再出不來產品投資方就該不干了,但不可否認,他的努力也推動了整個AR的產業發展,衷心希望有一天能見到技術的成熟產品。
最后我們再來看看Magic Leap夢開始的地方,第一臺原型機The Beast,由創始人Rony Abovitz在自家車庫中搭建。
人機“交互”
所有的智能終端產品都是要拿給人使用的,人機交互是必須深入考慮的設計內容。將人體也視作一個交互個體,則我們與機器之間的交互手段無非是聲光觸三類,氣味暫時還做不到信息編碼的程度,也無法承載較多的信息內容,可以先不做考慮。
交互方式分析
?-?先說聲音,目前的3R產品在輸出方面,聲音都不是問題,鏡腿組件離耳朵那么近,做個啥揚聲器或者配合各種有線無線耳機,都能很好的適配各類使用場景。輸入方面則還存在較大的難題,畢竟語音識別技術現在還沒有成熟到能包打天下,聲音指令的輸入準確性有待提升,再加上無聲環境和嘈雜環境下的場景干擾(想象一下公共場合下,一群人對著終端喊出各種指令的可怕場景),聲音雖然可以作為人機交互的主要輸入手段,但也只能成為之一,必須有更廣適和更精確的輸入手段配合使用。
?-?再說光線,也就是圖像交互,前文羅里羅嗦了半天,講的主要都是3R終端在輸出時,如何將圖像更好的呈現給人體,這里就不再細說。而反向交互的手段,目前主要是通過動作識別,如眼動追蹤和手動追蹤等方式,來讓機器能夠了解人的意思。前面也提到過,圖像識別是當前技術上的攔路虎,需要AI有較大的發展才能提升準確性。但更重要的目前人類的動作自身無法承載較多的信息元素,雖然有啞語可以表達出部分主要思維意識,但想用手勢動作編排一套《長恨歌》基本是不可能的。因此圖像交互還是只能限于特定的場景,如玩個游戲,搞搞虛擬訓練啥的,很難普及出成熟的商用場景。
?-?最后說下觸覺,這個是人類當前向機器設備最主要的輸出手段,短期內也看不到能有代替手段成熟。鍵盤、鼠標、手柄、觸控板、滑屏等等,都可以認為是人通過物理碰觸機器的特定位置形成電信號指令的過程,簡單、準確、適用場景豐富。唯一的代價是需要人對碰觸規則進行學習和訓練,當然這個規則正在逐漸簡化,而且廣泛適應性也是人類能成長到今天必不可少的基本屬性。看看能把微信玩得飛起的老年群體就可以知道,這點兒學習代價根本不是問題,只看個人意愿。
當然在觸覺交互中還有些能玩出花兒的配套設備,如VR座艙和踏步場等,看過《頭號玩家》或《憨豆特工3》電影的朋友肯定都印象深刻,沒看過的現在去大城市的商場里面轉轉,也能隨時體驗到此類VR設施。但此類配套設備基本都無法移動,只能適配下VR游戲或電影場景,且真實感嚴重不足,初次玩玩可以,很少見有人能長期保持興趣的。
現在的3R主流產品,輸入手段都是以觸控為主,如Magic Leap One的觸控手柄和愛普生的觸控主機板。
走的靠前的是微軟的HoloLens,直接采用頭瞄加手勢識別替代了觸控的輸入方式,勇氣可嘉,但精準度和可操作性市場已經給出了答案。
3R交互小結
小結一下3R產品的人機交互情況,短期內的主流技術發展方向如下:
?-?人體輸出/機器輸入:觸控、聲音
?-?人體輸入/機器輸出:圖像、聲音
隨著3R產品的成熟,配套的觸控輸入設備也將成為新興產業,就像電腦的鍵盤和鼠標配套產業一樣,但短期內還是要看各個智能眼鏡廠商自身的配套設計情況。
另外值得一提的是腦電波識別技術的發展,這個一點兒都不科幻,米國早有可以玩俄羅斯方塊的商用產品銷售了,無非是技術封鎖國內搞不到。腦電波技術本質上仍然是信號的捕捉、識別、轉譯和編碼。當然要發展到能配合智能眼鏡產品取代觸控的交互方式,應該還有很長的一段路要走,個人竊以為HoloLens搞啥手勢識別還不如直接上腦電波識別更有前途。
下一代終端
3R的追求不是只做個娛樂設備或者特種裝備,未來一定會取代智能Phone/PAD/Notebook/PC/TV等成為一統天下的個人終端。
個人智能終端雖然21世紀初始就出現了黑莓、多普達等廠商的設備,但真正的發展還是源自蘋果IPhone系列的問世,更準確的說是自2008年7月發布的IPhone 3G開始,IPhone一代和IPhone2G就是起到個培育市場和試錯的作用,IPhone 3G發布了3G數據網絡與APP Store這兩個大殺器,而高速網絡與自由應用正是智能終端與前面那些“能跑些程序的手機”的根本區別。
經過了10年的高速發展,智能終端也進入了另一個趨同性瓶頸。有興趣的朋友可以做個實驗,把目前排名前十的手機廠商主力機型掩蓋了商標混在一起,看能分辨出幾個來。現在的智能機已經類似于90年代的PC市場,操作系統被蘋果和安卓一統天下,手機廠商類似于DELL/HP/聯想這些,都是以組裝為主,有一定技術能力,但真的都不算啥核心技術。由此來看,在Google Project Ara和Moto Z此類模塊化設計的智能機可能發展方向下,手機攢機這種特色行業的再現也不是完全沒有可能。
下面我們從需求角度分析下終端設備的發展方向,個人終端的使用目的本質上就是圖+音的交互,文字可以理解為一種特定編碼圖像,視頻則是連續圖像與聲音的組合,因此對終端設備的能力需求也可以簡單概括為如何更好的輸入和輸出聲音與圖像。
聲音需求分析
在當前的聲學科技樹中,聲音的輸入輸出已經不是問題,無非是怎么編碼成更優質的數據和進行更精準的識別,90分到100分的區別。作為理科出身的作者一直對諸如“低音渾厚、和聲飽滿、音色通透”之類純主觀表述的聲音評判方式無感,這種無法使用數學語言建立的結構,都不能納入現代科學的體系,也終將被時代拋離。人聽覺較靈敏的頻率范圍就是1000-8000Hz,可接受范圍就是20-20000Hz(大于20000是超聲,小于20為次聲),整個聽覺過程概括起來就是機械→電→化學→神經沖動→中樞信息處理的過程,除了最終步驟中的中樞合成原理現階段還不清晰外(跟視覺中樞的影像合成原理不清相同,這也是造成當前美學評判只能純主觀出發的根本原因),前面幾個步驟都已經可以很清晰的進行數字量化表述。作為個人終端設備的聲音處理,只要能盡量保證采集(除噪、信號擴大等)、傳輸(編碼、壓縮等)、輸出(解碼、振動等)過程中,對原音的精準識別和還原即可。
圖像需求分析
對于目前個人終端設備的圖像輸出來說,清晰度前面講過已經不是啥問題,視距與像素點大小更關鍵,同樣1920*1080的圖像,在6寸和60寸的屏幕上顯示,在30cm和300cm距離上觀看,用戶的最終感受會有很大影響,近小遠大是基本的設計依據。Phone/PAD/PC/NOTEBOOK/PC/TV基本上也是隨著屏幕的增大,視距也要越來越大。帶來的結果就是觀看者的身體自由度變化,當看電視時,只要保持身體在電視正面即可,同時可以觀察到整個房間的環境;而看手機時,因視距太近,除了要占用人體的重要感知交互器官“手”來握持終端以外,受視線聚焦影響對周邊環境的觀察能力也基本為零,很容易與環境脫節,造成對人體的安全威脅。
個人終端的圖像輸入可以分為文字、圖片和視頻三類,圖片和視頻基本依賴于攝像頭的能力,也是當前各個手機廠商主打的最大賣點。文字的輸入則結合手指對設備的指定區域執行指定動作形成電信號,再依靠各種輸入法軟件識別為文字信息。語音輸入轉文字則仍困于識別率問題,精度和使用環境受限。手寫這種在信息時代僅為照顧部分個體的落后輸入方式勢必會被淘汰。從習慣發展來看,鍵盤在可見的未來中仍然是最主要的輸入方式,就算HoloLens硬上手勢識別,也要在使用者視界中呈現一個虛擬鍵盤,再捕捉手指動作與虛擬鍵盤相對位置形成空擊,最終完成文字內容的輸入。
產品比較
如上所述在個人智能終端的組件中,用于圖像輸出的屏幕是最為重要的功能部件,同時也是制約著終端整體物理形態發展的最主要因素。但便攜性與大屏兩個根本需求無法調和,這也是為什么我們現在的生活中會有Phone/PAD/NOTEBOOK/PC/TV這么多塊屏共存的根本原因,其實這些智能設備背后的馮諾依曼經典計算機結構都是相同的,軟件應用層面也大多是互通的,其本質上的區別就在于屏的大小給人的感受不一,進而產生了不同的使用用途場景。
在可能的一些發展選項中,柔性屏和折疊屏會先被Pass掉。就算平時真能把屏團成團或者疊成豆腐塊揣進兜里,但想看的時候還得讓屏幕恢復成一個有較大平面面積的實體,那這個實體依然面臨著當前智能手機終端使用時遇到的問題,需要用手舉著或者找到個可以擺放的桌面。要知道便攜性不止是指設備不用的時候,更重要的是在觀看時候能擁有方便的放置方式。
另一個有些競爭力的選手是全息投影,場景在各科幻影視作品中大家都已經很熟悉了,空氣中直接投放個三維的實體影像出來。技術上現在已經可以部分實現,但關鍵限制有二:一是空氣投也要有類似“屏”的介質存在,不能完全的憑“空”投影,或者是含一定水分的氣流墻,或者是含一定氮氣與氧氣的空氣爆,至于要用到全息膜、旋轉鏡等固態實體的方案就更不提了,都會限制影像顯示的位置;二是全息投影首先需要有個全息的影像數據,要采用專門的攝影方式將原始物體的全部三維光學信息采集下來,再做投影,這就限制了影像的數據來源廣泛性。至少從目前技術發展來看,有這兩個限制,全息投影真正想結合到個人終端中使用,還有漫長的路要走。
再介紹個奇葩的思路,將生活中所有的平面都變成玻璃面,所有的玻璃都成為屏,這樣也不用考慮啥終端了,走到哪里都是智能屏幕。先不說導電的問題如何解決(前面介紹過所有的屏幕顯示技術都是要靠電子激發發光的),僅是這種被全玻璃包圍的生活環境,就能將作者這種更偏好木、皮與金屬質感的個體逼瘋。
綜上所述,能夠取代智能手機,與其他終端多屏合一的下一代個人智能終端,只有,也只能是3R為代表的智能眼鏡了。關鍵優勢有三:
?-?便攜性:頭部固定,解放雙手;
?-?大屏:等效100寸屏顯示效果;
?-?安全性:透光視野,增強現實。
現在智能眼鏡自身的計算存儲能力還存在不足,很多產品如EPSON BT300、HoloLens、Magic Leap One這些都需要帶著個主機,很影響攜帶性。但隨著網絡通信能力的提升,大帶寬低延遲的5G網絡普及,計算存儲完全可以放在云端處理,現在如云PC和云游戲等云端應用模式已經開始大量出現。在不遠的未來,云+5G+智能眼鏡將會成為一統天下的個人智能生活模式。
雖然3R還有很多技術問題亟需解決,但方向正確最為重要。個人認為2019-2020年一定會有革命性的重量級產品面世。注意不是指革命性的技術,而是革命性的產品,類似當年的IPhone 3G。2025年之前百花齊放的各式智能眼鏡就會把智能手機打得一敗涂地,當然百分百全取代也不太可能,畢竟就是今天也還有在使用非智能手機的用戶。
結束語
時代正在不斷加速,落后者被拋離也就是一轉眼的事情。諾基亞2010年二季度時還占據全球手機銷售份額的35%,領先第二名20.8個百分點,而2013年底前就以71億美元將手機業務打包賣給了微軟,2016年微軟又以3.5億美元的價格賣給了富士康。
烈火烹油,鮮花著錦,爬到山頂后往往就剩下坡可走了,區別是要慢慢走下來積蓄力量爬下一個坡,還是認不清現實翻滾下來一蹶不振。十年輪回,智能手機的好日子也將開始倒數,誰會是下一個蘋果?誰又會成為下一個諾基亞?