面對智能化的未來，設計師你準備好了么(語音交互篇) [Nick薦]

[交互設計]

Nick推薦理由：只要是人一切能夠感知到的事物都需要設計，把視覺傳達、人體工程、聲樂設計等眾多領域的經驗用于人機交互，而現在交互設計正在往一個更加自然、更加接近于人本能的方向發展。就像現在的VR、AR、MR技術，其實也是在模擬人與現實交互的一種過程。因為人機交互最終是和人的感官進行交互，而人的感官所適應的系統是幾百萬年來進化當中和自然交互的一個過程。所以人和自然之間的交互是最高效、最舒適的。

因為我們現在有大數據、云計算、深度學習、圖形處理其等技術作為支撐，通過設計改變生活方式。從功能化的設計轉向場景化的設計。比如說在你做飯的時候和開車的時候，這個場景下它的VUI的效率要高于GUI。從規則指令交互轉到自然語言交互。自然語言交互不僅限于VUI，而GUI上也可以進行自然語言的交互。從單屏交互到無處不在的交互。我們未來的界面可以不再是大家認為的最傳統的矩形，可以是任意的形狀，像自然界當中的物體一樣的形狀。以后人工智能不在是能做什么、擅長什么，而是擅長的是否是你想要的，體現的性格是否是你最喜歡的。也許這就是感知設計隨著科技的提升變化改變。而現在我們需要把這些停留在過去的電子產品設計得更加自然和接近于人的本能。我們不再僅僅是視覺設計師，我們是聽覺設計師，我們是為所有感官而設計的設計師。

隨著科技的發展，人機交互發生著巨大的變化，智能家居，智能車等智能硬件的普及，人們越來越需要一種不依賴于鍵盤鼠標顯示器的交互方式。同時，語音輸入技術上的重大進步也使得人們可以用更為自然直觀的方式和設備進行“交流”。因此，設計師也需要具備一些語音交互的設計方法來設計出更為可用的語音交互方式。

語音識別技術簡介

在做語音交互之前，我們需要知道語音識別技術的實現原理以便知道現有技術存在的幾個重要限制。當我們在設計語音交互時，我們需要對語音輸入及（系統的）語音反饋進行設計。這就好比在設計對話，作為設計師，我們必須確保“對話”的雙方都能很好的理解對方。那么相應的，語音輸入也存在兩個技術關鍵點：語音識別和語義理解。早期的語音設備只是對語音進行聽寫，而對語義的理解遠比識別語音要難。

在過去的20年中，對語音的識別、理解、自動回復方面有了重大的發展，在90年代，工程師和語言學家花費了大量時間來訓練系統識別特殊詞語。這些被稱作“有限狀態語法”（finite state grammars），既系統只能識別一系列有限的詞和短語。現在很多自動語音應答系統還在使用，例如一些自動回復的電信業務（銀行業務查詢等）。

隨著技術的進步，“統計語言模型”（statistical language models）被用在更多的產品上。系統不再限定在識別特定的詞和短語，而是可以將聲音對應到特定的字符串。換句話說，你不用直接教siri“紐約明天天氣怎么樣？”這個短語，siri可以通過將你的發音聽寫成單詞然后將這些單詞匹配出相應的意思。這一系列的識別，加上機器學習方面的進步，使得自然語言的交互成為可能。隨著自然語言交互的發展，機器不止能識別我們說的話，還能夠理解話的內容并做出正確的答復。這點雖然對人來說很簡單，但對一臺機器來說已經相當科幻。

語音交互（VUI）和圖形交互（GUI）：相同和不同

對語音交互設計師而言，以上的這些科技進步相當重要，因為它們可以讓我們以一種20年前科幻小說中的方式來與機器“對話”。但我們還需要找到有效的設計方法來最大程度的利用這種科技進步。幸運的是，圖形界面設計中的以用戶為中心的設計理念很多可以復用到語音設計中，我們不需要完全從頭開始，但也要知道有哪些新的模式需要注意。

交互設計（ux）中最重要的角色是用戶，一切流程都是圍繞用戶為中心展開的，這點在語音設計中是相同的。Thomas Hebner作為一個從事了16年語音設計的設計師，他認為語音設計中最重大的錯誤往往發生在用戶目標和業務目標不一致的情況下。

優秀的產品通常都是能快速解決真正的用戶需求，同時很適合他們的使用場景。我們需要的是能感知上下文的設計，比如我在家說“溫度升高點”，系統要知道我指的是暖氣還是烤面包機。這種感知上下文的能力與語音識別技術無關，主要看設計師對系統對話的設計是否巧妙。

以上這些很重要，理解用戶、使用中對上下文的感知、可用性與易用性這些通常用在評判GUI的設計標準同樣適用于語音交互（VUI），所以傳統的交互設計師可以很好的將自己在GUI方面的設計經驗移植到VUI上。

但也有一些關于VUI的特殊設計要點需要特別注意。

▼會話能力

內容和調性對于每個設計都很重要，但在設計語音輸出時尤為重要。好的語音設計可以讓用戶在使用時感覺像在進行正常的對話，但對于電腦而言，像人類一樣會話相當困難。

Tony Sheeder一位從事超過14年語音設計的設計師解釋道：

每段語音交互都好比一個簡短的記敘文，有開頭、過程和結尾。人類對這些會話規則了如指掌，所以當你參加一個聚會，你會很快發現哪些人比較容易交流。現在的大多數語音系統就好比那個在聚會上說什么都是錯的，別人都不喜歡和他交流的“人”。

早期的語音設計師大多有語言學的背景，Tony Sheeder最初是為互動游戲編寫對話的，這也幫助他能夠很好的編寫出自然順暢的會話。但設計語音交流并不總是一帆風順的，早期的語音交互會讓用戶感到不舒服，因為設計師認為用戶需要系統給出明確的指示，系統一般會說“是否需要查詢你的賬戶余額？請回答是或否”這違反了會話的基本原則。Sheeder認為互動式語音應答系統（IVR）希望自己像人類一樣說話，但同時希望你像狗一樣回答，這點是用戶感到不舒服的主要原因。

▼設計更好的交流技巧

許多設計師強調文案在體驗中的重要性，如果你希望在產品中加入語音功能，那么你需要學習以下一些重要的規則讓你的語音交互體驗更好。

▼保持簡短，但不能太短

當系統太過于健談時，體驗會變得相當糟糕，尤其是在無輸入系統中，語言要相當簡明并使用戶始終主導交互的節奏。簡言之，在設計對話時要保證簡潔但也不要過于簡短。

書面語言完全不同于口語。當你開始寫一段會話時，你會發現它讀起來很生硬或者讓機器讀起來過于冗長。這其實很常見，你需要保持所有的會話比你想象的要短的多。如果不這樣，用戶很容易失去耐心聽完從而可能錯過重要信息。

另一方面，你同時需要注意不要省略重要的信息。sheeder談到了早期的語音自動應答中心的設計，設計的核心目標是讓所有東西盡量簡短。“有一個理念是：若在一次通話中減少750毫秒就可以提高效率，但通過剔除連接詞和過渡短語反而會增加用戶的認知壓力從而使效率降低。”當反饋太快時會對聽者造成很大壓力，他們會因為無法及時處理信息而變得挫敗，最終使得自動應答中心的整體效率降低。

▼創造性格

人們會把能與他們交談的東西當做人類對待，而每個“人類”都是具有性格的。在VUI中同樣是這樣，蘋果的siri，微軟的cortana和亞馬遜的a'lexa都分別具有完全不同的性格。

成功的語音系統擁有性格不只是為了好玩，同時也是目標導向的，冷靜正式的性格可以提高效率，而親切的性格可以讓用戶更愿意交流。

擁有個性也可以幫助你設計會話。在某方面，個性就像是在GUI設計中的風格指南，可以幫助你確定應該用什么詞匯和語氣來組織會話。而決定運用什么性格是由你的產品目標和用戶特征決定的。但無論如何要記住，你的語音系統可能會被用戶長時間多次使用，所以你選取的性格不能是那種隨著時間推移會讓人厭煩的，比如過多的冷笑話或者喋喋不休的重復。

還有一個地方需要注意，當你將系統設計的帶有性格時，系統會變得更加擬人化，而用戶也會把系統當做一個“人”來對待。這時用戶對系統的智能化要求也會相應提高，當發現系統并不是很智能時，反而會增大挫敗感，這也是為什么用戶會對siri要求的格外嚴格。

▼自我測試

為了確保會話的自然和高效（不是惱人的），你需要做很多測試。可用性測試是當然要做的，但在這之前，你可以通過以下方法開始提高自己的VUI交互能力。自己扮演你要設計的系統去和其他人對話，將對話錄下來然后播放，看是否合適。再讓機器讀這段會話，以此來測試。

當然所有這些方法與界面設計中用的方法差不多，我們寫界面上的文案也需要考慮文風和語氣，同時也要保證高效簡潔，當然也要進行可用性測試。然而，在以語音為主要交互方式的設計過程中，這些方法套路也需要做如下相應的調整：

▼可發現性和可預見性

可發現性和可預見性在以語音為主要輸入方式的系統中相當重要，尤其是在使用自然語言系統時。在這點上圖形用戶界面和語音用戶界面會有很大不同。

自然語言系統將大部分發起詢問的負擔都給了用戶，相反的，圖形界面可以給用戶上下文線索，比如提示、詢問，甚至是明確的選項。當你登錄你的網上銀行時，網站通常會給你幾個選項，例如你是否想登錄或者學習如何新開一個賬戶。

想象下如果銀行像谷歌的語音系統一樣。你進入網站然后系統提示你問一個問題。有時會很順利，如果你恰好是要查詢余額，對話就會變得很簡單：“查詢我的賬戶余額。”“好的，你的賬戶密碼是多少？”

但如果你想開通一個新的業務帳號，并且與你的儲蓄賬戶綁定，并且有許多選項需要選擇，每個選項都有不同的收費方式。這個對話會很難開始，因為你不知道要從何說起，先問什么。甚至很多新功能你都不知道它是否存在，就更不用說去問了。

這類可發現性的問題在設計開放式語音系統時是一個很重要的問題。當Abi Jones第一次設計語音時，她把一個錄音設備假設成一個什么都能聽懂并回答的機器，“這讓我第一次意識到想要說出自己想要什么是多么難的一件事，”她說。

即使在限制輸入內容且功能完全外顯的語音交互中（例如一些只能讓用戶說特定詞的應答系統），設計師還是要處理一系列無法預測的用戶應答。在可視化產品中，我們所做出的大部分選擇被用戶界面限制。有能點擊的按鈕，供選擇的選項，可拖動的滑塊。當然也會有開放式的文本輸入框，但他的出現一定會有上下文提示它的作用。當你在谷歌搜索框中輸入時，即使輸入這個行為本身不可預知，但上下文的信息也能讓用戶按照設計者的意圖進行操作。

與此相反的，siri需要根據你的輸入來確定做出什么響應。是打開一個app？搜索網絡？還是給某個聯系人發短信？輸入的不可預測性對設計師而言是個棘手的事情，如果我們想要限制用戶輸入或讓用戶知道他們能做什么，設計師就需要預測更多的使用情景來盡可能多的覆蓋用戶可能的應答。

▼設計更好的可發現性和可預見性

想要讓你的語音系統的功能更為可見，首先你需要讓系統積極主動，先發制人。與其讓用戶自己想起來他們要干什么，不如系統先發起對話，問問用戶他們需要干啥。

Karen Kaushansky認為這方面cortana做的很好，如果你在開車并帶著藍牙耳機，此時你接到一條短信，cortana會知道你正在開車，它會詢問是否需要幫你閱讀短信內容，但如果藍牙耳機關著他就不會這么做，因為外放音讀短信可能牽扯隱私。以上可以看出，cortana已經可以聯系上下文并且主動發起會話。通過觸發基于上下文的提示，可以幫助用戶發現隱藏功能，上面的例子中用戶就知道了cortana可以讀短信。

另一個選擇是向用戶解釋他們應該說什么。許多使用自然語言的系統開始像早期應答系統一樣給用戶各種提示。例如，他們不會再問“你需要什么幫助？”，取而代之的是“你需要什么幫助么？你可以說：查詢銀行收支、申請支票、匯款等。”雖然對用戶而言，即便科技已經很發達了，但提示用戶“你可以嘗試說。。。”仍是比較好的啟發用戶發問的方式。

▼隱私和易用性

一個在語音，尤其是純語音的交互中很顯然的問題是：一切都會被他人聽到。當然，讓系統播放歌曲這種命令沒什么問題，但假如在一個開放的辦公室里系統朗讀了你的健康記錄，事情就會比較糟糕。所以上下文仍然相當重要。

Rebecca Nowlin Green，一名在Nuance通信公司工作的商業總顧問，她解釋道好的語音系統應該在敏感信息方面設置撤回輸入的方式，包括使用其他方式展示。

易用性也是一個問題，雖然語音識別技術已經發展的很好了，但在非母語用戶、嘈雜環境下或者網絡不暢通的環境下識別精度仍會大大降低。所以使用環境會對系統的可用性和適用性產生很大影響。

▼為隱私和易用性而設計

好的隱私設計的關鍵是理解用戶會在什么情況下需要信息以更加私人的方式呈現，且這些信息出現時的上下文是什么。沒有人愿意在地鐵上喊出自己的社保密碼，但在某些情況下甚至連短信的發送人這種信息都會牽扯到隱私。

讓設備能夠輕松的切換到無聲模式并且支持多種輸入和輸出方法對保證隱私至關重要。而一個反應靈敏的應答系統也會對隱私有所幫助。例如生活中，當你小聲對一個人說話時，對方也會小聲的回應。我們通過周圍的人的反應及時調整自己，可是機器不會，它只會用同樣的音量做出應答。所以在設計語音系統時將環境噪音、位置、接收到的音量考慮在內并做出處理可以大大改善隱私問題。

對上下文的理解可以改善易用性。例如一個叫做TRNQL的致力于開發便于語音輸入輸出SDK的初創項目。其中有一個設計是當系統檢測到用戶是坐著的時候，輸入方式是鍵盤輸入，而當感知到用戶在走路時，默認輸入會切換到語音。這樣就會避免在行走中看手機而發生事故。

當我們的設備對我們越來越了解——我們住在哪，在哪工作，我們什么時間在聽歌或看電影——系統可以更好的判斷什么時候以何種方式與我們交互。但易用性和隱私之間需要有一個度，我們可能會希望我們的系統知道我們在走路但不希望它知道我們在哪走。這些問題在手機和私人設備的設計中需要著重考慮。

記住，隱私和易用性問題是嚴肅且不好解決的問題，了解用戶介意哪些信息以及信息所處的上下文可以幫助你知道如何做能既保護了用戶的隱私又能給用戶提供便利。

▼純語音系統和混合式操作系統

早期的語音設備常見于大公司針對個人用戶開通的電話自動應答系統。現在的語音系統多用在智能家居、手機和可穿戴設備上。有趣的是，這些設備都具有多種輸入輸出方式，比如屏幕、燈光甚至物理鍵盤。這些混合式交互系統給了設計極大的可能性。

不幸的是，很多公司只是因為語音比較酷而將語音引入他們的設備。他們認為用戶更喜歡直接發問而不是根據系統給出的結構進行會話，因此他們更喜歡引入自然語意系統。同時，為了減少干擾而去掉屏幕或物理按鍵。

但只有當某些特殊場景下需要引入語音才能解決某些需求時，語音的引入才有意義，否則隨意的使用語音只會適得其反。

你需要考慮的是一個語音對話能夠如何改善某個用例的體驗。比如在輸入中，有些信息很容易說出來，但很難手動輸入；而有些則容易“寫”出來，卻不容易“說出口”，語音輸出存在同樣的問題。

例如這則對話：“siri，告訴我舊金山北部市場中提供午餐且還沒關門的所有餐廳。”但你肯定不希望siri將全部760家符合條件的餐廳都念給你，所以這個場景適合語音輸入，屏幕輸出。

但如果在我們平時用百度地圖導航時，我們更習慣于輸入目的地進行路線查詢，在確認好路線時用語音進行導航。所以這個場景適合屏幕輸入，語音輸出。

所以，作為設計師，如何決定何時何地使用什么輸入輸出方式需要我們根據設備、任務和上下文來做特殊處理，但也存在一些通用的原則可以參考。

一些適合使用語音的情景

▼智能家庭共享終端

語音經常被用在一些沒有屏幕的設備上。智能家居設備，例如nest?thermostat，只有一個小屏幕或者干脆沒有屏幕，用戶通過手機app進行控制。顯然語音控制要比app更加合適。比如飛利浦的智能照明系統已經可以用Amazon Alexa控制了。

Abi Jones解釋道“語音系統的操作門檻相對較低，且不會區分使用者身份（在隱私保護方面是劣勢），這使得家庭中的各個年齡層成員都能很順場的控制智能家居系統，而且語音的控制可以省去手持遙控器（可能是你的手機），更便于家庭輕松隨意的使用場景。”

語音系統還可以讓用戶“隔空”控制設備，比如你可以在客廳中控制廚房中烤箱的溫度，或躺在床上控制整個房間的燈，前提是接收器能聽到你的聲音。

▼一些很難輸入的內容

比如數學公式、化學方程式和曲譜等都是容易念出來，但由于包含很多特殊符號使得輸入十分困難。這時語音輸入就會很有必要。

▼人們可以表達的復雜信息

實際上，當用戶有復雜的命令需要說時，語音的優勢就體現出來了。假設你今晚想要看一部電影，你可以在電影列表頁翻頁或依據應用給出的有限個分類進行篩選，或者，你可以選擇說：“給我找一部沒有黃曉明出演的電影，這個電影要四星以上且有免費資源。”

對于由多個關鍵詞和過濾條件混合的復雜搜索請求，用戶通常很容易用詞語描述出來，谷歌在這方面做的很好，無論用戶是用鍵盤還是語音輸入的。試想如果將支持語音的搜索引擎植入到諸如電視機這種只有簡單遙控器的設備上會帶來多大的方便。

▼在需要釋放雙手或雙眼的操作環境中確保安全

在車中語音交互已經被應用。不管用戶是否喜歡，他們不得不在開車時需要與設備進行交互，比如導航、開車途中接電話或者需要回復短信的情況。這時候用戶需要讓他們的雙手握在方向盤上而眼睛目視著道路。語音交互在這種情況下可以保證用戶安全的操作，雖然不能避免分散用戶注意，但至少用戶不用低頭看手機了。

不只是在車上，比方說在手術室，我們也不希望醫生在需要查找某些信息時還需要用手打字。

因此，當我們需要快速獲取信息或做出回復但我們的雙手和雙眼又無法使用時，語音輸入和語音應答可以保證安全性和效率性。

不要使用語音交互的場景

▼任何需要談判或擁有很多變量的情況

雖然語音技術不斷的進步，但離我們能夠和一個設備自然對話還差很遠。最成功的語音系統只能支持識別一個（至多兩個）句子的長度。Abi Jones 指出，亞馬遜的Alexa可以支持簡單的自然對話，但仍然有所局限，她說：如果你要求它打開一個不存在的電臺，它會問你你是否想要創建一個。但如果你想要跳過一首歌并且增大音量，這是兩個完全分開的動作，所以只能完全分開執行。

這就意味著包含有幾個不同的請求或談判的長對話并不適合語音輸入。比如，當安排與一個人的會面可以用語音，但要安排一系列相互依賴的會議時，語音就不會那么有效了，反而是找出日歷來一個個選擇比較容易。

▼大量的輸入和輸出

在大量數據的輸入和輸出時，語音要比打字慢很多。比如搜索你想要去的餐館，你可以比較容易的用語音描述出你的篩選條件，但將搜索的結果用語音讀出來顯然相當麻煩。因此，當你可以瀏覽列表并通過點擊選擇時，就沒有必要通過語音來操作了。

當需要處理大量的輸入和輸出時，可視化界面要比語音界面高效很多。雖然有些人很擅長口述他們的想法，但要流利且準確的說出整個email的內容還是需要一定訓練的。短句子和簡短的郵件回復比較適合語音輸入，不過打字還是更容易讓大多數人接受。

▼很難形容的內容

在上一節中，我們看到了一些容易口述但比較難打的字、符號和行業術語。但同時也有一些很難大聲說出來卻很容易用屏幕顯示出來的內容。

雖然在智能電視上語音交互已經被用來控制很多功能，但例如白平衡調節這種功能還是很難用語言形容。同樣的，在控制智能汽車時，像調節后視鏡角度這種操作用語音控制也比較麻煩。之所以這樣是因為語音錄入在一些有上下文語境的場景中較為有效，但不能適用于所有的場景。

▼比較復雜的事務列表

另一個語音系統不能很好兼容的是相對復雜的項目列表。想像基于傳統網格系統設計的電腦或手機界面，現在需要將上面的內容用機器“讀”出來，畫面將會相當的“美麗”。

即使沒有那么巨量的數據，語音界面仍然需要用戶在同一時間記住幾個不同的選項，尤其是在完全沒有視覺的前提下，這是很難做到的。就像是超市在配備銷售員的同時，仍會附上商品標簽。有些信息很容易通過視覺獲取就不需要被迫通過對話，尤其是跟不太智能的電腦。

成功的結合方式

Tony Sheeder主持了Dragon Mobile Assistant的第一個版本的設計。Dragon Mobile Assistant是一個 Nuance Communications公司推出的免提使用手機的app。它的語音識別技術很出色，可以用來安排約會，發送信息，分享內容到社交網站以及查詢天氣等。雖然它能夠很好的理解用戶的請求，但早期的版本卻存在一個有趣的設計問題。

sheeder解釋道，起初語音交互和圖形界面是由兩個不同的團隊設計的，兩個團隊都覺得他們應該同時控制信息的輸入和輸出。“這就使得最終產生了許多冗余的信息，例如app會在屏幕上顯示一些信息同時用語音將它讀出來。”sheeder說。當兩部分設計人員開始互相協作時，他們開始考慮哪些內容適合視覺呈現而哪些內容可以用語音來輸出。因此，下一個版本的輸入輸出方式就明顯自然多了。

為了能夠成功的將多種交互方式進行結合，不僅需要了解什么時候需要或者不能用語音，而且需要知道怎樣將語音與其他輸入輸出方式有效的結合。下圖列出了幾種不同的混合交互方式的例子：

毋庸置疑，在接下來的幾年內肯定會有更多不同結合方式的產品出現，這意味著設計師需要花費更多的精力來確定哪種輸入輸出方式能帶來最好的使用體驗。而且可以預見的，每當你增加一種輸入或輸出方式，設計復雜度會指數級增加。

下面有一些有用的tips來告訴你哪種輸入和輸出的組合方式適合你的產品。

▼純語音——有限狀態

有限狀態，純語音的操作系統更像經典的IVR系統。那是一種當你撥通電話會聽到諸如以下的系統提示音：“請問有什么可以幫忙，您可以嘗試說查詢賬戶、開通賬戶、申請清算或者人工服務。”在這個系統流程中的每個節點上，系統只能理解特定的命令。

雖然這個系統很傻，但它仍被那些需要降低客服中心運營費用的公司使用。因為該系統可以處理一系列常見的簡單任務并在需要處理復雜任務時將電話進行轉接。

什么時候會用到

在有限狀態下，純語音的系統在特定場景下還是很有用的。由于只能通過語音進行輸入輸出，所以適用于那些沒有屏幕的設備，包括IVR電話系統，當然也包括一些沒有屏幕的可穿戴設備。

通常，使用有限狀態系統意味著你的產品足夠簡單以至于不必使用自然語言處理方法（NLP）。用戶被訓練著做少量的簡單任務，例如一個只能定鬧鈴的鬧鐘不需要一整套自然語義系統來支持，它只需要理解幾個用戶能記住的簡單命令，比如“設置鬧鐘”。

有限狀態系統的一個最大的問題，也是一些人之所以很討厭使用IVR的原因，系統通常需要用戶回答一長串特定的選項才能最終得到用戶想要的結果。如果系統包含更多內容，就會要求用戶回答更多的篩選選項，這會很容易讓用戶切到人工服務或掛掉電話。

一些只包含幾個特定任務且可以通過簡短命令操作的系統比較適合純語音的交互。例如汽車內的語音控制系統。用戶一般只有特定的幾個需求，如：播放音樂、打開空調一類的。用戶每天都會重復這些交互，而且每次都會用到相同或相似的命令。每個命令都很簡單并且相互不會產生影響，所以用戶不會迷惑，系統也很好識別和糾錯。

▼純語音——基于自然語義識別

隨著技術的進步，很多IVR系統升級成了NLP（自然語意識別）系統，這意味著當你向某公司打電話尋求幫助時系統會問你“請問你需要什么幫助”，接下來只要你能準確的描述出你的需求它就可以識別并執行。

如果說選擇使用純語音系統取決于你的產品是否具有屏幕，那么選擇支持自然語意識別的純語音系統的決定因素就不止這些了。

Rebecca Nowlin Green的主要工作是幫助公司選擇適合他們的語音系統，她推薦將自然語義識別的IVR系統用在需要支持大量呼叫及流程復雜的系統。如果系統中有大量用戶可能會需要的功能，設計一個可以跳過一些不必要層級直接讓用戶獲得他們所要服務的流程可以避免用戶的中途放棄以及其他錯誤。

當然，如果用戶需要獲得諸如醫療保險或銀行相關的幫助時，他們通常不知道說什么能讓系統給出他們想要的結果。他們很難向電腦詢問“我想要知道你是不是能回復我關于我的醫囑的問題。”但是，如果你先給出一個明確的選項來幫助用戶做一個選擇，例如“開通一項醫療程序”，他們會意識到這就是他們想問的事。在這個例子中，你可能需要給用戶一些有針對性的對話來提示他們向系統問什么。因為雖然你允許用戶用自然語義來交談，但不代表不需要給用戶以提示。

▼語音輸入/視覺輸出

n近些年，市面上有許多產品合入了語音輸入，其中有很多是有顯示屏的產品。在這些產品上，我們允許用戶語音輸入，而用界面顯示輸出的信息。

用智能手表發短信就是這種組合的一個很好的例子。手表的界面很小使得其他形式的文字輸入方式都很難使用，但這個尺寸的界面完全足夠顯示語音輸入的單詞，以便用戶檢查拼寫和格式的錯誤。

智能電視也是一個很好的例子。它們沒有能夠支持復雜輸入的硬件設備，而本身又有足夠多的功能足以支撐自然語義查詢。比如直接說“顯示本周三生三世十里桃花播放的所有時間，”要比用遙控器上的十字箭頭方便多了。

Thomas Hebner說他最喜歡的一款語音界面是一款訂披薩的app，用戶只用大聲說出他們的要求，比如“兩份小披薩，其中一個只放奶酪，另一個放香腸和蘑菇，”這些都不需要用戶手動輸入。app會將識別出的訂單在屏幕上顯示以便用戶確認，這比用語音將識別結果讀出來方便多了。

實際上，那些有復雜功能，需要復雜輸入，而這些輸入都可以用語音命令代替，同時返回的結果不適合機讀出來的系統，都適合使用語音作為輸入方式，而用視覺作為輸出方式。

▼物理輸入/語音輸出

這種特別的組合咋看上去很罕見，但仔細想想傳統的立體聲音響就是這種交互方式。物理輸入可以是點擊屏幕，但也可以是按按鈕或者手勢識別。

另一個例子可能有一些不常見，比如在雜貨商店使用的自助結賬系統通常都有一個語音介紹對應屏幕上顯示的內容。語音輸出通常用在一些未經訓練的用戶經常使用的設備上。一個可靠的人聲提示可以幫助這些用戶順利的進行一些特定的操作步驟，諸如銀行取款等。

▼混合模式

許多設備都在朝著混合模式的方向發展，它們會將語音、物理輸入和屏幕、語音輸出結合。導航app就是一個將這些交互手段結合的典型例子。

用戶能夠觸控拖動地圖來查看，用物理按鍵或虛擬鍵盤輸入。當駕車時，可以通過直接說目的地名稱來開啟導航。用這種方式用戶可以不用將目光移向屏幕或用手來操作。語音輸出可以輸出導航的命令指示，而例如周圍道路擁堵狀況等較為難以描述的信息可以使用屏幕顯示。

這是一種很好的輸入輸出結合方式，每種交互方式都將自己的優勢發揮出來。整個導航系統會根據用戶需求和信息的復雜程度來選擇信息的呈現方式，一方面，用戶在特定場景下可以不用手眼就能操作，而同時用戶也能選擇在另一些場景下使用屏幕。

但這種方式的設計還很少見，因為上述的方式是基于對用戶的使用方式有深刻理解的基礎上的。導航系統在汽車內使用語音還是一個比較明顯的場景，但不是所有的產品都有一個明確的使用環境，所以判斷什么情況下使用語音交互是比較困難的。

久才能達到星際迷航上的水平？

正如Abi Jones所說，你研究語音交互越久，越會發現和人類簡單流暢的交流是一件多么不同凡響的事情。

可悲的是，要實現像星際迷航的電腦那種能力還是遙遙無期。

有一些關鍵因素制約著我們，其中一些是可以隨著科技的進步逐步解決的，另一些只能等到人類適應了科技的變化才能得到改善。

▼一些我們面對的問題

“所有這些都不容易。還有很多很基礎問題存在的挑戰，比如對錯的識別能力”Rebecca Nowlin Green說，不過一切都在不斷改進。

1999年的產品的識別率大概在65%，而如今的識別率接近92%，但仍然意味著有8%的情況下系統不知道我們在說什么，這會讓我們在完成任務的過程中受到挫敗。畢竟，如果沒能把這些問題解決，人們是不會使用這個技術的。

系統和人類都很難處理諸如“插嘴”這種情況，例如當系統在做簡介時用戶想要跳過簡介而說話。人們很難打斷別人說話，因為打斷說話的人會覺得不自然。而設備卻會遇上這個問題，他們可能并不能很好的理解前一段話的內容，所以會經常看到系統不斷重復“對不起，我沒聽懂”來打斷用戶講話。

隨著語音交互的普及，我們會看到更多的沖突和混亂。以語音觸發控制為例，我在家里說：“把室溫升高到24度”時，我所指的是空調，而不是我的聲控烤箱或是別的什么設備。所以，我們不能像現在這樣，每個設備都有一個完全獨立的交互系統。

智能手表和可穿戴設備也有同樣問題。我說“OK，Google”時，我想讓我的手表回答，而不是房間里的另外四個，這不是完全能通過技術手段解決的問題。未來當我們有更多出現在同一環境下的語音控制設備時，設計師就需要考慮指令沖突的問題了。

但我們面對的最大的問題還是人本身。所有的領域專家都認為人類是很反感語音交互的。Abi Jones說：

當人們彼此交談時，由于我們通過對話創造了一個共同的價值觀，所以我們愿意以更加寬容的方式進行彼此交流。當人與機器進行交流時，起初人們還是會以同樣的寬容態度對待，但一旦發現系統缺乏“人性”時，人們就會轉變成對待機器的態度。

語音的未來?

所以未來會是怎樣的呢？其實有許多產品在不遠的將來會發生巨大改變。

語音識別早已不是專屬于某些特定的行業了，可以預見，未來隨著智能手機和智能可穿戴設備的普及，越來越多的公司會加入其中。某天我用我的智能手表通過語音在亞馬遜下單，這必要么？不必要，但這會是未來趨勢么，當然。這會讓我失業么？有可能哦~

大數據和語音識別技術的進步可能很快就能讓我們和電腦進行真正意義上的對話。但真正有價值的是，讓人們與那些屏幕、鍵盤效果不佳的設備進行自然的交流。

Tony Sheeder認為語音交互將被更多的用在虛擬現實和增強現實方面：

人們沉浸在游戲環境中時就不應該只能靠點擊按鈕來進行交互。語音可以為你的產品提供更為細膩和多樣的操作可能性。

Rebecca Nowlin Green預測會有更多的虛擬助手、一對一的交互硬件作為各種公司的代表出現。

大數據會追蹤用戶的行為信息并利用這些數據影響體驗，你最喜歡的咖啡館可能會通過虛擬咖啡助理來叫你起床。

Abi Jones認為未來界面會變得無處不在，當你需要他們時他們就在那，她還認為接入語音會讓體驗變得完全不同。

但就像任何新科技在開始使用時，公司和設計師在嘗試何時使用語音以及怎樣使用語音時會做出很多錯誤的嘗試，就像Marco Iacono指出的：

就像蘋果的智能手表剛推出時，開發者很快就將他們原有的業務移植到了這個新產品上，其中很多都是原有手機應用的縮小版或刪減版。不過不久他們就發現自己的核心功能是否真的適合這個在手腕上又小交互流程又短的設備了。

在本篇文章中采訪的這些VUI設計師一般都在這個領域工作了15~20年，所以說他們仍處于起步中顯然有點搞笑，但有一點是清楚的，在這個技術成為主流之前，我們仍處于早期狀態。

就像As Thomas Hebner說的，“現在是語音設計的好時代，雖然當前語音設計師大多從事設計IVR系統，但隨著各種API接口的開放和更多消費類電子產品的使用，我們即將迎來爆發式增長。世界還沒有意識到他們需要語音設計。正如許多IVR?APP在早期設計的并不好，但他們隨后都變得很成熟。現在我們正處于自然語音的開始階段，再過些年，人們一定會更加關注語音設計的。

最后編輯于：2017.12.09 21:54:47

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,533評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,055評論 3贊 414
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,365評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,561評論 1贊 307
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,346評論 6贊 404
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 54,889評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 42,978評論 3贊 439
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,118評論 0贊 286
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,637評論 1贊 333
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,558評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,739評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,246評論 5贊 355
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 43,980評論 3贊 346
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,362評論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,619評論 1贊 280
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,347評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,702評論 2贊 370

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

面對智能化的未來，設計師你準備好了么(語音交互篇) [Nick薦]

面對智能化的未來，設計師你準備好了么(語音交互篇) [Nick薦]

語音識別技術簡介

語音交互（VUI）和圖形交互（GUI）：相同和不同

一些適合使用語音的情景

不要使用語音交互的場景

成功的結合方式

久才能達到星際迷航上的水平？

語音的未來?

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

面對智能化的未來，設計師你準備好了么(語音交互篇) [Nick薦]

語音識別技術簡介

語音交互（VUI）和圖形交互（GUI）：相同和不同

一些適合使用語音的情景

不要使用語音交互的場景

成功的結合方式

久才能達到星際迷航上的水平？

語音的未來?

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频