AI時代的到來,增強了硬件產品的人機交互、語音交互以及AR、VR交互。語音交互是交互方式在智能領域的一種探索。語音交互區別與界面交互在越來越多的場景應用,有聲閱讀、語言搜索、在線客服、智能家居、智能機器人、語音助手、可穿戴設備、語音翻譯等。
目前的語音技術能力主要包含了四個方面:語音喚醒、語音識別、語音理解和語音合成
語音喚醒
語音喚醒指在待機的狀態下,用戶說出特定指令(喚醒詞)使設備進入工作狀態或完成某一操作;當前更多應用于手機、可穿戴設備、車載設備、智能家居等。
1、常見兩種喚醒方式:“一呼一答”和“喚醒詞+命令詞”;即多輪對話(一次喚醒、一個任務、多輪交互)和連續對話(一次喚醒、多個任務,無需喚醒)
2、喚醒詞設計原則:易喚醒、低誤喚醒 、品牌性、易記易讀性
3、華為和蘋果手機語言助手喚醒交互:
· 手機的語音助手都是基于特定的人識別,非用戶本人無法用同樣的喚醒詞喚醒手機語音指令,
· 采取的喚醒方式均為“一呼一答”
· 喚醒詞設計,華為的“我的榮耀”基于品牌調性,但易讀性不強
· 在語音交互過程中,用問答的方式給到用戶強反饋,單純的鈴聲不足以引起用戶觸達,通常情況下用戶使用語音是在不方便查看手機或者有其他干擾的情況下的。
語音識別
語音識別技術,也被稱為自動語音識別Automatic Speech Recognition,(ASR),其目標是將人類的語音中的詞匯內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認不同,后者嘗試識別或確認發出語音的說話人而非其中所包含的詞匯內容。
1、語音識別包括兩個階段:訓練和識別。
訓練階段:收集大量的語音語料,經過預處理和特征提取后得到特征矢量參數,最后通過特征建模達到建立訓練語音的參考模型庫的目的。
識別階段:將輸入語音的特征矢量參數和參考模型庫中的參考模型 進行相似性度量比較,把相似性最高的輸入特征矢量作為識別結果輸出。
2、語音識別對象:特定人識別(手機語音助手,設定只識別手機用戶個人的聲音)、非特定人識別(語音搜索,識別搜索詞)。
特定人識別是指識別對象為專門的人,非特定人識別是指識別對象是針對大多數用戶,一般需要采集多個人的語音進行錄音和訓練,經過學習,達到較高的識別率。
3、基于現有技術開發嵌入式語音交互系統,目前主要有兩種方式:
一種是直接在嵌入式處理器中調用語音開發包;另一種是嵌入式處理器外圍擴展語音芯片。第一種方法程序量大,計算復雜,需要占用大量的處理器資源,開發周期長;
第二種方法相對簡單,只需要關注語音芯片的接口部分與微處理器相連,結構簡單,搭建方便,微處理器的計算負擔大大降低,增強了可靠性,縮短了開發周期。
語音理解
語義理解是指機器能夠結合上下文,自然地理解用戶的需求,并能給出正確以及人性化的反饋。
語音合成
語音合成是通過機械的,電子的方法產生人造語音技術。語音合成的關鍵點是真人音色模擬,一致性、流暢性、穩定和有情感。
語音合成,又稱文語轉換(Text to Speech)技術,能將任意文字信息實時轉化為標準流暢的語音朗讀出來,相當于給機器裝上了人工嘴巴。它涉及聲學、語言學、數字信號處理、計算機科學等多個學科技術,是中文信息處理領域的一項前沿技術,解決的主要問題就是如何將文字信息轉化為可聽的聲音信息,也即讓機器像人一樣開口說話。
TTS結構
語言處理
在文語轉換系統中起著重要的作用,主要模擬人對自然語言的理解過程——文本規整、詞的切分、語法分析和語義分析,使計算機對輸入的文本能完全理解,并給出后兩部分所需要的各種發音提示。
韻律處理
為合成語音規劃出音段特征,如音高、音長和音強等,使合成語音能正確表達語意,聽起來更加自然。
聲學處理
根據前兩部分處理結果的要求輸出語音,即合成語音。
相關閱讀: