0. 概述
伴隨著人工智能技術的不斷發展,語音、手勢、觸控、人臉等,多模態交互也全面開啟智能時代。以虛擬形象為主的交互方式已經成為了交互的前沿,綜合了智能交互的各種方式。虛擬形象可以應用在各種場景下,例如:虛擬課堂,虛擬會議,虛擬主播,虛擬客服等等場景。
虛擬形象是對各種人工智能的綜合使用場景,現階段云廠商基本都提供了虛擬形象的服務。但現階段云廠商提供的虛擬形象服務都以黑盒的方式提供,這樣使使用方無法評估云廠商提供的虛擬形象的可用性,適配性,健壯性,分發能力等等。之所以云廠商不將底層技術實現描述清晰,也是因為虛擬形象技術發展還處于初期階段。技術初期階段到技術穩定器肯定會伴隨著技術的重大變更。
在虛擬形象發展初期云廠商提供的虛擬形象服務,對于技術的抽象以及提供的開放接口形態都不甚完善。也造成在技術逐漸成熟過程中會有接口的重大變更。
本文為了解決技術黑盒與接口抽象問題,從虛擬形象技術解決方案中可能涉及到的人工智能、技術、邏輯來說明虛擬形象的分類以及技術特點。從而可以更有效的評估虛擬形象服務是否適合。
1. 虛機形象分類
0. 描述
虛擬形象即在UI上展示出數字形象進行表演、溝通等行為。所以在這里要求分幾個層次:
- 可以進行多輪對話(非重點)
- 可以展示出數字形象
- 數字形象可以根據要求進行相應的動作
- 可以根據說話內容對上唇形
- 可以根據情緒,展示出不同的表情
虛擬人概念比較廣泛,在業務與技術調研過程中會發現很多地方都講多輪對話作為虛擬人來稱呼。其實用于多輪對話的模型是虛擬形象領域中的交互核心,而不是全部。
虛擬形象包含多輪對話、數字形象、情感遷移三項,以及在組成數字形象解決方案時用于鏈接三項的能力。完善的虛擬形象解決方案包括很多內容,但并不是所有的業務場景都需要完整的虛擬形象解決方案。例如:在虛擬課程業務場景下通過演示PPT和語音之間同步是最重要的,而數字形象的存在并不是必須的。在虛擬課程場景下數字形象、數字形象的語音唇形的優先級就低于聲音與演示PPT同步功能。
不同的應用場景,需要的功能也是不一樣的。對于功能的業務優先級也不一樣。所以在各種數字形象的解決方案中并不一定包含所有的功能。
1. 虛擬形象分類
在進行虛擬形象評估之前需要明確很多業務問題,最主要的是確認數字形象到底要提供哪些服務?如果不是現在理不清要要在那個場景下使用虛擬形象,可以回答以下幾個問題:
- 必須以數字形象的方式進行交互?還是語音交互就可以?甚至只用文字交互就可以?
- 對所有虛擬形象的觀看者,還是對單個觀看者的虛擬形象。
- 虛擬形象是用來生成重復播放的視頻?還是根據觀看者的特點而獨立生成的?
- 需要特定的領域中的問答集?還是通用的聊天場景?
回答完以上的這些問題,就可以從下面分類中選擇不同的類型。
用途分類
-
形象跟蹤
主要跟蹤面部動作、肢體動作并在數字形象中實時展示出的場景。這種技術應用比較多的是影視視頻制作,很多電影中都用到了該技術。
但,這個類型的虛擬形象不會與其他的AI技術對接?;旧暇褪巧梢欢我曨l,并發布即可。- 分類
- 表情驅動
- 肢體驅動
- 分類
-
合成視頻類
通過一段輸入,生成合適的視頻。并發布。
對比“形象跟蹤”這里通過人工智能生成數字形象的動作、表情、視頻場景等內容。- 分類
- 文本驅動
- 聲音驅動
- 分類
-
模型控制類
3D/2D模型直接在UI上展示,并根據輸入控制UI上的形象做相應的動作、表情的過程。
- 分類
- 瀏覽器模型驅動
- 游戲模型驅動
- 移動端模型驅動
- 分類
技術分類
-
視頻類
視頻類即虛擬形象以視頻的方式呈現。
-
視頻文件
最終生成視頻文件,可以多次播放視頻。
例如:視頻主播上傳到視頻網站中的視頻。這種視頻可以隨時從頭播放到尾。 -
實時視頻流
對外部輸入形成實時的反饋的視頻。
例如:視頻主播的在線直播,每個觀看者進入主播房間后都看到的是主播當前表演的內容。
-
-
模型驅動類
模型驅動類即以3D/2D模型方式呈現,并可以通過控制模型動作、表情、場景來展示動畫。特點: 可以詳細的控制每個客戶看到的內容都是不一樣的。因為與虛擬形象交互的每個客戶都可以對虛擬形象提特有的問題,而虛擬形象可以根據不同客戶的問題形成不同的答案而展示出不同的動作、表情。
2. 制作過程
0. 描述
前面討論了虛擬形象適用于哪些業務場景,也明確了場景下可以使用哪些類型的虛擬形象。有了業務場景之后,就需要具體實施虛擬形象。本節討論實施階段要完成的工作。用來指導實際虛擬形象研發過程。
從研發過程中可以了解到虛擬形象為了滿足業務場景中的需求而在背后做的工作,以深入了解虛擬形象解決方案以及調整方式。更好的為虛擬形象運營提供指導。
1. 過程
-
確定具體的業務場景
回答完上節中關于業務場景的問題,并選擇了使用哪一類的虛擬形象。就可以決定后面的幾個步驟具體應該怎樣去做。
-
制定話術或者問答集
-
目標:
滿足虛擬形象與使用者之間溝通過程中的可溝通范圍,以及虛擬形象可以回答的標準話術。
包括話術的情感偏向都可以在這里進行制定。 -
內容:
針對場景的話術或者問答集合。
制定寒暄語,以及內容。
-
目標:
-
制作虛擬形象
-
目標:
構建虛擬形象,以及虛擬形象所處的場景。以虛擬形象和場景的方式為業務場景提供支撐。 -
內容:
-
人種、語種
人種與語種有一些對應關系,在特定對應關系下會有更自然、流暢的溝通過程。
-
背景、動作
根據場景,在虛擬形象的背景以及虛擬形象的動作都會有不同的選擇。例如:智能客服會選擇純色或者營業柜臺的方式,讓用戶帶入具體的場景。
-
使用的3D模型、2D模型,進行模型的構建
(非必須)捕捉面部動作,捕捉身體動作,以訓練人工智能
-
-
目標:
-
驅動虛擬形象動作與語音
- 目標:以合適的方式來驅動虛擬形象
-
內容:
- 驅動方式的選擇
視頻
模型控制 - 語音選擇
男女聲
背景音
聲音的年齡 - 情感遷移
聲音的感情
面部表情的感情
肢體動作的感情
- 驅動方式的選擇
3. 實現技術
準備離開簡書了,而簡書不允許引流到其他平臺。故全部內容已經在其他平臺發布,可自行搜索。
4. 開源例子
準備離開簡書了,而簡書不允許引流到其他平臺。故全部內容已經在其他平臺發布,可自行搜索。
5. 總結
準備離開簡書了,而簡書不允許引流到其他平臺。故全部內容已經在其他平臺發布,可自行搜索。
6. 參考
動手學深度學習
《PyTorch深度學習實踐》完結合集
PaddleAvatar
什么是視素(Viseme)?該如何表示?
前瞻交互:從語音、手勢設計到多模融合