AIGC大一統(tǒng)模型來了!CV界泰斗黃煦濤創(chuàng)立團(tuán)隊(duì)提出「全能Diffusion」

轉(zhuǎn)載自| 新智元

【導(dǎo)讀】在各種Diffusion「AI大畫家」中學(xué)習(xí)一番之后,這款全能型Diffusion要完成AIGC界的「大一統(tǒng)」!

Diffusion模型的最新進(jìn)展在許多生成任務(wù)中樹立了一個(gè)令人印象深刻的里程碑。諸如DALL·E 2、Imagen和Stable Diffusion(SD)等引人矚目的工作,引起了學(xué)術(shù)界和工業(yè)界的極大興趣。

不過,雖然這些模型表現(xiàn)驚艷,但基本都是專一于某一類任務(wù),比如由給定文本生成圖像,而對(duì)于不同類型的任務(wù),則往往需要專門單獨(dú)訓(xùn)練,或重新構(gòu)建新模型。

那么能不能在前人基礎(chǔ)上搞一個(gè)「全能型」的Diffusion,實(shí)現(xiàn)AIGC模型的大一統(tǒng)呢?有人就在努力沿著這個(gè)方向進(jìn)行探索,并已經(jīng)取得了進(jìn)展。這個(gè)來自伊利諾伊大學(xué)厄巴納-香檳分校、得克薩斯大學(xué)奧斯汀分校的聯(lián)合團(tuán)隊(duì),試圖將現(xiàn)有的單流Diffusion擴(kuò)展為多流網(wǎng)絡(luò),稱為Versatile Diffusion(VD),這是第一個(gè)統(tǒng)一的多流多模態(tài)Diffusion框架,是邁向通用生成性人工智能的一步。、


論文地址:https://arxiv.org/abs/2211.08332

Versatile Diffusion除了普通的文字生成圖像功能之外,還可以輸入圖像生成類似圖像,輸入圖像生成文字,輸入文字生成相似文字,圖片語義解耦編輯,輸入圖像及文字生成視頻,根據(jù)隱空間編輯圖像內(nèi)容等等。

未來的版本還將支持更多的模式,如語音、音樂、視頻和3D。據(jù)論文介紹,現(xiàn)已證明VD及其基礎(chǔ)框架具有以下優(yōu)勢(shì):

[if !supportLists]a)?[endif]可以以具有競爭力的高質(zhì)量處理所有子任務(wù)。

[if !supportLists]b)?[endif]支持新的擴(kuò)展和應(yīng)用,如圖形風(fēng)格和語義的分離、圖像-文本雙引導(dǎo)生成等。c) 通過這些實(shí)驗(yàn)和應(yīng)用,為生成的輸出提供了更豐富的語義洞察力。


在訓(xùn)練數(shù)據(jù)集方面,VD使用帶有自定義數(shù)據(jù)過濾器的Laion2B-en作為主要數(shù)據(jù)集。

1

『首次探索』

VD的一個(gè)令人興奮的發(fā)現(xiàn)是,它可以從語義中增強(qiáng)或減少圖像風(fēng)格,而無需進(jìn)一步監(jiān)督。

這樣的現(xiàn)象激發(fā)作者去探索一個(gè)全新的領(lǐng)域,其中,風(fēng)格和語義之間的分離可以發(fā)生在具有任意風(fēng)格和任意內(nèi)容的圖像上。

作者表示,他們是第一個(gè)探索:a)在沒有領(lǐng)域規(guī)范的情況下,對(duì)自然圖像的語義和風(fēng)格進(jìn)行解讀;b)擴(kuò)散模型潛在空間上的語義和風(fēng)格分解的團(tuán)隊(duì)。

在下圖中,作者首先生成輸入圖像的變體,然后以語義(左邊)或風(fēng)格(右邊)為重點(diǎn)對(duì)其進(jìn)行操作。


由于VD同時(shí)支持圖像到文本和文本到圖像,因此作者團(tuán)隊(duì)第一次嘗試了通過以下步驟從文本提示的角度編輯圖像:a)將圖像轉(zhuǎn)換成文本,b)編輯文本,c)將文本轉(zhuǎn)換回圖像。

在實(shí)驗(yàn)中作者從圖像中刪除了描述的內(nèi)容,然后用這種圖像-文本-圖像(I2T2I)范式添加新的內(nèi)容。與繪畫或其他需要物體位置作為輸入的圖像編輯方法不同,VD的I2T2I不需要掩碼,因?yàn)樗梢园凑罩噶钭詣?dòng)定位和替換物體。不過,I2T2I的輸出圖像與輸入圖像的像素不一致,這是由于圖像到文本的語義提煉和文本到圖像的內(nèi)容創(chuàng)建造成的。

在下圖的展示中,輸入的圖像首先被翻譯成prompt,然后用減法(紅框)和加法(綠框)對(duì)prompt進(jìn)行編輯。最后,編輯后的prompt被翻譯成圖像。


此外,他們也是第一個(gè)探索基于給定的文字去生成相似文字的團(tuán)隊(duì)。


2

『網(wǎng)絡(luò)框架』

具體來說,文中提出的VD框架是一個(gè)多流網(wǎng)絡(luò),有各種類型的數(shù)據(jù)作為輸入和背景。

VD多流多模態(tài)diffusion框架繼承了LDM/SD的優(yōu)點(diǎn),具有可解釋的潛在空間、模態(tài)化結(jié)構(gòu)和較低的計(jì)算成本。

VD可以聯(lián)合訓(xùn)練多個(gè)流,每個(gè)流代表一個(gè)跨模式的任務(wù)。其核心設(shè)計(jì)是diffuser網(wǎng)絡(luò)內(nèi)的分組、共享和交換協(xié)議,使框架適應(yīng)所有支持的任務(wù)和其他任務(wù)。


diffuser分為三組:全局層、數(shù)據(jù)層和語境層。全局層是時(shí)間嵌入層,數(shù)據(jù)層是剩余塊,而語境層是交叉關(guān)注。

這種分組與層的功能相對(duì)應(yīng)。當(dāng)處理多個(gè)任務(wù)時(shí),全局層在所有任務(wù)中共享。數(shù)據(jù)層和語境層包含多個(gè)數(shù)據(jù)流。每個(gè)數(shù)據(jù)流都可以根據(jù)當(dāng)前的數(shù)據(jù)和上下文類型進(jìn)行共享或交換。

比如,當(dāng)處理文本-圖像請(qǐng)求時(shí),diffuser使用圖像數(shù)據(jù)層與文本語境層。當(dāng)處理圖像變異任務(wù)時(shí),則使用圖像數(shù)據(jù)層與圖像語境層。

單個(gè)VD流程包含一個(gè)VAE、一個(gè)diffuser和一個(gè)語境編碼器,在一個(gè)數(shù)據(jù)類型(如圖像)和一個(gè)語境類型(如文本)下處理一個(gè)任務(wù)(如文本轉(zhuǎn)圖像)。

Versatile Diffusion的多流結(jié)構(gòu)如下圖所示:

?

研究人員基于Versatile Diffusion,進(jìn)一步提出了一個(gè)通用的多流多模態(tài)框架,其中包括VAE、上下文編碼器和包含三層(即全局、數(shù)據(jù)和語境層)的diffuser。

Diffuser:

VD使用已被廣泛采用的交叉關(guān)注的UNet作為diffuser網(wǎng)絡(luò)的主要架構(gòu),將層分為全局層、數(shù)據(jù)層和語境層。其中數(shù)據(jù)層和語境層有兩個(gè)數(shù)據(jù)流來支持圖像和文本。

對(duì)于圖像數(shù)據(jù)流,遵循LDM并使用殘差塊(ResBlock),其空間維度逐漸減少,通道數(shù)逐漸增加。

對(duì)于文本數(shù)據(jù)流,利用新的全連接殘差塊(FCResBlock),將768維的文本潛伏向量擴(kuò)展為320*4的隱藏特征,并遵循類似的通道增加范式,再利用GroupNorms、SiLU和跳過連接,就像普通的ResBlock一樣。


如上圖所示,F(xiàn)CResBlock包含兩組全連接層(FC)、分組歸一化(GN)和sigmoid線性單元(SiLU)。x是輸入文本潛伏代碼,t是輸入時(shí)間嵌入,hi是中間特征。

對(duì)于語境組,圖像和語境流都采用交叉注意力層,其中內(nèi)容嵌入通過投影層、點(diǎn)積和sigmoids來操作數(shù)據(jù)特征。

變分自編碼器(VAE):

VD采用此前的潛在擴(kuò)散模型(Latent Diffusion Model,LDM)的自編碼器-KL作為圖像數(shù)據(jù)VAE,采用Optimus作為文本數(shù)據(jù)VAE。Optimus由BERT文本編碼器和GPT2文本解碼器組成,可以將句子雙向轉(zhuǎn)化為768維正態(tài)分布的潛在向量。

同時(shí),Optimus還以其可重構(gòu)和可解釋的文本潛空間顯示出令人滿意的VAE特性。因此選擇Optimus作為文本VAE,因?yàn)樗浅7隙嗔鞫嗄B(tài)框架的前提條件。語境編碼器(Context Encoder):

VD使用CLIP文本和圖像編碼器作為上下文編碼器。與只使用原始文本嵌入作為語境輸入的LDM和SD不同,VD使用歸一化和投影嵌入,使文本和圖像的CLIP對(duì)比損失最小化。

實(shí)驗(yàn)表明,上下文類型之間更接近的嵌入空間有助于模型快速收斂,表現(xiàn)更好。類似的結(jié)論也可以在DALL·E 2中實(shí)現(xiàn),DALL·E 2用額外的投影層來微調(diào)文本到圖像的模型,以最小化文本和圖像嵌入之間的差異,用于圖像變化。

3

『性能表現(xiàn)』

作者將早期的單任務(wù)模型作為基線模型,并將VD的結(jié)果與這些基線進(jìn)行比較。其中,SDv1.4作為文本到圖像的基線模型,SD-variation用于圖像-變體,而BLIP用于圖像-文本。

同時(shí),作者還對(duì)不同的VD模型進(jìn)行了定性比較,其中VDDC和VD-of?cial用于文本到圖像,所有三個(gè)模型用于圖像變體。

其中SD和VD的圖像樣本是用受控的隨機(jī)種子生成的,以便更好地檢查質(zhì)量。


文本到圖像的性能

雖然DALLE 2和Imagen在這些任務(wù)上也取得了SOTA,但由于沒有公開的代碼或訓(xùn)練細(xì)節(jié),因此作者跳過了對(duì)它們的比較。

結(jié)果顯示,多流程結(jié)構(gòu)和多任務(wù)訓(xùn)練可以幫助VD捕獲上下文語義并更精確地生成輸出,并出色地完成了所有的子任務(wù)。


圖像-變體的性能

此外,由VD生成的圖像標(biāo)注還包含了一些創(chuàng)造性的詞語。相比起來,BLIP的生成就很短,缺乏對(duì)細(xì)節(jié)的描述。


圖像到文本的性能

4

『效果展示』


文生圖


圖像變體


以語義為重點(diǎn)的圖像變體


雙引導(dǎo)

5

『總結(jié)』

作者介紹了Versatile Diffusion(VD),一個(gè)多流的多模態(tài)diffusion網(wǎng)絡(luò),在一個(gè)統(tǒng)一的模型中解決了文本、圖像和變化。在VD的基礎(chǔ)上,作者進(jìn)一步介紹了一個(gè)通用的多流多模態(tài)框架,其中可以涉及新的任務(wù)和領(lǐng)域。

通過實(shí)驗(yàn),作者發(fā)現(xiàn)VD在所有支持的任務(wù)上都能產(chǎn)生高質(zhì)量的輸出,其中VD的文本到圖像和圖像到變體的結(jié)果能更好地捕捉上下文中的語義,VD的圖像到文本的結(jié)果具有創(chuàng)造性和說明性。

鑒于VD的多流多模態(tài)屬性,作者引入了新穎的擴(kuò)展和應(yīng)用,可能會(huì)使從事這項(xiàng)技術(shù)的下游用戶進(jìn)一步受益。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,837評(píng)論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,196評(píng)論 3 414
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 175,688評(píng)論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,654評(píng)論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,456評(píng)論 6 406
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 54,955評(píng)論 1 321
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,044評(píng)論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,195評(píng)論 0 287
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,725評(píng)論 1 333
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,608評(píng)論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,802評(píng)論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,318評(píng)論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,048評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,422評(píng)論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,673評(píng)論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,424評(píng)論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,762評(píng)論 2 372

推薦閱讀更多精彩內(nèi)容