Sora 官網(wǎng)截圖
2月15日,OpenAI 發(fā)布了文生視頻模型 Sora,又一次震驚世界,引爆全網(wǎng),其影響相當(dāng)出圈,對(duì)其的討論不光在技術(shù)圈了。
本文是對(duì)官方 Sora 介紹的梳理,能夠?qū)?Sora 有基本的認(rèn)識(shí)。
Sora
Sora 是一個(gè)文生視頻模型,可以根據(jù)用戶輸入生成長(zhǎng)達(dá)一分鐘的視頻,可以遵循用戶指令并保證生成視頻的質(zhì)量。
能力
目前發(fā)現(xiàn)的能力有:
- 可以生成多角色、特定運(yùn)動(dòng)和準(zhǔn)確表現(xiàn)主體和背景的細(xì)節(jié)。
- 可以理解并表現(xiàn)出事物在真實(shí)物理世界的存在形式。
- 能夠深入理解用戶指令,能夠充分解析用戶指令并生動(dòng)表達(dá)出來(lái)。(這個(gè)需要看官方的演示視頻才能真切感受,指令一句話,但是生成視頻體現(xiàn)出的內(nèi)容很豐富)
- 在一個(gè)視頻中創(chuàng)建多鏡頭,并在多個(gè)鏡頭中保持角色一致、視覺(jué)風(fēng)格一致。
不足
目前的不足:
- 可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理原理
- 可能無(wú)法理解物體之間的因果關(guān)系,例如,一個(gè)人可能咬了一口餅干,但之后餅干可能沒(méi)有咬痕
- 可能會(huì)混淆提示的空間信息,例如混淆左右
- 可能難以準(zhǔn)確表現(xiàn)隨著時(shí)間發(fā)生的事件,例如遵循指定的相機(jī)軌跡
相關(guān)技術(shù)點(diǎn)
對(duì)技術(shù)介紹較為淺顯,實(shí)現(xiàn)方式都不清楚,當(dāng)前僅作為了解即可,詳細(xì)情況可以去看官方的技術(shù)報(bào)告
- Sora 是擴(kuò)散模型。
- Sora 可以生成視頻,或者在原有視頻后面擴(kuò)展。
- 讓模型一次進(jìn)行多幀預(yù)測(cè),從而讓視頻中的主體保持一致,即使短暫離開(kāi)視頻,后面再次出現(xiàn)時(shí)與之前一樣。(問(wèn)題:什么是多幀預(yù)測(cè)?如何實(shí)現(xiàn)的?)
- Sora 使用 Transformer 架構(gòu)。(問(wèn)題:擴(kuò)展模型和Transformer是什么關(guān)系?)
- 將視頻和圖像作為較小數(shù)據(jù)單元的集合,這個(gè)小的數(shù)據(jù)單元叫做 patch,每個(gè) patch 和 GPT 中的 token 類似。(問(wèn)題:patch 中的視頻和圖像通過(guò)什么形式表現(xiàn)的呢?一個(gè)patch有多少數(shù)據(jù)量呢?)
- 通過(guò)統(tǒng)一的數(shù)據(jù)表現(xiàn)形式,可以訓(xùn)練不同時(shí)長(zhǎng)、分辨率和縱橫比的視頻,因此訓(xùn)練數(shù)據(jù)更為廣泛。(問(wèn)題:如何實(shí)現(xiàn)統(tǒng)一表現(xiàn)的呢?)
- Sora 建立在 DALL·E 和 GPT 模型的研究之上。Sora 使用了 DALL·E 3 的重述技術(shù)(recaptioning technique),通過(guò)為視覺(jué)訓(xùn)練數(shù)據(jù)生成詳盡的描述性文字說(shuō)明,大幅提升了模型對(duì)用戶在視頻生成中文字指令的理解和執(zhí)行能力,從而能夠忠實(shí)地實(shí)現(xiàn)用戶指令的意圖。
- Sora 可以根據(jù)指定的靜態(tài)圖片生成視頻,擴(kuò)展視頻,視頻補(bǔ)幀。
影響和意義
OpenAI 官方認(rèn)為:
Sora 作為能夠理解和模擬現(xiàn)實(shí)世界的基礎(chǔ)模型,這一能力將是實(shí)現(xiàn) AGI 道路上的重要里程碑。
進(jìn)一步了解
大家可以去看官方的技術(shù)報(bào)告:Video generation models as world simulators