簡(jiǎn)單來(lái)說(shuō) Runway 是基于擴(kuò)散模型(Diffusion Model)的,而 Sora 是基于 Diffusion Transformer。
Runway、Stable Diffusion 是基于擴(kuò)散模型(Diffusion Model),擴(kuò)散模型(Diffusion Model)的訓(xùn)練過(guò)程是通過(guò)多個(gè)步驟逐漸向圖片增加噪點(diǎn),直到圖片變成完全無(wú)結(jié)構(gòu)的噪點(diǎn)圖片,然后在生成圖片的時(shí)候,基于一張完全噪點(diǎn)的圖片,逐步減少噪點(diǎn),直到還原出一張清晰的圖片。
文本模型像 GPT-4 則是 Transformer 模型。Transformer 則是一套編碼器和解碼器的架構(gòu),將文本編碼成數(shù)字向量,然后解碼的時(shí)候從數(shù)字向量還原出文本。
Sora 則是一個(gè)融合了兩者的 Diffusion Transformer 模型。通過(guò) Transformer 的編碼器 - 解碼器架構(gòu)處理含噪點(diǎn)的輸入圖像,并在每一步預(yù)測(cè)出更清晰的圖像版本。編碼器負(fù)責(zé)對(duì)含噪點(diǎn)的輸入進(jìn)行編碼,而解碼器則負(fù)責(zé)生成更清晰圖像的預(yù)測(cè)。
GPT-4 被訓(xùn)練以處理一串 Token,并預(yù)測(cè)出下一個(gè) Token。Sora 不是預(yù)測(cè)序列中的下一個(gè)文本,而是預(yù)測(cè)序列中的下一個(gè)“Patch”。
在文本預(yù)測(cè)生成中,基本單位是 Token,Token 很好理解,就是一個(gè)單詞或者單詞的一部分。Patch 的概念相對(duì)不那么好理解,不過(guò)今天看到一篇文章,作者舉了個(gè)很好的例子。
想象一下《黑暗騎士》的電影膠片,將一卷膠片繞在一個(gè)金屬盤(pán)上,然后掛在一個(gè)老式電影院的投影機(jī)上。
你把電影膠卷從盤(pán)中展開(kāi),然后剪下最前面的 100 幀。你挑出每一幀——這里是小丑瘋狂大笑,那里是蝙蝠俠痛苦的表情——并進(jìn)行以下不同尋常的操作:
你拿起一把 X-acto 精細(xì)刻刀,在第一幀電影膠片上剪出一個(gè)變形蟲(chóng)狀的圖案。你像處理精密儀器一樣小心翼翼地用鑷子提取這片形似變形蟲(chóng)的膠片,然后安全地保存起來(lái)。之后,你處理下一幀:在接下來(lái)的膠片上切出同樣位置、同樣形狀的變形蟲(chóng)圖案。你再次用鑷子小心地取出這個(gè)新的變形蟲(chóng)形狀的膠片——形狀與前一個(gè)完全相同——并將其精確地放置在第一個(gè)之上。你這樣做,直到完成所有的 100 幀。
你現(xiàn)在有了一個(gè)色彩斑斕的變形蟲(chóng),沿著 Y 軸擴(kuò)展。這是一座可以通過(guò)投影機(jī)播放《黑暗騎士》的小片段的膠片塔,就好像有人在投影機(jī)前握著拳頭,只讓電影的一小部分影像從拳心通過(guò)。
然后,這座膠片塔被壓縮并轉(zhuǎn)化為所謂的“Patch”——一種隨時(shí)間變化的色塊。
Patch 的創(chuàng)新之處——以及 Sora 之所以顯得如此強(qiáng)大——在于它們讓 OpenAI 能夠在大量的圖像和視頻數(shù)據(jù)上訓(xùn)練 Sora。想象一下從每一個(gè)存在的視頻中剪出的 Patch——無(wú)盡的膠片塔——被堆疊起來(lái)并輸入到模型中。
以前的文本轉(zhuǎn)視頻方法需要訓(xùn)練時(shí)使用的所有圖片和視頻都要有相同的大小,這就需要大量的預(yù)處理工作來(lái)裁剪視頻至適當(dāng)?shù)拇笮 5?,由?Sora 是基于“Patch”而非視頻的全幀進(jìn)行訓(xùn)練的,它可以處理任何大小的視頻或圖片,無(wú)需進(jìn)行裁剪。
因此,可以有更多的數(shù)據(jù)用于訓(xùn)練,得到的輸出質(zhì)量也會(huì)更高。例如,將視頻預(yù)處理至新的長(zhǎng)寬比通常會(huì)導(dǎo)致視頻的原始構(gòu)圖丟失。一個(gè)在寬屏中心呈現(xiàn)人物的視頻,裁剪后可能只能部分展示該人物。因?yàn)?Sora 能接收任何視頻作為訓(xùn)練輸入,所以其輸出不會(huì)受到訓(xùn)練輸入構(gòu)圖不良的影響。
在結(jié)合前面提到的 Diffusion Transformer 架構(gòu),OpenAI 可以在訓(xùn)練 Sora 時(shí)傾注更多的數(shù)據(jù)和計(jì)算資源,從而得到令人驚嘆的效果。
另外 Sora 剛發(fā)布視頻時(shí),能模擬出咖啡在杯子里濺出的液體動(dòng)力學(xué),以至于有人以為是連接了游戲引擎,但實(shí)際上 Sora 還是基于生成式模型,這是因?yàn)?Sora 在訓(xùn)練時(shí),使用了大量的視頻數(shù)據(jù),這些視頻中包含了大量的物理規(guī)則,所以 Sora 能夠模擬出液體動(dòng)力學(xué)。這類(lèi)似于 GPT-4 在訓(xùn)練時(shí),使用了大量的代碼來(lái)作為訓(xùn)練數(shù)據(jù),所以 GPT-4 能夠生成代碼。





暫無(wú)評(píng)論,快來(lái)評(píng)論吧!