麻豆高清精品免费观看欧美,在线亚洲中字无码,找一中国特级毛片

Sora 和之前 Runway 那些在架構(gòu)上有啥區(qū)別呢？

發(fā)布于云南 2024-02-29 · 1.1w瀏覽

簡(jiǎn)單來(lái)說(shuō) Runway 是基于擴(kuò)散模型（Diffusion Model）的，而 Sora 是基于 Diffusion Transformer。

Runway、Stable Diffusion 是基于擴(kuò)散模型（Diffusion Model），擴(kuò)散模型（Diffusion Model）的訓(xùn)練過(guò)程是通過(guò)多個(gè)步驟逐漸向圖片增加噪點(diǎn)，直到圖片變成完全無(wú)結(jié)構(gòu)的噪點(diǎn)圖片，然后在生成圖片的時(shí)候，基于一張完全噪點(diǎn)的圖片，逐步減少噪點(diǎn)，直到還原出一張清晰的圖片。

文本模型像 GPT-4 則是 Transformer 模型。Transformer 則是一套編碼器和解碼器的架構(gòu)，將文本編碼成數(shù)字向量，然后解碼的時(shí)候從數(shù)字向量還原出文本。

Sora 則是一個(gè)融合了兩者的 Diffusion Transformer 模型。通過(guò) Transformer 的編碼器 - 解碼器架構(gòu)處理含噪點(diǎn)的輸入圖像，并在每一步預(yù)測(cè)出更清晰的圖像版本。編碼器負(fù)責(zé)對(duì)含噪點(diǎn)的輸入進(jìn)行編碼，而解碼器則負(fù)責(zé)生成更清晰圖像的預(yù)測(cè)。

GPT-4 被訓(xùn)練以處理一串 Token，并預(yù)測(cè)出下一個(gè) Token。Sora 不是預(yù)測(cè)序列中的下一個(gè)文本，而是預(yù)測(cè)序列中的下一個(gè)“Patch”。

在文本預(yù)測(cè)生成中，基本單位是 Token，Token 很好理解，就是一個(gè)單詞或者單詞的一部分。Patch 的概念相對(duì)不那么好理解，不過(guò)今天看到一篇文章，作者舉了個(gè)很好的例子。

想象一下《黑暗騎士》的電影膠片，將一卷膠片繞在一個(gè)金屬盤(pán)上，然后掛在一個(gè)老式電影院的投影機(jī)上。

你把電影膠卷從盤(pán)中展開(kāi)，然后剪下最前面的 100 幀。你挑出每一幀——這里是小丑瘋狂大笑，那里是蝙蝠俠痛苦的表情——并進(jìn)行以下不同尋常的操作：

你拿起一把 X-acto 精細(xì)刻刀，在第一幀電影膠片上剪出一個(gè)變形蟲(chóng)狀的圖案。你像處理精密儀器一樣小心翼翼地用鑷子提取這片形似變形蟲(chóng)的膠片，然后安全地保存起來(lái)。之后，你處理下一幀：在接下來(lái)的膠片上切出同樣位置、同樣形狀的變形蟲(chóng)圖案。你再次用鑷子小心地取出這個(gè)新的變形蟲(chóng)形狀的膠片——形狀與前一個(gè)完全相同——并將其精確地放置在第一個(gè)之上。你這樣做，直到完成所有的 100 幀。

你現(xiàn)在有了一個(gè)色彩斑斕的變形蟲(chóng)，沿著 Y 軸擴(kuò)展。這是一座可以通過(guò)投影機(jī)播放《黑暗騎士》的小片段的膠片塔，就好像有人在投影機(jī)前握著拳頭，只讓電影的一小部分影像從拳心通過(guò)。

然后，這座膠片塔被壓縮并轉(zhuǎn)化為所謂的“Patch”——一種隨時(shí)間變化的色塊。

Patch 的創(chuàng)新之處——以及 Sora 之所以顯得如此強(qiáng)大——在于它們讓 OpenAI 能夠在大量的圖像和視頻數(shù)據(jù)上訓(xùn)練 Sora。想象一下從每一個(gè)存在的視頻中剪出的 Patch——無(wú)盡的膠片塔——被堆疊起來(lái)并輸入到模型中。

以前的文本轉(zhuǎn)視頻方法需要訓(xùn)練時(shí)使用的所有圖片和視頻都要有相同的大小，這就需要大量的預(yù)處理工作來(lái)裁剪視頻至適當(dāng)?shù)拇笮　５?，由?Sora 是基于“Patch”而非視頻的全幀進(jìn)行訓(xùn)練的，它可以處理任何大小的視頻或圖片，無(wú)需進(jìn)行裁剪。

因此，可以有更多的數(shù)據(jù)用于訓(xùn)練，得到的輸出質(zhì)量也會(huì)更高。例如，將視頻預(yù)處理至新的長(zhǎng)寬比通常會(huì)導(dǎo)致視頻的原始構(gòu)圖丟失。一個(gè)在寬屏中心呈現(xiàn)人物的視頻，裁剪后可能只能部分展示該人物。因?yàn)?Sora 能接收任何視頻作為訓(xùn)練輸入，所以其輸出不會(huì)受到訓(xùn)練輸入構(gòu)圖不良的影響。

在結(jié)合前面提到的 Diffusion Transformer 架構(gòu)，OpenAI 可以在訓(xùn)練 Sora 時(shí)傾注更多的數(shù)據(jù)和計(jì)算資源，從而得到令人驚嘆的效果。

另外 Sora 剛發(fā)布視頻時(shí)，能模擬出咖啡在杯子里濺出的液體動(dòng)力學(xué)，以至于有人以為是連接了游戲引擎，但實(shí)際上 Sora 還是基于生成式模型，這是因?yàn)?Sora 在訓(xùn)練時(shí)，使用了大量的視頻數(shù)據(jù)，這些視頻中包含了大量的物理規(guī)則，所以 Sora 能夠模擬出液體動(dòng)力學(xué)。這類(lèi)似于 GPT-4 在訓(xùn)練時(shí)，使用了大量的代碼來(lái)作為訓(xùn)練數(shù)據(jù)，所以 GPT-4 能夠生成代碼。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

Hayden

這人很懶，什么都沒(méi)留下~

瀏覽 1.1w

相關(guān)推薦

最新評(píng)論

贊過(guò)的人

評(píng)論加載中...

暫無(wú)評(píng)論，快來(lái)評(píng)論吧!

国內一级黄色视频|少妇91导航日韩第一页久久|黄色三A视频色爽网站|亚洲精品 无码一区二区在直播间|成人高清国产无码|aaa成人免费视频|国产一级一片免费播放放a|我要看免费的毛片|动漫a片免费观看|日韩欧美国产视频

国內一级黄色视频|少妇91导航日韩第一页久久|黄色三A视频色爽网站|亚洲精品无码一区二区在直播间|成人高清国产无码|aaa成人免费视频|国产一级一片免费播放放a|我要看免费的毛片|动漫a片免费观看|日韩欧美国产视频