亚洲49vv在线观看,国产亚洲精品sese在线播放

本期雜志

南風窗 2024年第 7 期
 出版時間：2024-03-25

本期文章

金融助力鄉(xiāng)村振興存在的問題和對策

省駐岢嵐縣大隊長山西銀行黨委專職副書記趙富

推進鄉(xiāng)村全面振興不斷取得新成效，向建設農(nóng)業(yè)強國目標扎實邁進。
2024-04-16
“取消自動續(xù)費”提上議程 ——專訪第十四

本刊記者姚遠發(fā)自北京

隱蔽的同意條款、繁冗的取消程序，微小而不經(jīng)意，倘若聚沙成塔，或許就是關切千萬消費者權益的龐大困惑。
2024-03-25

微信：SouthReviews

Sora與世界模型

“真實感”本身就是一種涌現(xiàn)。

作者：費斌杰熵簡科技CEO 來源：南風窗日期：2024-03-25

2月15日，OpenAI發(fā)布了Sora模型，能夠根據(jù)提示詞生成長達一分鐘的視頻，效果以假亂真。

Sora究竟是怎么做到的呢？

微軟研究院在近期發(fā)布了一篇論文，對Sora背后的技術框架給出了猜測，還是有較高的可信度的。

我先給大家講一下重點。

關鍵技術一：DiT。Sora模型與此前同類模型相比，最大的區(qū)別在于使用DiT作為模型的主網(wǎng)架構。

DiT全稱為Diffusion Transformer，其本質是DDPM與Transformer的結合。DDPM即去噪擴散概率模型，是一種傳統(tǒng)的擴散模型。

Sora和Runway、Pika都用了Diffusion擴散模型。不同之處在于，Sora把主網(wǎng)架構從U-Net換成了Transformer。

值得一提的事，DiT并不是一個新模型，是去年3月份發(fā)布的，兩個作者分別是Peebles和謝賽寧。

Peeble在不久之后進入了OpenAI，成為Sora模型的核心主力，而謝賽寧教授則在紐約大學任教。

有趣的是，當時他倆的這篇跨時代的論文，被CVPR拒稿了，因為創(chuàng)新不足（limited novelty）。

關鍵技術二：視頻壓縮網(wǎng)絡與時空區(qū)塊。視頻數(shù)據(jù)包含的信息量巨大，如果不進行壓縮處理就開始訓練，會消耗大量帶寬和存儲資源。

因此，Sora通過“視頻壓縮網(wǎng)絡”技術，將輸入的圖片或視頻壓縮成一個更低維度的表示形式。

根據(jù)推測，這里的視頻壓縮網(wǎng)絡，大概率使用了VAE，即變分自編碼器。接下來，Sora將這些壓縮后的數(shù)據(jù)進一步分解為“時空區(qū)塊”（Spacetime Latent Patches），統(tǒng)一了圖像、視頻在“時間”與“空間”這兩個維度上的數(shù)據(jù)表達。

這就是Sora能夠不限分辨率、視頻時長、視頻尺寸進行訓練的原因。

理論上看，只要算力足夠，Sora生成的視頻長度可以無限長，圖像效果可以無限逼近真實。

我們知道，涌現(xiàn)能力（Emergent Abilities）是本輪AI的第一性原理。

如果說ChatGPT是涌現(xiàn)能力在文本生成方面的體現(xiàn)，那么Sora模型就是涌現(xiàn)能力在視頻生成領域的體現(xiàn)。

關于Sora是否存在涌現(xiàn)，一直存在爭議。我認為這個結論是相當明確的。

因為，“真實感”本身就是一種涌現(xiàn)。

這次Sora生成的視頻，很多朋友看到的第一感受，就是“真實”。

其實，要讓我們?nèi)祟惛杏X到真實，是一件看起來簡單，實則非常困難的事情。

因為真實感的背后，是無數(shù)細節(jié)的堆疊。

以Sora生成的貓貓走路視頻為例。這個視頻看起來很真實，是因為：

潮濕地面的光影反射，符合基本光學原理。貓貓走路是四肢協(xié)調，符合基本的曲柄連桿機械原理，以及自由度限制。貓咪毛茸茸且飄逸的毛發(fā)，符合基本的流體力學原理，等等。

只要其中有哪怕一處細節(jié)與常識嚴重不符，就會打破“真實感”。所以，真實感，其實也是一種涌現(xiàn)。需要無數(shù)個細節(jié)的擬真，才會涌現(xiàn)出真實感。

Sora告訴我們，通過訓練大型視頻生成模型，有望構建真正意義上的物理世界模型，從而增進我們對世界的理解。

相信Sora只是開始，還有更多的精彩在路上。

版權聲明

本刊及官網(wǎng)（南風窗在線）刊登的所有作品(包括但不限于文字、圖片、聲音、錄像、圖表、標志、標識、廣告、商標、商號、域名、程序、版面設計、專欄目錄與名稱、內(nèi)容分類標準及多媒體形式的新聞、信息等）未經(jīng)南風窗雜志社書面許可，不得轉載、摘編或以其他形式使用，違者必究。

版權合作垂詢電話020-61036188轉8088，文小姐。

本期雜志

本期文章

金融助力鄉(xiāng)村振興存在的問題和對策

省駐岢嵐縣大隊長 山西銀行黨委專職副書記 趙 富

“取消自動續(xù)費”提上議程 ——專訪第十四

本刊記者 姚遠 發(fā)自北京

微信：SouthReviews

Sora與世界模型

版權聲明

省駐岢嵐縣大隊長山西銀行黨委專職副書記趙富

本刊記者姚遠發(fā)自北京