假期最火 OpenAI Sora:特點有哪些?缺點又有哪些?

華爾街見聞
2024.02.18 01:07
portai
I'm PortAI, I can summarize articles.

為什麼 Sora 可以引起如此大的關注?Sora 生成的視頻與此前其它平台生成的視頻到底有哪些區別?缺點是什麼?

OpenAI 的 Sora 模型是最近兩天最火熱的模型。它生成的視頻無論是清晰度、連貫性和時間上都有非常好的結果。在 Sora 之前,業界已經有了很多視頻生成工具和平台。但為什麼 Sora 可以引起如此大的關注?Sora 生成的視頻與此前其它平台生成的視頻到底有哪些區別?有很多童鞋似乎對這些問題依然有疑問,本文將以通俗的語言解釋 Sora 的獨特之處。

OpenAI Sora 視頻生成能力與其它平台和工具的對比表

在這裏,我們先用一張表格來展示 OpenAI Sora 與其它視頻生成工具(如 Runway Gen2、Pika 等)的區別。然後我們針對 OpenAI Sora 的特別之處進行詳細解釋。

從這個表單可以看出,不論是基本的視頻生成能力(時長、長寬比),還是更強的視頻連續性、真實世界模擬等,OpenAI Sora 都有無可比擬的優勢。其中,視頻清晰度,OpenAI Sora 默認是 1080P,而且其它平台大多數默認的清晰度也都是 1080P 以下,只是在經過 upscale 等操作之後可以達到更清晰的水平。

上述視頻生成能力項中,視頻連接、數字世界模擬、影響世界狀態(世界交互)、運動相機模擬等都是此前視頻平台或者工具中較少提及的,下面我們也將詳細解釋。另外值得一提的是,OpenAI Sora 模型還可以直接生成圖片,也就是説,它是一個以視頻生成為核心的多能力模型。

OpenAI 的 Sora 視頻生成的能力概覽

首先,在詳細描述 Sora 視頻生成與 Runway Gen2 等平台的差異之前。我們先總結一下 Sora 視頻生成的一些能力。

OpenAI Sora 可以生成長達一分鐘的視頻

在 OpenAI 發佈 Sora 之前,業界基於大模型生成視頻的主要平台有 Pika、Runway Gen2 等,但是這兩個平台視頻生成默認都是幾秒中,即便通過視頻擴展等手段,最多也只能生成十幾秒的視頻。而 OpenAI 的 Sora 可以生成最多 1 分鐘的視頻。並且視頻生成的結果非常連貫和清晰。

OpenAI Sora 可以生成更加自由尺寸的視頻

根據 OpenAI 的 Sora 技術報告,Sora 模型可以採樣寬屏 1920x1080 視頻、豎屏 1080x1920 視頻以及介於兩者之間的所有尺寸視頻。這意味着它可以生成更加自由的視頻尺寸。而此前的視頻平台,如 Runway Gen2,文本生成視頻的方式只能選擇 16:9, 9:16, 1:1, 4:3, 3:4, 以及 21:9 的長寬比。至於清晰度,則默認 1408 × 768px。

上圖是生成海歸游泳的視頻,不同尺寸的視頻裏面海歸都是正中間位置,不會出現主要目標被剪裁的情況。

OpenAI Sora 可以支持向前以及向後擴展視頻

這是 OpenAI Sora 另一個與此前視頻生成平台有巨大差異的地方。基於已有視頻繼續擴展在 Runway Gen2、Pika 等平台都有。但是現有平台的視頻擴展通常是在當前視頻的基礎上繼續向前生成幾秒的視頻。但是,OpenAI Sora 可以在視頻的基礎上向前或者向後擴展。例如給定一個視頻,OpenAI Sora 可以為該視頻創造不同的開頭,最後都是以該視頻結尾,過程非常連續。因此,Sora 甚至可以在一個視頻上同時向前和向後擴展,以產生一個無限連續的循環視頻。

OpenAI Sora 支持多個視頻的連接

這是另一個 Sora 與眾不同的地方。給定兩個視頻,OpenAI Sora 可以將這兩個視頻揉在一起,生成一個新的毫無違和感的視頻。例如,給一個無人機穿越古羅馬建築的視頻,再給一個蝴蝶在海底珊瑚飛行的視頻,Sora 可以生成一個新的視頻,讓無人機變成蝴蝶,古羅馬建築變成珊瑚風格。

上圖是兩個例子,左右兩邊是原來的 2 個視頻,中間是基於這原有的 2 個視頻連接後生成的新的視頻。第一個就是剛才的蝴蝶與無人機的案例。第二個是聖誕節雪景和真實拍照的建築視頻的融合。

OpenAI Sora 湧現出真實物理世界模擬的能力

OpenAI Sora 可以生成更加真實的物理世界的視頻。例如東京街頭逛街的時尚女模、登山運動員等。但是,與其它平台的真實物理世界視頻生成不同的是,OpenAI Sora 可以以運動相機拍攝的方式來展示視頻,包括運動相機的轉換、旋轉等。而這裏最大的特點是運動相機拍攝的結果通常要與物理世界的三位空間一致,因此非常困難。但是 Sora 可以生成非常逼真的運動相機拍攝的視頻結果。

此外,視頻生成系統面臨的一個重大挑戰是在對長視頻進行採樣時保持時間一致性。OpenAI Sora 經常(但並非總是)能夠有效地對短距離和長距離依賴關係進行建模。例如,即使人、動物和物體被遮擋或離開畫面,Sora 模型也能保持它們的存在,在後續的視頻中依然出現原有的人物或者動物。同樣,它還能在單個樣本中生成同一人物的多個鏡頭,並在整個視頻中保持其外觀。

同時,Sora有時可以模擬一些影響世界狀態的簡單動作。例如,畫家可以在畫布上留下新的筆觸,並隨着時間的推移而持續,或者一個人可以吃一個漢堡,並留下咬痕。

OpenAI Sora 可以模擬人工過程

除了真實的物理世界外,OpenAI Sora 還可以模擬人類創造的一些世界或者過程。Sora 模型可以通過理解語言提示來模擬和渲染視頻遊戲世界(如 Minecraft)的高級能力。它不僅能夠以高保真度同時渲染遊戲環境和動態,還能控制遊戲中的玩家角色,執行基本策略。這種能力表明 Sora不僅具備強大的語言理解和任務推斷能力,還能處理複雜的視覺和控制任務,尤其在視頻遊戲仿真領域表現出色。

Sora 模型的能力表明,繼續擴大視頻模型的規模是朝向開發能夠高度仿真物理和數字世界及其中的對象、動物和人的高能力模擬器的有希望的路徑。這種擴展不僅增強了模型處理複雜場景的能力,還提升了其對世界各種元素的理解和模擬能力,從而為創建更加智能和逼真的 AI 系統鋪平了道路。

OpenAI Sora 的技術獨特之處

儘管此次 OpenAI 一如既往地沒有詳細披露 Sora 模型的技術細節。但是也有一定的篇幅介紹了相關的技術。這裏我們針對其中核心的幾點來説明。

OpenAI Sora 是一種結合了 Diffusion 模型和 Transformer 模型的技術。通過將視頻壓縮網絡將原始視頻壓縮到一個低維的潛在空間,並將這些表示分解為時空補丁,類似於 Transformer 的 tokens,這樣的表示使得模型能夠有效地訓練在不同分辨率、持續時間和寬高比的視頻和圖像上。

OpenAI Sora 與 Diffusion 模型和 Transformers 模型的比較

  • 共同點:Sora 模型利用了 Diffusion 模型的生成能力和 Transformers 模型的自注意力機制。它通過預測乾淨補丁的方式生成視覺內容,同時利用 Transformers 模型處理時空補丁的能力。
  • 差異
    • 與 Diffusion 模型:Sora 不僅僅是一個簡單的 Diffusion 模型,它通過引入 Transformers 模型的自注意力機制和視頻壓縮技術,增強了處理不同分辨率和格式視頻的能力。
    • 與 Transformers 模型:Sora 超越了傳統 Transformers 模型的應用範圍,通過將視覺數據轉換為補丁並利用 Diffusion 過程生成視覺內容,它結合了兩種模型的優勢,實現了視頻和圖像的高效生成。

同時,OpenAI 也強調了,這個模型在大量的數據上訓練後就能提高視頻生成的效果。下圖展示了訓練過程中模型水平的提升:

換個角度説,OpenAI Sora 也是某種程度上大力出奇跡的一個成果。

OpenAI Sora 模型的缺點

除了上面描述的優點外,OpenAI Sora 視頻生成也有一些缺點。在模擬複雜場景的物理現象、理解特定因果關係、處理空間細節、以及準確描述隨時間變化的事件方面OpenAI Sora 都存在 問題。主要總結如下:

  1. 物理交互的不準確模擬
    Sora 模型在模擬基本物理交互,如玻璃破碎等方面,不夠精確。這可能是因為模型在訓練數據中缺乏足夠的這類物理事件的示例,或者模型無法充分學習和理解這些複雜物理過程的底層原理。
  2. 對象狀態變化的不正確
    在模擬如吃食物這類涉及對象狀態顯著變化的交互時,Sora 可能無法始終正確反映出變化。這表明模型可能在理解和預測對象狀態變化的動態過程方面存在侷限。
  3. 常見的模型失敗模式
    • 長時視頻樣本的不連貫性:在生成長時間的視頻樣本時,Sora 可能會產生不連貫的情節或細節,這可能是由於模型難以在長時間跨度內保持上下文的一致性。
    • 對象的突然出現:視頻中可能會出現對象的無緣無故出現,這表明模型在空間和時間連續性的理解上還有待提高。

這些失敗的案例包括人在跑步機上朝着反方向跑步、長視頻中突然出現之前不曾出現的物體、籃球在籃筐跳動的時候出現火苗等。這些都意味着在真實世界交互的模擬都有重大問題。

文章來源:DataLearnerAI 原文標題《通俗易懂地解釋 OpenAI Sora 視頻生成的特點有哪些?它與此前的 Runway Gen2、Pika 有什麼區別?以及缺點是什麼?》

風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。