NVIDIA's "World Foundation Model" is born, igniting the physical AI revolution! A 75-page report is released, and GitHub skyrockets with 2k stars

華爾街見聞
2025.01.08 06:36
portai
I'm PortAI, I can summarize articles.

英偉達在 CES 大會上宣佈推出世界基礎模型開發平台 Cosmos,旨在推動物理 AI 的發展。該平台基於 200 萬小時的視頻訓練,包含擴散模型、自迴歸模型等四大功能模塊,能夠生成合成數據,助力自動駕駛和機器人研究。Cosmos 在幾何準確性和視覺一致性方面表現優異,GitHub 項目上線不到一天便獲得 2k 星標,同時發佈了 75 頁的技術報告。

CES 大會上,老黃稱,「AI 下一個前沿就是物理 AI」。

為此,英偉達重磅官宣了世界基礎模型開發平台——Cosmos,其模型基於在 200 萬小時視頻上完成訓練。

它一共包含了四大功能模塊:擴散模型自迴歸模型視頻分詞器,以及視頻處理與編輯流程

用英偉達高級科學家 Jim Fan 的話來總結:

  • 兩種形式:擴散模型(生成連續的 token);自迴歸模型(生成離散的 token)

  • 兩種生成模式:文本→視頻;文本 + 視頻→視頻

Cosmos 誕生就是為了拯救物理 AI 數據不夠的問題!現如今,開發者們可以直接生成合成數據,將其用於自動駕駛和機器人研究中。

它一共包含了三種規格的模型:NanoSuperUltra

與 VideoLDM 基準相比,Cosmos 世界模型在幾何準確性方面表現更優,而且在視覺一致性方面持續超越 VLDM,姿態估計成功率最高飆升 14 倍。

GitHub 項目僅開源不到一天的時間,星標飆升至 2k。

與此同時,關於 Cosmos 75 頁最詳細的技術報告也發佈了。

開源項目:https://github.com/NVIDIA/Cosmos

論文地址:https://research.nvidia.com/publication/2025-01_cosmos-world-foundation-model-platform-physical-ai

Cosmos,定製世界模型

本文介紹了 Cosmos 世界基礎模型平台,旨在幫助開發者構建定製化的世界模型。

在預訓練中,研究者利用大規模的視頻數據集,讓模型接觸到多樣化的視覺數據,訓練一個通用型模型。預訓練的 Cosmos 世界基礎模型(WFM)能夠生成高質量、具有一致性的 3D 視頻。

在後訓練中,研究者從特定環境收集數據集,對預訓練模型進行微調,從而得到適用於特定目標的專用 WFM。

預訓練的世界基礎模型(WFM)是通用的世界模型,通過大規模、多樣化的視頻數據集進行訓練。後訓練的數據集是從目標環境中收集的提示 - 視頻對。提示可以是動作指令、軌跡、説明等形式。

預訓練和後訓練相結合策略為構建物理 AI 系統提供了一種高效的方法。由於預訓練 WFM 提供了良好的基礎,後訓練的數據集可以相對較小。

世界基礎模型平台

視頻編輯

研究者開發了一條可擴展的視頻數據編輯流程。

其中,每段視頻被分割為無場景變化的獨立鏡頭。通過過濾步驟定位高質量、動態且信息豐富的片段用於訓練。

這些高質量鏡頭隨後通過 VLM(視覺語言模型)進行標註。接着執行語義去重,以構建一個多樣但緊湊的數據集。

視頻分詞

研究者開發了一系列具有不同壓縮比的視頻分詞器。這些分詞器是因果性的(即當前幀的 token 計算不依賴未來幀)。

這種因果性設計帶來了多個好處。在訓練方面,它使得聯合圖像和視頻訓練成為可能,因為當輸入為單張圖像時,因果性視頻分詞器也可以作為圖像分詞器。

這對於視頻模型利用圖像數據集進行訓練非常重要,因為圖像數據集包含豐富的世界外觀信息,且通常更加多樣化。

在應用方面,因果性視頻分詞器更適合生活在因果世界中的物理 AI 系統。

WFM 預訓練

研究者探索了兩種可擴展的預訓練世界基礎模型的方法——擴散模型和自迴歸模型。他們使用了 Transformer 架構,以實現可擴展性。

對於基於擴散的 WFM,預訓練包括兩個步驟:

1. 文本到世界生成預訓練(Text2World generation pre-training)

2. 視頻到世界生成預訓練(Video2World generation pre-training)

具體來説,他們訓練了模型根據輸入的文本提示詞生成一個視頻世界。然後對其進行微調,使其能夠根據過去的視頻和輸入的文本提示詞生成未來的視頻世界,這被稱為視頻到世界生成任務(Video2World generation task)。

對於基於自迴歸的 WFM,預訓練包括兩個步驟:

1. 基本的下一個 token 生成(vanilla next token generation)

2. 文本條件的視頻到世界生成(text-conditioned Video2World generation)

他們首先訓練模型根據過去的視頻輸入生成未來的視頻世界(前瞻生成)。然後對其進行微調,使其能夠根據過去的視頻和文本提示詞生成未來的視頻世界。

視頻到世界生成模型是一種基於當前觀測和提示詞預測未來的預訓練世界模型。

對於擴散模型和自迴歸模型的 WFM,研究者構建了一系列具有不同容量的模型,並研究了其在各種下游應用中的有效性。

他們進一步微調了預訓練的擴散 WFM,以開發一個擴散解碼器來增強自迴歸模型的生成結果。

為了更好地控制 WFM,他們還基於 LLM 構建了一個提示詞上採樣器。

WFM 後訓練

團隊展示了預訓練 WFM 在多個下游物理 AI 應用中的應用。

他們將預訓練的 WFM 微調為以相機姿態作為輸入提示詞,這讓他們能夠在創建的世界中自由導航。此外他們還展示瞭如何微調預訓練的 WFM,以用於人形機器人和自動駕駛任務。

安全機制

為了安全使用開發的世界基礎模型,研究者開發了一個安全機制,用於阻止有害的輸入和輸出。

Cosmos 世界基礎模型平台由幾個主要組件組成:視頻編輯器、視頻分詞器、預訓練的世界基礎模型、世界基礎模型後訓練樣本,以及安全機制

他們相信,WFM 對物理 AI 構建者有多種用途,包括(但不限於):

策略評估

與其通過在真實世界中運行物理 AI 系統來評估訓練後的策略,不如讓物理 AI 系統的數字副本與世界基礎模型交互。基於 WFM 的評估更加經濟高效且節省時間。

通過 WFM,構建者可以在未見過的環境中部署策略模型,這些環境在現實中可能無法獲得。WFM 幫助開發者快速排除不合格的策略,聚焦於潛力更大的策略。

策略初始化

策略模型根據當前觀測和給定任務,生成物理 AI 系統需要執行的動作。建模世界動態模式的高質量 WFM,可以作為策略模型的良好初始化。

這有助於解決物理 AI 中的數據稀缺問題。

策略訓練

在強化學習設置中,WFM 與獎勵模型配對,可以作為物理世界的代理,為策略模型提供反饋。智能體通過與 WFM 的交互,逐步掌握解決任務的能力。

規劃或模型預測控制

WFM 可用於模擬物理 AI 系統在執行不同動作序列後,可能出現的未來狀態,然後通過成本/獎勵模塊量化這些不同動作序列的表現。

物理 AI 可以根據整體模擬結果執行最佳動作序列(如在規劃算法中),或以遞歸視界的方式執行(如在模型預測控制中)。

世界模型的準確性決定了這些決策策略的性能上限。

合成數據生成

WFM 不僅可用於生成用於訓練的合成數據,還可以微調為基於渲染元數據(如深度圖或語義圖)進行條件生成。條件 WFM 可用於 Sim2Rea 場景。

數據編輯

研究者提出了一種視頻處理流程,用於為分詞器和 WFM 生成高質量訓練數據集。

如下圖所示,流程包括 5 個主要步驟:1)分割,2)過濾,3)標註,4)去重,以及 5)分片。

這些步驟均經過專門的優化,從而提高數據質量並滿足模型訓練的需求。

預訓練數據集

研究者積累了大約 2000 萬小時的原始視頻,分辨率從 720p 到 4k 不等,併為預訓練生成了大約 10^8 個視頻片段,為微調生成了大約 10^7 個視頻片段。

其中,涵蓋了各種物理 AI 應用,並將訓練視頻數據集劃分為以下類別:

  1. 駕駛(11%)

  2. 手部動作和物體操作(16%)

  3. 人體動作和活動(10%)

  4. 空間意識和導航(16%)

  5. 第一人稱視角(8%)

  6. 自然動態(20%)

  7. 動態相機運動(8%)

  8. 合成渲染(4%)

  9. 其他(7%)

Tokenizer(分詞器)

分詞器是大模型的基礎構建模塊,它通過學習瓶頸式的潛空間,以無監督方式將原始數據轉換為更高效的表示形式。

下圖以示意圖形式展示了分詞訓練流程,其目標是訓練編碼器和解碼器,使瓶頸式 token 表示能夠最大程度保留輸入的視覺信息。

視頻分詞流程:輸入視頻被編碼為 token,解碼器隨後從這些 token 中重建輸入視頻。分詞器的訓練目標是學習編碼器和解碼器,儘可能保留 token 中的視覺信息

連續分詞器將視覺數據編碼為連續的潛嵌入,並用於通過從連續分佈中採樣生成數據的模型。

離散分詞器將視覺數據編碼為離散的潛代碼,並將其映射為量化索引。這種離散表示對於使用交叉熵損失訓練的模型(如 GPT)是必要的。

分詞器的成功很大程度上取決於其在不損害後續視覺重建質量的情況下提供高壓縮率的能力。

在此,研究者提出了一套視覺分詞器——包括用於圖像和視頻的連續和離散分詞器。它們可以提供卓越的視覺重建質量和推理效率,並支持多種壓縮率,以適應不同的計算限制和應用需求。

連續和離散分詞器的可視化:(左)連續潛嵌入,嵌入大小為 C;(右)量化索引,每種顏色代表一個離散的潛編碼

具體來説,Cosmos 分詞器採用輕量化且計算高效的架構,並結合時間因果機制。

通過使用因果時間卷積層和因果時間注意力層,可以保留視頻幀的自然時間順序,從而通過單一統一的網絡架構實現圖像和視頻的無縫分詞。

通過在高分辨率圖像和長時視頻上直接訓練分詞器,可以不受類別或寬高比的限制,包括 1:1、3:4、4:3、9:16 和 16:9 等。

在推理階段,它對時間長度不敏感,能夠處理超出訓練時時間長度的視頻分詞。

不同視覺分詞器及其功能的比較

評估結果表明,Cosmos 分詞器在性能上顯著超越了現有分詞器——不僅質量更高,而且運行速度最高可快 12 倍。

此外,它還可以在單塊 NVIDIA A100 GPU(80GB 顯存)上一次性編碼長達 8 秒的 1080p 視頻和 10 秒的 720p 視頻,且不會耗盡內存。

連續分詞器(左)和離散分詞器(右)在時空壓縮率(對數刻度)與重建質量(PSNR)上的比較。每個實心點表示一種分詞器配置,展示了壓縮率與質量之間的權衡關係

世界基礎模型預訓練

研究者利用兩種不同的深度學習範式——擴散模型和自迴歸模型——來構建兩類 WFM。

本文中所有 WFM 模型都是在一個包含 10,000 個 NVIDIA H100 GPU 的集羣上訓練的,訓練週期為三個月。

基於擴散模型和自迴歸模型的世界基礎模型(WFM)

自迴歸世界基礎模型生成的視頻

研究者展示瞭如何將 Cosmos WFM 進行微調,以支持多種場景,包括 3D 視覺導航,讓不同的機器人執行任務,以及自動駕駛。

世界基礎模型後訓練

用於機器人的 WFM 後訓練

世界模型具有支持機器人操作的強大潛力,這裏展示了兩個任務:(1)基於指令的視頻預測,(2)基於動作的下一幀預測。

對於基於指令的視頻預測,輸入是機器人當前視頻幀以及文本指令,輸出是預測的視頻。基於動作的下一幀預測,輸入是機器人的當前視頻幀以及當前幀與下一幀之間的動作向量,輸出是預測的下一幀,展示機器人執行指定動作的結果。

對於基於指令的視頻預測,研究者創建了一個名為 Cosmos-1X 的數據集。該數據集包含大約 200 小時的由 EVE(1x.Tech 公司的一款人形機器人)捕捉的第一視角視頻,包括導航、摺疊衣物、清潔桌面、拾取物體等。

對於基於動作的下一幀生成,團隊使用了一個名為 Bridge 的公開數據集。Bridge 數據集包括大約 20,000 個第三人稱視角的視頻,展示了機器人手臂在廚房環境中執行不同任務的過程。

用於自動駕駛的後訓練

研究者展示瞭如何對預訓練的 WFM 進行微調,從而創建一個適用於自動駕駛任務的多視角世界模型。

研究者策劃了一個內部數據集,稱為真實駕駛場景(RDS)數據集。該數據集包含大約 360 萬個 20 秒的環視視頻片段,這些視頻是通過英偉達的內部駕駛平台錄製的。

研究者使用 RDS 數據集對 Cosmos-1.0-Diffusion-7B-Text2World 進行微調,打造出一個多視角的世界模型。

Cosmos-1.0-Diffusion-7B-Text2World-Sample-MultiView-TrajectoryCond 模型結果

一些演示

從 GitHub 主頁中,我們能夠看到 Cosmos 家族的所有模型系列:擴散模型和自迴歸模型各 4 個。

擴散模型 7B 和 14B(Text2World)根據同一提示,生成效果如下:

擴散模型 7B 和 14B(Video2World)根據同一提示,生成效果如下:

自迴歸模型 4B 和 12B 生成效果如下:

自迴歸模型 5B 和 13B 根據同一提示,生成效果如下:

此外,後訓練世界基礎模型還能實現「相機控制」,如下機器人在車廠的生成視頻中,通過移動能夠看到四周環境全貌。

提示:這段視頻展示了一座先進的製造設施,其中多台機器人手臂協同工作。這些機器人配備了特殊的抓取裝置,正在中央平台上處理和組裝組件。環境乾淨且井然有序,背景中可以看到各種機械和設備。整個機器人系統高度自動化,體現了高科技的生產流程。

更驚喜的是,Cosmos 還能根據提示,生成出各種機器人在不同環境中的預測場景。比如,把書放在書架上,煮咖啡、分揀物品......

也就是説,以後機器人的模擬訓練,直接在物理世界就能實操了!

還有針對自動駕駛場景,Cosmos 進行的多視圖視頻生成。

要知道,以下這些場景是完全不存在的。

有網友調侃道,我們一定生活在模擬世界中,99% 情況下是由英偉達撐着這個系統。

物理 AI,不能沒有 WFM

為什麼説世界模型,對於物理 AI 的實現非常關鍵?

老黃在大會上,從大模型工作原理生動地闡釋了世界模型的重要性——

大模型通常是根據提示一次生成一個 token,但也僅限內容 token 的輸出。若要實現從「內容 token」轉向「動作 token」的輸出,語言模型早已無法滿足。

我們需要的是,一個能夠理解物理世界的模型,簡之 WFM。

昨天,英偉達研究副總 Ming-Yu Liu 在最新播客中同樣表示,WFM 是一種能夠模擬物理世界的強大神級網絡。

它可以從文本/圖像輸入數據,生成詳細的視頻,並通過將其的當前狀態(圖像/視頻)與動作(提示/控制信號)相結合來預測場景的演變。

WFM 能夠想象許多不同的環境,並可以模擬未來,幫助物理 AI 開發者做出更好的決策。

另一方面,構建世界模型通常需要大量的數據集。

數據收集不僅耗時,成本也高,WFM 便可以生成合成數據,從而增強訓練的過程。

此外,物理測試風險巨大,比如一台價值數十萬美元的機器人原型的任何失誤都可能帶來重大損失。

有了 WFM 模擬的 3D 環境,研究者就可以在受控環境中訓練和測試物理 AI 系統。

物理模擬世界的一切,英偉達 Cosmos 都能幫你生成出來。

假設你要測試一台機器人,長傳一個原視頻,然後輸入:

「以人形機器人的第一人稱視角拍攝在一個老舊工廠中工作的場景。機器人周圍有許多工業機械設備。地板是老舊的木質地板,破舊且具有豐富的紋理。攝像機在距離地面 2 米的高度向右平移。照片風格要求逼真」。

然後,一個機器人在工廠工作的虛擬畫面就出現了。

包括如下自動駕駛場,都是由 Cosmos 完全生成。

不僅如此,英偉達還將 Cosoms 與 Omniverse 搭配使用,虛實結合,讓虛擬世界的設計搬到現實世界訓練。

一直以來,老黃都在強調一個新概念「三台計算機」:一台是 DGX 用來訓練 AI,另一台 AGX 用來部署 AI,最後一台便是 Omniverse+Cosmos。

若是連接前兩者,我們就需要一個數字孿生。

老黃認為,「未來,每一個工廠都有數字孿生,你可以將 Omniverse 和 Cosoms 結合,生成一大批未來場景」。

新智元,原文標題:《英偉達「世界基礎模型」誕生,引爆物理 AI 革命!75 頁報告出爐,GitHub 狂飆 2k 星》

風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。