"The World Model" - The next "battleground" for AI, with NVIDIA and Google both entering the fray

華爾街見聞
2025.01.07 13:50
portai
I'm PortAI, I can summarize articles.

“世界模型” 被業內吹捧為是 AI 領域的下一個關鍵突破,英偉達,谷歌以及不少初創企業都在追逐世界模型,英偉達推出 Cosmos 世界模型,谷歌旗下 DeepMind 組建世界模型研究團隊,AI 教母” 李飛飛的 World Labs 籌集 2.3 億美元構建 “大世界模型”……

來源:硬 AI

作者:趙穎

黃仁勳身着新皮衣亮相 2025 CES,除了推出炸裂的 GPU RTX 5090 之外,還宣佈入局 AI 領域當下最關鍵的方向一 “世界模型”。

1 月 7 日,黃仁勳在 2025 年拉斯維加斯消費電子展(CES)上宣佈,推出 Cosmos 世界模型(Cosmos World Foundation Models,簡稱 Cosmos WFMs),該模型專為理解物理世界打造,可預測和生成 “物理感知” 的視頻。

具體來看,Cosmos WFMs 分為三類:

(1)Nano:適用於低延遲和實時應用;(2)Super:高性能基線模型;(3)最高質量和保真度輸出。

這些模型的參數規模從 40 億到 140 億不等,Nano 最小,Ultra 最大。英偉達還發布了上採樣模型、針對增強現實優化的視頻解碼器以及確保負責任使用的 guardrail 模型。

實際上,除了英偉達,谷歌以及不少初創企業也在追逐世界模型,谷歌旗下 DeepMind 組建世界模型研究團隊,聘請 Sora 核心人員 Tim Brooks 掌舵。此外,“AI 教母” 李飛飛的 World Labs、初創公司 Decart、 Odyssey 也都涉足其中。

不僅引得一眾科技企業逐鹿,“世界模型” 還被業內吹捧為是 AI 領域的下一個關鍵突破,那麼 “世界模型” 到底指的是什麼?它的重要之處在於哪裏?

英偉達入局 “世界模型”,一眾科技巨頭 “逐鹿”

據英偉達介紹稱,Cosmos WFMs 經過了 9000 萬億個 token 的訓練,數據來自 2000 萬小時的真實世界人類互動、環境、工業、機器人和駕駛數據。模型可針對特定應用進行微調,通過英偉達 API 和 NGC 目錄、GitHub 和 AI 開發平台 Hugging Face 可獲得。

多家企業已開始試用 Cosmos,英偉達表示,Waabi、Wayve、Fortellix 和 Uber 等多家已經承諾在各種用例中試用 CosmosWFM,從視頻搜索和策劃到為自動駕駛汽車構建 AI 模型。

不過,由於英偉達拒絕透露訓練數據的具體來源,這引發了版權爭議,分析稱這正是英偉達將這些模型稱為 “開放” 而不是 “開源” 的原因。

與此同時,谷歌 DeepMind 也在積極佈局世界模型領域。根據 TechCrunch 報道,DeepMind 正在組建一支專門的世界模型研究團隊,以擴大其在該領域的領先地位。該團隊將由前 OpenAI 研究員 Tim Brooks 領導,他於去年 10 月加入 DeepMind。

DeepMind 上個月發佈了 Genie,該模型可模擬虛擬世界以及逼真的動畫和物理效果,並支持所有這些元素之間的交互。例如用户可以使用 Genie 創建的各種示例世界,包括航海模擬、賽博朋克西部片等,還可以使用文本、圖像或兩者的組合來提示 Genie。

除了英偉達、谷歌等科技巨頭,還有不少耀眼的初創玩家。“AI 教母” 李飛飛的 World Labs 已籌集 2.3 億美元用於構建 “大世界模型”,以及 Decart、 Odyssey 等公司也入局其中。此外,OpenAI 此前發佈的 Sora 模型也可視為一種 “世界模型",它能夠模擬如畫家在畫布上留下筆觸等行為,以及渲染類似 Minecraft 的 UI 和遊戲世界。

AI 領域的下一個關鍵突破:世界模型

什麼是 AI“世界模型”?為什麼它們很重要?

具體來看,世界模型是指通過大量圖像、音頻、視頻和文本數據訓練,創建對世界運作方式的內部表徵,並能推理行為的後果。這使它們能更好地理解和模擬現實世界的規律。

世界模型的概念源自人類大腦形成的心智模型,我們的大腦能夠將感官獲取的抽象信息整合成對周圍世界的具體理解,從而形成"模型",這些模型幫助我們預測和感知世界。

世界模型的特點是試圖超越數據,模擬人類的潛意識推理,例如,棒球擊球手能在毫秒內決定如何揮棒,是因為他們能本能地預測球的軌跡。這種潛意識推理能力被認為是實現人類級智能的先決條件之一。

“世界模型” 的意義在於可以實現複雜推理和規劃,還將生成式視頻技術的突破:

1. 生成式視頻技術的突破:世界模型在生成式視頻領域展現出巨大潛力。與傳統的生成模型相比,具備基本物理規律理解的世界模型能更準確地模擬物體的運動。例如,它不僅能預測籃球會彈跳,還能理解為什麼會彈跳。Snap 前 AI 負責人、Higgsfield 公司 CEO Alex Mashrabov 表示,有了強大的世界模型,創作者就不需要為每個物體定義預期的運動方式,模型本身就能理解這些。

2. 複雜預測和規劃:Meta 首席 AI 科學家 Yann LeCun 認為,世界模型未來可能用於數字和物理領域的複雜預測和規劃。例如,給定一個髒亂的房間(初始狀態)和一個整潔的房間(目標狀態),世界模型可以推理出一系列清潔行動,而不僅僅是根據觀察到的模式進行操作。

擁有這些能力後,“世界模型” 可廣泛賦能影視、遊戲,自動駕駛以及機器人等行業。

World Labs 聯合創始人 Justin Johnson 預測,未來的世界模型可能能夠按需生成用於遊戲、虛擬攝影等用途的 3D 世界,大大降低開發成本和時間。世界模型將不僅能獲得圖像或視頻片段,還能得到一個完全模擬的、生動的、可交互的 3D 世界。

代表好萊塢動畫師和漫畫家的工會動畫協會 (Animation Guild) 一項 2024 年研究估計,人工智能有可能在未來兩年內顛覆美國 10 多萬個電影、電視和動畫工作崗位。

世界模型還有望推動機器人技術進步,通過增強機器人對周圍環境和自身的感知能力,幫助它們更好地理解所處情境並推理可能的解決方案。

儘管前景誘人,世界模型的發展仍面臨諸多技術挑戰:

巨大的計算需求:訓練和運行"世界模型"需要比當前生成模型更多的計算能力;幻覺和偏見問題:像所有 AI 模型一樣,"世界模型"也會產生幻覺並內化訓練數據中的偏見。

訓練數據限制:缺乏足夠廣泛而又具體的訓練數據可能會加劇上述問題。複雜行為模擬:目前的模型難以準確捕捉世界居民(如人類和動物)的行為。

過去一年 AI 技術在多元方向持續突破,世界模型被視為下一個重大突破。雖然距離成熟的 “世界模型” 還有數年時間距離,但這一技術已展現出巨大潛力。如果所有主要障礙都能克服,“世界模型” 有望在虛擬世界生成、機器人技術和 AI 決策等領域帶來重大突破,為人工智能與現實世界的融合開闢新的途徑。