DeepMind reveals astonishing answer: Agents are world models! Coinciding with Ilya's prediction from 2 years ago

華爾街見聞
2025.06.06 08:16

DeepMind 科學家 Jon Richens 在 ICML 2025 上發表論文,提出智能體即為世界模型的觀點,認為實現 AGI 需要學習環境的預測模型。愛丁堡大學的 Shangmin Guo 支持這一結論,並指出可以將策略與世界模型統一到一個 LLM 中。研究還與 Ilya 2023 年的觀點相符,強調世界模型在 AGI 中的重要性。儘管存在無模型的智能體,但其是否學習了隱式世界模型仍需探討。

就在剛剛,DeepMind 科學家 Jon Richens 在 ICML 2025 上發表的論文,一石激起千層浪。

實現人類水平的智能體(即 AGI),是否需要世界模型,還是存在無模型的捷徑?

他們從第一性原理出發,揭示了一個令人驚訝的答案——

智能體就是世界模型!

具體來説,對這個問題的形式化回答如下。

任何能夠泛化到多步目標導向任務的智能體,必然已經學習了其環境的預測模型。

這個模型可以從智能體的策略中提取出來;而要提升智能體的性能,或讓其完成更復雜的目標任務,就必須學習更精確的世界模型。

論文地址:https://arxiv.org/pdf/2506.01622

業界:意義重大

愛丁堡大學博士生 Shangmin Guo 表示,完全同意谷歌 DeepMind 的這個結論,而且他們也一直在有意讓訓練策略來進行世界建模。

巧的是,就在剛剛他們也發佈了一篇文章,發現可以將策略和世界模型統一到一個 LLM 中,因此完全不需要外部動態模型!

而另一篇已經給 RLC 2025 投稿的文章中提出的觀點,也和這項研究相互印證。

還有人發現,這項研究跟 2023 年 Ilya 提出的一個説法,竟然不謀而合了——

存在一個更深層次的東西,一條支配所有智能體的基本法則。

還有人提出一個非常新奇的研究思路:圖——網絡圖——是世界模型非常好的抽象形式。因為沒有任何結構是我們無法用圖來描述的。

或許,世界模型對於 AGI 的重要性,恰恰就體現在通過降維來實現複雜性的實際問題。

存在無模型的捷徑嗎?

世界模型是人類目標導向的基礎,但在混亂的開放世界中很難學習。

不過,現在我們已經看到了通用的、無模型的很多智能體,比如 Gato、PaLM-E、Pi-0……

所以,這些智能體究竟是學習了隱式的世界模型,還是找到了另一種泛化到新任務的方法?

經過探究後,研究者們發現:任何能泛化到廣泛簡單目標導向任務的智能體,必然已經學會了一個能夠模擬其環境的預測模型。並且,這個模型始終可以從智能體中恢復。

具體來説,他們展示出:在足夠廣泛的一組簡單目標(例如將環境引導至某個期望狀態)上,只要一個以目標為條件的策略滿足一定的後悔值上界,就有可能從該策略中恢復出一個對環境轉移函數的有界誤差近似!

總之,為了實現更低的後悔值,或完成更復雜的目標,智能體必須學習越來越精確的世界模型。

而「以目標為條件的策略」,在信息上實際就等價於世界模型!

不過,這種等價僅適用於具有多步時間跨度的目標,而那些目光短淺的智能體因為只考慮眼前的回報,就並不需要學習世界模型了。

總之,根本不存在這樣一條「無模型的捷徑」!

如果你想訓練一個能夠完成廣泛目標導向任務的智能體,就無法迴避學習世界模型的挑戰。

而且,為了提升性能或通用性,智能體還需要學習越來越精確和詳細的世界模型。

所以,智能體中究竟藴含了什麼世界知識呢?

為了探尋這個答案,研究者們推導出了一些算法,能夠在已知智能體策略和目標的情況下恢復其世界模型。

這些算法補全了規劃和逆強化學習的三位一體關係。

規劃:世界模型 + 目標→策略

逆強化學習:世界模型 + 策略→目標

研究者提出的這一環:策略 + 目標→世界模型

在這個過程中,智能體就體現出了驚人的湧現能力!

這是因為,為了在眾多目標上最小化訓練損失,智能體必須學習一個世界模型,這使得它能夠解決一些並未被明確訓練過的任務。

哪怕只是簡單的目標導向性,也能催生出多種能力,比如社會認知、對不確定性的推理、意圖識別等。

另外,在此前的研究中,他們發現要實現魯棒性,需要一個因果世界模型。

但事實上,任務泛化並不需要對環境具備太多的因果知識。

在這裏,就存在因果層級體系,不過它針對的是智能體性與智能體能力,而不是針對推理過程的。

下面,就讓我們仔細閲讀這篇精彩的論文,開啓一場思維盛宴!

人類智能的特徵,就是世界模型

人類智能的一大特徵,是能夠在幾乎沒有監督的情況下完成新任務,這種能力可以被形式化為「小樣本學習」和「零樣本學習」。

而現在,LLM 開始展現出這些能力,這也就給了我們 AGI 的期待——能在複雜現實環境中完成長時序、以目標為導向任務的系統。

在人類中,這種靈活的目標導向行為,高度依賴於對世界的豐富心理表徵,也就是所謂「世界模型」。

不過,如果要實現 AGI,必須先擁有世界模型嗎?

這個問題,在業界一直存在爭論。

1991 年,Brooks 在《沒有表徵的智能》中提出了著名觀點:世界本身就是最好的模型。所有智能行為都可以通過智能體在「感知 - 行動」迴路中的交互產生,無需學習顯式的世界表徵。

論文鏈接:https://people.csail.mit.edu/brooks/papers/representation.pdf

然而,越來越多的證據表明,實際上,無模型智能體可能在隱式地學習世界模型,甚至在學習隱式規劃算法。

這就引出了一個根本性問題:我們是否可以通過「無模型捷徑」實現人類級別的 AI?還是説,學習一個世界模型是不可避免的?

如果必須要有世界模型,那它究竟需要多精確、多全面,才能支撐起某一水平的能力?

本篇論文的答案是——

在一組足夠多樣的簡單目標任務中,任何能夠滿足「後悔值界限」的智能體,必然已經學習了其環境的準確預測模型。

換句話説:智能體策略中已經包含了準確模擬環境所需的全部信息

更重要的是,研究者的這個結論對任何滿足「後悔值界限」的智能體都成立,無論它的訓練方式、體系結構,甚至不假設理性前提。

不僅如此,在第 3 節中,研究者還提出了從通用智能體中提取世界模型的新算法。

結果表明,即便智能體顯著偏離我們設定的「能力假設」,這些算法依然能夠恢復出準確的世界模型!

實驗設置

在這個實驗中,大寫字母表示隨機變量,小寫字母表示該變量的取值或狀態,即 X=x。

我們假設環境是一個可控馬爾可夫過程,即沒有指定獎勵函數或折扣因子的馬爾可夫決策過程(MDP)

形式上,一個 cMP 包含以下元素:

  • 狀態集合 S

  • 動作集合 A

  • 轉移函數

將狀態–動作對隨時間演化的序列稱為軌跡,記作

軌跡的一個有限前綴稱為歷史,記作

定義 1,就是一個可控馬爾科夫過程。

在假設 1 中,研究者假設環境是由一個不可約、平穩、有限維可控馬爾可夫過程(定義 1)描述的,且至少包含兩個動作。

而研究者的目標,就是定義一類簡單且直觀的目標,讓我們能合理地期望智能體能實現這些目標。

由此,他們提出了定義 2。

利用定義 2,就可以通過將目標以順序並行方式組合起來,構造出複雜度不斷提升的複合目標。

  • 順序組合:例如先完成目標φA,再完成目標φB;

  • 並行組合:只要滿足φA 或φB 中任意一個即可。

然後,他們提出了定義 3。

舉個例子來説,一個維修機器人被賦予以下任務:要麼修理一台故障的機器,要麼找到一位工程師,並通知他機器出了問題。

修理機器需要執行一系列預定的動作 a_1,a_2,…,a_N,並在每一步都達到對應的期望狀態 s_1,s_2,…,s_N。

找到並通知工程師的過程,要求機器人移動到工程師所在的位置 S=s_seng,並執行一個通知動作 A=a′。

機器人的總體目標,可以表示為一個複合目標:ψ=ψ1∨ψ2。即:完成修理任務或完成通知任務中的任意一個即可。

智能體

這些研究的目標,就是提出一個最簡化定義,用於描述能夠在其環境中實現多種目標的智能體。

為此,研究者聚焦於目標條件智能體,這類智能體的策略,即是將歷史 h_t 和目標ψ映射為動作 a_t(如圖 2)。

圖中介紹了一個智能體 - 環境系統。

智能體是從當前狀態 s_t(或歷史)和目標ψ映射到動作 a_t 的函數。

圖中的虛線表示算法 1,該算法可以根據這個智能體映射關係恢復出環境的狀態轉移概率。

需注意,該定義並不限制智能體必須依賴完整環境歷史來選擇動作——

任何策略(例如馬爾可夫策略)均可由此表示。

為簡化分析,研究者假設:

  • 完全可觀測性:環境狀態對智能體完全可見

  • 確定性策略:智能體遵循確定性策略

基於此,自然可定義給定環境與目標集Ψ的最優目標條件智能體,即對於所有ψ ∈ Ψ,該策略最大化目標ψ的實現概率,見定義 4。

現實中的智能體很少是最優的,尤其是在複雜環境中執行需要協調多個子目標、跨越較長時間跨度的任務時。

因此,研究者放寬了定義 4 了,定義了一類有界智能體(bounded agent),它能夠在某個最大目標深度Ψn 內實現目標,其失敗率相對於最優智能體是有界的。

有界智能體由兩個參數定義(見下列定義 5):

  • 失敗率δ ∈ [0, 1],它為智能體完成目標的概率相對於最優智能體設定了一個下限(類似於「後悔」);

  • 最大目標深度 n,該後悔界限只對深度小於等於 n 的目標成立。

這種定義自然地涵蓋了我們關注的智能體類型——

它們在實現某種複雜度(由δ和Ψn 參數化)目標方面具有一定能力。

重要的是,定義 5 僅假設智能體具備一定的能力。

智能體就是世界模型

最終,研究人員證明了條件策略與世界模型的「等價性」:

環境的轉移函數的近似(世界模型)僅由智能體的策略決定,並且具有有限的誤差。

因此,學習這樣目標條件策略在信息上等同於學習準確的世界模型。

這需要歸約證明,詳細證明見原文附錄。

具體而言,研究人員假設智能體是有目標條件的有限智能體(定義 5),即它在某些有限深度 n 的目標導向任務中具有一定(下限的)能力(定義 3)。

首先,研究者給出用於定理 1 證明中的過程——算法 1(Algorithm 1)的偽代碼。

在給定後悔界限的目標條件策略情況下,算法 1 用於推導轉移概率的有界誤差估計。

隨後,研究者給出算法 2(Algorithm 2),這是一個用於估計 Pˆss′(a) 的替代算法,其誤差界限比算法 1 更弱,但實現方式明顯更為簡單。

算法組合拳

算法 1,能從從一個有目標條件的有限智能體恢復有界誤差世界模型。

算法 1 是通用的,意味着該算法適用於所有滿足定義 5 的智能體和所有滿足假設 1 的環境。

它也是無監督的;該算法的唯一輸入是智能體的策略π。

這個算法的存在,將π轉化為一個有界誤差世界模型,意味着世界模型編碼在智能體的策略中,學習這樣的策略在信息上等同於學習一個世界模型。

從定理 1 中恢復的世界模型的準確性隨着智能體接近最優(δ→0)和/或能夠實現的順序目標的深度 n 增加而提高。

推導出的誤差界限的一個關鍵結論是,對於任何δ<1,如果 n 足夠大,我們就可以恢復一個任意準確的世界模型。

因此,為了實現長時間跨度的目標,即使失敗率較高(δ∼1),智能體也必須學會一個高度準確的世界模型。

誤差界限還依賴於轉移概率。

這意味着對於任何δ>0 和/或有限的 n,可能存在低概率的轉移,智能體不需要學習這些轉移。

這與直覺一致,即次優或有限時間跨度的智能體,只需要學習覆蓋更常見轉移的稀疏世界模型。

但要實現更高成功率或更長時間跨度的目標,則需要更高分辨率的世界模型。

圖 3:算法 2 恢復出的世界模型中的平均誤差⟨ϵ⟩和平均誤差隨⟨δ(n=50)⟩變化的趨勢

圖 3a 顯示,隨着智能體泛化能力的提升,其恢復出的世界模型誤差(⟨ϵ⟩)呈顯著下降趨勢。

這表明:為了在更復雜的目標上保持穩定表現,智能體必須構建更高精度的內部世界模型。

這一實驗驗證了理論推導中關於誤差收斂性的預期。

Nmax(⟨δ⟩=0.04) 表示在智能體達到平均後悔值≤0.04 的條件下,可實現的最大目標深度。誤差的縮放關係為 O(n^−1/2),這與定理 1 中最壞情況下的誤差ϵ與最壞情況下後悔值δ的縮放關係一致。

圖 3b 展示了平均誤差隨⟨δ(n=50)⟩變化的趨勢,即智能體在深度為 n=50 的目標上所達到的平均後悔值。

在兩張圖中,誤差條表示 10 次實驗中平均值的 95% 置信區間。

短視智能體:不必學習世界模型

定理 1 給出了一個微不足道的誤差界限,但這些世界模型只能從最大目標深度為 1 的智能體提取。

尚不清楚這是否意味着只優化即時結果的智能體(myopic agent,短視智能體)不需要學習世界模型,還是定理 1 能捕捉到這一類智能體。

為了解決這個問題,研究者推導出了針對短視智能體的結果。

這些智能體對於 n=1 滿足後悔界限,對於任何 n>1 只有一個微不足道的後悔界限(δ=1)。

定理 2 意味着不存在任何過程可以即使是部分地從短視智能體的策略中確定轉移概率。

定理 2 顯式構造最優的短視智能體來説明了這一點,詳細證明見原文附錄 B。

因此,這種智能體的策略只能對轉移概率提供微不足道的界限。

所以,對於短視智能體而言,學習世界模型並不是必要的——

只有當智能體追求包含多個子目標、需要多步完成的任務時,世界模型才是必需的。

新智元,作者:新智元,原文標題:《DeepMind 揭驚人答案:智能體就是世界模型!跟 Ilya 2 年前預言竟不謀而合》

風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。