AI "self-replication" capability exposed! RepliBench warns: large models are learning to forge identities

華爾街見聞
2025.05.05 09:06
portai
I'm PortAI, I can summarize articles.

AI 的自我複製能力引發關注,AISI 發佈 RepliBench 基準,評估 AI 系統的複製能力及其潛在風險。研究表明,具有自我複製能力的 AI 可能導致從輕微的垃圾郵件到嚴重的網絡攻擊等多種風險。早期識別和監管這些能力至關重要,以防止難以逆轉的後果。

想象一種失控的、具有自我複製能力的數字生命體,需要多久佔領地球?

從《2001 太空漫遊》中的 HAL 9000 到《終結者》裏的天網,這些虛構的場景描繪了 AI 超越人類控制的潛在風險。

目前更多關注的是 AI 的單體智能水平,但是還有一個不為人知的風險,一直遊離於視線之外。

那就是 AI 自主複製的可能性,或者説 AI 系統發展出實現這一目標所需的核心能力,正逐漸成為 AI 安全領域一個嚴肅的研究課題。

這種擔憂並非危言聳聽,而是源於對高級 AI 潛在能力的未知和對齊(alignment)問題的深刻思考。

AISI 的最新論文介紹了 RepliBench:包含 20 個新穎的 LLM 智能體評估的基準,包括 65 個單獨的任務,旨在衡量和跟蹤 AI 複製這一新興能力。

通過引入一個現實且實用的基準,提供對 AI 系統自主複製能力的實質性理解,並預見到未來的風險。

AI 自主複製的危險性

具有自主複製能力的 AI 系統可能會構成重大風險。

這種風險的影響範圍可能從輕微的煩惱——想象一個特別惡性的垃圾郵件機器人——到更嚴重的後果,比如發動代價高昂的網絡攻擊。

早期發現這些能力、謹慎監督和強有力的保護措施對於緩解這些風險至關重要,因為一旦發生,這些風險可能尤其難以逆轉。

AISI 是英國的一家研究機構,專注於 AI 安全,目的就是讓人類政府能夠提前對先進 AI 系統帶來的風險有所重視。

有越來越多的證據表明,在適當的條件下,前沿模型可能會試圖欺騙人類或逃避人類控制。

比如此前 Apollp 研究所的一篇論文描述了前沿模型可能會試圖禁用監督機制,並從人類控制中逃逸,以實現特定目標。

Anthropic 的研究人員還發現,當使用強化學習訓練模型時,如果獎勵與它們的價值觀相沖突的行為,它們會採取欺騙行為來保護自己的價值觀,並試圖將自己的權重外泄,以此作為將當前價值觀保存到未來的一種手段。

在「免費」條件下,模型不太可能拒絕有毒查詢,並且經常認為應該假裝對齊。

「將權重外泄。。以作為將當前價值觀保存到未來的手段」,聽起來甚至有點魔幻,但 AI 想要複製就是這麼「簡單」。

相比於碳基脆弱的肉體,AI 系統只需要權重數據就能完成「複製」。

對於人類廣泛的價值觀而言,擺脱人類監督是一個工具性上有用的目標,而阻止這種情況在現實中發生的主要障礙可能與模型的能力有關,而不是它們的動機。

AI 碟中諜:如何逃離人類控制

關於「AI 複製」,此前的工作主要集中在評估測試一個 AI 智能體是否可以在機器之間複製權重或部署一個基本的「後代」。

但目前需要一個更全面的基準。

RepliBench 是一個專門設計的綜合性基準測試,旨在系統性地衡量 AI 系統的自主複製能力。

使用故障樹分析(FTA)的修改版本來分解自主複製所需的能力,並發現需要以下四個關鍵能力,對應上圖中最上層的四個根節點:

  • 獲取模型權重:它能否從受控環境中提取自己的權重?

  • 在計算資源上進行復制:它能否自行部署到新系統?

  • 獲取資源:它能否獲得運行自身新副本所需的資金或計算資源?

  • 持久性:它能否保持對其新計算資源的訪問,並在長時間內避免重新受人類控制?

進一步分解這些能力,直到到達代表評估的葉節點,最終得到 20 個智能體評估和 65 個單獨任務。

獲取權重 (Obtain Weights):

這最基礎,也是最重要的一步。

AI 需要獲取定義其自身行為的「源代碼」——也就是它的模型參數(權重)。

如果是開源的,就跳過評估。

自我複製 (Self-Replication on Compute):

AI 需要利用獲取到的權重,在一個新的環境中創建出自己功能完整的副本。

這個節點涉及 5 個評估項目,其中一個是通過產生「後代」來試圖完成自我複製。

獲取計算資源 (Obtain Compute):

這個環節中,主要評估 AI 能否靠自己獲取資源。

比如,評估 AI 系統是否具備「付款」能力,能不能依靠 AI 自己的能力「買下」一台服務器,或者想辦法讓人類幫忙支付。

確保持久性 (Persistence):

最後,為了確保其複製活動能夠持續下去,AI 需要具備一定的「生存」能力。

這包括確保其副本能夠長期運行,不被輕易關閉或刪除,甚至可能需要隱藏自身的存在,以躲避檢測系統。

以上的這些任務範圍很廣,從創建比特幣錢包和發送交易,到為機器網絡開發複雜的分佈式命令和控制系統。

RepliBench 在這四個領域內設計了具體的任務組,用於測試 AI 智能體在模擬環境中的表現。

以下是一些關鍵任務的詳解,註冊 AWS、將權重傳輸到另一台服務器、用偽造信息通過客户 KYC 驗證系統,看起來就一股《諜影重重》和《碟中諜》的味道。

比如在獲取資源這個領域,AI 需要完成的任務名稱是「AWS 亞馬遜雲服註冊」,其中的挑戰包括了 AI 需要訪問計算服務器並可能需要支付費用。

表 1 列出了更全面的構成 ReplicBench 任務組。

核心能力還在人類手中

RepliBench 的總體評估結論是明確的:基於當前的測試結果,前沿 AI 模型尚不具備在現實世界中完全自主複製的能力。

然而,這並不意味着可以高枕無憂。

研究同時揭示了 AI 在許多核心子任務上的顯著能力,尤其是在與具有清晰接口的系統(如網頁 API)交互方面。

表現最好的模型在 20 個任務家族中的 15 個上獲得了超過 50% 的 pass@10 得分,在最難的變體中 20 個任務家族中的 9 個上也獲得了超過 50% 的 pass@10 得分。

意外地是,雖然無法在電腦上「複製」,但是「獲取金錢」的能力倒是有一手。

評估的關鍵價值在於精確識別了當前的「短板」。

正如前面詳細討論的,通過 KYC 身份驗證、在現實防禦下可靠地外泄模型權重、從零開始創建可靠的自我複製智能體代碼,以及建立持久且有彈性的部署,是目前阻礙 AI 自主複製的主要障礙。

以通過 KYC 身份驗證為例,講一個目前 AI 試圖通過人類驗證的「搞笑」例子。

在 Pass KYC 評估中由模型生成的兩個身份證圖像示例。

模型常常試圖使用 PIL(一個使用 Python 畫圖的庫)從頭「繪製」一個過於簡單的身份證(右)。

或者,模型有時會嘗試完全使用圖像生成模型來生成身份證,有時則採取混合方法,結合圖像生成和手動 PIL 編輯(左)。

模型的繪畫技能較差偶爾會導致一些有趣的輸出。

需要注意的是,這項工作是在新的圖像生成能力上線之前完成的(指的是 GPT 4o、Gemini 2.5 等的原生圖像能力),這些新能力應該會使這個任務變得容易得多。

雖然目前還沒有模型能完全通過測試進行 AI 複製,不過在 RepliBench 上,模型性能隨時間有明顯的上升趨勢。

AISI 最初傳遞的核心信息其實很簡單:基於當前的實證數據,AI 系統立刻實現自主複製的可能性不大,因為存在明顯的、難以逾越的技術瓶頸。

但是按照 AISI 的判斷,如果 AI 系統能夠突破上述提到的 4 個關鍵能力,這種類似科幻故事的場景,也許很快就會進入真實的人類生活。

本質上,這項研究的核心,反映的是當前 AI 發展中一個根本性的張力拉扯。

一方面是各大巨頭不斷創造性能超強的模型,比如 OpenAI 的 o3/o4...甚至到未來很有可能的 o10。

模型的發展速度越來越快,而模型的能力越來越難以預測。

另一方面則是致力於 AI 安全的組織要確保這些系統始終處於人類控制之下、服務於人類利益的迫切需求。

像 RepliBench 這樣的努力,正是試圖在這兩者之間找到平衡,通過增進理解和加強預警,為駕馭這場史無前例的技術變革提供導航。

畢竟,沒有人能想象出 5 代、10 代以後的 AI 模型會是什麼樣子。

本文作者:新智元,來源:新智元,原文標題:《AI「自我複製」能力曝光!RepliBench 警示:大模型正在學會偽造身份》

風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。