A week of tariff news flooding the screens, the AI circle is also "stirring": Llama 4 is here, O3 and O4-mini are also on the way, and DeepSeek R2 and GPT-5 are not far off?

華爾街見聞
2025.04.06 07:01
portai
I'm PortAI, I can summarize articles.

Meta 發佈 Llama 4 系列,強調多模態和超長上下文窗口,部分模型將開源。OpenAI 確認 O3 和 O4-mini 即將上線,GPT-5 推遲發佈但將免費。DeepSeek 與清華髮布新論文,提出 SPCT 方法和元獎勵模型,顯著提升推理擴展性能。

本文作者:鮑奕龍

來源:硬 AI

本週全球被關税議題佔據頭條,但科技界的目光卻聚焦在 AI 領域的密集動作上。

週末,Meta 深夜突襲發佈 Llama 4 系列,號稱 “原生多模態 + 千萬級上下文窗口”,並首次披露單卡 H100 可運行的輕量化版本。此前 OpenAI 則宣佈 O3 和 O4-mini 模型即將在幾周內上線,同時確認 GPT-5 因技術整合和算力部署問題推遲數月。

DeepSeek 則與清華大學的研究團隊本週聯合發佈了一篇關於推理時 Scaling 的新論文,提出了一種名為自我原則點評調優(SPCT)的學習方法,並構建了 DeepSeek-GRM 系列模型。結合元獎勵模型實現推理時擴展,性能接近 671B 大模型,暗示 DeepSeek R2 臨近。

Meta 強勢推出 Llama 4,多模態與超長上下文成亮點

週六,Meta 正式發佈了 Llama 4 系列模型,Llama 4 全系採用混合專家(MoE)架構,並實現了原生多模態訓練,徹底告別了 Llama 3 純文本模型的時代。此次發佈的模型包括:

  • Llama 4 Scout(17B 激活參數,109B 總參數量,支持 1000 萬 + Token 上下文窗口,可在單張 H100 GPU 上運行);

  • Llama 4 Maverick(17B 激活參數,400B 總參數量,上下文窗口 100 萬 +,性能優於 GPT-4o 和 Gemini 2.0 Flash);

  • 以及強大的 Llama 4 Behemoth 預覽(288B 激活參數,2 萬億總參數量,訓練使用 32000 塊 GPU 和 30 萬億多模態 Token)

此次公佈的 Llama 4 Maverick 和 Llama 4 Scout 將是開源軟件。然而,Llama 4 的新許可證對使用有一定限制,例如月活用户超 7 億的公司需申請特殊許可,且使用時需遵守多項品牌和歸屬要求

前 kaggle 總裁,fast AI 創始人 Jeremy Howard 表示,雖然感謝開源,但 Llama 4 Scout 和 Maverick 都是大型 MoE 模型,即使量化後也無法在消費級 GPU 上運行,這對開源社區的可及性來説是個不小的損失

Meta 強調,Llama 4 Scout 和 Llama 4 Maverick 是其 “迄今為止最先進的型號”,也是 “同類產品中多模態性最好的版本”

  • Scout 亮點:速度極快,原生支持多模態,擁有業界領先的 1000 萬 + Token 多模態上下文窗口(相當於處理 20 多個小時的視頻!),並且能在單張 H100 GPU 上運行(Int4 量化後)
  • Maverick 性能:在多個主流基準測試中擊敗了 GPT-4o 和 Gemini 2.0 Flash,推理和編碼能力與新發布的 DeepSeek v3 相當,但激活參數量不到後者一半

X 網友也對 Scout 模型的性能感到震驚,尤其是其在單 GPU 上運行並支持超長上下文窗口的能力。

最令人矚目的是 Llama 4 Behemoth。目前 Behemoth 仍處訓練中,不過 Meta 將其定位為 “世界上最智能的 LLM 之一”。這個擁有 288B 激活參數和 2 萬億總參數量的 “巨獸”,在 32000 塊 GPU 上訓練了 30 萬億多模態 Token,展現了 Meta 在 AI 領域的雄厚實力。

有 X 網友指出了 Behemoth 訓練的性能潛力,強調了它在階段就已經表現出超越多個最高級模型的能力,例如 Claude 3.7 和 Gemini 2.0 Pro。

還有 X 網友調侃了 Meta 的 “燒錢” 策略,同時對 Llama 4 的參數規模表示驚訝。

此前《The Information》週五報道稱,在投資者向大型科技公司施壓,要求其展示投資回報的情況下,Meta 計劃今年投入高達 650 億美元來擴展其 AI 基礎設施。

OpenAI 確認 O3 和 O4-mini 即將上線,GPT-5 免費策略引轟動

在 Llama 4 發佈的同時,OpenAI 首席執行官 Sam Altman 則在社交媒體上確認,O3 和 O4-mini 將在未來幾周內發佈,而 GPT-5 則將在未來幾個月與公眾見面。

儘管沒有更多關於 o3 和 o4mini 的細節內容,但是 Altman 表示,OpenAI 在很多方面真正改進了 o3 模型,一定會讓用户大為滿意。

實際上 GPT-5 的功能和發佈時間才是市場關注的重點。據 Altman 透露,GPT-5 將整合語音、Canvas、搜索、Deep Research 等多項功能,成為 OpenAI 統一模型戰略的核心。

這意味着 GPT-5 將不再是一個單一的模型,而是一個集成了多種工具和功能的綜合系統。通過這種整合,GPT-5 將能夠自主使用工具,判斷何時需要深入思考、何時可以快速響應,從而勝任各類複雜任務。OpenAI 的這一舉措旨在簡化內部模型和產品體系,讓 AI 真正實現隨開隨用的便捷性。

更令人興奮的是,GPT-5 將對免費用户開放無限使用權限,而付費用户則能體驗到更高智力水平的版本。此前,奧特曼在和硅谷知名分析師 Ben Thompson 的深度對談中,表示因為 DeepSeek 的影響, GPT-5 將考慮讓用户免費使用。

不過對於 GPT-5 的發佈時間反覆推遲,有網友做出了下面這個時間表來調侃。

DeepSeek 攜手清華髮布新論文

DeepSeek 與清華大學的研究團隊本週聯合發佈了一篇關於推理時 Scaling 的新論文,提出了一種名為自我原則點評調優(Self-Principled Critique Tuning,簡稱 SPCT)的學習方法,並構建了 DeepSeek-GRM 系列模型。這一方法通過在線強化學習(RL)動態生成評判原則和點評內容,顯著提升了通用獎勵建模(RM)在推理階段的可擴展性,並引入元獎勵模型(meta RM)進一步優化擴展性能。

SPCT 方法的核心在於將 “原則” 從傳統的理解過程轉變為獎勵生成的一部分,使模型能夠根據輸入問題及其回答內容動態生成高質量的原則和點評。這種方法包括兩個階段:

  • 拒絕式微調(rejective fine-tuning)作為冷啓動階段,幫助模型適應不同輸入類型;
  • 基於規則的在線強化學習(rule-based online RL)則進一步優化生成內容,提升獎勵質量和推理擴展性。

為了優化投票過程,研究團隊引入了元獎勵模型(meta RM)。該模型通過判斷生成原則和評論的正確性,過濾掉低質量樣本,從而提升最終輸出的準確性和可靠性。

實驗結果顯示,DeepSeek-GRM-27B 在多個 RM 基準測試中顯著優於現有方法和模型,尤其是在推理時擴展性方面表現出色。通過增加推理計算資源,DeepSeek-GRM-27B 展現了強大的性能提升潛力,證明了推理階段擴展策略的優勢

這一成果不僅推動了通用獎勵建模的發展,也為 AI 模型在複雜任務中的應用提供了新的技術路徑,甚至可能在 DeepSeek R2 上能看到該成果的展示。

有海外論壇網友調侃道,DeepSeek 一貫是 “論文後發模型” 的節奏,競爭對手 Llama-4 可能因此受壓。