
OpenAI's mysterious new model wins the IMO 2025 gold medal! Conquering the peak of Olympiad mathematics, Silicon Valley is buzzing

OpenAI 的全新通用推理模型在 2025 年 IMO 比賽中奪得金牌,解出 5 道題,獲得 35 分,遠超其他模型。此成就被認為標誌着 AI 推理技術的重大突破,可能顛覆傳統思維鏈。該模型在與人類相同條件下進行考試,最終以高分獲勝,顯示出其在複雜任務中的潛力。
就在昨天,全世界的頂尖大模型還在 2025 年的 IMO 賽場上全軍覆沒,連銅牌的邊都沒摸到。
然而,就在剛剛,OpenAI 投下了一枚重磅炸彈——他們用一款全新的「通用推理模型」,成功奪下了 IMO 2025 的金牌!
6 道題,解出 5 道,狂攬 35 分!
要知道,此前表現最好的 Gemini 2.5 Pro,也只得了 13 分。
聯創 Greg Brockman、負責人 Alexander Wei,以及 OpenAI 的各路研究員,紛紛在推上激動宣佈了這一里程碑式的成就!
對此,德撲之父 Noam Brown 表示,這個成績的意義甚至超越了「AI 攻克 IMO」本身。
左右滑動查看
人們紛紛猜測,OpenAI 這次很可能祭出了一種顛覆性的推理技術,徹底告別了傳統的 CoT 思維鏈。
這,不僅僅是一個模型的勝利,更是一個全新時代的開端!
更令人震驚的是,OpenAI 宣佈,這個創造了歷史的模型,並非傳聞中的 GPT-5,而是一個全新的、實驗性的模型!
而這個模型完全不會被髮布,簡直太神秘了!
神秘模型,拿下 IMO 金牌
Alexander Wei 和他的團隊,讓模型在與人類完全相同的條件下進行比賽:
兩個 4.5 小時的考試時段,沒有工具,沒有網絡,僅憑對題目的理解,用自然語言寫下完整的證明過程。
然後,由三位前 IMO 獎牌得主嚴格評分。
最終,模型以 35/42 的驚人高分,達到了金牌的水平。
相比之下,無論是在圍棋、Dota 還是其他複雜任務,過去的 AI 想要獲得勝利,往往都要在特定領域進行專門的訓練。
但這一次,OpenAI 打破了這條鐵律——新模型不僅不是 IMO「特供」,而且還能進行長達數小時的思考。
相比之下,我們熟知的 o1 模型是以秒計算,Deep Research 也不過是以分鐘計算。
這種深度的、持久的創造性思維能力,正是以往 AI 難以逾越的天塹!
這意味着什麼?是否達到了 AGI 水平?拿下 IMO 有何特殊?
首先,與以往的基準相比,IMO 問題需要更高水平的持續創造性思維。
在推理時間範圍方面,現在已經一路攀升:GSM8K(頂級人類約需 0.1 分鐘)→MATH 基準(約 1 分鐘)→AIME(約 10 分鐘)→IMO(約 100 分鐘)。
其次,IMO 的提交內容是難以驗證的多頁證明。
在此領域取得進展需要超越具有明確、可驗證獎勵的強化學習範式。
通過這樣做,OpenAI 研究團隊獲得了一個能夠在人類數學家層面構建複雜且無懈可擊論點的模型。
此外該模型並非通過在「特定任務(IMO)」訓練達到這一能力水平,而是在通用強化學習和測試時計算擴展方面實現了新的突破。
所以,昨晚被曝光的 o3-alpha,難道只是前戲?
原來,這才是 OpenAI 真正憋着的大招!
完整解題過程
如果你有興趣,可以看看 OpenAI 新鮮放出的 2025 年 IMO 賽題解答。
模型解出了第一題到第五題(P1-P5),但沒能解出第六題(P6)。果然如傳聞所説,這次的第六題難度極高,全球僅有 6 人破解。
倉庫地址:https://github.com/aw31/openai-imo-2025-proofs/blob/main/README.md
下面我們來看看,這個新模型對於前五道題的具體解題過程。
第一題,是一道解析幾何題。
可以看出,解答這道題的關鍵點,就是要找出覆蓋點的 n 條線,以及陽光線的可能數量。
模型採用了獨特的方法,確定了所有滿足條件的非負整數 k。
引理:當 n≥4 時,任何覆蓋 P_n 的 n 條直線必須使用三角形的一條邊。
對 n=3 的情況進行精確分析。
對於一般的 n≥3,證明對於每個 n 存在 k=0、1、3 的配置。
利用歸約引理完成主要結論的證明。
示意圖如下。
大神網友放出的解答中,想要直接證明過點 H 且平行於 AP 的直線與三角形 BER 的外接圓相切,是很困難的。
不過,這個問題可以換成另一種表述:定義 X 為不包含 B 的一側的 EF 的中點,如果能夠證明 HX 與 EF 平行,基本上就可以證明這個結論了。
另一方面,如果這條線的切線,那麼它必須在中點處接觸圓。
因此,只要證明這兩點就足夠了。
而模型在證明過程中,主要完成了以下四步:
解析設定和參數。 設 P 為三角形 ACD 的外心。 連接 AP 與兩個圓Ω、Γ的交點分別為點 E、F。 求過點 B、E、F 的外接圓方程。
上下滑動查看
在人類選手的解法中,這道題的關鍵是證明下圖中黃色的不等式。
模型對於這道題的解法,分為以下四步。
考慮 bonza 類型的函數,即滿足性質 P_f 的函數。
當函數在某個素數處取值大於 1 時,考慮模素數意義下的同餘關係。
推論:如果某個奇素數 p 滿足 f>1,那麼整個函數 f 必須是恆等函數。
進入主要的結構性引理:分析在非恆等函數的情況下,函數的結構。
上下滑動查看
它的解題關鍵步驟可以化為如下形式。
上下滑動查看
這道題的解法,包含以下三部分。
模型在解題過程中,則是討論了以下三種情況。
當 λ ≥ c(無防禦)時,Alice 總是獲勝。
當 λ > c 時,Alice 獲勝。
當 λ < c(c = 1/√2)時,Bazza 獲勝。
上下滑動查看
第六道題,涉及到了圖形的組合數學。
這道公認的難題,人類參賽者也只有 6 人可以做出,o3、o4-mini、Gemini 2.5 Pro、Grok-4、DeepSeek-R1 六個大模型也全員零分,即使是 OpenAI 的這個超強模型,也同樣折戟了。
目前看來,世界上還不存在能解出第六題的大模型。
一個彩蛋
Alexander Wei 宣佈這個消息時,使用了「草莓」的形象。
「Strawberry」是 OpenAI 當初在內部研發時使用的代號,用於推動一項全新的推理模型項目,就是我們現在熟悉的「o」系列模型。
作者介紹
Alex Wei 是 OpenAI 的研究科學家,主要研究方向為大語言模型和推理。之前也曾研究過機器學習、博弈論和算法的交叉領域。
他在加州大學伯克利分校獲得計算機科學博士學位,師從 Nika Haghtalab、Michael I. Jordan 和 Jacob Steinhardt;在哈佛大學獲得學士學位和碩士學位,師從 Jelani Nelson 和 Scott Kominers。
他曾是 FAIR 團隊的一員,參與構建了首個在《外交》(Diplomacy)遊戲中達到人類水平的人工智能——CICERO。該成果在 2022 年發表於《科學》雜誌。
參考資料:
https://x.com/alexwei_/status/1946477742855532918
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
