Slap in the face to OpenAI! Google Gemini Advanced has received the IMO 2025 official certification gold medal: pure natural language end-to-end reasoning

華爾街見聞
2025.07.21 19:15
portai
I'm PortAI, I can summarize articles.

谷歌 DeepMind 的 Gemini 高級版在 2025 年國際數學奧林匹克競賽中獲得金牌,解出 5 題,得分 35 分,經過 IMO 官方認證。這一成就標誌着 AI 在自然語言理解和推理能力上的重大突破,能夠直接處理自然語言題目並生成數學證明,效率顯著提高。與 OpenAI 的自我宣稱相比,谷歌的官方認證結果更具權威性。

就在全球科技圈還在議論 OpenAI 搶跑宣稱其內部模型拿下 IMO 金牌之際,真正的 “官方認證” 王者來了。谷歌 DeepMind 剛剛發佈重磅博客,宣佈其搭載了 “深度思考”(Deep Think)能力的高級版 Gemini,在 2025 年國際數學奧林匹克競賽(IMO)中,以 6 題解出 5 題、總分 35 分的成績,正式達到金牌標準!

這一成績經過了 IMO 官方協調員的認證,所有解題過程都在 4.5 小時的比賽時限內完成,並且全程使用自然語言進行端到端的推理

哈哈哈,相比於 OpenAI 的自我宣稱,谷歌拿出了無可辯駁的官方戰報,這下我好像終於知道了 OpenAI 為什麼搶跑了,Sam Altman 一定是提前知道了什麼,我也好像懂了為什麼 OpenAI 不顧 IMO 組委會反對提前宣稱自己的實驗模型獲得了金牌,一個官方認證的結果一定讓 sam 寢食難安,如果不提前炒作一下,這個結果一定對 OpenAI 造成巨大的打擊

真正的金牌選手:5 道滿分,端到端自然語言搞定

這一成就的含金量,體現在以下幾個顛覆性的進步上:

從 “形式數學” 到 “自然語言” 的飛躍:

還記得去年(IMO 2024)嗎?谷歌的 AlphaGeometry 和 AlphaProof 雖然達到了銀牌標準,但需要人類專家先將自然語言的題目 “翻譯” 成 AI 能理解的 Lean 等形式化語言。而今年的 Gemini,則實現了端到端的突破,直接讀取並理解用自然語言描述的官方題目,然後直接生成嚴謹的、人類可讀的數學證明。這標誌着 AI 的推理能力向人類的直覺和靈活性邁進了一大步

競賽級效率:

去年的系統需要數天的計算時間。而今年的模型,在 4.5 小時的競賽規定時間內就完成了所有解題和證明生成

官方認證,無可爭議:

博客明確指出,其模型結果由 IMO 協調員使用與學生解決方案相同的標準進行官方評分和認證,IMO 主席 格雷戈爾·多利納爾教授博士:

這是谷歌發佈的解題過程,有 13 頁 pdf,我反正是看不懂,數學大神請享用挑刺:

谷歌的官宣與 OpenAI 的搶跑

OpenAI 在 IMO 閉幕式前突然宣稱,其一個內部實驗模型也達到了金牌水平。然而,這一行為立刻引發了巨大爭議:

無視規則: 據悉,IMO 組委會曾明確要求 OpenAI 不要在閉幕式前發佈結果,但 OpenAI 並未聽從

缺乏認證: OpenAI 的成績完全是 “自我報告”,並未經過 IMO 官方的獨立驗證和評分

方法論不透明: 其模型和方法並未在賽前進行任何披露。

這一系列騷操作引來陶哲軒(Terence Tao)的公開回應,也就不奇怪他在社交媒體上對 OpenAI 的態度了:

對於任何沒有在賽前披露其方法論的、自我報告的 AI 競賽成績,我將不予置評。

陶哲軒內心戲:你他麼既當裁判又當運動員,難道我不懂嗎?

金獎背後

谷歌是如何實現這一驚人飛躍的?答案是深度思考 Deep Think 高級模式

平行思考(Parallel Thinking): Deep Think 高級模式能讓模型不再侷限於單一的線性推理路徑。它可以同時探索和組合多種可能的解決方案,就像一個頂尖數學家在腦中同時演算幾條解題思路,最終選擇最優的一條

強化學習與高質量數據: 谷歌通過新穎的強化學習技術,專門針對多步推理、問題解決和定理證明數據對 Gemini 進行了訓練。同時,還為其提供了大量高質量的數學問題解決方案語料庫。

研發團隊還在模型的指令中加入了一些關於如何解決 IMO 問題的通用提示和技巧

所以最後,問大家一個問題,AGI 還有多遠?

AI 寒武紀,原文標題:《打臉 OpenAI!谷歌 Gemini 高級版獲 IMO 2025 官方認證金牌:純自然語言端到端推理》

風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。