
Yao Shunyu's Google debut, the Gemini new model breaks SOTA: only 7 humans left to defend carbon-based programming

谷歌推出 Gemini 3 Deep Think 模型,取得 3455 Elo 分數,位列全球第 8,超越以往最高分 2727。該模型在 ARC-AGI-2 基準測試中得分 84.6%,刷新 SOTA,遠超 Claude Opus 4.6 的 68.8%。新模型旨在推動智能發展,解決科研和工程挑戰,具備分析草圖和生成 3D 打印文件的能力。清華物理系特獎得主姚順宇參與了該項目。
面對 Claude Opus 4.6 和 GPT Codex 5.3 的猛烈攻勢,谷歌反手就是一個Gemini 3 Deep Think的重大升級。

在 Codeforces(一個包含各種競技編程挑戰的基準測試平台)上,它取得了驚人的3455 Elo 分數,相當於世界第 8 名。

這下子,全球只有 7 人的編程水平能排在它前面了。而此前最高分是一年前 o3 拿下的 2727 Elo。

Gemini 3 Deep Think 的實力不止於此,它還直接把ARC-AGI-2——這個公認測試 AI 推理能力的前沿基準,給刷到了史無前例的84.6%。
要知道,之前最強模型的得分在 60%-70% 之間徘徊,Claude Opus 4.6 的成績也只有 68.8%。
在人類最後考試(HLE)上,Gemini 3 Deep Think 也刷新 SOTA,拿下了48.4%的成績。

官方表示,新版 Deep Think 是谷歌專門開發的推理模式,旨在推動智能前沿發展,並解決科學、研究和工程領域的現代挑戰。
另一位 “堯舜禹”——清華物理系傳奇特獎得主姚順宇(Shunyu Yao),去年 9 月加入谷歌 DeepMind,也是這次 Deep Think 新模型的參與者。

新版 DeepThink 已經走進了實驗室
升級後的 Gemini 3 Deep Think 實力究竟有多強?
它的野心不止於贏得基準測試,而是要走進科研和工程領域,幫助工程師處理複雜任務。
新版 Deep Think 可以分析草圖,對複雜形狀進行建模,並直接生成用於 3D 打印的實體文件。這是它打印的一個筆記本電腦支架:
谷歌 VP Josh Woodward 在 X 上曬出了打印的成果,看起來對草圖相當還原:

羅格斯大學的數學家 Lisa Carbone,利用 Gemini 3 Deep Think 審閲了一篇高度專業的數學論文。
結果 Gemini 3 Deep Think 成功地識別出了一個細微的邏輯缺陷,而這個缺陷在此前的人工同行評審中均未被發現。
杜克大學的王安實驗室,利用 Gemini 3 Deep Think 技術優化了複雜晶體生長的製備方法,以期發現新的半導體材料。
結果 Gemini 3 Deep Think 成功設計了一種能夠生長厚度大於 100 微米薄膜的工藝,達到了以往方法難以企及的精確目標。
在 X 上,DeepSeek 多模態團隊研究員 XiaoKang Chen 也表示:Gemini 3 Deep Think 非常擅長處理科學領域中的長尾任務。
他給 Deep Think 輸入了一張複雜分子結構的圖片,隨後模型便準確地計算出了分子式。

勇奪三項新 SOTA,推理成本降低 82%
去年 Deep Think 專門版已經 IMO 等國際競賽中奪下金牌。現在,全新升級後的 Deep Think 又在多項高難度的基準測試中全面刷新 SOTA:
- 不使用任何工具,在 HLE 中取得新 SOTA——48.4%;
- 在 ARC-AGI-2 測試中取得前所未有的 84.6% 的成績,並經 ARC Prize 基金會驗證;
- 在 Codeforces 上取得了驚人的 3455 Elo 分數;
- 在 2025 年國際數學奧林匹克競賽中達到金牌水平。

其中,ARC-AGI-2 被譽為 AI 界的 “圖靈測試”,旨在衡量模型處理從未見過的新穎推理任務的能力。
要知道,去年 12 月剛發佈的初代 Deep Think 得分還是 45.1%,不到三個月時間已經飆升到 84.6%,比 Opus 4.6 還要強出一截。
而在 ARC-AGI-1 上,Gemini 3 Deep Think 取得了 96% 的成績,直接頂到天花板了。

性能提升的同時,推理成本也在大幅下降。初代 Deep Think 執行每項任務的成本為 77.16 美元。此次升級讓成本降低了 82%,每項任務僅需13.62 美元。

由於 1 和 2 都被 Gemini 刷爆了,現在 ARC Prize 已經在構建 ARC-AGI-3 了……
除了數學和編程,升級後的 Deep Think 在化學和物理等廣泛的科學領域同樣表現出色。
在 2025 年國際物理奧林匹克競賽和化學奧林匹克競賽中,Gemini 3 Deep Think 在筆試部分取得了金牌級別的成績。
此外,它還展現了在高等理論物理方面的能力,在 CMT-Benchmark 測試中取得了 50.5% 的分數。

華人帶隊,打造最強推理模型
Gemini 3 Deep Think 的研發團隊中,有不少華人身影。
核心成員包括 95 後華人科學家Yi Tay,他在 Gemini 團隊中從事強化學習和推理方向的研究工作。

此前,他曾在 Google Brain 共同領導早期大語言模型項目,包括 PaLM-2、UL2 和 Flan-2。
在 Google Brain 工作 3 年多之後,2023–2024 年間,Yi Tay 曾短暫離開谷歌,作為聯合創始人創辦了一家獨角獸 AI 初創公司——Reka。
Reka AI 由 DeepMind、谷歌和 Meta 的研究人員創立,其創辦初衷是打造功能強大且高效的基礎模型,現在也開發界面設計、應用邏輯以及其他應用方面的工具。
在創業一年半後,Yi Tay 便重返谷歌 DeepMind,擔任高級資深研究科學家,繼續從事人工智能和大語言模型的研究。
去年剛從 Anthropic 跳槽到谷歌 DeepMind 的清華校友姚順宇,也參與了 Deep think 新模型的開發。

姚順宇本科就讀於清華大學物理系,曾拿下過清華本科生特等獎學金(清華授予在校優秀本科生的最高獎學金榮譽)。
本科期間,他就已在《Physical Review Letters》(國際物理學領域最頂級的學術期刊之一)發表高水平論文,首次在國際上給出了關於非厄米系統的拓撲能帶理論,不僅準確預測了相關現象,還定義了兩個新的物理概念。
本科畢業後,他赴斯坦福大學繼續攻讀博士,專注於量子多體混沌、開放量子系統動力學等前沿問題,師從 Douglas Stanford(美國理論物理學家,被同行視為頂尖且有潛力改變物理學發展方向的年輕科學家之一)、Zhenbin Yang(楊振斌,華裔美國科學家,公認的 20 世紀最重要的物理學家之一)等知名學者。
博士畢業後,他先是去 UC 伯克利做博士後研究,隨後加入了 Anthropic。在 Anthropic 工作的一年時間裏,他參與組建了強化學習基礎團隊,負責了 Claude 3.7 Sonnet 框架,以及 Claude 4 系列背後的基本強化學習理論。
離開 Anthropic 之後,姚順宇轉戰谷歌 DeepMind,繼續從事 AI 方面的研究。這次 Deep Think 新模型發佈,也是他在谷歌的首秀之作。
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
