Google announces: AI has surpassed the level of math Olympiad gold medals

华尔街见闻
2025.02.08 04:21
portai
I'm PortAI, I can summarize articles.

谷歌 DeepMind 最新 AI 系统在国际数学奥林匹克竞赛几何题目大规模测试中首次超越金牌得主水平,解决率达 84%。研究团队认为,几何推理能力是构建通用人工智能的关键,这一突破为 AI 发展开辟新路径。

昨日,谷歌宣布 DeepMind 创造了人工智能领域的新纪录:其最新 AI 系统 AlphaGeometry2,在国际数学奥林匹克竞赛 (IMO) 的大规模几何题目测试中,首次超越人类金牌得主水平。

研究团队从 2000 年到 2024 年的 IMO 竞赛中精选了 45 道几何题目,经过技术处理后转化为 50 道标准题目。测试结果显示,AlphaGeometry2 成功解答了其中的 42 道,已经超过了金牌得主 40.9 分的平均成绩。

DeepMind 的这一突破意义深远。研究团队认为,解决具有挑战性的几何问题(特别是欧几里得几何问题)所需的推理能力和策略选择能力,正是构建下一代通用人工智能的关键要素。

网友表示,「接近完美」。

AG2,一举超越 IMO 金牌得主

DeepMind 之所以对这个高中数学竞赛如此重视,源于一个深层洞察:解决欧几里得几何问题的能力可能是构建更强大 AI 系统的关键。

证明数学定理需要同时具备推理能力和在多个可能步骤中做出选择的能力,这些问题解决技能可能成为未来通用 AI 模型的重要组成部分。

事实上,在 2024 年夏天的一次演示中,DeepMind 将 AlphaGeometry2 与数学形式推理 AI 模型 AlphaProof 结合,成功解决了当年 IMO 竞赛 6 道题目中的 4 道。

在技术架构上,AlphaGeometry2 采用了一种混合方案,将谷歌 Gemini 系列的语言模型与专门的符号运算引擎相结合。

在解题过程中,Gemini 模型负责预测解题可能需要的几何构造(如添加辅助点线或圆),而符号引擎则基于严格的数学规则进行推导。两个模块通过并行搜索算法协同工作,将发现的有用信息存储在共享知识库中。当系统能够将 Gemini 模型的建议与符号引擎的已知原理结合,得出完整证明时,即认为完成了问题求解。

为了克服几何训练数据匮乏的困境,研究团队自主生成了超过 3 亿个不同复杂度的定理和证明用于训练。这种大规模的合成数据训练方法,为 AI 在特定领域实现突破提供了新的范例。

然而,AlphaGeometry2 的能力仍存在明显边界。它无法处理包含可变点数、非线性方程和不等式的问题。在研究团队专门挑选的 29 道更具挑战性的 IMO 候选题中,系统仅能解决 20 道。

这一突破引发了对 AI 发展路径的深入思考。传统上,AI 领域存在两种主要方法:基于符号操作的方法(通过规则操作代表知识的符号)和类似人脑的神经网络方法。

AlphaGeometry2 采用混合架构:其 Gemini 模型采用神经网络架构,而符号引擎则基于规则运算。根据 Deepmind 的论文,在测试中,同样采用神经网络架构的 OpenAI o1 模型无法解决任何 AlphaGeometry2 成功解答的 IMO 问题。

卡内基梅隆大学 AI 专家 Vince Conitzer 表示:

"在这些基准测试上取得惊人进展的同时,包括最新的'推理型'在内的语言模型仍在一些简单的常识问题上举步维艰,这种对比令人深思。

这不是虚假繁荣,但说明我们仍然无法准确预测下一个系统的行为。考虑到这些系统可能产生的重大影响,我们迫切需要更好地理解它们及其潜在风险。"

但这种情况可能不会永远持续下去。在论文中,DeepMind 团队表示,他们发现了初步证据,表明 AlphaGeometry2 的语言模型部分已显示出无需符号引擎辅助也能生成部分解决方案的潜力。

不过,研究团队同时强调,在模型运算速度得到根本改善、"幻觉"问题彻底解决之前,符号运算等外部工具仍将在数学应用中扮演不可或缺的角色。