OpenAI launches "PaperBench" test to prove the strongest AI agent has not surpassed humans

星岛网

2025.04.03 02:41

I'm PortAI, I can summarize articles.

OpenAI 于昨日推出全新基准测试「PaperBench」，旨在评估 AI Agent 复制顶尖 AI 研究的能力。测试结果显示，即使是最先进的 AI 模型，表现也未能超越人类基准线。PaperBench 要求 AI Agent 从零开始复制 20 篇 ICML 2024 会议的论文，结果显示表现最佳的 AI Agent 仅达 21% 的复制分数。OpenAI 已开源相关代码，以促进对 AI Agent 工程能力的研究。

OpenAI 推「PaperBench」测试证最强 AI Agent 未超越人类

OpenAI 于昨日（2 日）宣布推出全新基准测试「PaperBench」，旨在评估 AI Agent 复制顶尖 AI 研究的能力，结果显示即使最先进模型仍未超越人类基准线。

PaperBench 要求 AI Agent 从零开始复制 20 篇于 ICML 2024 会议上发表的 Spotlight 和 Oral 论文，包括理解论文核心贡献、独立开发代码库及成功执行相关实验。为确保评估公正客观，研究团队设计了层级化评分标准，将每项复制任务分解为 8,316 个可独立评分的子任务。

OpenAI 表示，所有评分标准均与原论文作者共同制定，以确保评估的准确性和实用性。团队同时开发了基于大型语言模型的评判系统，能够自动对 AI Agent 的复制尝试进行评分。

测试结果显示，目前表现最佳的 AI Agent，由 Anthropic 开发的 Claude 3.5 Sonnet（新版本），平均复制分数仅达 21%。研究团队亦邀请顶尖机器学习博士生完成相同测试，结果表明 AI 模型尚未能超越人类专家在研究复制方面的能力。目前 OpenAI 已开源相关代码，以促进业界对 AI Agent 工程能力的进一步研究。