
OpenAI launches "PaperBench" test to prove the strongest AI agent has not surpassed humans

I'm PortAI, I can summarize articles.
OpenAI 于昨日推出全新基准测试「PaperBench」,旨在评估 AI Agent 复制顶尖 AI 研究的能力。测试结果显示,即使是最先进的 AI 模型,表现也未能超越人类基准线。PaperBench 要求 AI Agent 从零开始复制 20 篇 ICML 2024 会议的论文,结果显示表现最佳的 AI Agent 仅达 21% 的复制分数。OpenAI 已开源相关代码,以促进对 AI Agent 工程能力的研究。
OpenAI 于昨日(2 日)宣布推出全新基准测试「PaperBench」,旨在评估 AI Agent 复制顶尖 AI 研究的能力,结果显示即使最先进模型仍未超越人类基准线。
PaperBench 要求 AI Agent 从零开始复制 20 篇于 ICML 2024 会议上发表的 Spotlight 和 Oral 论文,包括理解论文核心贡献、独立开发代码库及成功执行相关实验。为确保评估公正客观,研究团队设计了层级化评分标准,将每项复制任务分解为 8,316 个可独立评分的子任务。
OpenAI 表示,所有评分标准均与原论文作者共同制定,以确保评估的准确性和实用性。团队同时开发了基于大型语言模型的评判系统,能够自动对 AI Agent 的复制尝试进行评分。
测试结果显示,目前表现最佳的 AI Agent,由 Anthropic 开发的 Claude 3.5 Sonnet(新版本),平均复制分数仅达 21%。研究团队亦邀请顶尖机器学习博士生完成相同测试,结果表明 AI 模型尚未能超越人类专家在研究复制方面的能力。目前 OpenAI 已开源相关代码,以促进业界对 AI Agent 工程能力的进一步研究。
