OpenAI launches SWE-bench Verified: Existing frameworks underestimate the software engineering capabilities of models

OpenAI 推出 SWE-bench Verified，對現有 SWE-bench 進行改進，旨在更可靠地評估 AI 模型解決軟件問題的能力。該舉措是為了在系統接近 AGI 的情況下，能夠對其在具有挑戰性的任務中進行評估。這是一項與業務相關的信息，屬於公司重要事件信息。

剛剛 OpenAI 推出更可靠的代碼生成評估基準：SWE-bench Verified。

發佈 blog 裏最重要的一句話是：“隨着我們的系統越來越接近 AGI，我們需要在越來越具有挑戰性的任務中對它們進行評估”。

該基準是對現有 SWE-bench 的改進版本（子集），旨在更可靠地評估 AI 模型解決現實世界軟件問題的能力。

SWE-bench 是一個流行的軟件工程評估套件，用於評估大型語言模型 (LLM) 解決從 GitHub 提取的真實軟件問題的能力。它通過向 AI 代理提供代碼庫和問題描述，並要求其生成修復問題的補丁來進行評估。雖然 LLM 在 SWE-bench 上取得了令人矚目的進展，但 OpenAI 的研究發現，該基準存在一些問題，可能導致低估模型的自主軟件工程能力。

具體來説，OpenAI 指出了 SWE-bench 的三個主要問題：

1.單元測試過於嚴格：用於評估解決方案正確性的單元測試通常過於具體，甚至與問題無關，這可能導致拒絕正確的解決方案。

2.問題描述不明確：許多樣本的問題描述不夠具體，導致對問題及其解決方案的理解存在歧義。

3.開發環境難以設置：有時難以可靠地為代理設置 SWE-bench 開發環境，這可能導致單元測試無論解決方案如何都會失敗。

為了解決這些問題，OpenAI 與專業的軟件開發人員合作，對 SWE-bench 測試集中的每個樣本進行了人工篩選，以確保單元測試的範圍適當且問題描述明確。最終，他們發佈了 SWE-bench Verified，這是一個包含 500 個樣本的經過驗證的子集，並取代了原始的 SWE-bench 和 SWE-bench Lite 測試集。

此外，OpenAI 還與 SWE-bench 的作者合作，開發了一個新的評估工具，該工具使用容器化的 Docker 環境，使在 SWE-bench 上進行評估更容易、更可靠。

在 SWE-bench Verified 上，GPT-4o 解決了 33.2% 的樣本，而表現最佳的開源代理框架 Agentless 的得分翻了一番，達到 16%。

OpenAI 的這項研究突出了深入理解和改進評估基準的重要性，特別是當 AI 系統越來越接近通用人工智能 (AGI) 時。隨着 AI 模型能力的不斷提高，我們需要更加謹慎地評估其性能，以確保評估結果準確反映模型的真實能力。

OpenAI 建議：

深入理解基準: 即使是精心設計的基準也可能存在問題，需要持續改進。

考慮生態系統的進步: 關注社區在代理框架方面的進展，並在評估風險時考慮潛在的外部增強功能

認識到侷限性: 基於靜態數據集的評估存在固有限制，需要補充其他評估方法。

詳細信息：https://openai.com/index/introducing-swe-bench-verified/