剛剛 OpenAI 推出更可靠的代碼生成評估基準:SWE-bench Verified。 發佈 blog 裏最重要的一句話是:“隨着我們的系統越來越接近 AGI,我們需要在越來越具有挑戰性的任務中對它們進行評估”。 該基準是對現有 SWE-bench 的改進版本(子集),旨在更可靠地評估 AI 模型解決現實世界軟件問題的能力。 SWE-bench 是一個流行的軟件工程評估套件,用於評估大型語言模型 (LLM) 解決從 GitHub 提取的真實軟件問題的能力。它通過向 AI 代理提供代碼庫和問題描述,並要求其生成修復問題的補丁來進行評估。雖然 LLM 在 SWE-bench 上取得了令人矚目的進展,但 OpenAI 的研究發現,該基準存在一些問題,可能導致低估模型的自主軟件工程能力。 具體來説,OpenAI 指出了 SWE-bench 的三個主要問題: 1.單元測試過於嚴格:用於評估解決方案正確性的單元測試通常過於具體,甚至與問題無關,這可能導致拒絕正確的解決方案。 2.問題描述不明確:許多樣本的問題描述不夠具體,導致對問題及其解決方案的理解存在歧義。 3.開發環境難以設置:有時難以可靠地為代理設置 SWE-bench 開發環境,這可能導致單元測試無論解決方案如何都會失敗。 為了解決這些問題,OpenAI 與專業的軟件開發人員合作,對 SWE-bench 測試集中的每個樣本進行了人工篩選,以確保單元測試的範圍適當且問題描述明確。最終,他們發佈了 SWE-bench Verified,這是一個包含 500 個樣本的經過驗證的子集,並取代了原始的 SWE-bench 和 SWE-bench Lite 測試集。 此外,OpenAI 還與 SWE-bench 的作者合作,開發了一個新的評估工具,該工具使用容器化的 Docker 環境,使在 SWE-bench 上進行評估更容易、更可靠。 在 SWE-bench Verified 上,GPT-4o 解決了 33.2% 的樣本,而表現最佳的開源代理框架 Agentless 的得分翻了一番,達到 16%。 OpenAI 的這項研究突出了深入理解和改進評估基準的重要性,特別是當 AI 系統越來越接近通用人工智能 (AGI) 時。隨着 AI 模型能力的不斷提高,我們需要更加謹慎地評估其性能,以確保評估結果準確反映模型的真實能力。 OpenAI 建議: 深入理解基準: 即使是精心設計的基準也可能存在問題,需要持續改進。 考慮生態系統的進步: 關注社區在代理框架方面的進展,並在評估風險時考慮潛在的外部增強功能 認識到侷限性: 基於靜態數據集的評估存在固有限制,需要補充其他評估方法。 詳細信息:https://openai.com/index/introducing-swe-bench-verified/