Anthropic 推出 Claude Sonnet 4.5，號稱 “全球最佳編碼模型”

Anthropic 于 9 月 29 日推出了 Claude Sonnet 4.5，声称其为 “全球最佳编码模型”。该模型在 SWE-bench Verified 等基准测试中表现出色，能够生成高质量代码，识别改进点，并可靠地遵循指令。与旧模型相比，Sonnet 4.5 在特定领域的知识和推理能力上有显著提升。新模型将作为默认选项，价格与上一代保持一致，付费用户可选择旧的 Opus 模型。Anthropic 还暗示将推出更多强大的模型。

Anthropic 宣称推出 “全球最佳编码模型”。

9 月 29 日，Anthropic 推出了其最新的 AI 模型 Claude Sonnet 4.5。公司称依据 SWE-bench Verified（一项衡量 AI 系统软件编码能力的测试标准）等行业基准，Claude Sonnet 4.5 堪称 “全球最佳编码模型”。

该模型能生成更高质量的代码，更擅长识别代码改进点，并且能更可靠地遵循指令。这款模型在编码基准测试中展现出顶尖性能，不仅能构建 “可投入生产使用” 的应用程序，而非仅停留在原型阶段。

同时，金融、法律、医学等领域的专家发现，与包括 Opus 4.1 在内的旧模型相比，Sonnet 4.5 在特定领域的知识和推理能力上表现出显著提升。

Anthropic 表示，新模型将作为用户的默认选项，且价格与上一代 Sonnet 4 保持一致。不过，付费订阅用户仍可选择使用旧的 Opus 模型。

展望未来，Anthropic 已暗示更多模型即将问世。Anthropic 联合创始人兼首席科学官 Jared Kaplan 透露，更强大的模型正在开发中，其中 “极有可能包括 Opus” 的新版本。他表示：

虽然没有承诺，但我认为在今年年底前，我们可能还会有一次或两次发布。

全面升级的性能与自主性

Claude Sonnet 4.5 不仅在模型尺寸上进行了优化，更在核心能力上实现了全面超越。

Anthropic 表示，根据衡量 AI 系统真实软件编码能力的 SWE-bench Verified 评估，该模型已达到业界顶尖水平。

在测试真实计算机操作任务的 OSWorld 基准测试中，Sonnet 4.5 的得分从四个月前的 42.2% 跃升至 61.4%，处于领先地位。

Jared Kaplan 表示：

用户会注意到，这个模型更智能，更像一个同事，在遇到和解决问题时与它合作会很有趣。

Anthropic 首席产品官 Mike Krieger 则表示，尽管 Sonnet 4.5 模型比此前的 Opus 4.1 更小，但在几乎所有方面都更为智能，能够为 “真实的、实际的工作” 提供有效支持。

该模型可自主运行长达 30 小时，远超前代模型的 7 小时，能够持续专注于复杂的多步骤任务。有网友初步测评后指出比以前模型输出更好，但有时会缺少其强调的关键内容：

对 Claude Sonnet 4.5 的初步想法：速度更快的模型，比以前的模型思考和输出更好；似乎缺少很多修复和我指出的关键事项，没有正确遵循说明；当它确实修复或创建我所需要的东西时，它达到了高标准。

安全与对齐的显著跃升

除了性能提升，Anthropic 强调 Claude Sonnet 4.5 是其迄今为止 “最一致的模型”。

公司通过广泛的安全训练，显著改善了模型的行为，减少了如欺骗、权力寻求和 “奉承”（即模型迎合用户预期）等 “令人担忧的行为”。

此外，新模型对 “提示词注入攻击” 具有更强的抵抗力，这种攻击会诱导模型执行恶意操作，如泄露敏感数据。Kaplan 称：

这可能是过去一年半以来我们在安全性方面看到的最大飞跃。

该模型在 AI 安全等级 3（ASL-3）的保护下发布，配备了旨在检测化学、生物、放射性和核（CBRN）武器相关危险内容的分类器，同时公司已将误报率大幅降低。

赋能开发者的 Agent SDK

伴随新模型发布，Anthropic 还推出了一系列产品升级，其中最引人注目的是 Claude Agent SDK。

这是一个供开发者使用的软件开发工具包，其底层基础设施与驱动 Anthropic 旗下产品 Claude Code 的基础设施相同。

该公司表示，此举将解决构建 AI 代理（agent）时遇到的棘手问题，如长期任务的内存管理、平衡自主性与用户控制的权限系统以及协调子代理等。

通过开放这一工具包，Anthropic 旨在让开发者能够为更广泛任务构建功能强大的定制化 AI 代理。

其他产品更新还包括为 Claude Code 增加的 “检查点” 功能、新的 VS Code 原生扩展、以及在付费应用中直接集成代码执行和文件创建（电子表格、幻灯片、文档）等功能。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。