Alibaba-backed Moonshot releases new Kimi AI model that beats ChatGPT, Claude in coding

阿里巴巴支持的初创公司 Moonshot 推出了其 Kimi K2 模型，这是一款低成本、开源的 AI 语言模型，在编码能力上超越了 OpenAI 的 GPT-4.1 和 Anthropic 的 Claude Opus 4。Kimi K2 免费提供，仅对每百万个输入令牌收取 15 美分，对每百万个输出令牌收取 2.50 美元，价格显著低于竞争对手。初步评价积极，尽管也注意到了一些幻觉问题。这一发布使 Moonshot 在全球 AI 市场中成为强有力的竞争者，尤其是在投资者寻求美国科技替代品的背景下

2025 年 6 月 19 日 MWC 上海科技展上的人工智能标志。

彭博社 | 彭博社 | Getty Images

北京——最新的中国生成式人工智能模型正在挑战 OpenAI 的 ChatGPT，提供编码能力——价格更低。

阿里巴巴支持的初创公司 Moonshot 在周五晚上发布了其 Kimi K2 模型：一个低成本、开源的大型语言模型——这两个因素支撑了中国 DeepSeek 在 1 月份的行业颠覆。开源技术提供免费源代码访问，这种做法在美国科技巨头中鲜有采用，除了 Meta 和 Google 在某种程度上。

巧合的是，OpenAI 首席执行官山姆·阿尔特曼在周六早些时候宣布，由于安全问题，其首个开源模型将再次无限期推迟。OpenAI 没有立即回应 CNBC 对 Kimi K2 的评论请求。

Kimi K2 的一个优势在于为应用程序编写计算机代码，这是企业看到潜力以减少或替代员工的生成式人工智能领域。OpenAI 的美国竞争对手 Anthropic 在 5 月底发布的 Claude Opus 4 模型中专注于编码。

在社交媒体平台 X 和 GitHub 上的发布公告中，Moonshot 声称 Kimi K2 在两个基准测试中超过了 Claude Opus 4，并且在多个行业指标上整体表现优于 OpenAI 专注于编码的 GPT-4.1 模型。

“毫无疑问 [Kimi K2 是] 一个具有全球竞争力的模型，而且是开源的，” Counterpoint 的人工智能首席分析师魏孙在周一的电子邮件中表示。

更便宜的选择

“此外，它的令牌成本更低，使其对大规模或预算敏感的部署具有吸引力，” 她说。

与 ChatGPT 或 Claude 不同，新的 K2 模型通过 Kimi 的应用程序和浏览器界面免费提供，而后者需要为其最新的人工智能模型支付月费订阅。

根据其网站，Kimi 每百万输入令牌仅收取 15 美分，每百万输出令牌收取 2.50 美元。令牌是衡量人工智能模型处理数据的一种方式。

相比之下，Claude Opus 4 对输入的收费是每百万令牌 15 美元，输出则是每百万令牌 75 美元，费用是其输入的 100 倍。而对于每百万令牌，GPT-4.1 的输入收费为 2 美元，输出收费为 8 美元。

Moonshot AI 在 GitHub 上表示，开发者可以随意使用 K2，唯一的要求是如果商业产品或服务的月活跃用户超过 1 亿，或月收入达到 2000 万美元，则必须在用户界面上显示 “Kimi K2”。

火热的人工智能市场

K2 在英语和中文社交媒体上的初步评价大多是积极的，尽管有一些关于幻觉的报告，这是生成式人工智能中普遍存在的问题，模型会编造信息。

尽管如此，K2 是 “自 Claude 3.5 Sonnet 以来，我觉得可以放心在生产中使用的第一个模型，” 提供设计 AI 工具的初创公司 MagicPath 的创始人皮耶特罗·希拉诺在 X 上的一篇帖子中表示。

Moonshot 已经开源了一些之前的人工智能模型。该公司的聊天机器人在去年初迅速流行，成为中国的 ChatGPT 替代品，而后者在中国并未正式提供。但字节跳动和腾讯的类似聊天机器人随后挤满了市场，而科技巨头百度则用人工智能工具重新改造了其核心搜索引擎。

Kimi 的最新人工智能发布正值投资者关注中国在全球人工智能竞争中对美国科技的替代品。

尽管对 DeepSeek 的兴奋情绪依然存在，但这家私人公司尚未宣布对其 R1 和 V3 模型的重大升级。同时，早在今年初出现的另一家 DeepSeek 类型的初创公司 Manus AI 已将其总部迁至新加坡。

在美国，OpenAI 也尚未透露 GPT-5 的消息。

Counterpoint 的孙表示，GPT-5 的开发可能占用了工程资源，阻碍了 OpenAI 在其开源模型上的进展，并补充说，发布一个强大的开源模型而不削弱专有模型的竞争优势是具有挑战性的。

Grok 4 竞争者

Kimi K2 并不是该公司最近发布的唯一模型。Moonshot 上个月推出了 Kimi 研究模型，并声称其在谷歌的 Gemini Deep Research 的 26.9 分上达到了匹配，并在一个名为 “人类最后的考试” 的基准测试中超过了 OpenAI 的版本。

Kimi 研究模型甚至在上周埃隆·马斯克的 xAI 发布 Grok 4 时被提及——后者在 “人类最后的考试” 基准测试中独自得分 25.4，但在允许使用多种人工智能工具和网络搜索时得分达到了 44.4。

“Kimi-Researcher 代表了代理人工智能的范式转变，” 纽约大学法学院的兼职教授温斯顿·马表示。他提到人工智能能够同时自主做出多个决策以完成复杂任务的能力。

“它不仅仅是生成流畅的响应，而是展示了专家级的自主推理——这种复杂的认知工作在大型语言模型中以前是缺失的，” 马说。他还是《数字战争：如何中国的科技力量塑造人工智能、区块链和网络空间的未来》的作者。

——CNBC 的维多利亚·叶对此报告做出了贡献。

Alibaba-backed Moonshot releases new Kimi AI model that beats ChatGPT, Claude in coding — and it costs less

更便宜的选择

火热的人工智能市场

Grok 4 竞争者