成本仅为美国同类产品的两成！中国 AI 模型的低成本路径正在改写行业逻辑

瑞银研究显示，中国 AI 模型凭借参数规模较小及稀疏注意力机制等技术优势，训练成本不足美国同类产品的 10%，API 均价仅为 20% 左右。尽管价格低廉，其毛利率仍与美国同行持平（20%-40%），表明低价源于结构性成本优势而非补贴。这一成本优势正促使微软等巨头评估替换高价模型，可能重塑行业竞争格局。

价格打到美国的五分之一，利润率却不输对手——中国 AI 模型的成本优势，正在逼近一个让华尔街不得不重新定价的临界点。

当企业开始因为 token 账单失控而踩刹车，当微软据报正在评估用 DeepSeek 替换 Copilot 中更贵的 OpenAI 和 Anthropic 模型，一个过去被市场长期忽视的问题正在浮出水面：中国 AI 模型的低价，究竟是补贴撑出来的虚火，还是真实的结构性优势？

瑞银半导体团队近期发布了一份深度研究，分析师 Sundeep Gantori 对中国主要 AI 模型的训练与推理成本进行了系统性拆解。测算显示，以 MiniMax 和智谱为例，中国模型的训练成本不到 OpenAI 和 Anthropic 的 10%；API 均价低于美国同类产品的 20%；但毛利率——这个最能说明"是否在亏本卖"的指标——却与美国同行基本持平，约在 20%-40% 之间。

这意味着中国模型的低价，不是靠烧钱换来的，而是结构性成本优势的体现。

价格差距从何而来：三层成本拆解

理解这个价格差距，需要从训练、推理、基础设施三个层面分别来看。

训练阶段，中国模型的参数规模普遍小于美国对手。DeepSeek V4 的总参数量为 1.6 万亿，Kimi K2.6 约为 1 万亿，而学术论文估算 Claude Opus 4.6 和 GPT-5.5 的参数规模分别约为 10 万亿和 5 万亿。参数少，训练计算量自然低。

但参数规模只是第一步。更关键的差异在于稀疏注意力机制的应用。传统 Transformer 模型中，每个 token 需要与序列中所有其他 token 交互，计算量随上下文长度呈平方级增长。稀疏注意力通过让每个 token 只与部分相关 token 交互，大幅压缩了长上下文训练和推理的计算消耗。DeepSeek V3.2 采用了自研的稀疏注意力设计（DSA），V4 进一步在此基础上加入上下文压缩。

在计算精度上，中国模型也走在了前面。以 Nvidia B200 为例，从 BF16/FP16 切换到 FP8，理论吞吐量可以翻倍。DeepSeek-V3 率先引入 FP8 混合精度训练框架，V4 更进一步采用了 FP4 量化感知训练；百度 ERNIE 4.5/5.0、阿里 Qwen3.5 均已跟进。

基础设施层面，中国的电力成本具有实质性优势。美国主要数据中心州（伊利诺伊、佐治亚）的平均电价约为 7.9 美分/度，而中国可比地区约为 4.4 美分/度，低约 44%。反映到 GPU 租用价格上，美国市场 Nvidia H100 的租用成本约为 1.99-3.99 美元/GPU 小时，中国约为 1.3-2.1 美元/GPU 小时，低约 40%。

这三层叠加下来，中国模型的成本结构系统性低于美国同行，价格优势因此具有可持续性。

推理端：更激进的技术路径

如果说训练端的成本优势主要来自资源约束下的"被迫创新"，推理端的优化则更像是主动为之。

中国模型在推理阶段普遍采用混合专家架构（MoE），并且比美国同行走得更远。MoE 的核心逻辑是：模型不需要为每个 token 激活全部参数，而是只激活其中一个子集（"专家"）。早期美国 MoE 模型如 GPT-4、Llama 4 Scout 通常激活约 15-30% 的总参数，而中国领先 MoE 模型通常只激活约 3-10%。DeepSeek 从 V3.2 到 V4 Pro，活跃参数比从约 5% 降至约 3%，但模型智能指数（AA Intelligence Index）反而从 42 升至 52。

KV 缓存压缩是另一个关键杠杆。在多轮对话类的智能体任务中，缓存输入成本约占总推理成本的 70%。DeepSeek V4 引入了重度压缩注意力（HCA）和压缩稀疏注意力（CSA）技术，使 V4 在相同上下文长度（100 万 token）下只需要 V3.2 约 10% 的 KV 缓存——这直接使 DeepSeek V4 Pro 的综合成本比 V3 下降约 10%，尽管性能有了显著提升。

在服务编排层面，P/D 分离（预填充与解码分离）将推理过程中计算密集型和内存密集型两个阶段拆分到不同 GPU 池，避免相互干扰；持续批处理则让 GPU 在请求完成后立即接入新请求，而非等待最慢的那个，显著提升吞吐率。MiniMax 通过其端到端基础设施团队，实现了超过 75% 的 MFU（模型算力利用率），高于行业平均水平的 40-50%。

这些技术的叠加，使得推理成本持续压缩，而毛利率仍能维持在合理水平。MiniMax M2.7 的毛利率超过 40%，与 Anthropic 2025 年约 40% 的 API 毛利率基本一致。

性能差距正在快速收窄

成本优势要真正形成市场威胁，需要配合足够的能力。这正是当前局面的关键变量。

根据 Artificial Analysis 的数据，2023 年中国前沿模型的综合智能约为美国顶尖模型的 60%；到 2025 年，这一比例已上升至约 90%。

分领域来看，差距并不均匀：

文本模型综合智能：已接近 90% 水平
AI 编程：中国领先模型（如 Qwen3.7-Max、DeepSeek V4-Pro）已可比肩美国上一代模型（如 Claude Opus 4.6），但仍落后于最新前沿模型 Claude Fable 5 和 GPT-5.5
多模态与视频生成：全球前五名视频生成模型中，有四个来自中国

研发投入的对比同样鲜明。智谱和 MiniMax 2025 年的 R&D 支出分别约为 5 亿和 3 亿美元，合计约为 Anthropic R&D 支出的十分之一，相对 OpenAI 则更低。

这种以极低研发投入实现快速追赶的路径，有两个支撑。其一是蒸馏技术，让小模型通过模仿强模型的输出来提升能力，缩短训练周期。但行业调研认为，蒸馏效果主要局限于结果可验证、流程可重复的任务，对需要复杂多步推理或底层架构支撑的能力提升效果有限。智谱在长程推理上的进展、MiniMax 在多模态上的能力，均超出了蒸馏所能解释的范围。

其二是开源生态的集体杠杆效应。当一家实验室验证了某种架构或训练方法，其他实验室可以直接在此基础上迭代，而无需重复相同的大规模实验。Kimi K2 和 GLM-5 采用了类似 DeepSeek 验证过的 MLA 潜在注意力设计；DeepSeek V4 引入了 Moonshot AI/Kimi 的 Muon 优化器；Qwen3 和智谱 GLM-4.5 均采用了 DeepSeek 验证的 GRPO 强化学习方案。这种"集体实验、分散受益"的模式，使整个中国 AI 生态的 R&D 边际成本系统性低于各自为战的美国闭源模型。

企业正在踩刹车，这对谁有利

成本压力已经从宏观讨论落地为具体的企业行为。

Uber 在 2026 年 4 月就用完了全年 AI 预算，随后对员工个人 AI 工具的月度 token 消耗设置了 1500 美元上限。Walmart 限制了内部 AI 智能体的 token 使用量。Amazon 警告员工不要"为了用 AI 而用 AI"，并关闭了助长无效使用的内部 AI-token 排行榜。软件公司 Workato 在 Anthropic 从订阅制切换到按 token 计费的第一天，支出直接翻了 7 倍——首席信息官 Carter Busse 直言："我们创造了一个怪物。"

OpenAI CEO 山姆·奥特曼今年也公开承认，成本已成为客户面临的"巨大问题"，而去年这个问题几乎不存在。

根据 SiliconData 的 LLM Token 支出指数（以支出/使用量加权的平均 token 价格），今年 5 月之前该指数持续攀升，近期已出现明显回落，可能反映企业正在从高端闭源模型转向更经济的替代品。咨询公司 Entelligence 对 2444 家企业的调查显示，企业 AI 编程支出中，只有 18% 最终转化为生产输出，其余 82% 被 bug 修复、代码重写和审查延误所消耗。

这种从"尽可能多用"到"每一分钱花得值"的转变，是中国模型最直接的市场机遇所在。当采购决策从"选最强的"变成"选够用且最便宜的"，成本结构的差异就从技术话题变成了商业现实。

全球 10 万亿美元市场的切入逻辑

该行估算全球 AI 长期市场规模可能超过 10 万亿美元。逻辑链条并不复杂：全球 GDP 已超过 110 万亿美元，劳动收入占比约 50-60%；若 AI 能替代或增强约 20% 的人类劳动与认知工作，可寻址市场即超过 10 万亿美元。

中国在这个市场上的位置，并非只能做价格战工具。从 2019 年到 2025 年，美国累计训练了 223 个大型 AI 系统，中国为 192 个，两者远超其他所有国家，约为排名第三的法国的 10 倍。在 Artificial Analysis 全球前 20 名模型榜单中，只有一个来自法国（Mistral），其余全部来自美国或中国公司。

对于中国模型的全球扩张路径，该行给出了三个场景：

成本主导场景（类比光伏）：若中国模型最终在能力上与全球头部产品趋同，且 token 调用趋于同质化，竞争将主要由成本驱动。中国在光伏领域已建立超过 80% 的全球市占率。这是乐观上限。

性价比场景（类比电动车、智能手机、家电）：中国模型在绝对智能上仍落后，但价格优势明显，在中高端以下的大量用量场景中获取 30-50% 的全球份额。这是瑞银的基准预期。

性能或生态主导场景（类比云计算和操作系统）：若美国前沿模型保持明显能力领先，且 AI 深度嵌入企业工作流（通过 AI 智能体），竞争就会从单一模型定价转向生态系统建设。在这种情况下，用户数据和工作流积累形成壁垒，中国模型的全球份额可能维持在个位数低段到 10% 以下。

瑞银认为中间那条路——性价比场景——是更可能的基准，理由是需求将趋于分层：复杂、高价值任务仍会为顶尖模型支付溢价，而大量高频、ROI 敏感的工作量将流向更便宜的替代品。

这一分层逻辑也在技术层面有支撑。随着模型能力向网络安全、自主工具使用等高风险领域延伸，头部模型可能面临越来越严格的访问限制。Anthropic 的 Claude Mythos Preview 据报道已被限制在少数可信组织内使用，原因是其在网络安全领域展示出的能力（包括识别主流操作系统和浏览器漏洞）引发了滥用风险担忧。最强大的模型不一定对所有用户开放，这本身就会加速市场分层，并为成本更低的模型腾出空间。

地缘政治是这个逻辑链条中最大的不确定变量。美国政府已限制 Claude Fable 的海外访问，高盛交易台负责人 Rich Privorotsky 将此定性为 AI 竞争"可能已进入地缘政治管控阶段"的信号。但瑞银认为这一风险可被分散，因为除美国以外，欧洲、亚洲、中东等地区目前均缺乏本地头部基础模型，这为中国模型的全球扩张留下了可观的空间。

高盛：定价权争夺战，低成本 AI 是刺激需求还是摧毁溢价？

瑞银的判断与高盛 One-Delta 交易台负责人 Rich Privorotsky 近期的市场分析形成了呼应。

Privorotsky 在报告中指出，AI 板块正面临两股相互对立的力量：一方面是更广泛的应用普及与算力需求上升，另一方面是代币通缩加剧、货币化前景存疑以及股票供给持续扩大。他援引 OpenRouter 的实验结果称，由 Gemini 3 Flash、Kimi K2.6 和 DeepSeek V4 Pro 组成的模型组合，在基准测试中全面超越单独运行的 GPT-5.5 和 Opus 4.8，并以约一半的成本将性能差距缩小至距 Fable 5 不足 1% 以内。

Privorotsky 将这一趋势定性为"市场一直低估的方向"——AI 智能竞赛的逻辑正在从"谁拥有最强的单一模型"转向"谁能最有效地编排多个模型"，开源生态系统的权重随之上升。他将核心矛盾提炼为一个"价值万亿的问题"："更低的智能成本，究竟创造的需求多，还是摧毁的定价权多？"

看多逻辑在于：成本下降与访问门槛降低，最终应推动代币消耗量与算力需求同步扩张。看空逻辑则在于：这一趋势加速了代币通缩，并对现有模型经济学的可持续性构成根本性质疑——而他认为，后者正获得越来越多的市场关注。这一问题的答案，直接关系到当前 AI 板块数万亿美元市值的合理性，也将深刻影响中国模型全球扩张的最终边界。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。