
成本仅为美国同类产品的两成!中国 AI 模型的低成本路径正在改写行业逻辑
瑞银研究显示,中国 AI 模型凭借参数规模较小及稀疏注意力机制等技术优势,训练成本不足美国同类产品的 10%,API 均价仅为 20% 左右。尽管价格低廉,其毛利率仍与美国同行持平(20%-40%),表明低价源于结构性成本优势而非补贴。这一成本优势正促使微软等巨头评估替换高价模型,可能重塑行业竞争格局。
价格打到美国的五分之一,利润率却不输对手——中国 AI 模型的成本优势,正在逼近一个让华尔街不得不重新定价的临界点。
当企业开始因为 token 账单失控而踩刹车,当微软据报正在评估用 DeepSeek 替换 Copilot 中更贵的 OpenAI 和 Anthropic 模型,一个过去被市场长期忽视的问题正在浮出水面:中国 AI 模型的低价,究竟是补贴撑出来的虚火,还是真实的结构性优势?
瑞银半导体团队近期发布了一份深度研究,分析师 Sundeep Gantori 对中国主要 AI 模型的训练与推理成本进行了系统性拆解。测算显示,以 MiniMax 和智谱为例,中国模型的训练成本不到 OpenAI 和 Anthropic 的 10%;API 均价低于美国同类产品的 20%;但毛利率——这个最能说明"是否在亏本卖"的指标——却与美国同行基本持平,约在 20%-40% 之间。
这意味着中国模型的低价,不是靠烧钱换来的,而是结构性成本优势的体现。

价格差距从何而来:三层成本拆解
理解这个价格差距,需要从训练、推理、基础设施三个层面分别来看。
训练阶段,中国模型的参数规模普遍小于美国对手。DeepSeek V4 的总参数量为 1.6 万亿,Kimi K2.6 约为 1 万亿,而学术论文估算 Claude Opus 4.6 和 GPT-5.5 的参数规模分别约为 10 万亿和 5 万亿。参数少,训练计算量自然低。
但参数规模只是第一步。更关键的差异在于稀疏注意力机制的应用。传统 Transformer 模型中,每个 token 需要与序列中所有其他 token 交互,计算量随上下文长度呈平方级增长。稀疏注意力通过让每个 token 只与部分相关 token 交互,大幅压缩了长上下文训练和推理的计算消耗。DeepSeek V3.2 采用了自研的稀疏注意力设计(DSA),V4 进一步在此基础上加入上下文压缩。
在计算精度上,中国模型也走在了前面。以 Nvidia B200 为例,从 BF16/FP16 切换到 FP8,理论吞吐量可以翻倍。DeepSeek-V3 率先引入 FP8 混合精度训练框架,V4 更进一步采用了 FP4 量化感知训练;百度 ERNIE 4.5/5.0、阿里 Qwen3.5 均已跟进。

基础设施层面,中国的电力成本具有实质性优势。美国主要数据中心州(伊利诺伊、佐治亚)的平均电价约为 7.9 美分/度,而中国可比地区约为 4.4 美分/度,低约 44%。反映到 GPU 租用价格上,美国市场 Nvidia H100 的租用成本约为 1.99-3.99 美元/GPU 小时,中国约为 1.3-2.1 美元/GPU 小时,低约 40%。
这三层叠加下来,中国模型的成本结构系统性低于美国同行,价格优势因此具有可持续性。
推理端:更激进的技术路径
如果说训练端的成本优势主要来自资源约束下的"被迫创新",推理端的优化则更像是主动为之。
中国模型在推理阶段普遍采用混合专家架构(MoE),并且比美国同行走得更远。MoE 的核心逻辑是:模型不需要为每个 token 激活全部参数,而是只激活其中一个子集("专家")。早期美国 MoE 模型如 GPT-4、Llama 4 Scout 通常激活约 15-30% 的总参数,而中国领先 MoE 模型通常只激活约 3-10%。DeepSeek 从 V3.2 到 V4 Pro,活跃参数比从约 5% 降至约 3%,但模型智能指数(AA Intelligence Index)反而从 42 升至 52。
KV 缓存压缩是另一个关键杠杆。在多轮对话类的智能体任务中,缓存输入成本约占总推理成本的 70%。DeepSeek V4 引入了重度压缩注意力(HCA)和压缩稀疏注意力(CSA)技术,使 V4 在相同上下文长度(100 万 token)下只需要 V3.2 约 10% 的 KV 缓存——这直接使 DeepSeek V4 Pro 的综合成本比 V3 下降约 10%,尽管性能有了显著提升。
在服务编排层面,P/D 分离(预填充与解码分离)将推理过程中计算密集型和内存密集型两个阶段拆分到不同 GPU 池,避免相互干扰;持续批处理则让 GPU 在请求完成后立即接入新请求,而非等待最慢的那个,显著提升吞吐率。MiniMax 通过其端到端基础设施团队,实现了超过 75% 的 MFU(模型算力利用率),高于行业平均水平的 40-50%。
这些技术的叠加,使得推理成本持续压缩,而毛利率仍能维持在合理水平。MiniMax M2.7 的毛利率超过 40%,与 Anthropic 2025 年约 40% 的 API 毛利率基本一致。

性能差距正在快速收窄
成本优势要真正形成市场威胁,需要配合足够的能力。这正是当前局面的关键变量。
根据 Artificial Analysis 的数据,2023 年中国前沿模型的综合智能约为美国顶尖模型的 60%;到 2025 年,这一比例已上升至约 90%。
分领域来看,差距并不均匀:
- 文本模型综合智能:已接近 90% 水平
- AI 编程:中国领先模型(如 Qwen3.7-Max、DeepSeek V4-Pro)已可比肩美国上一代模型(如 Claude Opus 4.6),但仍落后于最新前沿模型 Claude Fable 5 和 GPT-5.5
- 多模态与视频生成:全球前五名视频生成模型中,有四个来自中国
研发投入的对比同样鲜明。智谱和 MiniMax 2025 年的 R&D 支出分别约为 5 亿和 3 亿美元,合计约为 Anthropic R&D 支出的十分之一,相对 OpenAI 则更低。

这种以极低研发投入实现快速追赶的路径,有两个支撑。其一是蒸馏技术,让小模型通过模仿强模型的输出来提升能力,缩短训练周期。但行业调研认为,蒸馏效果主要局限于结果可验证、流程可重复的任务,对需要复杂多步推理或底层架构支撑的能力提升效果有限。智谱在长程推理上的进展、MiniMax 在多模态上的能力,均超出了蒸馏所能解释的范围。
其二是开源生态的集体杠杆效应。当一家实验室验证了某种架构或训练方法,其他实验室可以直接在此基础上迭代,而无需重复相同的大规模实验。Kimi K2 和 GLM-5 采用了类似 DeepSeek 验证过的 MLA 潜在注意力设计;DeepSeek V4 引入了 Moonshot AI/Kimi 的 Muon 优化器;Qwen3 和智谱 GLM-4.5 均采用了 DeepSeek 验证的 GRPO 强化学习方案。这种"集体实验、分散受益"的模式,使整个中国 AI 生态的 R&D 边际成本系统性低于各自为战的美国闭源模型。

企业正在踩刹车,这对谁有利
成本压力已经从宏观讨论落地为具体的企业行为。
Uber 在 2026 年 4 月就用完了全年 AI 预算,随后对员工个人 AI 工具的月度 token 消耗设置了 1500 美元上限。Walmart 限制了内部 AI 智能体的 token 使用量。Amazon 警告员工不要"为了用 AI 而用 AI",并关闭了助长无效使用的内部 AI-token 排行榜。软件公司 Workato 在 Anthropic 从订阅制切换到按 token 计费的第一天,支出直接翻了 7 倍——首席信息官 Carter Busse 直言:"我们创造了一个怪物。"
OpenAI CEO 山姆·奥特曼今年也公开承认,成本已成为客户面临的"巨大问题",而去年这个问题几乎不存在。
根据 SiliconData 的 LLM Token 支出指数(以支出/使用量加权的平均 token 价格),今年 5 月之前该指数持续攀升,近期已出现明显回落,可能反映企业正在从高端闭源模型转向更经济的替代品。咨询公司 Entelligence 对 2444 家企业的调查显示,企业 AI 编程支出中,只有 18% 最终转化为生产输出,其余 82% 被 bug 修复、代码重写和审查延误所消耗。
这种从"尽可能多用"到"每一分钱花得值"的转变,是中国模型最直接的市场机遇所在。当采购决策从"选最强的"变成"选够用且最便宜的",成本结构的差异就从技术话题变成了商业现实。
全球 10 万亿美元市场的切入逻辑
该行估算全球 AI 长期市场规模可能超过 10 万亿美元。逻辑链条并不复杂:全球 GDP 已超过 110 万亿美元,劳动收入占比约 50-60%;若 AI 能替代或增强约 20% 的人类劳动与认知工作,可寻址市场即超过 10 万亿美元。
中国在这个市场上的位置,并非只能做价格战工具。从 2019 年到 2025 年,美国累计训练了 223 个大型 AI 系统,中国为 192 个,两者远超其他所有国家,约为排名第三的法国的 10 倍。在 Artificial Analysis 全球前 20 名模型榜单中,只有一个来自法国(Mistral),其余全部来自美国或中国公司。
对于中国模型的全球扩张路径,该行给出了三个场景:
成本主导场景(类比光伏):若中国模型最终在能力上与全球头部产品趋同,且 token 调用趋于同质化,竞争将主要由成本驱动。中国在光伏领域已建立超过 80% 的全球市占率。这是乐观上限。
性价比场景(类比电动车、智能手机、家电):中国模型在绝对智能上仍落后,但价格优势明显,在中高端以下的大量用量场景中获取 30-50% 的全球份额。这是瑞银的基准预期。
性能或生态主导场景(类比云计算和操作系统):若美国前沿模型保持明显能力领先,且 AI 深度嵌入企业工作流(通过 AI 智能体),竞争就会从单一模型定价转向生态系统建设。在这种情况下,用户数据和工作流积累形成壁垒,中国模型的全球份额可能维持在个位数低段到 10% 以下。
瑞银认为中间那条路——性价比场景——是更可能的基准,理由是需求将趋于分层:复杂、高价值任务仍会为顶尖模型支付溢价,而大量高频、ROI 敏感的工作量将流向更便宜的替代品。
这一分层逻辑也在技术层面有支撑。随着模型能力向网络安全、自主工具使用等高风险领域延伸,头部模型可能面临越来越严格的访问限制。Anthropic 的 Claude Mythos Preview 据报道已被限制在少数可信组织内使用,原因是其在网络安全领域展示出的能力(包括识别主流操作系统和浏览器漏洞)引发了滥用风险担忧。最强大的模型不一定对所有用户开放,这本身就会加速市场分层,并为成本更低的模型腾出空间。

地缘政治是这个逻辑链条中最大的不确定变量。美国政府已限制 Claude Fable 的海外访问,高盛交易台负责人 Rich Privorotsky 将此定性为 AI 竞争"可能已进入地缘政治管控阶段"的信号。但瑞银认为这一风险可被分散,因为除美国以外,欧洲、亚洲、中东等地区目前均缺乏本地头部基础模型,这为中国模型的全球扩张留下了可观的空间。
高盛:定价权争夺战,低成本 AI 是刺激需求还是摧毁溢价?
瑞银的判断与高盛 One-Delta 交易台负责人 Rich Privorotsky 近期的市场分析形成了呼应。
Privorotsky 在报告中指出,AI 板块正面临两股相互对立的力量:一方面是更广泛的应用普及与算力需求上升,另一方面是代币通缩加剧、货币化前景存疑以及股票供给持续扩大。他援引 OpenRouter 的实验结果称,由 Gemini 3 Flash、Kimi K2.6 和 DeepSeek V4 Pro 组成的模型组合,在基准测试中全面超越单独运行的 GPT-5.5 和 Opus 4.8,并以约一半的成本将性能差距缩小至距 Fable 5 不足 1% 以内。
Privorotsky 将这一趋势定性为"市场一直低估的方向"——AI 智能竞赛的逻辑正在从"谁拥有最强的单一模型"转向"谁能最有效地编排多个模型",开源生态系统的权重随之上升。他将核心矛盾提炼为一个"价值万亿的问题":"更低的智能成本,究竟创造的需求多,还是摧毁的定价权多?"
看多逻辑在于:成本下降与访问门槛降低,最终应推动代币消耗量与算力需求同步扩张。看空逻辑则在于:这一趋势加速了代币通缩,并对现有模型经济学的可持续性构成根本性质疑——而他认为,后者正获得越来越多的市场关注。这一问题的答案,直接关系到当前 AI 板块数万亿美元市值的合理性,也将深刻影响中国模型全球扩张的最终边界。
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
