Alibaba DeepSeek moment! Open-source new architecture model: inference 10 times faster, cost reduced by 90%

华尔街见闻
2025.09.12 00:15
portai
I'm PortAI, I can summarize articles.

阿里巴巴于今晨开源新架构模型 Qwen3-Next-80B-A3B,采用混合注意力机制和高稀疏性 MoE,训练成本较 Qwen3-32B 降低 90%,推理效率提升 10 倍。该模型在超长文本处理上表现优异,性能可媲美阿里旗舰模型 Qwen3-235B,并超越谷歌 Gemini-2.5-Flash,成为低能耗开源模型之一。网友对其架构赞赏有加,认为其设计出色。

今天凌晨 2 点,阿里巴巴开源了新架构模型 Qwen3-Next-80B-A3B,对混合注意力机制、高稀疏性 MoE、训练方法等进行了大幅度创新,迎来了自己的 DeepSeek 时刻。

Qwen3-Next 是一个混合专家模型总参数 800 亿,仅激活 30 亿,训练成本较 Qwen3-32B 暴降 90%,推理效率却提升 10 倍,尤其是在超长文本 32K 以上的提示场景中。

性能方面,Qwen3-Next 的指令微调模型在推理与长上下文任务中,可媲美阿里的旗舰模型 Qwen3-235B;思考模型则超过了谷歌最新的 Gemini-2.5-Flash 思考模型,成为目前最强低能耗开源模型之一。

在线体验:https://chat.qwen.ai/

开源地址:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d

https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a

阿里 API:https://www.alibabacloud.com/help/en/model-studio/models#c5414da58bjgj

网友对阿里新模型的架构非常赞赏,表示,半年前我才刚跟联合创始人聊过类似这样的架构!当时好像把它叫做 “动态权重注意力” 之类的,具体名字记不太清了。这设计真的太出色了!

昨天我测试了好几款模型:思维模式下的 ChatGPT-5、Claude-4,还有专家模式下的 Grok-4。刚刚又测了 Qwen3 Next。在所有这些模型里,只有你们这款模型第一次尝试就给了我正确答案。真的太出色了!

未来以来,这个模型击败了谷歌的 Gemini-2.5-Flash。

在这里看到 DeltaNet 的应用,真的有点让人惊喜!我很好奇,如果换成模型架构发现的 AlphaGo 时刻这篇论文中提出的模型架构,这款模型的性能会发生怎样的变化?

800 亿参数、超高稀疏性再加上多 token 预测,这配置太惊艳了!要是你的 GPU 有足够显存,用它跑起来速度绝对飞快。

基本上老外对阿里的创新模型非常满意,赞美超多。

Qwen3-Next 架构简单介绍

阿里认为上下文长度扩展与总参数扩展是大模型未来发展的两大核心趋势,为在长上下文和大参数场景下进一步提升训练与推理效率,他们设计了全新的模型架构 Qwen3-Next。

相较于 Qwen3 的 MoE 结构,Qwen3-Next 进行了多项关键改进,包括混合注意力机制、高稀疏性 MoE 结构、利于训练稳定性的优化手段,以及可实现更快推理的多 token 预测机制。

在核心特性方面,Qwen3-Next 采用门控 DeltaNet+ 门控注意力的混合创新架构。线性注意力虽能打破标准注意力的二次复杂度,更适合长上下文处理,但仅用线性注意力或标准注意力均有局限。

线性注意力速度快但召回能力弱,标准注意力推理时成本高、速度慢。经系统实验验证,门控 DeltaNet 的上下文学习能力优于滑动窗口注意力、Mamba2 等常用方法,将其与标准注意力按 3:1 比例,75% 层用门控 DeltaNet,25% 层保留标准注意力结合,模型性能持续超越单一架构,实现性能与效率的双重提升。

标准注意力层还进行了多项增强,如采用此前研究中的输出门控机制以减少注意力低秩问题、将每个注意力头的维度从 128 提升至 256、仅对前 25% 位置维度应用旋转位置编码以改善长序列外推能力。

稀疏性设计上,Qwen3-Next 采用超高稀疏性 MoE 结构,800 亿总参数在每步推理中仅激活约 30 亿,占比 3.7%。实验表明,在全局负载均衡的前提下,固定激活专家数量并增加专家总参数,能稳步降低训练损失。与 Qwen3 的 MoE 相比,Qwen3-Next 将总专家数扩展至 512 个,结合 10 个路由专家 +1 个共享专家的设计,在不影响性能的同时最大化资源利用率。

训练稳定性优化方面,注意力输出门控机制有效解决了注意力 Sink、大规模激活等问题,保障模型数值稳定性;针对 Qwen3 中 QK-Norm 存在的部分层归一化权重异常增大问题,Qwen3-Next 采用零中心 RMSNorm,并对归一化权重施加权重衰减以防止无界增长;初始化时对 MoE 路由器参数进行归一化,确保训练初期每个专家都能被无偏选择,减少随机初始化带来的噪声。这些设计提升了小规模实验的可靠性,保障大规模训练平稳进行。

多 token 预测机制也是 Qwen3-Next 的亮点,其原生引入的多 token 预测(MTP)机制,不仅为投机解码提供高接受率的 MTP 模块,还能提升模型整体性能,同时针对 MTP 的多步推理性能进行优化,通过保持训练与推理一致性的多步训练,进一步提高实际场景中投机解码的接受率。

预训练阶段,Qwen3-Next 展现出卓越的效率。其训练数据来自 Qwen3 的 36T token 预训练语料中均匀采样的 15T token 子集,GPU 时长不足 Qwen3-30-3B 的 80%,计算成本仅为 Qwen3-32B 的 9.3%,却能实现更优性能。推理速度上,填充阶段 4K 上下文长度时吞吐量接近 Qwen3-32B 的 7 倍,32K 以上时超 10 倍;

解码阶段 4K 上下文长度时吞吐量接近 Qwen3-32B 的 4 倍,32K 以上时仍保持超 10 倍的速度优势。性能表现上,Qwen3-Next-80B-A3B-Base 仅激活 Qwen3-32B-Base 非嵌入参数的 1/10,却在多数基准测试中性能更优,且显著超过 Qwen3-30B-A3B。

后训练阶段的性能同样亮眼。指令模型 Qwen3-Next-80B-A3B-Instruct 大幅超越 Qwen3-30B-A3B-Instruct-2507 和 Qwen3-32B-Non-thinking,性能接近旗舰模型 Qwen3-235B-A22B-Instruct-2507;在 RULER 基准测试中,该模型在各长度下均优于注意力层更多的 Qwen3-30B-A3B-Instruct-2507,且在 256K 上下文内击败总层数更多的 Qwen3-235B-A22B-Instruct-2507,印证了混合架构在长上下文任务中的优势。

推理模型 Qwen3-Next-80B-A3B-Thinking 性能超过 Qwen3-30B-A3B-Thinking-2507、Qwen3-32B-Thinking 等更高成本模型,多个基准测试击败 Gemini-2.5-Flash-Thinking,关键指标接近 Qwen3-235B-A22B-Thinking-2507。

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。