三花快讯 · 2025, 9月12日

阿里发布 Qwen3-Next-80B-A3B:训练成本降90%

推理吞吐提升十倍以上开源即用

阿里 Qwen 团队发布了Qwen3-Next 模型架构,并推出了 Qwen3-Next-80B-A3B 模型。这款模型拥有 800 亿总参数但仅激活 30 亿参数,该Base模型实现了与Qwen3-32B dense模型相近甚至略好的性能,而它的训练成本(GPU hours) 仅为Qwen3-32B的十分之一不到,在32k以上的上下文下的推理吞吐则是Qwen3-32B的十倍以上,实现了极致的训练和推理性价比。

Qwen3-Next 系列模型已经在 Hugging Face 和 ModelScope 平台开源了,佬们可以直接通过 Qwen Chat 或阿里云百炼进行调用体验。

商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。

本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。