AI导读:

9月12日,阿里通义发布Qwen3-Next基础模型架构,采用高稀疏MoE架构和混合注意力机制,实现模型训练与推理的双重性价比突破。新模型Qwen3-Next-80B-A3B性能媲美千问3旗舰版,计算效率大幅提升,训练成本降低超90%。


  每经杭州9月12日电(记者叶晓丹)9月12日,阿里通义发布下一代基础模型架构Qwen3-Next,这一创新架构针对大模型在上下文长度和总参数扩展(Scaling)趋势设计,采用全新高稀疏MoE架构,重构经典Transformer核心组件,创新结合线性注意力与自研门控注意力的混合机制,实现模型训练和推理的双重性价比突破,成为人工智能领域的重要进展。

  基于新架构,阿里通义推出Qwen3-Next-80B-A3B系列模型,开源指令(Instruct)和推理(Thinking)两大版本。新模型总参数80B仅激活3B,性能媲美千问3旗舰版235B模型,计算效率显著提升。Qwen3-Next训练成本较密集模型Qwen3-32B降低超90%,长文本推理吞吐量提升10倍以上,支持百万Tokens超长上下文,为AI模型优化提供了新范式。

(文章来源:每日经济新闻)