阿里通义发布Qwen3-Next架构,AI模型优化获突破
AI导读:
9月12日,阿里通义发布Qwen3-Next基础模型架构,采用高稀疏MoE架构和混合注意力机制,实现模型训练与推理的双重性价比突破。新模型Qwen3-Next-80B-A3B性能媲美千问3旗舰版,计算效率大幅提升,训练成本降低超90%。
每经杭州9月12日电(记者叶晓丹)9月12日,阿里通义发布下一代基础模型架构Qwen3-Next,这一创新架构针对大模型在上下文长度和总参数扩展(Scaling)趋势设计,采用全新高稀疏MoE架构,重构经典Transformer核心组件,创新结合线性注意力与自研门控注意力的混合机制,实现模型训练和推理的双重性价比突破,成为人工智能领域的重要进展。
基于新架构,阿里通义推出Qwen3-Next-80B-A3B系列模型,开源指令(Instruct)和推理(Thinking)两大版本。新模型总参数80B仅激活3B,性能媲美千问3旗舰版235B模型,计算效率显著提升。Qwen3-Next训练成本较密集模型Qwen3-32B降低超90%,长文本推理吞吐量提升10倍以上,支持百万Tokens超长上下文,为AI模型优化提供了新范式。
(文章来源:每日经济新闻)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

