阿里Qwen3-Next架构发布:80B参数模型3B激活达旗舰性能
阿里发布Qwen3-Next架构及80B参数模型,仅需激活3B即可实现旗舰性能。该模型采用混合注意力机制和高稀疏MoE架构,训练成本降低超90%,推理效率大幅提升。目前已在魔搭社区和HuggingFace开源,通义千问Qwen衍生模型数超17万,稳居全球第一。...
阿里发布Qwen3-Next架构及80B参数模型,仅需激活3B即可实现旗舰性能。该模型采用混合注意力机制和高稀疏MoE架构,训练成本降低超90%,推理效率大幅提升。目前已在魔搭社区和HuggingFace开源,通义千问Qwen衍生模型数超17万,稳居全球第一。...