AI导读:

9月24日云栖大会,阿里通义旗舰模型Qwen3-Max亮相,性能超越GPT5等,跻身全球前三。其涵盖指令和推理两大版本,预训练数据量达36T tokens,总参数超万亿,具备卓越编程和工具调用能力,推理增强版本更在数学推理测试中获满分。

  9月24日,2025云栖大会盛大开幕,阿里通义旗舰模型Qwen3-Max惊艳亮相,性能超越GPT5、Claude Opus 4等顶尖模型,成功跻身全球前三行列。Qwen3-Max涵盖指令(Instruct)和推理(Thinking)两大版本,其预览版已在Chatbot Arena排行榜上斩获第三佳绩,正式版性能有望实现更大突破。阿里大模型Qwen3-Max性能成为行业焦点。

  Qwen3-Max作为通义千问家族中的佼佼者,是最大且最强的基础模型。该模型预训练数据量高达36T tokens,总参数超过万亿,具备卓越的Coding编程能力和Agent工具调用能力。在SWE-Bench Verified测试中,Instruct版本以69.6分的高分位列全球第一梯队;在Tau2-Bench测试中,Qwen3-Max更是取得突破性的74.8分,超越了Claude Opus4和Deepseek-V3.1等强劲对手。

  Qwen3-Max的推理增强版本Qwen3-Max-Thinking-Heavy同样表现出色,结合工具调用和并行推理技术,其推理能力达到新高度。尤其在AIME 25和HMMT数学推理测试中,均斩获满分100分,这是国内首次取得的佳绩。Qwen3-Max推理模型之所以能取得如此优异成绩,得益于其懂得调动工具解数学题,能够写代码辅助解题,同时增加计算资源也提升了模型表现。

  大模型预训练原理Scaling Law(规模化法则)指出,持续增长数据和参数规模是通向AGI的可能路径之一。尽管有部分学者认为预训练的Scaling Law即将逼近上限,但Qwen3-Max的性能突破却显示,继续增大数据和模型参数,仍能锻造出更强的模型。阿里模型发展通义千问系列展现了强大潜力。目前,通义千问系列模型已实现从0.5B到超万亿的全尺寸覆盖,包含三百多个大模型,可满足不同场景需求。

(文章来源:证券时报网)