Qwen2.5-Max荣登Chatbot Arena榜单全球第七,展现强劲AI实力
AI导读:
Qwen2.5-Max在Chatbot Arena LLM Leaderboard榜单中以1332分位列全球第七,展现强劲综合性能,特别是在数学和编程上排名第一。该模型由阿里云通义团队研发,已引发全球开发者广泛关注。
今日(2月4日)凌晨,备受瞩目的Chatbot Arena LLM Leaderboard更新了最新榜单,阿里云通义团队研发的Qwen2.5-Max模型以强劲实力闯入前十,超越Deepseek V3、o1-mini及Claude-3.5-Sonnet等一众强劲对手,以1332分的优异成绩荣登全球第七名宝座!更值得一提的是,Qwen2.5-Max在数学与编程领域独占鳌头,同时在Hard prompts方面紧随榜首其后,位列第二。
Qwen2.5-Max作为阿里云通义团队对MoE模型的最新探索成果,其综合性能表现极为出色。在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等主流基准测试中,Qwen2.5-Max与Claude-3.5-Sonnet并驾齐驱,甚至全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B等模型,展现出强大的竞争力。
ChatBot Arena官方账号lmarena.ai对Qwen2.5-Max给予了高度评价,称赞其在多个领域表现强劲,特别是在专业技术领域(如编程、数学及高难度提示词处理)方面,更是展现出卓越的能力。
据悉,Chatbot Arena是由LMSYS Org推出的大模型性能测试平台,目前集成了超过190种模型。该平台采用匿名方式将大模型两两组队,交由用户进行盲测,用户根据真实对话体验对模型能力进行投票。因此,Chatbot Arena LLM Leaderboard已成为全球顶级大模型竞技的重要舞台。
在此之前,Qwen系列模型已多次在Chatbot Arena榜单上崭露头角。Qwen2.5-72B-Instruct发布后曾闯入全球前十,成为中国得分较高的大模型之一;而Qwen2-VL-72B-Instruct则在Vision榜单上位列第九,成为表现优异的开源模型。
目前,企业用户可在阿里云百炼平台上调用Qwen2.5-Max模型的API接口,享受其强大的功能。同时,开发者也可在Qwen Chat平台中免费体验Qwen2.5-Max,感受其卓越的性能。
Qwen2.5-Max的发布在海外开发者中引起了广泛关注。有网友在对比DeepSeek-V3和Qwen2.5后,对Qwen2.5-Max的出色表现赞不绝口。甚至有网友打趣地为OpenAI的首席执行官Sam Altman担忧,认为又一个强大的中国模型将对其构成挑战。
不少海外网友纷纷表示,中国新模型的迭代速度和质量令人惊叹,展现了中国在AI领域的强大实力。
作为国内较早开源自研大模型的科技大厂,阿里云旗下的通义千问已实现全尺寸、全模态的开源,推出了包括语言大模型、多模态大模型等多种类型的开源模型,为全球开发者提供了丰富的选择。
在全球范围内,Qwen的衍生模型数量已超过9万个,成为超越Llama的全球最大开源模型群。此次Qwen2.5-Max的发布,更是备受全球各种语言开发者的欢迎和认可。
有使用阿拉伯语的网友表示:“有了Qwen2.5-Max,我们能对ChatGPT说再见了!”这一言论也反映了Qwen2.5-Max在全球范围内的广泛影响力和认可度。
多名海外网友用英文表达了对Qwen2.5-Max极致性能的惊叹和赞赏,认为其将引领AI领域的新一轮变革。
通义团队方面表示,将持续提升数据规模和模型参数规模,以进一步提升模型的智能水平。对于下一个版本的Qwen2.5-Max,通义团队充满信心,并将继续探索预训练scaling和强化学习scaling等领域,希望未来能够实现超越人类的智能水平,驱动AI探索未知之境。
(文章来源:财联社)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

