腾讯姚顺雨：混元迈出重建大模型第一步

商业视界 2026-04-23 21:45:08 来源：第一财经作者：网络

AI导读：

　　前OpenAI研究员姚顺雨交出加入腾讯后的第一份答卷。
　　4月23日，腾讯混元发布Hy3 preview语言模型并将该模型开源。姚顺雨说，这是混元大模型重建的第一步。
　　去年12月，他入职腾讯后出任“CEO/总裁办公室”首席AI

　　前OpenAI研究员姚顺雨交出加入腾讯后的第一份答卷。

　　4月23日，腾讯混元发布Hy3 preview语言模型并将该模型开源。姚顺雨说，这是混元大模型重建的第一步。

　　去年12月，他入职腾讯后出任“CEO/总裁办公室”首席AI科学家。今年2月，腾讯混元重建了预训练和强化学习的基础设施，两个月后，Hy3 preview终于面世。

　　上月，腾讯高管已在业绩发布会上预告该模型，并给予颇高评价，称这是一次混元模型的重大升级。此次Hy3 preview则公布了一些参数。这是一个快慢思考融合的混合专家模型，总参数 295B，激活参数21B，最大支持256K上下文长度。

　　从定位看，Hy3 preview主推Agent能力、上下文学习能力、复杂推理能力和代码能力。从基准测试得分看，该模型的能力仍与Gemini-3.1-Pro、GPT-5.4 xhigh有差距，但在部分基准测试中得分接近或高于国内的大模型Kimi-K2.5和GLM-5。

　　上下文学习和指令遵循能力方面，Hy3 preview在AdvancedIF（复杂指令遵循）和AALCR（长上下文推理）基准测试中得分低于Gemini-3.1-Pro、GPT-5.4 xhigh，但超过Kimi-K2.5和GLM-5，Long Bench v2（长上下文推理）测试得分高于Kimi-2.5。在腾讯混元提出的两个针对上下文学习能力的CL-bench和CL-bench-Life基准测试中，Hy3 preview得分低于两个海外模型，但高于Kimi-K2.5和GLM-5。

　　复杂推理能力方面，Hy3 preview在FrontierScience-Olympiad（专家级科学推理）和IMOAnswerBench（数学推理）基准测试中得分超过Kimi-K2.5和GLM-5，低于两个海外模型。在GPQA Diamond（博士级科学问题）基准测试中，Hy3 preview得分超过Kimi-K2.5，低于其他三个模型。在全国中学生生物学联赛(CHSBO 2025)中，Hy3 preview得分最高。

　　代码与智能体能力方面，Hy3 preview在SWE-Bench Verified（解决现实世界软件问题）、Terminal-Bench 2.0（智能体端到端执行）、BrowseComp（互联网上定位关联信息）基准测试中，得分都低于Claude-Opus-4.6和GLM-5，Terminal-Bench 2.0得分超过Kimi-K2.5。Hy3 preview在WildClawBench（智能体真实落地能力）、Claw Eval（真实世界任务中的智能体能力）测试中的得分超过Kimi-K2.5，低于GLM-5和Claude-Opus-4.6。在针对真实开发场景表现的混元内部测评集中，Hy3 preview得分超过Kimi-K2.5。

　　从一些基准测试得分可以看到，相比上一代的Hy2，Hy3 preview与头部模型之间的差距有所缩小。

　　姚顺雨表示，希望通过开源和发布获得来自开源社区和用户的真实反馈，帮助混元提升Hy3正式版的实用性。混元也在继续扩大预训练和强化学习规模，提升模型的智能上限，并通过与腾讯众多产品的协同设计，提升模型在真实场景中的综合表现，并开始探索特色模型能力。

　　今年1月，姚顺雨在入职腾讯后的首次公开亮相中，也提到模型智能水平的重要性。姚顺雨称，To C和To B市场的底层逻辑已经不同。To C市场的大部分用户在大部分时间不需要极强的智能，但在To B领域，智能越高代表生产力越高、溢价空间越大，企业级市场对模型能力的付费意愿已呈现极端的头部效应。

　　姚顺雨表示，在编程等高频且严肃的生产力场景中，较弱模型产生的错误需要人工耗费大量精力去排查，隐性成本远超模型差价，因此To B市场正走向分化，强模型和弱模型的差距将更明显。而在To C市场，姚顺雨还表示，单纯的模型参数竞赛已不是全部，未来的核心竞争力在于对语境（Context）的捕捉。

　　姚顺雨当时还谈到模型“刷榜”，称国内对刷榜或数字看得更重，Anthropic Claude在编程或软件工程榜单上的排行不是最高的，但行业都知道它最好。据了解，腾讯混元此前已确立了模型追求实用性的原则，其中就包括评测真实性，要求主动跳出易被“刷榜”的公开榜单并通过自建题目等方式评估和改进模型能力。

（文章来源：第一财经）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。