AI导读:

  前OpenAI研究员姚顺雨交出加入腾讯后的第一份答卷。
  4月23日,腾讯混元发布Hy3 preview语言模型并将该模型开源。姚顺雨说,这是混元大模型重建的第一步。
  去年12月,他入职腾讯后出任“CEO/总裁办公室”首席AI

  前OpenAI研究员姚顺雨交出加入腾讯后的第一份答卷。

  4月23日,腾讯混元发布Hy3 preview语言模型并将该模型开源。姚顺雨说,这是混元大模型重建的第一步。

  去年12月,他入职腾讯后出任“CEO/总裁办公室”首席AI科学家。今年2月,腾讯混元重建了预训练和强化学习的基础设施,两个月后,Hy3 preview终于面世。

  上月,腾讯高管已在业绩发布会上预告该模型,并给予颇高评价,称这是一次混元模型的重大升级。此次Hy3 preview则公布了一些参数。这是一个快慢思考融合的混合专家模型,总参数 295B,激活参数21B,最大支持256K上下文长度。

  从定位看,Hy3 preview主推Agent能力、上下文学习能力、复杂推理能力和代码能力。从基准测试得分看,该模型的能力仍与Gemini-3.1-Pro、GPT-5.4 xhigh有差距,但在部分基准测试中得分接近或高于国内的大模型Kimi-K2.5和GLM-5。

  上下文学习和指令遵循能力方面,Hy3 preview在AdvancedIF(复杂指令遵循)和AALCR(长上下文推理)基准测试中得分低于Gemini-3.1-Pro、GPT-5.4 xhigh,但超过Kimi-K2.5和GLM-5,Long Bench v2(长上下文推理)测试得分高于Kimi-2.5。在腾讯混元提出的两个针对上下文学习能力的CL-bench和CL-bench-Life基准测试中,Hy3 preview得分低于两个海外模型,但高于Kimi-K2.5和GLM-5。

  复杂推理能力方面,Hy3 preview在FrontierScience-Olympiad(专家级科学推理)和IMOAnswerBench(数学推理)基准测试中得分超过Kimi-K2.5和GLM-5,低于两个海外模型。在GPQA Diamond(博士级科学问题)基准测试中,Hy3 preview得分超过Kimi-K2.5,低于其他三个模型。在全国中学生生物学联赛(CHSBO 2025)中,Hy3 preview得分最高。

  代码与智能体能力方面,Hy3 preview在SWE-Bench Verified(解决现实世界软件问题)、Terminal-Bench 2.0(智能体端到端执行)、BrowseComp(互联网上定位关联信息)基准测试中,得分都低于Claude-Opus-4.6和GLM-5,Terminal-Bench 2.0得分超过Kimi-K2.5。Hy3 preview在WildClawBench(智能体真实落地能力)、Claw Eval(真实世界任务中的智能体能力)测试中的得分超过Kimi-K2.5,低于GLM-5和Claude-Opus-4.6。在针对真实开发场景表现的混元内部测评集中,Hy3 preview得分超过Kimi-K2.5。

  从一些基准测试得分可以看到,相比上一代的Hy2,Hy3 preview与头部模型之间的差距有所缩小。

  姚顺雨表示,希望通过开源和发布获得来自开源社区和用户的真实反馈,帮助混元提升Hy3正式版的实用性。混元也在继续扩大预训练和强化学习规模,提升模型的智能上限,并通过与腾讯众多产品的协同设计,提升模型在真实场景中的综合表现,并开始探索特色模型能力。

  今年1月,姚顺雨在入职腾讯后的首次公开亮相中,也提到模型智能水平的重要性。姚顺雨称,To C和To B市场的底层逻辑已经不同。To C市场的大部分用户在大部分时间不需要极强的智能,但在To B领域,智能越高代表生产力越高、溢价空间越大,企业级市场对模型能力的付费意愿已呈现极端的头部效应。

  姚顺雨表示,在编程等高频且严肃的生产力场景中,较弱模型产生的错误需要人工耗费大量精力去排查,隐性成本远超模型差价,因此To B市场正走向分化,强模型和弱模型的差距将更明显。而在To C市场,姚顺雨还表示,单纯的模型参数竞赛已不是全部,未来的核心竞争力在于对语境(Context)的捕捉。

  姚顺雨当时还谈到模型“刷榜”,称国内对刷榜或数字看得更重,Anthropic Claude在编程或软件工程榜单上的排行不是最高的,但行业都知道它最好。据了解,腾讯混元此前已确立了模型追求实用性的原则,其中就包括评测真实性,要求主动跳出易被“刷榜”的公开榜单并通过自建题目等方式评估和改进模型能力。

(文章来源:第一财经)