DeepSeek新版R1模型发布,中文大模型能力再提升
AI导读:
DeepSeek时隔四个月发布R1模型升级版,SuperCLUE测评显示新版模型总体表现提升,超越o3模型,但与国际顶尖模型仍有差距。新版R1在复杂推理任务中表现显著提升,指令遵循能力大幅提升,幻觉率降低。
5月29日,Deepseek(深度求索)时隔四个月发布R1模型的升级版本。中文大模型权威测评机构SuperCLUE于6月4日发布的结果显示,新版R1模型总体表现提升,超越OpenAI的o3模型,但与国际顶尖模型如o4-mini(high)、谷歌Gemini 2.5 Pro Preview 05-06相比,仍存在一定差距。
据DeepSeek介绍,新版DeepSeek-R1-0528模型基于2024年12月发布的DeepSeek V3模型,通过增加算力投入,显著提升了模型的思维深度与推理能力。在国内模型中,新版R1在数学、编程与通用逻辑测评中领先,整体表现接近国际顶尖模型。
DeepSeek指出,新版R1在复杂推理任务中表现显著提升,如在AIME 2025数学推理测试中,准确率由70%提升至87.5%。
SuperCLUE测评显示,新版R1模型总分63.55,超越o3,位居第四,较旧版提升1.61分。o4-mini(high)得分最高,为70.51分;Gemini 2.5 Pro preview 05-06居第二,得66.48分。

此外,新版R1模型的指令遵循能力大幅提升,得48.46分,较旧版高17.09分,但与国际顶尖模型仍有差距。测评还发现,新版R1平均输出长度增加,但推理能力略降,主要在数学和科学推理上,代码任务表现更优。
DeepSeek此前提到,新版R1针对“幻觉”问题优化,改写润色、总结摘要、阅读理解等场景中幻觉率降低45%-50%,提供更准确可靠结果。
SuperCLUE另一测评显示,新版R1中文幻觉率降至13.86%,下降7.16个百分点,但与表现最好的豆包doubao-1.5-pro-32k模型仍有差距。文本摘要和阅读理解任务幻觉率优化显著。
(文章来源:南方都市报)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

