DeepSeek新版R1模型发布，中文大模型能力再提升

财经聚焦 2025-06-05 20:19:41 来源：南方都市报作者：网络

AI导读：

DeepSeek时隔四个月发布R1模型升级版，SuperCLUE测评显示新版模型总体表现提升，超越o3模型，但与国际顶尖模型仍有差距。新版R1在复杂推理任务中表现显著提升，指令遵循能力大幅提升，幻觉率降低。

5月29日，Deepseek（深度求索）时隔四个月发布R1模型的升级版本。中文大模型权威测评机构SuperCLUE于6月4日发布的结果显示，新版R1模型总体表现提升，超越OpenAI的o3模型，但与国际顶尖模型如o4-mini(high)、谷歌Gemini 2.5 Pro Preview 05-06相比，仍存在一定差距。

据DeepSeek介绍，新版DeepSeek-R1-0528模型基于2024年12月发布的DeepSeek V3模型，通过增加算力投入，显著提升了模型的思维深度与推理能力。在国内模型中，新版R1在数学、编程与通用逻辑测评中领先，整体表现接近国际顶尖模型。

DeepSeek指出，新版R1在复杂推理任务中表现显著提升，如在AIME 2025数学推理测试中，准确率由70%提升至87.5%。

SuperCLUE测评显示，新版R1模型总分63.55，超越o3，位居第四，较旧版提升1.61分。o4-mini(high)得分最高，为70.51分；Gemini 2.5 Pro preview 05-06居第二，得66.48分。

此外，新版R1模型的指令遵循能力大幅提升，得48.46分，较旧版高17.09分，但与国际顶尖模型仍有差距。测评还发现，新版R1平均输出长度增加，但推理能力略降，主要在数学和科学推理上，代码任务表现更优。

DeepSeek此前提到，新版R1针对“幻觉”问题优化，改写润色、总结摘要、阅读理解等场景中幻觉率降低45%-50%，提供更准确可靠结果。

SuperCLUE另一测评显示，新版R1中文幻觉率降至13.86%，下降7.16个百分点，但与表现最好的豆包doubao-1.5-pro-32k模型仍有差距。文本摘要和阅读理解任务幻觉率优化显著。

（文章来源：南方都市报）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。