AI导读:

DeepSeek时隔四个月发布R1模型升级版,SuperCLUE测评显示新版模型总体表现提升,超越o3模型,但与国际顶尖模型仍有差距。新版R1在复杂推理任务中表现显著提升,指令遵循能力大幅提升,幻觉率降低。

5月29日,Deepseek(深度求索)时隔四个月发布R1模型的升级版本。中文大模型权威测评机构SuperCLUE于6月4日发布的结果显示,新版R1模型总体表现提升,超越OpenAI的o3模型,但与国际顶尖模型如o4-mini(high)、谷歌Gemini 2.5 Pro Preview 05-06相比,仍存在一定差距。

据DeepSeek介绍,新版DeepSeek-R1-0528模型基于2024年12月发布的DeepSeek V3模型,通过增加算力投入,显著提升了模型的思维深度与推理能力。在国内模型中,新版R1在数学、编程与通用逻辑测评中领先,整体表现接近国际顶尖模型。

DeepSeek指出,新版R1在复杂推理任务中表现显著提升,如在AIME 2025数学推理测试中,准确率由70%提升至87.5%。

SuperCLUE测评显示,新版R1模型总分63.55,超越o3,位居第四,较旧版提升1.61分。o4-mini(high)得分最高,为70.51分;Gemini 2.5 Pro preview 05-06居第二,得66.48分。

此外,新版R1模型的指令遵循能力大幅提升,得48.46分,较旧版高17.09分,但与国际顶尖模型仍有差距。测评还发现,新版R1平均输出长度增加,但推理能力略降,主要在数学和科学推理上,代码任务表现更优。

DeepSeek此前提到,新版R1针对“幻觉”问题优化,改写润色、总结摘要、阅读理解等场景中幻觉率降低45%-50%,提供更准确可靠结果。

SuperCLUE另一测评显示,新版R1中文幻觉率降至13.86%,下降7.16个百分点,但与表现最好的豆包doubao-1.5-pro-32k模型仍有差距。文本摘要和阅读理解任务幻觉率优化显著。

(文章来源:南方都市报)