AI导读:

DeepSeek R1模型完成小版本试升级,代码能力显著提升,性能媲美OpenAI的o3-high模型。开发者期待未来DeepSeek R2能大幅提升上下文长度,增加多模态能力。

5月28日晚,第一财经记者获悉,Deepseek小助手在官方交流群中通知,DeepSeek R1模型已完成小版本试升级。紧接着在29日凌晨,官方在开源平台HuggingFace上发布了DeepSeek-R1-0528版本。

尽管官方尚未更新模型卡及公告介绍,但众多开发者已迫不及待进行测试,发现此次“小版本升级”实则带来显著提升,海外开发者赞叹DeepSeek一贯的低调风格。

测试显示,DeepSeek-R1-0528在代码能力上表现尤为突出,在Live CodeBench平台上,其性能几乎与OpenAI的o3-high模型相媲美。

开发者们将此视为“开源的巨大胜利”。

然而,受测试速率限制,目前公认编程能力最强的Claude-4系列模型并未列入测试榜单。

AI博主@karminski-牙医进行了个人测试,对比DeepSeek-R1模型与Claude-4-Sonnet,结果显示,在模拟橙色小球撞击物体的测试中,DeepSeek-R1模型在平面橙色漫反射及撞击效果上表现更佳。

但有开发者指出,仅凭个例难以判断模型能力,需等待评测榜单及后续口碑验证。

除了代码能力,DeepSeek此次更新还包括写作任务的改进,使写作更自然、格式更优。用户反馈,最新模型在写作时减少了“量子力学元素”的突兀感。

@karminski-牙医还对最新模型进行了文本召回测试,发现在32K上下文内,新R1模型表现优于旧版,但在60K上下文中效果有所下降。

此次“小版本试升级”后,海外网友期待R2版本的表现。DeepSeek此前已对V3和R1模型进行迭代,但R2版本消息仍未公布。

3月时,DeepSeek默默在Hugging Face上新DeepSeek-V3-0324迭代版本,借鉴R1模型的强化学习技术,提升推理任务表现,优化前端开发、中文写作等能力。

业内人士推测,DeepSeek可能因仅调整训练数据而未更新模型架构,故不定义为大版本升级。而其他模型明显的版本号迭代或为品牌营销需求。DeepSeek对此未予解释。

开发者期待DeepSeek R2未来能大幅提升上下文长度,增加多模态能力,以满足生产使用需求。

(文章来源:第一财经)