AI导读:

清华大学与瑞莱智慧联合推出RealSafe-R1大语言模型,针对DeepSeek在安全性上的局限提出创新解决方案。该模型融合安全对齐与内省推理,实现自主进化,即将向全球开发者开源。

  北京商报讯(记者魏蔚)2月24日,北京商报记者获悉,清华大学与瑞莱智慧联合推出大语言模型RealSafe-R1,该模型深度优化Deepseek R1,强化后训练效果。近期,国产开源大模型DeepSeek在复杂问题解决和创造性任务中展现卓越性能,备受瞩目。然而,业内人士指出,DeepSeek R1和V3在应对越狱攻击等安全挑战时存在局限,易受恶意输入误导,产生不安全或不符合预期的响应。这一安全短板是开源大模型的普遍问题,根源在于安全对齐机制深度不足。为此,清华瑞莱团队创新提出基于模型自我提升的安全对齐方法,融合安全对齐与内省推理,使大语言模型能通过安全意识的思维链分析潜在风险,实现模型自主进化,适用于多种模型。RealSafe-R1各尺寸模型及数据集,即将向全球开发者开源。

(文章来源:北京商报;关键词:大语言模型、DeepSeek、安全挑战、RealSafe-R1)