AI导读:

DeepSeek发布了一篇关于原生稀疏注意力NSA的纯技术论文报告,显著提升AI模型训练和推理表现。同时,马斯克旗下AI公司xAI推出Grok 3及其精简版,引起广泛关注。

2月18日,Deepseek在海外社交平台发布了一篇关于NSA(Natively Sparse Attention,原生稀疏注意力)的纯技术论文报告。该报告揭示了NSA专为长文本训练与推理设计的独特优势。

NSA通过动态分层稀疏策略等方法,结合针对现代硬件的优化设计,显著提升了AI模型在训练和推理过程中的表现,尤其在长上下文推理能力上取得了突破。这一创新在保证性能的同时,还提高了推理速度,并有效降低了预训练成本。

在《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》论文中,DeepSeek创始人兼CEO梁文锋作为共创者之一参与。其他研究人员来自DeepSeek、北大和华盛顿大学,其中第一作者袁景阳在DeepSeek实习期间完成了这项研究。

此外,马斯克旗下AI公司xAI发布了Grok 3及其精简版Grok 3 mini,引起广泛关注。Grok 3作为对OpenAI的o3-mini和DeepSeek的R1等模型的回应,具备分析图像和回答问题的能力,为X平台上的多项功能提供支持。马斯克在直播中透露,训练进行到92天时,集群规模已扩大至20万块GPU。

图片来源:直播截图

(文章来源:每日经济新闻)