DeepSeek发布原生稀疏注意力NSA技术报告,xAI推出Grok 3
AI导读:
DeepSeek发布了一篇关于原生稀疏注意力NSA的纯技术论文报告,显著提升AI模型训练和推理表现。同时,马斯克旗下AI公司xAI推出Grok 3及其精简版,引起广泛关注。
2月18日,Deepseek在海外社交平台发布了一篇关于NSA(Natively Sparse Attention,原生稀疏注意力)的纯技术论文报告。该报告揭示了NSA专为长文本训练与推理设计的独特优势。
NSA通过动态分层稀疏策略等方法,结合针对现代硬件的优化设计,显著提升了AI模型在训练和推理过程中的表现,尤其在长上下文推理能力上取得了突破。这一创新在保证性能的同时,还提高了推理速度,并有效降低了预训练成本。

在《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》论文中,DeepSeek创始人兼CEO梁文锋作为共创者之一参与。其他研究人员来自DeepSeek、北大和华盛顿大学,其中第一作者袁景阳在DeepSeek实习期间完成了这项研究。

此外,马斯克旗下AI公司xAI发布了Grok 3及其精简版Grok 3 mini,引起广泛关注。Grok 3作为对OpenAI的o3-mini和DeepSeek的R1等模型的回应,具备分析图像和回答问题的能力,为X平台上的多项功能提供支持。马斯克在直播中透露,训练进行到92天时,集群规模已扩大至20万块GPU。
图片来源:直播截图
(文章来源:每日经济新闻)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

