DeepSeek新论文揭秘NSA稀疏注意力机制,期货市场算力迎新变革
AI导读:
DeepSeek发布新论文,揭秘NSA稀疏注意力机制,该技术可降低大模型训练对硬件要求,提升训练效率,解码速度提升11.6倍,对期货市场算力需求带来显著变化,引发投资者关注。
界面新闻记者 | 伍洋宇
Deepseek V3和R1两款模型热度未减,一篇新论文再次引发科技圈对其创新性的集体关注。期货市场上的投资者也开始关注这一技术对算力市场的影响。
2月18日,DeepSeek研究团队发布了一篇新的技术论文——《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。在X(原推特)平台上,DeepSeek这条推文在24小时内的阅读量已达168万,显示出该技术的高关注度。
这是一种可用于超快长上下文训练和推理的稀疏注意力机制,具有硬件对齐和本地可训练的特性。其中最核心的内容是NSA(Native Sparse Attention),一种全新的注意力机制。
该机制使得大模型训练对硬件要求更低,训练效率更高,可能是一次相较MLA更高级别的创新。这对于期货市场中的算力需求来说,可能带来显著变化。
稀疏注意力(Sparse Attention)是相对完全注意力(Full Attention)而言。在完全注意力机制的技术框架下,很多技术都是为了提高计算速度、减少运算成本,但大模型训练仍可能导致巨大的运算量。
此前,DeepSeek-V2的重要创新MLA——Multi-Head Latent Attention,多头潜在注意力机制——在保证模型性能的情况下,对KV-Cache进行了大幅优化。然而,这些注意力机制仍存在局限。
NSA针对性解决了这些问题。它提出了一个“三合一”方案,对token序列大致分为三条注意力处理路径:压缩(Compression)、选择性保留(Selection)和滑动窗口(Sliding Window)。
NSA还引入了两项创新机制:硬件对齐系统和训练感知设计,可支持NSA进行高效部署和端到端训练。
这套全新注意力机制在基准测试上实现了超越表现,包括通用和推理等,解码(Decode)速度提升了11.6倍。对于期货市场来说,这意味着相关技术在模型训练和推理上的效率将大幅提升。
更关键的是,NSA对GPU的显存要求降低,对卡间互联通讯能力要求降低,对模型的训练速度也加快了好几倍。这对于算力市场,尤其是期货市场中依赖高性能计算的投资者来说,是一个重要的创新。
总体而言,虽然这篇论文集中论述了技术思路,没有完整披露其中的工程细节,但对于其他大模型公司来说复现并不难。期货市场投资者也开始关注这一技术的实际应用和潜在影响。
还有一个当前没有被充分注意的“彩蛋”。论文中DeepSeek运用到了一种叫做Triton的框架,这是由OpenAI开源的一套框架,属于GPU的中间层语言,可以转译为多个计算平台。这为未来算力市场的国产化提供了想象空间。
(文章来源:界面新闻)
NSA架构(图片来源:DeepSeek)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

