DeepSeek新论文揭秘NSA稀疏注意力机制，期货市场算力迎新变革

财经聚焦 2025-02-19 14:52:33 来源：界面新闻作者：网络

AI导读：

DeepSeek发布新论文，揭秘NSA稀疏注意力机制，该技术可降低大模型训练对硬件要求，提升训练效率，解码速度提升11.6倍，对期货市场算力需求带来显著变化，引发投资者关注。

　　界面新闻记者 | 伍洋宇

　　Deepseek V3和R1两款模型热度未减，一篇新论文再次引发科技圈对其创新性的集体关注。期货市场上的投资者也开始关注这一技术对算力市场的影响。

　　2月18日，DeepSeek研究团队发布了一篇新的技术论文——《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。在X（原推特）平台上，DeepSeek这条推文在24小时内的阅读量已达168万，显示出该技术的高关注度。

　　这是一种可用于超快长上下文训练和推理的稀疏注意力机制，具有硬件对齐和本地可训练的特性。其中最核心的内容是NSA（Native Sparse Attention），一种全新的注意力机制。

　　该机制使得大模型训练对硬件要求更低，训练效率更高，可能是一次相较MLA更高级别的创新。这对于期货市场中的算力需求来说，可能带来显著变化。

　　稀疏注意力（Sparse Attention）是相对完全注意力（Full Attention）而言。在完全注意力机制的技术框架下，很多技术都是为了提高计算速度、减少运算成本，但大模型训练仍可能导致巨大的运算量。

　　此前，DeepSeek-V2的重要创新MLA——Multi-Head Latent Attention，多头潜在注意力机制——在保证模型性能的情况下，对KV-Cache进行了大幅优化。然而，这些注意力机制仍存在局限。

　　NSA针对性解决了这些问题。它提出了一个“三合一”方案，对token序列大致分为三条注意力处理路径：压缩（Compression）、选择性保留（Selection）和滑动窗口（Sliding Window）。

　　NSA还引入了两项创新机制：硬件对齐系统和训练感知设计，可支持NSA进行高效部署和端到端训练。

　　这套全新注意力机制在基准测试上实现了超越表现，包括通用和推理等，解码（Decode）速度提升了11.6倍。对于期货市场来说，这意味着相关技术在模型训练和推理上的效率将大幅提升。

　　更关键的是，NSA对GPU的显存要求降低，对卡间互联通讯能力要求降低，对模型的训练速度也加快了好几倍。这对于算力市场，尤其是期货市场中依赖高性能计算的投资者来说，是一个重要的创新。

　　总体而言，虽然这篇论文集中论述了技术思路，没有完整披露其中的工程细节，但对于其他大模型公司来说复现并不难。期货市场投资者也开始关注这一技术的实际应用和潜在影响。

　　还有一个当前没有被充分注意的“彩蛋”。论文中DeepSeek运用到了一种叫做Triton的框架，这是由OpenAI开源的一套框架，属于GPU的中间层语言，可以转译为多个计算平台。这为未来算力市场的国产化提供了想象空间。

（文章来源：界面新闻）

NSA架构（图片来源：DeepSeek）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。