AI导读:

DeepSeek发布新论文,揭秘NSA稀疏注意力机制,该技术可降低大模型训练对硬件要求,提升训练效率,解码速度提升11.6倍,对期货市场算力需求带来显著变化,引发投资者关注。

  界面新闻记者 | 伍洋宇

  Deepseek V3和R1两款模型热度未减,一篇新论文再次引发科技圈对其创新性的集体关注。期货市场上的投资者也开始关注这一技术对算力市场的影响。

  2月18日,DeepSeek研究团队发布了一篇新的技术论文——《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。在X(原推特)平台上,DeepSeek这条推文在24小时内的阅读量已达168万,显示出该技术的高关注度。

  这是一种可用于超快长上下文训练和推理的稀疏注意力机制,具有硬件对齐和本地可训练的特性。其中最核心的内容是NSA(Native Sparse Attention),一种全新的注意力机制。

  该机制使得大模型训练对硬件要求更低,训练效率更高,可能是一次相较MLA更高级别的创新。这对于期货市场中的算力需求来说,可能带来显著变化。

  稀疏注意力(Sparse Attention)是相对完全注意力(Full Attention)而言。在完全注意力机制的技术框架下,很多技术都是为了提高计算速度、减少运算成本,但大模型训练仍可能导致巨大的运算量。

  此前,DeepSeek-V2的重要创新MLA——Multi-Head Latent Attention,多头潜在注意力机制——在保证模型性能的情况下,对KV-Cache进行了大幅优化。然而,这些注意力机制仍存在局限。

  NSA针对性解决了这些问题。它提出了一个“三合一”方案,对token序列大致分为三条注意力处理路径:压缩(Compression)、选择性保留(Selection)和滑动窗口(Sliding Window)。

  NSA还引入了两项创新机制:硬件对齐系统和训练感知设计,可支持NSA进行高效部署和端到端训练。

  这套全新注意力机制在基准测试上实现了超越表现,包括通用和推理等,解码(Decode)速度提升了11.6倍。对于期货市场来说,这意味着相关技术在模型训练和推理上的效率将大幅提升。

  更关键的是,NSA对GPU的显存要求降低,对卡间互联通讯能力要求降低,对模型的训练速度也加快了好几倍。这对于算力市场,尤其是期货市场中依赖高性能计算的投资者来说,是一个重要的创新。

  总体而言,虽然这篇论文集中论述了技术思路,没有完整披露其中的工程细节,但对于其他大模型公司来说复现并不难。期货市场投资者也开始关注这一技术的实际应用和潜在影响。

  还有一个当前没有被充分注意的“彩蛋”。论文中DeepSeek运用到了一种叫做Triton的框架,这是由OpenAI开源的一套框架,属于GPU的中间层语言,可以转译为多个计算平台。这为未来算力市场的国产化提供了想象空间。

(文章来源:界面新闻)

NSA架构(图片来源:DeepSeek)