AI导读:

DeepSeek和月之暗面两大技术巨头几乎同时发布了挑战Transformer架构最核心的注意力机制的新论文,旨在让算法更高效处理更长的上下文。DeepSeek提出了NSA稀疏注意力机制,月之暗面则提出了MoBA架构,两者都实现了核心思想上的高度一致。

  2月18日,Deepseek和月之暗面两大技术巨头几乎同时发布了挑战Transformer架构最核心的注意力机制的新论文,旨在让算法更高效处理更长的上下文。这一技术碰撞引发了广泛关注。

  两家公司的技术派明星创始人名字也出现在各自的论文和技术报告中,成为此次事件的另一大看点。DeepSeek更是将“魔爪”伸向了Transformer最核心的注意力机制(attention),试图对其进行全面改造。

  Transformer作为当下大模型繁荣的基石,其核心算法注意力机制仍存在先天不足:在处理长文本时,算法复杂度激增,甚至可能崩溃。DeepSeek最新论文提出的NSA是一种与硬件一致且本机可训练的稀疏注意力机制,能显著提升长上下文训练和推理速度,同时降低预训练成本,性能不减。

  月之暗面则提出了MoBA架构,通过“智能筛选员”一样的门控网络,只计算与最相关的Top-K块的注意力,实现了核心思想上的高度一致。

  值得一提的是,月之暗面创始人杨植麟曾因论文影响力和引用量备受瞩目,但自K1.5论文后,其研究曾一度停滞。而DeepSeek的NSA论文则汇聚了公司核心团队的力量,展现了团队的技术实力。

  两家公司创始人的重要性不言而喻,他们的技术路线也为我们深入了解DeepSeek和月之暗面提供了路径。

(文章来源:财中社)