DeepSeek与月之暗面挑战Transformer注意力机制
AI导读:
DeepSeek和月之暗面两大技术巨头几乎同时发布了挑战Transformer架构最核心的注意力机制的新论文,旨在让算法更高效处理更长的上下文。DeepSeek提出了NSA稀疏注意力机制,月之暗面则提出了MoBA架构,两者都实现了核心思想上的高度一致。
2月18日,Deepseek和月之暗面两大技术巨头几乎同时发布了挑战Transformer架构最核心的注意力机制的新论文,旨在让算法更高效处理更长的上下文。这一技术碰撞引发了广泛关注。
两家公司的技术派明星创始人名字也出现在各自的论文和技术报告中,成为此次事件的另一大看点。DeepSeek更是将“魔爪”伸向了Transformer最核心的注意力机制(attention),试图对其进行全面改造。
Transformer作为当下大模型繁荣的基石,其核心算法注意力机制仍存在先天不足:在处理长文本时,算法复杂度激增,甚至可能崩溃。DeepSeek最新论文提出的NSA是一种与硬件一致且本机可训练的稀疏注意力机制,能显著提升长上下文训练和推理速度,同时降低预训练成本,性能不减。
月之暗面则提出了MoBA架构,通过“智能筛选员”一样的门控网络,只计算与最相关的Top-K块的注意力,实现了核心思想上的高度一致。
值得一提的是,月之暗面创始人杨植麟曾因论文影响力和引用量备受瞩目,但自K1.5论文后,其研究曾一度停滞。而DeepSeek的NSA论文则汇聚了公司核心团队的力量,展现了团队的技术实力。
两家公司创始人的重要性不言而喻,他们的技术路线也为我们深入了解DeepSeek和月之暗面提供了路径。
(文章来源:财中社)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

