优秀财经网 优秀的人都在用的资讯工具

全球指数

首页 > TAG信息列表 > 注意力机制
  • DeepSeek与月之暗面挑战Transformer注意力机制

    DeepSeek和月之暗面两大技术巨头几乎同时发布了挑战Transformer架构最核心的注意力机制的新论文,旨在让算法更高效处理更长的上下文。DeepSeek提出了NSA稀疏注意力机制,月之暗面则提出了MoBA架构,两者都实现了核心思想上的高度一致。...

    2025-02-19
  • DeepSeek发布原生稀疏注意力机制NSA,提升AI模型长文本处理能力

    DeepSeek发布原生稀疏注意力机制NSA,提升AI模型长文本处理能力

    DeepSeek团队发布新的注意力机制NSA,专为长文本训练与推理设计,显著提升AI模型在长上下文推理能力上的表现,降低预训练成本,提高推理速度,扩展大语言模型应用边界。...

    2025-02-18