新京报贝壳财经讯:英伟达GTC大会杨植麟披露Kimi K2.5模型技术路线图
新京报贝壳财经讯:在英伟达GTC大会上,月之暗面Kimi创始人杨植麟披露了Kimi K2.5模型背后的技术路线图。该模型通过重构优化器、注意力机制和残差连接等底层基石,提升了训练效率和模型性能。...
Kimi创始人杨植麟:推动大模型智能上限的突破
Kimi创始人杨植麟在英伟达年度开发者大会上发表演讲,提出通过技术重构推动大模型智能上限的突破,并披露了Kimi K2.5的技术路线图。他还分享了视觉强化学习对文本性能的提升等跨模态研究的新发现。...
DeepSeek发布原生稀疏注意力机制NSA,提升AI模型长文本处理能力
DeepSeek团队发布新的注意力机制NSA,专为长文本训练与推理设计,显著提升AI模型在长上下文推理能力上的表现,降低预训练成本,提高推理速度,扩展大语言模型应用边界。...



