新京报贝壳财经讯:英伟达GTC大会杨植麟披露Kimi K2.5模型技术路线图
新京报贝壳财经讯:在英伟达GTC大会上,月之暗面Kimi创始人杨植麟披露了Kimi K2.5模型背后的技术路线图。该模型通过重构优化器、注意力机制和残差连接等底层基石,提升了训练效率和模型性能。...
Kimi创始人杨植麟:推动大模型智能上限的突破
Kimi创始人杨植麟在英伟达年度开发者大会上发表演讲,提出通过技术重构推动大模型智能上限的突破,并披露了Kimi K2.5的技术路线图。他还分享了视觉强化学习对文本性能的提升等跨模态研究的新发现。...
马斯克点赞!这家AI团队突破深度学习瓶颈
3月16日,月之暗面Kimi发布了一项技术报告《Attention Residuals》,突破大模型架构中的瓶颈,重新设计深度学习中核心的残差连接结构。该技术获得马斯克等业内专家的关注。...
DeepSeek发布mHC新架构:深度学习领域再添新利器
DeepSeek在元旦假期发布了一篇新论文,提出mHC(流形约束超连接)新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题,并提升性能增益。...
DeepSeek发布最新论文《mHC: Manifold-Constrained Hyper-Connections》
DeepSeek团队发布最新论文,提出mHC框架以改进大模型训练性能。该框架建立在残差连接和HC范式基础上,通过智能调度系统解决模型训练不稳定问题,并有望为下一代基础架构发展指明新途径。...


