AI导读:

11月5日,华为宣布开源针对AI推理加速的UCM推理记忆数据管理技术。该技术具备四大能力,实现首Token时延最高降低90%,系统吞吐最大提升22倍,为AI推理加速提供强大支持。

  11月5日,据“华为数据存储”微信公众号消息,华为针对AI推理加速的核心技术——UCM(Unified Cache Manager)推理记忆数据管理正式宣布开源。这一举措标志着华为在AI技术领域又迈出了重要一步,UCM技术以其卓越的性能,如稀疏注意力、前缀缓存、预填充卸载、异构PD解耦等四大能力,实现了首Token时延最高降低90%,系统吞吐最大提升22倍,并达到了10倍级上下文窗口扩展,为AI推理加速提供了强大支持。华为开源UCM,不仅推动了AI技术的普及,也为相关行业带来了新的发展机遇。

(文章来源:界面新闻)