AI导读:

8月12日,华为发布AI推理创新技术UCM,旨在优化推理速度、效率和成本。该技术融合多类型缓存加速算法,已在金融场景试点应用,提升推理速度125倍,未来将推动AI推理生态繁荣发展。

  8月12日,华为发布了AI推理创新技术UCM(推理记忆数据管理器,Unified Cache Manager)。这是专门面向大模型推理过程的“缓存管理技术”,目的是为了优化推理速度、效率和成本。

  UCM是一款以KV Cache为中心的推理加速套件,融合了多类型缓存加速算法工具,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。

  华为公司副总裁表示,UCM旨在推动AI推理体验升级,提升推理性价比,加速AI商业正循环。华为联手中国银联率先在金融典型场景开展UCM技术试点应用,并联合发布智慧金融AI推理加速方案应用成果。

  UCM是什么

  KV Cache是一种用于优化Transformer等模型推理速度的技术,它的核心思想是把历史 token的Key和Value缓存下来,避免重新算,从而提升推理速度、降低计算成本。

  推理体验直接关系到用户与AI交互时的感受,包括回答问题的时延、答案的准确度等。我国普遍小于60 Tokens/s(时延50 – 100 ms),因此,如何解决推理效率与用户体验的难题迫在眉睫。

  华为最新的UCM就引入融合了更多的算法工具,通过推理框架、算力、存储三层协同,实现AI推理“更优体验、更低成本”。

  据悉,在华为与中国银联的联合创新技术试点中,大模型推理速度提升125倍,仅需10秒即可精准识别客户高频问题,促进服务质量提升。

  为何率先在金融行业应用?金融业天然有数字化属性,也是数字化最早的领域之一,对速度、效率、安全、可靠性等要求高,也是验证技术的标杆场景。

  未来,中国银联将联合华为等生态伙伴共建“AI+金融”示范应用,推动技术成果从“实验室验证”走向“规模化应用”。

  华为的差异化路径

  华为UCM在这一领域的最大优势在于将专业存储能力引入其中,引入后在软硬件协同与卸载方面做了大量工作。同时,在KV Cache生命周期管理方面,UCM具备预热、分级、淘汰等一整套机制。

  其次,在算法加速库方面,UCM贡献了更多、更丰富、更可靠的算法,算法库还在不断扩展完善。

  此外,UCM的体系更加完整,能够在各种长短序列、不同请求条件下,实现自动切换与自适应的平滑优化。

  “华为希望通过将部分成果开放,促进框架厂商、存储厂商以及算力厂商共同加速这一框架机制的成熟,最终解决当前AI行业落地过程中的效率与成本问题。”专家说道。

  今天,华为还正式公布了UCM开源计划。UCM通过开放统一的南北向接口,可适配多类型推理引擎框架、算力及存储系统。今年9月,UCM将正式开源,后续逐步贡献给业界主流推理引擎社区,和全产业共同推动AI推理生态的繁荣发展。

  整体而言,一方面是华为在AI推理技术层面持续进行研发,UCM也是结合华为存储技术的积累进行创新;另一方面,在AI的布局上,华为继续在产业链的各个环节进行升级,实现系统性的提升。

  业内人士指出,国外领先芯片厂商通过硬件迭代、软件优化、生态绑定构建了推理时代的“铁三角”,短期内难以被代替。中国单点硬件技术,如芯片设计上有所突破,但国产软件及生态适配还有差距,华为等科技厂商也在不断补上生态短板。

  正如华为专家所言:“大家一定要关注网络、存储、端到端的系统性、成本降低,才能有效的去加速AI的落地。从单点的算力模组转向系统性优化,这是大趋势。”


(文章来源:21世纪经济报道)