AI推理新趋势:以查代算破解金融领域效率成本难题
AI导读:
本文探讨了AI推理从训练向推理并重转变的新趋势,指出金融领域AI推理能力面临瓶颈。通过“以查代算”方案,借助外部存储提升推理效率,降低成本。华为UCM技术已在金融领域试点应用,显著提升推理性能,为AI推理效率与成本找到平衡点。
人工智能已步入发展深水区。记者获悉,当前AI(人工智能)的发展正从以模型训练为核心的阶段,逐步迈入训练与推理并重,甚至推理占比显著提升的新阶段。
训练是大模型的学习过程,目标是构建或优化模型参数;而推理则是大模型的应用过程。根据华为公司提供的数据,当前推理算力需求已超过训练。GPT-5开放首周20亿次/分钟,70%的请求为复杂任务推理;而国内火山引擎的日均Token(令牌)调用量已达16.4万亿,其中70%以上来自线上推理。
然而,尽管推理需求逐步旺盛,但国内AI推理能力的发展仍受限于AI基础设施基础弱、投资少,以及算力卡阉割、算力卡涨价、HBM(高带宽内存)涨价等一系列因素。
记者获悉,当前金融领域AI推理能力的瓶颈开始显现。华为数据存储产品线AI存储首席架构师李国杰表示,从银行业来看,核心有三个问题:一是“推不动”;二是“推得慢”;三是“推得贵”。
8月12日,《每日经济新闻》记者在上海举行的“2025金融AI推理应用落地与发展论坛”上了解到,市场越来越关注模型推理能力的深度优化。如今,通过借助外部存储的“以查代算”方案,正在为普通企业突破AI推理瓶颈提供低成本的破题思路。
“以查代算”为AI推理效率与成本找到平衡点。如何让AI推理能力围绕“成本—性能—效果”进一步演进,成为困扰业界的问题。目前业内已经形成的一种解决方案是“以查代算”,即通过记忆此前已推理过的内容,降低重复推理,从而提高整体的推理效率。
此前,行业的推理能力高度依赖显卡的HBM,其成本让普通企业不堪重负。为了降低对HBM的依赖,业界开始探索DRAM(动态随机存取存储器)、SSD(固态硬盘)等外部存储方案以节省算力和带宽。
记者获悉,业界已经出现了诸多通过优化存储分配来提升推理效率的案例。例如,英伟达推出了Dynamo推理方案架构;华为发布了UCM(推理记忆数据管理器,Unified Cache Manager)推理记忆数据管理器,可以分级管理推理过程中产生的KV Cache(即“记忆数据”)。
以后者为例,依托UCM层级化自适应的全局前缀缓存技术,系统能直接调用KV缓存数据,避免重复计算,显著降低首Token时延。UCM还通过分层卸载超长序列Cache(缓存)至专业存储,并创新算法扩展推理上下文窗口,满足长文本处理需求。
值得一提的是,在论坛现场,华为宣布其UCM将于今年9月正式开源,将通过开放统一的南北向接口,适配多类型推理引擎框架、算力及存储系统。
金融领域率先获得应用。记者在论坛上获悉,上述UCM技术已率先在金融典型场景进行了试点应用。华为数字金融军团CEO曹冲介绍,华为和中国银联在客户之声、智慧营销和会议助手等场景,已验证了UCM技术的性能表现。
“金融级应用需微秒级响应,而卡顿、延迟直接影响风控与交易安全。”曹冲表示,金融场景对AI推理效能有着更高的要求。在现场,中国银联智能化创新中心副总经理杨燕明透露了上述方案的应用效果。“经过一系列优化,我们具备了几个关键能力:一是多轮对话场景中首Token的延迟降低了60%,长序列的场景可以倍数级扩展推理长度,吞吐量达到了2~5倍的提升。”
记者了解到,就当前阶段而言,这类调用外部存储介质“以查代算”的策略,为企业在权衡AI推理效率与成本之间提供了一种解决方案。
(文章来源:每日经济新闻)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

