智谱首次发布推理基础设施技术报告揭秘大模型后台“隐形BUG”

商业视界 2026-04-30 11:00:07 来源：证券时报网作者：网络

AI导读：

　　4月30日凌晨，智谱发布技术博客，公布GLM-5底层基础设施重大工程进展：系统吞吐最高提升132%，相同硬件条件下服务能力显著扩容。HiCache修复方案已通过Pull Request #22811提交至SGLang开源社区。
　　同时，智谱推理优

K图 02513_0

　　4月30日凌晨，智谱发布技术博客，公布GLM-5底层基础设施重大工程进展：系统吞吐最高提升132%，相同硬件条件下服务能力显著扩容。HiCache修复方案已通过Pull Request #22811提交至SGLang开源社区。

　　同时，智谱推理优化还在进一步加速，大幅提升单位算力Token吞吐效率，降低推理成本。

　　智谱团队坦言：“这些问题在Chat时代根本不存在，只有在Coding&Agent时代、超大规模调用下才会出现。”

　　这篇技术博客显示，随着大模型从“聊天”转向“干活”，模型需要记住的上下文长度从平均55k Tokens增至70k Tokens以上，日均Token调用量达万亿级别。高频工具调用、长尾提问模式叠加，让Chat时代从未暴露的底层问题在GLM-5系列上第一次显现出来。其中，两个“隐形Bug”浮出水面。

　　第一个是PD分离下的KV Cache竞态。Decode侧因超时触发Abort并回收KV Cache槽位，但Abort信号未能及时传递到Prefill，导致旧请求残留的RDMA写操作继续落在已被复用的槽位上，覆盖新请求数据。处理上，在Decode与Prefill之间引入显式同步，只有在确认相关RDMA写入尚未开始或已全部完成后，才允许回收槽位。修复后，异常率由约万分之十几下降至万分之三以下。

　　第二个问题是HiCache的加载时序缺失。在Load Stream与Forward Stream重叠执行的情况下，Indexer算子启动前未等待Indexer Cache加载完成，出现典型的read-before-ready，使用未初始化数据参与计算，进而引发输出异常。智谱的解决方案是在Indexer启动前增加与Load Stream的同步点，确保依赖数据就绪。修复后该类异常不再出现。

　　与此同时，智谱还进行了一项优化：让“记忆缓存”瘦身，长文本吞吐量翻倍。

　　在Agent场景下，模型需频繁调用历史记忆。传统做法是每张计算卡保存全部层级的记忆，造成冗余。智谱设计分层存储方案：每张卡只保留部分层，通过广播协同，额外通信开销仅为原来的八分之一。实验显示，在缓存命中率90%的情况下，对40k至120k Tokens长度的请求，系统吞吐量提升10%至132%，上下文越长收益越明显。

　　此外，在排查过程中，智谱团队还发现了一个意外的洞察：原本用来加速模型生成的“投机采样”技术，其统计指标可以实时反映记忆缓存的健康度。

　　基于这一洞察，智谱构建了“在线异常监控策略”，并已部署到所有GLM-5系列集群。它能在用户感知到异常之前，实时拦截并重试出问题的请求。原本用来提速的工具，意外变成了守护质量的“监察员”。

　　目前，这一报告所披露的工程问题在国内大模型行业属于“无人区”，只有日均Token调用进入万亿级、单请求上下文突破70k Tokens、且大规模承载真实Agent负载的厂商，才会触达这类底层竞态问题。当大模型真正开始“干活”，底层的工程能力才是决定谁能跑通的硬指标。

（文章来源：证券时报网）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。