科技动态:华为与湖北移动完成运营商首个AI推理加速测试,长序列吞吐率飙升372%
图片来源:AI生成

在2026年MWC上海展期间,华为与湖北移动联合宣布了一项足以改写运营商AI基础设施格局的科技动态:双方成功完成全国运营商首个AI推理加速解决方案的现网测试。基于华为OceanStor A800存储与昇腾A3超节点架构,并搭载自研UCM(Unified Cache Manager)推理记忆数据管理技术,测试在长序列AI推理场景下实现了Token吞吐率最高提升372%的惊人成果。这一突破不仅意味着AI推理效率的质的飞跃,更预示着即将到来的Agent智能体时代,运营商网络将有能力承载更复杂、更密集的实时推理任务。

长序列推理的“内存墙”困境

随着AI应用从简单问答向Agent(智能体)形态演进,长上下文序列(如代码生成、多轮对话、合同分析)已成为典型场景。然而,传统算力卡的高带宽内存(HBM)容量有限,通常仅有几十GB到几百GB,远远无法满足动辄百万Token级别的上下文窗口需求。KV Cache(键值缓存)是Transformer模型推理中的核心加速技术,它通过缓存中间计算结果避免重复计算,但HBM的容量瓶颈直接导致KV Cache命中率急剧下降——当序列长度超过HBM容量时,大量历史Token必须被丢弃或从慢速DRAM中重新加载,造成推理延迟急剧增加。

这一“内存墙”问题在运营商环境中尤为突出:运营商需要同时为成千上万的用户提供实时AI服务,每个用户的对话历史都可能长达数万Token。传统方案只能通过堆叠更多算力卡来缓解,但成本高昂且能耗巨大。正是为了打破这一僵局,华为在2025年底推出了UCM技术,将KV Cache的管理从单卡HBM扩展到外置存储系统,实现了PB级的缓存空间。这相当于给AI推理模型配备了一个“无限”的上下文窗口,彻底解放了长序列推理的性能天花板。

UCM技术:打破存储与计算的边界

UCM(Unified Cache Manager)的核心创新在于“分层管理与调度”。它将KV Cache视为一种需要全生命周期管理的数据资产:当HBM容量充足时,KV Cache驻留在HBM中实现最低延迟访问;当HBM不足时,UCM会智能地将近期高频使用的KV Cache保留在HBM,而将历史低频数据迁移到OceanStor A800存储阵列(通过高速NVMe协议访问)。更重要的是,在多轮对话场景中,UCM允许跨对话复用历史KV Cache——上一轮对话中生成的中间计算结果可以被后续对话直接引用,避免了重复计算。

这种架构的设计理念与当前的大模型训练范式高度契合:训练阶段采用数据并行与模型并行,而推理阶段则更强调缓存命中与延迟优化。UCM让推理系统具备了“记忆”能力,这不仅是技术上的突破,更将深远影响企业数字化转型的路径——企业级AI应用(如智能客服、文档分析)将首次拥有真正“记住”上下文的能力,而无需依赖外部数据库或向量存储。

测试数据详解:从64K到190K的线性增益

本次测试部署在湖北移动现网环境,采用vLLM-Ascend推理框架,针对MiniMax M2.5和GLM-5.1两款主流大模型,模拟了从8K到190K的长序列输入场景。测试结果全面验证了UCM技术的有效性,且随着上下文长度增加,加速效果非线性放大。

在MiniMax M2.5模型上,启用UCM后首Token延迟(TTFT)优化了26%~62%,单NPU卡的Token输出效率(TPS)显著提升。具体来看:64K序列长度下TPS提升58%,128K序列下TPS提升78%。这意味着即使用户输入长达128K Token的文档,AI也能在保持低延迟的同时,以接近两倍的速度生成回复。

在GLM-5.1模型上,TTFT优化幅度更是达到惊人的51%~93%,TPS提升56%~372%。其中64K序列下TPS提升313%,128K序列下TPS提升372%——这项数据直接刷新了运营商AI推理效率的记录。从技术角度分析,GLM-5.1的参数量更大、结构更复杂,因此传统方案下长序列的KV Cache压力更显著,UCM的收益也更明显。这也印证了华为在发布会上强调的“随着上下文长度增加,AI推理加速方案优势持续放大”的论断。

AI Agent时代:运营商基础设施的范式转移

长序列推理能力的突破,直接催化了AI Agent在运营商场景的落地。过去,智能客服的多轮对话往往限定在3~5轮,超过后模型便会“遗忘”对话开头的内容;现在,借助UCM支撑的190K上下文窗口,Agent可以完全记住整场对话,甚至跨会话保持记忆。这为构建真正的“智能数字员工”奠定了基础。例如,一个面向政企客户的故障报修Agent,可以在一次交互中同时处理历史工单查阅、现场视频分析、备件库存确认等多个长上下文任务,而无需分段执行。

更值得关注的是,AI Agent技术的进步正催生全新的科技产品形态。运营商不再仅仅是管道提供者,而有望成为AI服务的聚合平台。湖北移动此次测试表明,运营商级AI基础设施已经具备承载AI工具导航等生态应用的能力——用户可以通过手机营业厅直接调用类似AI画图文生图的创意工具,或者使用抠图功能处理图片,而所有这些请求的推理都将由背后这套加速系统高效完成。从技术到业务,一场围绕“智能即服务”的变革正在展开。

行业影响与生态展望

华为与湖北移动的此次联合测试,对于整个AI产业意义深远。首先,它证明了“存储+计算”协同架构在推理场景下的巨大潜力。以往业界普遍认为推理主要依赖GPU/NPU的算力,存储只是辅助角色;而UCM通过让存储主动参与计算(缓存管理本质上是一种计算调度),重新定义了推理系统的架构范式。这可能会促使其他厂商跟进,甚至引发AI技术栈的底层重构。

其次,372%的效率提升意味着实际运营成本的大幅降低。对于运营商而言,在相同算力投入下,可以服务更多用户或支持更高复杂度的模型。例如,原本需要10张NPU卡才能满足的峰值推理需求,现在可能只需3张卡就能完成。这种效率红利将直接传导至消费者端——未来AI服务的资费可能因成本下降而更亲民,或者免费服务的质量上限将被推高。

最后,这一成果对科技产品的生态构建具有指导意义。作为AI工具箱的重要组成,类似于艺术签名AI网名等轻量级创意工具,过去受限于推理延迟只能提供简单模板,如今得益于长序列加速,完全可以实现个性化定制——例如根据用户历史偏好动态生成符合个人风格的签名或昵称。此外,古诗词生成这类需要理解复杂语境的应用,也能在移动端获得流畅体验。

未来挑战与持续演进

尽管成果亮眼,但UCM技术仍有优化空间。当前测试主要面向长序列推理场景,而短序列(如几百Token)的收益相对较小,甚至可能因数据迁移带来额外开销。如何实现长短序列的自适应调度,是华为下一阶段需要解决的问题。另外,UCM依赖的高速存储OceanStor A800虽然性能卓越,但成本不菲,对于中小规模部署可能不够经济。未来可能推出更轻量的版本,或者利用NVMe SSD甚至内存池化方案来降低成本。

从更宏观的视角看,运营商AI基础设施需要与AI技术生态深度耦合。例如,当Agent应用越来越流行时,如何将UCM的能力暴露给上层开发者?华为与湖北移动下一步可能会推出开发者SDK,让第三方AI应用可以直接调用UCM提供的“无限上下文”能力。这类似于云服务中的对象存储API,但粒度更细、时延更低。

另一个潜在方向是跨域缓存共享。当多个用户请求同一段热门上下文(例如最新的新闻摘要)时,UCM可以做到缓存复用,进一步减少计算开销。这部分工作与当前火热的联邦学习、隐私计算有交叉,需要平衡效率与数据合规。总体来看,这次科技动态的发布只是起点,真正的产业化落地还需产学研多方协作。