H
Huawei
2026-06-05
Architecture Shift 影响: Major 置信: 92%

华为云发布AICS灵衢智算集群:Token工业化时代的控制平面转移与Agent锁定

内容摘要

华为云发布四大Agentic Infra新品,核心为AICS灵衢智算集群(10万卡/200 EFLOPS),通过NPU直通CMS硬件、CCE VolcanoNext通智一体化调度引擎与AgentSphere安全沙箱,构建从算力、记忆到调度、安全的统一控制平面,旨在锁定大模型训练与Agent推理的全栈基础设施。

核心要点

华为云在INSPIRE 2026上发布的Agentic Infra新品,并非孤立的产品更新,而是一套旨在定义'Token工业化时代'基础设施新范式的系统级架构。核心是AICS灵衢智算集群,基于其自研的灵衢网络(推测为专有RoCEv2或定制以太网方案),支持10万卡级集群规模,总算力高达200 EFLOPS,Token生成时延低于10毫秒,千卡吞吐达500万Tokens/s,可用性99.95%。这标志着华为云在超大规模AI集群领域直接对标NVIDIA DGX SuperPOD和AWS Trainium2集群。

第二大组件是AMS Agentic记忆存储解决方案,通过NPU直通CMS(上下文记忆存储)硬件实现,提供PB级超大记忆空间,支持KV Cache分层池化。这是针对Agent长程任务(如持续学习、多轮对话)的核心痛点,将记忆从昂贵的HBM DRAM卸载到专用硬件,但代价是引入了新的硬件依赖和潜在的单点故障。

第三是CCE VolcanoNext通智一体化调度引擎,采用'训推共池+碎片整合'机制,宣称资源利用率提升30%以上。这本质上是将Kubernetes调度器与AI负载调度深度耦合,试图解决GPU碎片化和训推混合部署的经典难题。第四是AgentSphere Agent安全运行环境,采用羽量级沙箱技术(类似gVisor或Firecracker但定制化),实现100毫秒级启动和每分钟十万级批量创建,为Agent规模化提供安全隔离。

重要性说明

华为云此次发布的实质,是将AI基础设施的控制平面从开放的GPU生态和标准调度框架(如Kubernetes + Volcano)转移至其专有的AICS灵衢网络AMS CMS硬件CCE VolcanoNext组合中。这直接合围了NVIDIA的GPU生态和AWS的SageMaker/AWS Trainium。

其隐性锁定策略非常精妙:AMS记忆存储通过NPU直通硬件,使得客户一旦采用,其Agent的长期记忆和KV Cache将完全绑定华为自研的CMS硬件,无法迁移至其他GPU集群(如NVIDIA H100/B200)。这比单纯锁定算力更可怕,因为记忆是Agent的'灵魂'。

华为云刻意淡化了以下工程短板:第一,灵衢网络的10万卡规模是否依赖专有协议(如定制的PFC/ECN拥塞控制),导致与传统RoCEv2网络不兼容,形成网络锁定。第二,CCE VolcanoNext的'训推共池'调度,在混合负载场景下,训练任务的尾部延迟(Tail Latency)可能因推理突发请求而急剧恶化,原文未提供任何尾部延迟测试数据。第三,AMS CMS硬件的带宽和延迟指标未公开,其作为单点故障的风险极高。

PRO 决策建议

【厂商】(如NVIDIA、AWS、阿里云):立即针对华为云的AMS CMS硬件锁定发起攻击性替代方案。NVIDIA应加速推出GPU Direct MemoryGrace Hopper Superchip的KV Cache offload参考架构,强调开放标准(如NVLink/NVSwitch)与华为专有硬件的不可移植性。AWS应公布Trainium2 + S3 Express One Zone的Agent记忆持久化方案,强调其弹性与成本优势。阿里云应联合英特尔至强AMD EPYC,推出基于CXL内存池的开放Agent记忆方案,直接瓦解华为的硬件锁定。

【企业】:CIO与架构师必须对华为云的AMS CMS硬件灵衢网络进行零信任技术审计。要求华为提供灵衢网络与标准RoCEv2的互操作性测试报告,以及CCE VolcanoNext在训推混合负载下的尾部延迟(P99/P999)数据。立即评估Agent工作负载迁移至其他GPU集群(如NVIDIA H200/B200)的难度,尤其是KV Cache的格式和CMS硬件的API兼容性。建立供应商多元化策略,避免将Agent记忆层锁定在单一硬件上。

【投资者】:看穿华为云此次发布的核心是供应商集中度风险的急剧上升。虽然短期能提升华为云在AI Infra领域的市场份额,但长期会因专有硬件锁定互操作性缺失而限制客户规模。投资者应关注竞争对手(如NVIDIA、AWS)能否快速推出开放的、基于标准的Agent记忆与调度替代方案。华为云的AMS CMS硬件的供应链风险(如自研NPU产能)也需纳入估值模型。

来源: AI Infra
查看原文 →

觉得这篇分析有用?

每周收到3-5条AI基础设施关键信号 →

💬 评论 (0)