NVIDIA全栈统治超算TOP500:Grace CPU与InfiniBand锁定AI基础设施生态
内容摘要
核心要点
根据ISC 2026发布的TOP500榜单,NVIDIA技术驱动了超过400台超算(81%),新增系统中90%采用NVIDIA方案。关键指标:238台系统使用NVIDIA GPU,376台使用NVIDIA网络(绝大多数是Quantum InfiniBand),26台采用Grace CPU,累计出货近250万颗。
Green500能效榜单前八名全部基于NVIDIA GPU,第一名KAIROS(法国图卢兹大学)使用单个Grace Hopper Superchip,达到73.3 gigaflops/watt。
NVIDIA强调全栈覆盖:Grace CPU与Vera CPU(2026年宣布)专为AI设计,与GPU共享内存(Grace Hopper架构)。Blackwell架构(B200/GB200)已进入亚洲、欧洲、美国的新系统。欧洲有35台NVIDIA AI HPC超算在建,包括欧洲首个百亿亿次系统JUPITER。
重要性说明
这篇新闻稿表面是市场份额宣示,实质是NVIDIA对超算与AI基础设施生态的全面合围。其核心意图是防御AMD的GPU竞争(AMD Instinct)和Intel的CPU与网络野心(Intel的Xeon与IPU),通过Grace CPU+NVLink+InfiniBand的深度绑定,迫使客户在采购时接受全栈方案,从而剥夺用户选择开放组件(如x86 CPU、以太网)的弹性。
隐性锁定用户资产:NVIDIA通过CUDA生态、NVLink和InfiniBand构建了多层锁定。客户一旦采用Grace CPU,就必须使用NVIDIA GPU和网络,因为Grace Hopper的共享内存设计是专有互连。这导致用户在升级时无法单独替换CPU或网络,面临资产折旧陷阱——例如,未来若想迁移到AMD GPU,需要更换整个Grace Hopper节点,成本极高。
故意隐瞒的物理限制:原文未提及InfiniBand在超大规模数据中心中相对于RoCEv2以太网的成本劣势和可扩展性限制。InfiniBand虽然性能优异,但部署复杂,且NVIDIA的Quantum InfiniBand是封闭协议,不支持多厂商互操作。此外,Grace CPU基于ARM架构,虽然能效高,但在传统HPC软件生态中(如依赖x86优化的MPI库)存在兼容性风险,NVIDIA未强调迁移成本。
控制点转移:从开放标准(x86、以太网)转向NVIDIA专有互连(NVLink-C2C、Quantum InfiniBand),产业价值从Intel、AMD、Broadcom等传统供应商移向NVIDIA。
PRO 决策建议
【厂商】AMD与Intel必须立即联合推动开放互连标准(如CXL与UEC),并推出与NVIDIA Grace Hopper对标的集成方案(如AMD的MI300A,结合CDNA GPU与Zen CPU)。同时,网络供应商(如Broadcom、Mellanox竞争对手)应推广RoCEv2以太网在AI/HPC场景的成熟度,打破InfiniBand垄断。
【企业】CIO与架构师应进行零信任技术审计:评估当前超算/AI基础设施的供应商集中度风险。要求NVIDIA提供独立基准测试,对比全栈方案与开放组件方案(如AMD GPU+Intel CPU+以太网)在特定工作负载下的实际TCO与性能。在采购合同中加入可移植性条款,确保未来能替换单个组件(如CPU或网络)而不受锁定。
【投资者】看穿NVIDIA的公关辞令:全栈锁定虽然短期提升营收,但长期会引发客户反弹和反垄断风险。关注AMD与Intel的整合进展,以及UEC(超以太网联盟)能否在AI网络领域挑战InfiniBand。NVIDIA的竞争对手若能提供足够竞争力的开放方案,将侵蚀NVIDIA的护城河。
觉得这篇分析有用?
每周收到3-5条AI基础设施关键信号 →
💬 评论 (0)