Google开放TPU硬件交付,第八代芯片性能跃升直指Nvidia腹地
内容摘要
核心要点
Google在Q1 2026财报电话会议上披露了多项AI基础设施进展。
第八代TPU分为TPU 8t(训练专用)和TPU 8i(推理专用)。TPU 8t处理能力是上一代Ironwood的3倍,性能翻番;TPU 8i每美元性能比前代提升80%,旨在降低推理成本。Google同时强调其AI基础设施组合包括TPU、Axion CPU和NVIDIA GPU(将首批提供Vera Rubin NVL72)。
关键战略转折:Google计划首次将TPU硬件直接交付给客户在自己的数据中心使用,首批客户包括Thinking Machines Lab、Hudson River Trading和Boston Dynamics。这标志着TPU从仅限云服务扩展到混合部署。
此外,Google完成对Wiz(云安全AI平台)的收购,并推出Gemini Enterprise Agent Platform,支持构建、编排和治理AI代理。BigQuery中的Gemini工作流同比增长超30倍。企业AI解决方案首次成为Cloud收入的主要增长驱动力,Q1 gen AI产品收入同比增长近800%。
重要性说明
Google此举表面是技术突破,实则是一场精心设计的生态合围。
防守/合围谁? 直指Nvidia。通过开放TPU硬件,Google试图在数据中心内部瓦解Nvidia的GPU垄断。客户一旦部署TPU,就会陷入Google的JAX/TensorFlow软件栈,难以迁移到CUDA生态。这是一种比云服务更深的锁定——硬件资产折旧周期长达3-5年,客户被绑死在Google的芯片路线图上。
隐瞒了什么物理限制? TPU在通用计算和稀疏模型(如MoE)上效率远不如GPU。TPU 8t的3倍性能提升可能仅针对特定矩阵运算,实际训练吞吐量受限于HBM带宽和互联拓扑。此外,Google未披露TPU硬件交付后的运维成本——客户需自建液冷、高速网络(如RoCEv2)和电源,总拥有成本可能超过云服务按需付费。
隐性资产锁定: TPU硬件客户将被迫使用Google的Cloud TPU VM软件栈,无法运行Nvidia的CUDA或AMD的ROCm。一旦Google在下一代TPU上改变架构(如转向chiplet),现有硬件将迅速贬值,客户面临高昂的迁移成本。
PRO 决策建议
【厂商】Nvidia应立即强化CUDA生态的不可替代性,推出针对AI推理的专用GPU(如B200)并降低TCO,同时与Arista、Dell等合作推出白盒AI集群方案,攻击TPU在软件兼容性和通用性上的短板。AMD应加速ROCm对主流框架的适配,并联合HPE提供开放式AI硬件选项。
【企业】CIO和架构师需对TPU硬件交付进行零信任审计:要求Google提供独立的MLPerf基准测试(覆盖训练和推理),并评估TPU与现有GPU集群的混合部署兼容性。必须要求Google明确TPU硬件的EOL(生命周期终止) 政策和软件升级承诺,避免资产锁死。优先选择支持CUDA和ROCm双生态的硬件,保留架构弹性。
【投资者】看穿财报中的公关辞令:TPU硬件交付短期内会侵蚀Google Cloud的云服务收入(客户从云转向自建),长期则面临与Nvidia的价格战。Wiz收购虽带来安全收入,但整合风险高。关注Google的资本支出是否因TPU硬件制造而飙升,以及毛利率变化。真正的价值在于TPU能否在推理市场形成对Nvidia的替代,但当前证据不足。
觉得这篇分析有用?
每周收到3-5条AI基础设施关键信号 →
💬 评论 (0)