N
NVIDIA
2026-06-22
Architecture Shift 影响: Major 置信: 90%

NVIDIA Rubin全液冷突破45°C,冷却能耗骤降40%

内容摘要

NVIDIA Rubin代AI服务器实现100%液冷,冷却液温度高达45°C,无风扇、无冷热通道。DSX参考设计采用封闭循环干冷器,零水消耗,冷却能耗降低约40%。该架构使机架密度提升3倍,推动AI工厂冷却范式根本转变。

核心要点

NVIDIA宣布其Rubin代AI基础设施成为全球首个实现100%液冷的系统——每个芯片、每个网络组件均由封闭循环液体冷却,完全无风扇。冷却液温度可达45°C(113°F),高于热水浴缸温度。该设计基于NVIDIA DSX AI工厂参考设计,采用干冷器而非蒸发冷却,实现零水消耗(仅在极少数气候下需启动制冷机)。

传统数据中心冷却占电力消耗40%。通过将冷却液温度提升至45°C,可节省约40%冷却能耗。一个50MW超大规模设施每年可节省400万美元冷却相关成本。水消耗从传统冷却塔的260万加仑/兆瓦/年降至接近零。

全液冷服务器消除了风扇噪音(>85分贝)和冷热通道布局。冷却液为75%水+25%丙二醇,通过冷板直接接触芯片。在适宜气候下,仅需室外干冷器散热,无需制冷设备。此设计还支持废热回收。

工程挑战:以往液冷服务器是混合的(GPU/CPU有冷板,其余风冷)。NVIDIA重新设计了所有组件的冷却回路,采用单进单出简化液体路由。结果:Rubin服务器前面板密封无孔,机架密度从6U缩至2U,计算密度提升3倍。

重要性说明

NVIDIA此举表面是效率突破,实则通过DSX参考设计将液冷架构与Rubin GPU深度绑定,形成生态锁定。任何采用该设计的云厂商必须遵循NVIDIA的冷却回路标准,包括冷板几何、液体流量、入口温度等参数,限制了用户选择其他冷却供应商或未来切换至AMD/Intel GPU的灵活性。

45°C冷却液温度虽降低能耗,但严重依赖气候条件。在Phoenix等炎热地区,干冷器无法全年工作,仍需启动制冷机,NVIDIA淡化了这一地理限制。实际部署中,用户可能需额外投资备用制冷系统,增加资本支出

全液冷消除了风扇,但引入了液体泄漏风险维护复杂性。封闭循环系统一旦泄漏,可能导致整机架故障。此外,75%水+25%丙二醇的冷却液需要定期监测成分和防腐蚀处理,运维成本被低估。

NVIDIA通过DSX将冷却系统纳入其AI工厂整体设计,实际上是在控制平面转移:从传统数据中心冷却基础设施转向芯片级热管理,使GPU成为冷却控制点。这合围了施耐德/维谛等传统冷却厂商,迫使它们与NVIDIA深度合作(如Motivair),否则面临边缘化。

PRO 决策建议

【厂商】AMD与Intel应立即联合液冷供应商(如CoolITAsetek)推出兼容开放液冷标准的GPU参考设计,打破NVIDIA的DSX锁定。重点强调45°C冷却液在炎热气候下的短板,并展示自家GPU在更高温度下的稳健性。同时,推动OCP组织制定统一液冷接口规范,降低用户转换成本。

【企业】CIO和架构师需进行零信任技术审计:要求NVIDIA提供DSX参考设计的完整开放文档,确保冷却回路参数非专有。评估自身数据中心地理位置:若位于炎热地区,需计算干冷器+备用制冷机的TCO,而非仅看NVIDIA宣传的节省数字。保留混合冷却选项(部分风冷+部分液冷)以保持灵活性。与至少两家液冷供应商签订框架协议,避免单一依赖。

【投资者】看穿NVIDIA公关辞令:全液冷是生态锁定工具而非纯技术飞跃。关注施耐德(Motivair)维谛等冷却厂商与NVIDIA的合作深度——若它们被深度绑定,可能丧失独立创新空间,导致估值折价。相反,投资开放液冷标准推动者(如CoolIT)和AMD数据中心生态,押注解耦趋势。

来源: NVIDIA新闻中心
查看原文 →

觉得这篇分析有用?

每周收到3-5条AI基础设施关键信号 →

💬 评论 (0)