N
NVIDIA
2026-06-01
Vendor Strategy 影响: Major 置信: 85%

NVIDIA Cosmos 3开源统一物理AI模型,以MoT架构合围GPU生态

内容摘要

NVIDIA发布Cosmos 3,基于Mixture-of-Transformers双塔架构统一物理推理、世界生成与动作生成。开源模型权重、训练脚本和六个合成数据集,但部署优化深度绑定NVIDIA NIM微服务与GPU,意图将物理AI开发生态锁定在其硬件和软件栈上。

核心要点

NVIDIA Cosmos 3采用Mixture-of-Transformers (MoT)双塔架构,包含Reasoner tower(自回归VLM)和Generator tower(扩散模型)。Reasoner作为“大脑”理解多模态输入(图像、视频、文本),Generator基于其理解生成物理感知的视频和动作序列。这种统一架构消除了多模型编排的复杂性。
提供两个模型:Cosmos 3 Nano(16B参数)优化用于工作站级推理,目标NVIDIA RTX PRO 6000 GPUCosmos 3 Super(64B参数)面向数据中心,优化用于NVIDIA HopperBlackwell GPU。支持多种输入输出模态,包括文本、图像、视频、动作。
开源六个合成数据集,涵盖机器人、物理交互、空间推理、数字人、自动驾驶、仓库场景。发布NVIDIA Cosmos Human Evaluation (HUE)基准,通过原子二元验证评估视频生成质量。在VANTAGE-BenchPAI-BenchR-Bench等基准上领先。
部署通过NVIDIA NIM微服务,支持量化(BF16、FP8、NVFP4)实现2倍推理加速,基于vLLM引擎和NVIDIA Dynamo。提供开放训练配方,包括监督微调和动作后训练。

重要性说明

NVIDIA通过Cosmos 3开源模型表面开放,实则意图合围 Google的TensorFlow/TPU生态和Meta的PyTorch/开源模型。其核心锁定点在于NIM微服务Dynamo推理引擎,这些组件深度绑定NVIDIA GPU(如H100、B200),迫使开发者使用其专有软件栈。虽然模型权重开源,但训练和推理的优化路径(如NVFP4量化、vLLM-omni集成)仅对NVIDIA硬件有效,用户若迁移至AMD或Intel GPU,将失去性能优势,面临高昂的移植成本。
此外,Cosmos 3的MoT架构虽统一了推理与生成,但Reasoner tower的自回归特性在实时机器人推理中可能引入尾部延迟问题,而Generator tower的扩散模型在生成高分辨率视频时计算开销巨大。NVIDIA未披露在边缘设备上的实际功耗和延迟数据,仅强调工作站级GPU(RTX PRO 6000)的适用性,暗示其模型对低功耗边缘芯片(如Jetson)的支持有限。企业若深度集成Cosmos 3,将面临GPU版本迭代时的资产折旧,因为NIM微服务可能仅支持最新架构(如Blackwell),迫使定期升级硬件。

PRO 决策建议

【厂商】Google和Meta应利用Cosmos 3的GPU绑定弱点,推广其TPU自研芯片上的开源物理AI替代方案(如Google的Genie、Meta的Habitat),强调跨平台可移植性和更低的总拥有成本。同时,开发针对AMD ROCmIntel OneAPI的移植工具,打破NVIDIA的生态壁垒。
【企业】CIO和架构师需对Cosmos 3进行零信任技术审计:评估其NIM微服务的许可证条款是否允许脱离NVIDIA GPU部署;测试模型在非NVIDIA硬件上的性能退化程度;警惕训练脚本数据集中的隐性数据主权问题(如合成数据是否包含敏感场景)。优先选择开放标准(如ONNX Runtime)和硬件无关的推理框架,避免被NVIDIA的DynamovLLM-omni锁定。
【投资者】看穿NVIDIA的公关辞令:Cosmos 3并非纯粹的“开放科学”贡献,而是GPU销售催化剂。其开源模型旨在扩大CUDA生态的覆盖面,使物理AI开发者成为NVIDIA硬件的长期用户。投资者应关注NVIDIA在推理软件栈(NIM、Dynamo)上的市场份额增长,而非模型本身的基准分数。同时,警惕竞争对手(如AMD、Intel)在物理AI领域的追赶可能削弱NVIDIA的护城河。

来源: blog
查看原文 →

觉得这篇分析有用?

每周收到3-5条AI基础设施关键信号 →

💬 评论 (0)