N
NVIDIA
2026-06-15
Architecture Shift 影响: Major 置信: 85%

NVIDIA力推World-Action模型:机器人控制权从语言转向视频基础模型

内容摘要

NVIDIA发表深度技术博客,提出World-Action Model(WAM)作为VLM-based VLA的替代路线。WAM利用预训练视频/世界模型骨干,同时预测未来状态和机器人动作,旨在克服VLA的语言-动作接地鸿沟。该范式可能重塑机器人基础模型训练格局,但面临推理成本和实时性挑战。

核心要点

NVIDIA在2026年6月发布的博客中,系统阐述了World-Action Model(WAM)的崛起。核心论点:VLM-based VLA(如Pi-0、GR00T N1)遭遇语言-动作接地鸿沟(grounding gap),即模型理解语言但无法可靠转化为物理动作。WAM通过使用预训练视频骨干(如CosmosWanVeo)作为起点,同时预测未来视频帧和动作序列,将控制点从语言语义转移到物理动态预测。

博客详细分类了WAM的三种范式:逆动力学(从当前和未来观测推断动作)、联合预测(同时预测未来观测和动作)、仅表示(用视频模型特征条件化动作)。架构上提出Mixture-of-Transformers (MoT)Diffusion Transformer (DiT) 作为关键组件。NVIDIA自家的DreamZeroCosmos Policy被列为代表性WAM。

NVIDIA指出,WAM的兴起得益于视频生成模型(如Wan 2.2-5BCosmos-Predict)的成熟,这些模型已具备强大的场景动态先验。但博客也承认WAM面临推理成本高速度慢的挑战,视频生成需要大量FLOPs(如Veo 3.110^19 FLOPs/帧)。

重要性说明

NVIDIA此举表面是技术路线探索,实则为合围Google DeepMind和开源VLA阵营。Google的Gemini Robotics和开源OpenVLA均基于VLM骨干,NVIDIA通过推广WAM,试图将机器人控制权从语言模型生态(VLM)转移到其自有的视频生成生态(CosmosWan),从而锁定用户对NVIDIA GPU和视频模型推理框架的依赖

隐性锁定陷阱:一旦用户采用WAM路线,就必须使用NVIDIA的CosmosWan作为视频骨干,而这些模型高度依赖NVIDIA的H100/B200 GPUTensorRT-LLM优化栈。用户将失去架构弹性,无法轻易切换到其他视频模型(如Veo或开源LTX-Video),因为WAM的Mixture-of-Transformers架构通常与特定视频VAE(如Wan 2.2的4×16×16压缩)深度耦合,迁移成本极高。

故意隐瞒的工程短板:博客对推理延迟和能耗轻描淡写。WAM在实时机器人控制场景中面临致命瓶颈:视频生成需要数十ZFLOPs,即使使用DiT加速,单次推理仍需数秒,远无法满足高频控制(如1kHz关节控制)。此外,视频骨干的尾部延迟在分布式训练中会放大,导致PFC/ECN拥塞控制问题,影响RoCEv2网络效率。NVIDIA未提及WAM在真实物理机器人上的端到端延迟数据,这是关键性能陷阱。

PRO 决策建议

【厂商(竞争对手)】Google DeepMind和开源VLA阵营应立即行动:

  • 强化VLM-based VLA的实时性优化:通过模型蒸馏动作token量化(如FAST/BEAST)降低推理延迟,证明VLA在真实机器人上可达到亚10ms控制周期
  • 开放视频骨干兼容性:推动OpenVLA支持多种视频骨干(如VeoLTX-Video),打破NVIDIA对Cosmos/Wan的锁定。
  • 发布端到端延迟基准:用RoboArenaCALVIN等基准对比WAM与VLA的实际推理时间成功率,揭露WAM的实时性短板。

【企业(CIO/架构师)】采用零信任审计:

  • 要求厂商提供WAM端到端延迟数据:包括视频骨干推理时间、动作解码延迟、网络传输延迟。拒绝接受仅报告FLOPs而不报告wall-clock时间的厂商。
  • 评估跨平台可移植性:测试WAM模型是否能在非NVIDIA GPU(如AMD MI300X)或边缘设备上运行,避免被单一硬件锁定。
  • 优先选择混合架构:关注同时支持VLA和WAM的框架(如GR00T),保持架构弹性,避免过早押注单一范式。

【投资者】穿透公关辞令:

  • 关注WAM的推理成本拐点:若视频生成模型无法在3年内将单帧推理成本降至1毫秒/1W,WAM将仅限离线仿真场景,无法替代VLA。
  • 警惕NVIDIA的生态锁定风险:WAM的成功将强化NVIDIA在AI Infra的垄断,但投资者应对比开源视频模型(如Wan、LTX-Video) 的生态进展,评估供应商集中度风险
  • 做空WAM概念股:若发现关键延迟指标未改善,可预期WAM hype消退,资金回流VLA路线。

来源: T
查看原文 →

觉得这篇分析有用?

每周收到3-5条AI基础设施关键信号 →

💬 评论 (0)