这项动态的影响程度如何？

该情报被评估为对企业具有重大影响，建议技术决策者关注。

NVIDIA 2026-05-29

Architecture Shift 影响: Major 强度: High 置信: 85%

NVIDIA将Step 3.7 Flash多模态模型深度整合至其企业AI全栈

内容摘要

NVIDIA宣布在其加速平台上全面支持StepFun的Step 3.7 Flash模型，这是一个1980亿参数的MoE多模态模型。通过TensorRT-LLM、vLLM进行优化推理，并通过NVIDIA NIM提供生产就绪的容器化微服务部署，同时支持基于NeMo框架的Day 0微调。

核心要点

NVIDIA技术博客详细介绍了如何在其生态中运行Step 3.7 Flash模型。该模型为198B参数Mixture-of-Experts架构，每次前向传播激活约11B参数，支持原生图像/视频输入及256K上下文。

开发者可通过开源框架SGLang、NVIDIA TensorRT-LLM和vLLM利用NVIDIA硬件优化内核进行部署与测试。NVIDIA NIM作为核心，将模型打包为容器化推理微服务，提供标准化OpenAI兼容API，支持本地、云及混合环境部署。

此外，NVIDIA NeMo框架支持从Hugging Face检查点直接进行Day 0微调，包括SFT和LoRA等技术，在Hopper GPU上可达600 tokens/sec。整个流程覆盖从build.nvidia.com原型设计到DGX Station本地开发再到NIM生产部署。

重要性说明

这是典型的控制层转移。控制层正从独立的模型仓库（如Hugging Face）和通用的云编排平台，移向由核心硬件厂商（NVIDIA）定义的全栈AI平台（NIM + 优化框架 + 硬件）。价值从提供算力或单一模型，移向提供从模型选择、优化、定制到生产部署的端到端工作流控制权。NVIDIA旨在通过深度绑定前沿开源模型与其软件栈，巩固其在企业AI基础设施层的系统级控制点。

PRO 决策建议

[Vendors] 竞争厂商需评估自身AI平台战略的完整性，加速构建或强化从硬件到推理服务的全栈能力与易用性工具链，以应对NVIDIA建立的“模型-硬件-软件”深度绑定范式，否则可能在企业AI平台层失守。
[Enterprises] 企业技术决策者应将此类深度集成方案作为评估AI基础设施的关键维度，它显著降低了复杂多模态模型的部署与运维门槛，但需警惕由此可能增加的供应商锁定风险，应在架构设计中保留灵活性。
[Investors] 投资者应关注那些能够构建类似端到端AI平台能力或在其关键环节（如模型优化、推理服务、定制化工具）形成差异化优势的厂商，全栈控制力正成为AI基础设施领域的重要价值壁垒。

来源： blog

查看原文 →

觉得这篇分析有用？

每周收到3-5条AI基础设施关键信号 →

内容摘要

核心要点

重要性说明

PRO 决策建议

觉得这篇分析有用？

💬 评论 (0)