N
NVIDIA
2026-05-29
Architecture Shift 影响: Major 强度: High 置信: 85%

NVIDIA将Step 3.7 Flash多模态模型深度整合至其企业AI全栈

内容摘要

NVIDIA宣布在其加速平台上全面支持StepFun的Step 3.7 Flash模型,这是一个1980亿参数的MoE多模态模型。通过TensorRT-LLM、vLLM进行优化推理,并通过NVIDIA NIM提供生产就绪的容器化微服务部署,同时支持基于NeMo框架的Day 0微调。

核心要点

NVIDIA技术博客详细介绍了如何在其生态中运行Step 3.7 Flash模型。该模型为198B参数Mixture-of-Experts架构,每次前向传播激活约11B参数,支持原生图像/视频输入及256K上下文。

开发者可通过开源框架SGLang、NVIDIA TensorRT-LLM和vLLM利用NVIDIA硬件优化内核进行部署与测试。NVIDIA NIM作为核心,将模型打包为容器化推理微服务,提供标准化OpenAI兼容API,支持本地、云及混合环境部署。

此外,NVIDIA NeMo框架支持从Hugging Face检查点直接进行Day 0微调,包括SFT和LoRA等技术,在Hopper GPU上可达600 tokens/sec。整个流程覆盖从build.nvidia.com原型设计到DGX Station本地开发再到NIM生产部署。

重要性说明

这是典型的控制层转移。控制层正从独立的模型仓库(如Hugging Face)和通用的云编排平台,移向由核心硬件厂商(NVIDIA)定义的全栈AI平台(NIM + 优化框架 + 硬件)。价值从提供算力或单一模型,移向提供从模型选择、优化、定制到生产部署的端到端工作流控制权。NVIDIA旨在通过深度绑定前沿开源模型与其软件栈,巩固其在企业AI基础设施层的系统级控制点。

PRO 决策建议

[Vendors] 竞争厂商需评估自身AI平台战略的完整性,加速构建或强化从硬件到推理服务的全栈能力与易用性工具链,以应对NVIDIA建立的“模型-硬件-软件”深度绑定范式,否则可能在企业AI平台层失守。
[Enterprises] 企业技术决策者应将此类深度集成方案作为评估AI基础设施的关键维度,它显著降低了复杂多模态模型的部署与运维门槛,但需警惕由此可能增加的供应商锁定风险,应在架构设计中保留灵活性。
[Investors] 投资者应关注那些能够构建类似端到端AI平台能力或在其关键环节(如模型优化、推理服务、定制化工具)形成差异化优势的厂商,全栈控制力正成为AI基础设施领域的重要价值壁垒。

来源: blog
查看原文 →

觉得这篇分析有用?

每周收到3-5条AI基础设施关键信号 →

💬 评论 (0)