情报
AI 生成的结构化厂商动态简报
英伟达推动AI基础设施评估指标从FLOPS转向每token成本
英伟达提出应将“每token成本”而非“每美元FLOPS”作为评估AI基础设施的核心经济指标。这标志着从衡量计算输入转向衡量商业输出,涉及硬件、软件、网络的全栈优化,以降低企业AI推理的总拥有成本。
谷歌发布Gemma 4开源模型,瞄准边缘推理与AI代理架构
谷歌推出Gemma 4开源模型家族,包含从2B到31B的四个版本,强调单位参数性能突破,并原生支持AI代理工作流、多模态与长上下文。其小参数模型专为边缘设备优化,旨在将前沿推理能力扩展至移动与IoT场景。
Google发布Gemma 4开源模型系列
Google推出Gemma 4开源模型系列,包含四种规模变体,特别优化边缘计算和移动设备。该系列支持多模态处理、长上下文窗口和140多种语言,采用Apache 2.0许可。
英伟达发布Nemotron 3 Super,优化智能体AI推理架构
英伟达推出1200亿参数Nemotron 3 Super模型,采用混合MoE架构结合Mamba与Transformer层,实现5倍吞吐量提升。该模型专为多智能体工作流设计,支持100万令牌上下文窗口,解决任务目标漂移问题。通过开放权重和云服务部署,降低企业智能体应用门槛。
NVIDIA RTX Spark与Nemotron-3 Ultra:端侧AI控制权从云端下沉至个人PC
NVIDIA在GTC Taipei 2026发布RTX Spark个人AI超级计算机(与联发科合作)及Nemotron-3 Ultra开源混合架构模型。RTX Spark搭载N1X芯片,提供1 PFLOPS本地AI算力,首次将大模型推理下沉至PC端,并重构软件生态。此举标志英伟达从云端GPU供应商转型为端侧AI基础设施垄断者。
智谱GLM-5.2开源:MIT协议744B MoE,以可下载模型对抗地缘政治禁运
智谱AI发布GLM-5.2,744B MoE仅40B激活参数,支持1M输入上下文和131K输出,采用MIT开源协议。时间点紧贴Anthropic Fable 5被美国政府强制下架,提供可下载、不可被禁的替代方案,兼容Anthropic API实现零代码迁移,旨在为企业提供技术主权选项。
SGLang 0.5.13发布:MoE两阶段路由预判+稀疏缓存,推理性能跃升25倍
SGLang 0.5.13引入MoE模型专用路由预判(轻量代理网络预加载top-k expert权重)和稀疏KV缓存(按激活路径分组缓存),在NVIDIA GB300 NVL72平台实现25倍推理加速。A100实测吞吐+65%,延迟-40%,显存-10%,路由开销-62%,全面超越vLLM。