MoE - AI基础设施情报搜索

NVIDIA 其他强信号 2026-04-15

英伟达推动AI基础设施评估指标从FLOPS转向每token成本

英伟达提出应将“每token成本”而非“每美元FLOPS”作为评估AI基础设施的核心经济指标。这标志着从衡量计算输入转向衡量商业输出，涉及硬件、软件、网络的全栈优化，以降低企业AI推理的总拥有成本。

Google 其他强信号 2026-04-03

谷歌发布Gemma 4开源模型，瞄准边缘推理与AI代理架构

谷歌推出Gemma 4开源模型家族，包含从2B到31B的四个版本，强调单位参数性能突破，并原生支持AI代理工作流、多模态与长上下文。其小参数模型专为边缘设备优化，旨在将前沿推理能力扩展至移动与IoT场景。

Google 其他中信号 2026-04-03

Google发布Gemma 4开源模型系列

Google推出Gemma 4开源模型系列，包含四种规模变体，特别优化边缘计算和移动设备。该系列支持多模态处理、长上下文窗口和140多种语言，采用Apache 2.0许可。

NVIDIA 其他强信号 2026-03-12

英伟达发布Nemotron 3 Super，优化智能体AI推理架构

英伟达推出1200亿参数Nemotron 3 Super模型，采用混合MoE架构结合Mamba与Transformer层，实现5倍吞吐量提升。该模型专为多智能体工作流设计，支持100万令牌上下文窗口，解决任务目标漂移问题。通过开放权重和云服务部署，降低企业智能体应用门槛。

NVIDIA 其他 2025-06-01

NVIDIA RTX Spark与Nemotron-3 Ultra：端侧AI控制权从云端下沉至个人PC

NVIDIA在GTC Taipei 2026发布RTX Spark个人AI超级计算机（与联发科合作）及Nemotron-3 Ultra开源混合架构模型。RTX Spark搭载N1X芯片，提供1 PFLOPS本地AI算力，首次将大模型推理下沉至PC端，并重构软件生态。此举标志英伟达从云端GPU供应商转型为端侧AI基础设施垄断者。

Research 其他 1970-01-01

智谱GLM-5.2开源：MIT协议744B MoE，以可下载模型对抗地缘政治禁运

智谱AI发布GLM-5.2，744B MoE仅40B激活参数，支持1M输入上下文和131K输出，采用MIT开源协议。时间点紧贴Anthropic Fable 5被美国政府强制下架，提供可下载、不可被禁的替代方案，兼容Anthropic API实现零代码迁移，旨在为企业提供技术主权选项。

NVIDIA 其他 1970-01-01

SGLang 0.5.13发布：MoE两阶段路由预判+稀疏缓存，推理性能跃升25倍

SGLang 0.5.13引入MoE模型专用路由预判（轻量代理网络预加载top-k expert权重）和稀疏KV缓存（按激活路径分组缓存），在NVIDIA GB300 NVL72平台实现25倍推理加速。A100实测吞吐+65%，延迟-40%，显存-10%，路由开销-62%，全面超越vLLM。

情报

筛选