筛选

×
当前筛选 清除全部
关键词: MoE ×
27 情报总数
2/2 当前页
NVIDIA 其他 强信号 2026-04-15

英伟达推动AI基础设施评估指标从FLOPS转向每token成本

英伟达提出应将“每token成本”而非“每美元FLOPS”作为评估AI基础设施的核心经济指标。这标志着从衡量计算输入转向衡量商业输出,涉及硬件、软件、网络的全栈优化,以降低企业AI推理的总拥有成本。

Google 其他 强信号 2026-04-03

谷歌发布Gemma 4开源模型,瞄准边缘推理与AI代理架构

谷歌推出Gemma 4开源模型家族,包含从2B到31B的四个版本,强调单位参数性能突破,并原生支持AI代理工作流、多模态与长上下文。其小参数模型专为边缘设备优化,旨在将前沿推理能力扩展至移动与IoT场景。

Google 其他 中信号 2026-04-03

Google发布Gemma 4开源模型系列

Google推出Gemma 4开源模型系列,包含四种规模变体,特别优化边缘计算和移动设备。该系列支持多模态处理、长上下文窗口和140多种语言,采用Apache 2.0许可。

NVIDIA 其他 强信号 2026-03-12

英伟达发布Nemotron 3 Super,优化智能体AI推理架构

英伟达推出1200亿参数Nemotron 3 Super模型,采用混合MoE架构结合Mamba与Transformer层,实现5倍吞吐量提升。该模型专为多智能体工作流设计,支持100万令牌上下文窗口,解决任务目标漂移问题。通过开放权重和云服务部署,降低企业智能体应用门槛。

NVIDIA 其他 2025-06-01

NVIDIA RTX Spark与Nemotron-3 Ultra:端侧AI控制权从云端下沉至个人PC

NVIDIA在GTC Taipei 2026发布RTX Spark个人AI超级计算机(与联发科合作)及Nemotron-3 Ultra开源混合架构模型。RTX Spark搭载N1X芯片,提供1 PFLOPS本地AI算力,首次将大模型推理下沉至PC端,并重构软件生态。此举标志英伟达从云端GPU供应商转型为端侧AI基础设施垄断者。

Research 其他 1970-01-01

智谱GLM-5.2开源:MIT协议744B MoE,以可下载模型对抗地缘政治禁运

智谱AI发布GLM-5.2,744B MoE仅40B激活参数,支持1M输入上下文和131K输出,采用MIT开源协议。时间点紧贴Anthropic Fable 5被美国政府强制下架,提供可下载、不可被禁的替代方案,兼容Anthropic API实现零代码迁移,旨在为企业提供技术主权选项。

NVIDIA 其他 1970-01-01

SGLang 0.5.13发布:MoE两阶段路由预判+稀疏缓存,推理性能跃升25倍

SGLang 0.5.13引入MoE模型专用路由预判(轻量代理网络预加载top-k expert权重)和稀疏KV缓存(按激活路径分组缓存),在NVIDIA GB300 NVL72平台实现25倍推理加速。A100实测吞吐+65%,延迟-40%,显存-10%,路由开销-62%,全面超越vLLM。