MoE - AI基础设施情报搜索

Anthropic 其他 2026-06-18

NVIDIA GB300 NVL72 AgentPerf基准测试：每兆瓦代理数提升20倍，定义AI推理新标准

NVIDIA GB300 NVL72在首个代理型AI基准测试AgentPerf中，运行DeepSeek V4 Pro模型，每兆瓦可处理多达20倍于H200的AI代理。该基准测试聚焦多步骤工具调用工作负载，揭示代理型AI对基础设施的新压力点，并推动行业向功耗效率优先的推理架构转型。

NVIDIA 其他 2026-06-16

NVIDIA Blackwell MLPerf六连冠：NVLink与NVFP4定义AI训练新范式

NVIDIA在MLPerf Training 6.0中凭借Blackwell平台全面领先，首次提交所有7个基准测试，包括MoE模型。GB300 NVL72比GB200快1.6x，通过第五代NVLink实现72 GPU一体化，NVFP4低精度训练提升性能。展示了从单机到8192 GPU集群的线性扩展能力。

NVIDIA 其他 2026-06-15

NVIDIA力推World-Action模型：机器人控制权从语言转向视频基础模型

NVIDIA发表深度技术博客，提出World-Action Model（WAM）作为VLM-based VLA的替代路线。WAM利用预训练视频/世界模型骨干，同时预测未来状态和机器人动作，旨在克服VLA的语言-动作接地鸿沟。该范式可能重塑机器人基础模型训练格局，但面临推理成本和实时性挑战。

Research 其他 2026-06-15

Z.ai GLM-5.2推可用1M Token上下文，无基准测试下挑战长文本推理极限

Z.ai发布GLM-5.2，宣称支持可用的1M token上下文窗口，并引入两种思考努力级别（Thinking-Effort Levels）。但未提供任何标准基准测试结果，引发对其实际性能与可用性的质疑。该模型旨在直接替代传统RAG分块检索流程，实现端到端长文本推理。

NVIDIA 其他 2026-06-13

NVIDIA GB300 NVL72在Agentic AI基准测试中实现20倍能效跃升，定义新推理标准

NVIDIA在第三方AA-AgentPerf基准测试中，凭借GB300 NVL72的72 GPU NVLink域、MXFP4/MXFP8内核及MoE优化，实现每兆瓦并发agent数达H200的20倍。该基准首次标准化agentic推理性能度量，直接冲击数据中心容量规划。

NVIDIA 其他 2026-06-13

NVIDIA推AgentPerf基准测试：Blackwell Ultra每瓦代理数较Hopper提升20倍

NVIDIA与Artificial Analysis联合发布首个Agentic AI基准测试AgentPerf，结果显示GB300 NVL72平台在运行DeepSeek V4 Pro等MoE模型时，每兆瓦可承载的并发代理数较HGX H200提升20倍。该基准模拟真实编码代理轨迹，测量端到端吞吐与响应延迟。

NVIDIA 其他 2026-06-12

NVIDIA联手SK Hynix锁定HBM4/5标准，Vera Rubin供应链闭环成型

NVIDIA与SK Hynix签署多年协议，联合定义HBM4量产及HBM5预研，覆盖Vera Rubin GPU架构。Samsung同步进入HBM4供应链。此举将SK Hynix从供应商升级为联合开发者，可能形成事实上的AI内存标准壁垒，挤压美光等对手空间。

NVIDIA 其他 2026-06-11

NVIDIA联手Google DeepMind推出并行文本生成模型，吞吐量突破1000 tokens/sec

NVIDIA宣布与Google DeepMind合作优化DiffusionGemma，该模型基于扩散去噪实现每步并行生成256个token，在单个H100上达到1000 tokens/sec，并通过NIM和NeMo提供即用部署，显著降低推理成本和延迟。

NVIDIA 其他 2026-06-08

NVIDIA 借英国主权AI基金，从芯片商跃升为国家AI基础设施的幕后控制者

NVIDIA 与英国政府合作，通过 Isambard-AI（搭载 5,400 颗 GH200）及 Sovereign AI Fund，扶持本地初创（Cosine, Cursive, Doubleword）。此举表面是技术部署，实则是 NVIDIA 构建主权AI控制平面，将国家算力锁入其生态系统，削弱AWS/Azure等传统云厂商的地位。

NVIDIA 其他 2026-06-04

NVIDIA Nemotron 3 Ultra：以MoE与MOPD重构AI Agent控制平面，锁定企业推理成本

NVIDIA发布**Nemotron 3 Ultra**，一个550B参数MoE模型（55B活跃），专为AI Agent编排而设计。通过**多教师在线策略蒸馏（MOPD）** 与**Hybrid Mamba-Transformer**架构，其在**SWE-bench**等任务中实现5倍吞吐量提升与30%成本节省，标志着推理控制权从单一模型向分层Agent系统的转移。

NVIDIA 其他 2026-06-02

NVIDIA DGX Spark更新：一键部署本地AI代理，多节点集群扩展至400B模型

NVIDIA在Computex 2026发布DGX Spark软件更新，包括NemoClaw一键安装本地AI代理、Qwen3.6-35B模型在vLLM上实现2.6倍性能提升、以及Sync集群助手支持2-4节点通过ConnectX-7 200Gbps RoCE高速互联，使本地运行大规模自主代理和多节点分布式推理成为可能。

AMD 其他中信号 2026-05-07

AMD支持SPEC CPU 2026基准测试，强调开放可信性能评估

AMD发表博客支持即将发布的SPEC CPU 2026行业基准测试，强调在AI时代，开放、可复现的CPU性能评估标准对客户进行基础设施决策至关重要。该新基准更新了应用套件，并加强了对裸金属云环境和并行计算的支持。

Google 其他强信号 2026-05-06

谷歌发布Gemma 4开源模型，推动AI代理本地化部署

谷歌发布Gemma 4开源模型系列，采用Apache 2.0许可，并首次引入MoE架构，旨在将高性能AI代理能力直接部署于移动设备和边缘硬件。此举显著降低了复杂AI工作流对云端集群的依赖，为本地化、私有化AI应用开辟新路径。

AMD 其他强信号 2026-05-06

AMD与OpenAI将MRC网络协议贡献给OCP，推进AI网络规模化

AMD与OpenAI、微软等合作，将专为大规模AI训练设计的网络协议MRC（多路径可靠连接）贡献给开放计算项目OCP。AMD不仅是协议规范的共同制定者，其可编程的Pensando DPU/NIC产品已率先实现MRC的部署与验证，旨在将网络从性能瓶颈转变为弹性、可适应的AI基础设施层。

AMD 其他强信号 2026-05-06

AMD联合OpenAI发布下一代AI训练网络传输协议MRC

AMD联合OpenAI、微软等行业领导者发布Multipath Reliable Connection（MRC）协议规范，旨在解决RoCEv2在超大规模AI训练集群中的性能瓶颈。该协议通过智能包喷洒、选择性重传和网络信号拥塞控制等机制，提升网络带宽利用率和训练任务弹性。

NVIDIA 其他 2026-05-05

NVIDIA极端协同设计：用Vera Rubin平台锁定代理AI推理的TCO拐点

NVIDIA发布针对代理系统（Agentic Systems）的极端协同设计架构，包括Vera Rubin NVL72、NVLink 6、ConnectX-9、BlueField-4及Spectrum-X。通过推理解耦、KV缓存管理和低延迟网络，试图解决代理工作负载的高token消耗、长上下文和低延迟矛盾，降低每token成本。

AMD 其他中信号 2026-05-04

AMD联合戴尔展示企业AI异构计算战略

AMD在戴尔技术世界大会上强调其异构计算产品组合，旨在为不同企业AI负载匹配合适的算力，并突出硬件安全与可管理性。此举标志着AI基础设施正从通用方案转向针对具体场景的精细化部署。

AMD 其他强信号 2026-04-30

AMD提出AI基础设施网络架构新范式：从无损网络转向智能端点

AMD发布博客，提出构建大规模AI基础设施的七个关键问题，核心观点是传统无损以太网或InfiniBand架构存在成本与复杂性瓶颈。其主张将网络智能和可靠性功能从昂贵的专用交换机转移到智能网卡（NIC）上，在标准（可能有损）以太网上实现可靠传输，以降低总拥有成本并简化运营。

NVIDIA 其他强信号 2026-04-29

英伟达发布Nemotron 3 Nano Omni统一多模态模型，瞄准AI Agent感知层

英伟达发布开源多模态模型Nemotron 3 Nano Omni，采用30B-A3B混合MoE架构，将视觉、音频与语言处理统一于单一模型，旨在作为AI Agent的“眼睛和耳朵”。该模型声称能消除多模型协作的延迟与上下文碎片化问题，在保持交互性的同时实现高达9倍的吞吐量提升，降低AI Agent的部署与推理成本。

Apple 合作伙伴强信号 2026-04-27

Apple与Google达成多年期合作，Gemini将成Siri新大脑

Apple与Google达成多年期合作，Google Cloud成为Apple首选云服务商。Google正为Apple构建1.2万亿参数的定制Gemini模型，是当前Apple云端模型的8倍。Siri将在2026年获得Gemini能力，随iOS 27在秋季发布。隐私架构保持不变——Gemini模型运行在Apple自有服务器，Google不得使用Apple数据训练。设备兼容性限制意味着数亿老款iPhone用户被排除在外。

情报

筛选