情报
AI 生成的结构化厂商动态简报
NVIDIA推AgentPerf基准测试:Blackwell Ultra每瓦代理数较Hopper提升20倍
NVIDIA与Artificial Analysis联合发布首个Agentic AI基准测试AgentPerf,结果显示GB300 NVL72平台在运行DeepSeek V4 Pro等MoE模型时,每兆瓦可承载的并发代理数较HGX H200提升20倍。该基准模拟真实编码代理轨迹,测量端到端吞吐与响应延迟。
微软联合NVIDIA推RTX Spark Arm AI芯片,Windows PC算力跨越1 Petaflop门槛
微软在Computex 2026宣布与NVIDIA、MediaTek合作推出RTX Spark Arm架构AI超级芯片,集成Blackwell RTX GPU和128GB统一内存,支持本地运行120B参数大模型。同时Intel Arc G3、高通Snapdragon X2系列齐发,Windows AI PC生态全面升级。
NVIDIA借DiffusionGemma并行生成,将本地AI推理控制权锁定于自家GPU
NVIDIA优化Google DeepMind的DiffusionGemma开源模型,该模型通过并行生成256 tokens(非逐token)实现4倍加速。在H100上达1000 tokens/sec,DGX Spark上150 tokens/sec,完全本地运行,无云成本。此举强化了NVIDIA GPU在计算密集型本地AI推理中的核心地位。
Anthropic Claude Fable 5上线AWS:数据保留政策打破云安全边界,企业数据主权遭侵蚀
AWS与Anthropic联合发布Claude Fable 5模型,具备长时异步执行、高级视觉与主动自我验证能力。但模型访问要求用户同意30天数据保留并共享给Anthropic,导致推理数据离开AWS安全边界,同时有害提示自动回退至Opus 4.8,引入复杂定价与安全治理风险。
GKE Inference Gateway前缀缓存:AI推理延迟降低92%,但锁定风险暗藏
Google Cloud推出GKE Inference Gateway,通过前缀缓存和模型感知路由,在Llama 3.1 8B模型上实现92.8%更短首令牌延迟和15.7%更高吞吐量。Snap实测缓存命中率达75-80%。但该技术深度绑定GKE Gateway API和Google生态,企业需警惕架构弹性损失。
NVIDIA NVFP4:原生4位训练实现1.73倍吞吐跃升,锁定Blackwell生态
NVIDIA发布NVFP4格式,利用Blackwell原生硬件支持,在JAX/MaxText中实现4位混合精度预训练。相比FP8基线,Llama 3.1 405B在GB300上获得1.73倍吞吐提升,且精度无损失。该技术通过微块缩放、随机哈达玛变换等创新,显著降低训练成本,但深度绑定NVIDIA硬件生态。
NVIDIA 借英国主权AI基金,从芯片商跃升为国家AI基础设施的幕后控制者
NVIDIA 与英国政府合作,通过 Isambard-AI(搭载 5,400 颗 GH200)及 Sovereign AI Fund,扶持本地初创(Cosine, Cursive, Doubleword)。此举表面是技术部署,实则是 NVIDIA 构建主权AI控制平面,将国家算力锁入其生态系统,削弱AWS/Azure等传统云厂商的地位。
Cloudflare 将实时威胁情报嵌入 WAF,控制点从人工转向自动化引擎
Cloudflare 发布新集成,允许用户基于 Cloudforce One 的实时威胁情报(IP、攻击者、目标行业等)直接编写 WAF 规则。采用 always-on 检测框架,以 O(1) 常数时间查找实现微秒级延迟,目前仅支持 IP 匹配,未来将扩展至 JA3 指纹和域名。
AWS Bedrock 推出兼容 OpenAI/Anthropic API 的新控制台,争夺 AI 推理控制权
AWS 发布 Bedrock 新控制台,基于 bedrock-mantle 端点,原生支持 OpenAI 和 Anthropic API 协议,允许用户无缝切换 GPT、Claude 及开源模型。此举将模型选择与 API 标准化,旨在通过统一推理平面锁定用户工作流,削弱单一模型提供商的 API 壁垒。
华为云发布AICS灵衢智算集群:Token工业化时代的控制平面转移与Agent锁定
华为云发布四大Agentic Infra新品,核心为AICS灵衢智算集群(10万卡/200 EFLOPS),通过NPU直通CMS硬件、CCE VolcanoNext通智一体化调度引擎与AgentSphere安全沙箱,构建从算力、记忆到调度、安全的统一控制平面,旨在锁定大模型训练与Agent推理的全栈基础设施。
Cloudflare AI Gateway 引入身份驱动预算,争夺 AI 流量控制层
Cloudflare 在 AI Gateway 中推出基于美元预算的 spend limits 和与 Cloudflare Access 集成的身份驱动预算与路由(closed beta)。该功能允许企业按用户、团队、模型设置预算,并在超限时降级或阻断请求,将 AI 成本控制从模型提供商转移到网关层。
NVIDIA Nemotron 3 Ultra:以MoE与MOPD重构AI Agent控制平面,锁定企业推理成本
NVIDIA发布**Nemotron 3 Ultra**,一个550B参数MoE模型(55B活跃),专为AI Agent编排而设计。通过**多教师在线策略蒸馏(MOPD)** 与**Hybrid Mamba-Transformer**架构,其在**SWE-bench**等任务中实现5倍吞吐量提升与30%成本节省,标志着推理控制权从单一模型向分层Agent系统的转移。
思科Agent Gateway:零信任从访问控制升级为AI代理行动控制
思科发布Secure Access Agent Gateway,将零信任策略从传统的用户/设备访问控制扩展到AI代理的细粒度行动控制。通过Duo识别代理身份,在LLM、MCP工具、SaaS API等交互点实施策略,实现行动级审计和凭证注入,旨在解决代理自主行动带来的新安全风险。
微软Maia 200量产+Cobalt 200预览:自研双芯合围NVIDIA,AI推理控制权转移
微软在Build 2026宣布Maia 200 AI推理芯片量产,Cobalt 200 ARM处理器预览,并推出350亿参数的MAI-Thinking-1推理模型。此举标志着微软正构建从硅片到模型的完全自研AI堆栈,意图在推理环节降低对NVIDIA GPU的依赖,并锁定Azure AI工作负载。
微软Build大会:从芯片到云构建Agent时代统一生态
微软在Build大会上发布一系列Agent时代基础设施:Project Solara芯片到云平台、Microsoft IQ统一知识层、Rayfin后端生成、Azure HorizonDB、GPU加速分析等,旨在将开发者锁定在微软生态内。
英特尔 Computex 2026:以 18A 和机架级系统重塑 AI 推理控制权
英特尔发布基于 18A 的 Core Ultra Series 3 和 Xeon 6+(288 e-cores),与 Perplexity 合作推出混合本地推理编排,与 Foxconn 共建机架级 AI 基础设施,与 SambaNova 提供解耦推理云。重点强调 CPU 在 agentic AI 中的编排角色,意图将控制平面从 GPU 转移至 x86。
NVIDIA 推交易基础模型:金融 AI 控制点从碎片模型转向统一 GPU 堆栈
NVIDIA 发布 Build Your Own Transaction Foundation Model 开发者示例,联合 Revolut、Mastercard 等金融机构,推动基于 Transformer 的交易基础模型替代碎片化任务模型。该方案依托 Hopper GPU、cuDF 和 Nemotron 框架,将金融数据处理从特征工程转向统一嵌入,实质是控制层向 NVIDIA 硬件生态转移。
Arm与NVIDIA联手推出RTX Spark:Agentic AI PC架构从x86转向Arm+GPU紧耦合
Arm与NVIDIA合作推出的RTX Spark采用Arm Grace CPU与Blackwell RTX GPU通过统一内存紧密耦合,专为Agentic AI时代设计,提供超低延迟本地推理能力。该平台标志着Windows on Arm生态的重大突破,旨在满足开发者、创作者和游戏玩家的高性能AI计算需求。
Arm与NVIDIA联手推出RTX Spark:统一内存架构重塑Agentic PC生态,合围x86阵营
Arm与NVIDIA合作推出基于Arm Grace CPU和Blackwell RTX GPU的RTX Spark平台,采用统一内存架构,专为Windows on Arm生态下的Agentic AI推理设计。该平台提供1 Petaflop算力,显著降低token处理成本,标志着PC从应用驱动向Agent驱动的根本转变,并得到微软的全面支持。
NVIDIA DGX Spark更新:一键部署本地AI代理,多节点集群扩展至400B模型
NVIDIA在Computex 2026发布DGX Spark软件更新,包括NemoClaw一键安装本地AI代理、Qwen3.6-35B模型在vLLM上实现2.6倍性能提升、以及Sync集群助手支持2-4节点通过ConnectX-7 200Gbps RoCE高速互联,使本地运行大规模自主代理和多节点分布式推理成为可能。