coding - AI基础设施情报搜索

Anthropic 其他 2026-06-18

NVIDIA GB300 NVL72 AgentPerf基准测试：每兆瓦代理数提升20倍，定义AI推理新标准

NVIDIA GB300 NVL72在首个代理型AI基准测试AgentPerf中，运行DeepSeek V4 Pro模型，每兆瓦可处理多达20倍于H200的AI代理。该基准测试聚焦多步骤工具调用工作负载，揭示代理型AI对基础设施的新压力点，并推动行业向功耗效率优先的推理架构转型。

NVIDIA 其他 2026-06-17

NVIDIA RTX Remix 1.5：用RTX IO压缩和AI Agent重塑游戏MOD生态，强化GPU锁定

NVIDIA发布RTX Remix 1.5更新，核心亮点是引入RTX IO技术，将《半条命2 RTX》文件大小从80GB压缩至50GB，并降低CPU开销。同时，新增AI Agent集成（RTX Remix Skills），允许AI编码代理自动执行复杂的MOD制作步骤，降低非程序员用户的入门门槛。

AMD 其他 2026-06-17

AMD MLPerf 6.0：MI350系列用MXFP4实现3.5倍代际提升，多节点训练首秀

AMD在MLPerf Training 6.0中提交了最全面的结果，包括首次多节点训练（FLUX.1在512 GPU上）和MXFP4训练配方。MI355X相比MI300X在Llama 2-70B上实现3.5倍性能提升，且与NVIDIA B200的差距缩小至5%以内。10家生态伙伴验证了可复现性。

Microsoft 其他 2026-06-16

微软Agent 365控制平面：以管理锁替代模型锁，构筑AI时代的Entra帝国

微软发布Agent 365作为AI代理的统一控制平面，整合Entra、Defender、Purview、Intune及成本管理，同时推出Microsoft IQ语义平台。宣称模型多样化与开放，实则通过管理工具链锁定企业AI资产，将控制权从模型层转移到微软基础设施层。

AMD 其他 2026-06-15

AMD收购MEXT：用AI预测让Flash逼近DRAM，降低AI内存TCO

AMD宣布收购AI内存优化初创公司MEXT，其核心技术利用AI预测模型使NAND Flash在延迟和吞吐量上逼近DRAM，旨在扩展AI服务器的有效内存容量，降低总拥有成本（TCO）。该技术将被整合进AMD数据中心全线产品，包括EPYC CPU和Instinct GPU，以应对大模型对内存的饥渴。

AMD 其他 2026-06-15

AMD通过Vultr开源AI软件组件，向NVIDIA CUDA生态发起生态重构挑战

AMD通过Vultr Marketplace发布开源、模块化的企业AI软件组件，包括AMD Inference Microservices (AIMs)、AI Workbench、Resource Manager和Solution Blueprints。该组合旨在提供生产级AI基础设施，避免单一厂商锁定，直接挑战NVIDIA的CUDA生态。

NVIDIA 其他 2026-06-15

NVIDIA力推World-Action模型：机器人控制权从语言转向视频基础模型

NVIDIA发表深度技术博客，提出World-Action Model（WAM）作为VLM-based VLA的替代路线。WAM利用预训练视频/世界模型骨干，同时预测未来状态和机器人动作，旨在克服VLA的语言-动作接地鸿沟。该范式可能重塑机器人基础模型训练格局，但面临推理成本和实时性挑战。

Research 其他 2026-06-15

Z.ai GLM-5.2推可用1M Token上下文，无基准测试下挑战长文本推理极限

Z.ai发布GLM-5.2，宣称支持可用的1M token上下文窗口，并引入两种思考努力级别（Thinking-Effort Levels）。但未提供任何标准基准测试结果，引发对其实际性能与可用性的质疑。该模型旨在直接替代传统RAG分块检索流程，实现端到端长文本推理。

NVIDIA 其他 2026-06-13

NVIDIA GB300 NVL72在Agentic AI基准测试中实现20倍能效跃升，定义新推理标准

NVIDIA在第三方AA-AgentPerf基准测试中，凭借GB300 NVL72的72 GPU NVLink域、MXFP4/MXFP8内核及MoE优化，实现每兆瓦并发agent数达H200的20倍。该基准首次标准化agentic推理性能度量，直接冲击数据中心容量规划。

NVIDIA 其他 2026-06-13

NVIDIA推AgentPerf基准测试：Blackwell Ultra每瓦代理数较Hopper提升20倍

NVIDIA与Artificial Analysis联合发布首个Agentic AI基准测试AgentPerf，结果显示GB300 NVL72平台在运行DeepSeek V4 Pro等MoE模型时，每兆瓦可承载的并发代理数较HGX H200提升20倍。该基准模拟真实编码代理轨迹，测量端到端吞吐与响应延迟。

Anthropic 其他 2026-06-11

Anthropic借DXC锁定受监管行业：Claude认证工程师与OASIS平台成新控制点

Anthropic与DXC Technology达成全球联盟，DXC将培训数万名Claude认证的前沿部署工程师，并将Claude深度集成到其管理的银行、航空等关键系统中。DXC的AI原生平台OASIS已默认使用Claude，且95%以上代码由Claude生成，形成深度依赖。

AMD 其他 2026-06-11

AMD携手戴尔与剑桥大学，以开放ROCm生态撬动英国主权AI算力基建

AMD联合戴尔和剑桥大学宣布建立英国主权AI创新实验室（SAIL），部署基于第五代EPYC和Instinct MI355X GPU的Zenith超级计算机，以及用于聚变能源研究的Sunrise系统。该实验室旨在推动开放、可互操作的AI基础设施，以ROCm软件栈为核心，对抗NVIDIA的CUDA生态锁定，为英国政府和研究机构提供长期技术选择。

Amazon 其他 2026-06-10

Graviton5 与 Nitro 形式化验证：AWS 用 ARM 和数学锁定 AI 时代 CPU 控制权

AWS 推出第五代自研 ARM 处理器 Graviton5，搭载于 M9g/M9gd 实例，性能提升 25%，支持 PCIe Gen6 和 DDR5-8800，首次引入形式化验证的 Nitro Isolation Engine。Meta 已部署数千万核支撑 agentic AI 推理，ARM 在云 CPU 赛道上完成关键突破。

Amazon 其他 2026-06-10

Anthropic Claude Fable 5上线AWS：数据保留政策打破云安全边界，企业数据主权遭侵蚀

AWS与Anthropic联合发布Claude Fable 5模型，具备长时异步执行、高级视觉与主动自我验证能力。但模型访问要求用户同意30天数据保留并共享给Anthropic，导致推理数据离开AWS安全边界，同时有害提示自动回退至Opus 4.8，引入复杂定价与安全治理风险。

Google 其他 2026-06-09

GKE Inference Gateway前缀缓存：AI推理延迟降低92%，但锁定风险暗藏

Google Cloud推出GKE Inference Gateway，通过前缀缓存和模型感知路由，在Llama 3.1 8B模型上实现92.8%更短首令牌延迟和15.7%更高吞吐量。Snap实测缓存命中率达75-80%。但该技术深度绑定GKE Gateway API和Google生态，企业需警惕架构弹性损失。

Cloudflare 其他 2026-06-09

Cloudflare以自身为靶场，推AI时代分层防御架构：WAF+零信任+ML评分

Cloudflare公开其防御前沿AI模型的完整架构，以自身为“客户零号”，整合WAF Attack Score、API Shield、Bot Management、Zero Trust及MCP Server Portal。核心思路：架构比补丁速度更重要，通过ML评分和正面安全模型，在攻击变种产生前阻断，并限制单点突破后的横向移动半径。

NVIDIA 其他 2026-06-08

NVIDIA 借英国主权AI基金，从芯片商跃升为国家AI基础设施的幕后控制者

NVIDIA 与英国政府合作，通过 Isambard-AI（搭载 5,400 颗 GH200）及 Sovereign AI Fund，扶持本地初创（Cosine, Cursive, Doubleword）。此举表面是技术部署，实则是 NVIDIA 构建主权AI控制平面，将国家算力锁入其生态系统，削弱AWS/Azure等传统云厂商的地位。

Amazon 其他 2026-06-06

AWS Bedrock 推出兼容 OpenAI/Anthropic API 的新控制台，争夺 AI 推理控制权

AWS 发布 Bedrock 新控制台，基于 bedrock-mantle 端点，原生支持 OpenAI 和 Anthropic API 协议，允许用户无缝切换 GPT、Claude 及开源模型。此举将模型选择与 API 标准化，旨在通过统一推理平面锁定用户工作流，削弱单一模型提供商的 API 壁垒。

NVIDIA 其他 2026-06-04

NVIDIA Nemotron 3 Ultra：以MoE与MOPD重构AI Agent控制平面，锁定企业推理成本

NVIDIA发布**Nemotron 3 Ultra**，一个550B参数MoE模型（55B活跃），专为AI Agent编排而设计。通过**多教师在线策略蒸馏（MOPD）** 与**Hybrid Mamba-Transformer**架构，其在**SWE-bench**等任务中实现5倍吞吐量提升与30%成本节省，标志着推理控制权从单一模型向分层Agent系统的转移。

Cloudflare 其他 2026-06-04

Cloudflare收购VoidZero：以Vite整合控制开发者部署管道

Cloudflare收购开源JavaScript工具链公司VoidZero，将Vite、Rolldown、Oxc等Rust原生工具整合进Workers平台，实现从本地代码到全球边缘网络的一键部署。此举旨在统一开发全生命周期，并推动意图驱动的基础设施自动预配。

情报

筛选