情报
AI 生成的结构化厂商动态简报
Cloudflare吸纳Ensemble团队:架构级模型压缩重塑边缘推理经济
Cloudflare宣布吸纳Ensemble AI核心团队,引入其架构级模型压缩技术NdLinear和NdLinear-LoRA。该技术通过保留多维激活结构而非扁平化处理,直接减少Transformer模型的参数量和计算开销。此举旨在显著降低Workers AI平台的推理成本,提升GPU利用率,并加速全球边缘AI部署。
NVIDIA GB300 NVL72在Agentic AI基准测试中实现20倍能效跃升,定义新推理标准
NVIDIA在第三方AA-AgentPerf基准测试中,凭借GB300 NVL72的72 GPU NVLink域、MXFP4/MXFP8内核及MoE优化,实现每兆瓦并发agent数达H200的20倍。该基准首次标准化agentic推理性能度量,直接冲击数据中心容量规划。
NVIDIA推AgentPerf基准测试:Blackwell Ultra每瓦代理数较Hopper提升20倍
NVIDIA与Artificial Analysis联合发布首个Agentic AI基准测试AgentPerf,结果显示GB300 NVL72平台在运行DeepSeek V4 Pro等MoE模型时,每兆瓦可承载的并发代理数较HGX H200提升20倍。该基准模拟真实编码代理轨迹,测量端到端吞吐与响应延迟。
NVIDIA联手SK Hynix锁定HBM4/5标准,Vera Rubin供应链闭环成型
NVIDIA与SK Hynix签署多年协议,联合定义HBM4量产及HBM5预研,覆盖Vera Rubin GPU架构。Samsung同步进入HBM4供应链。此举将SK Hynix从供应商升级为联合开发者,可能形成事实上的AI内存标准壁垒,挤压美光等对手空间。
Google 300万+颗TPU封装订单转向Intel Foundry:EMIB技术打破台积电CoWoS垄断
Google已向Intel Foundry下达超过300万颗下一代TPU的先进封装订单,采用Intel EMIB技术,2028年量产。这是Intel Foundry最大外部客户突破,标志着AI芯片封装从台积电CoWoS向多元化供应链的关键转折。
AMD Zen 6 Venice 256核EPYC以3.3倍机柜性能反击NVIDIA Vera,但预估数据存疑
AMD首次公布基于2nm制程的Zen 6 Venice EPYC处理器性能预估,在100kW整柜功耗下,以SPEC CPU 2017_rate基准,整数吞吐量达NVIDIA Vera CPU的3.3倍。此举是对NVIDIA Arm生态入侵x86数据中心领域的直接回应,但数据为理论推演而非实测硅片。
AMD投建全栈Instinct GPU云:TensorWave B轮融资暴露NVIDIA生态破局战略
TensorWave完成3.5亿美元B轮融资,AMD Ventures联合领投,估值达15.5亿美元。该云平台完全基于AMD Instinct GPU(MI300X至MI455X)构建,主攻记忆密集型AI工作负载,旨在提供绕过NVIDIA CUDA锁定的替代算力路径,并验证ROCm软件栈的商业化成熟度。
微软联合NVIDIA推RTX Spark Arm AI芯片,Windows PC算力跨越1 Petaflop门槛
微软在Computex 2026宣布与NVIDIA、MediaTek合作推出RTX Spark Arm架构AI超级芯片,集成Blackwell RTX GPU和128GB统一内存,支持本地运行120B参数大模型。同时Intel Arc G3、高通Snapdragon X2系列齐发,Windows AI PC生态全面升级。
NVIDIA联手Google DeepMind推出并行文本生成模型,吞吐量突破1000 tokens/sec
NVIDIA宣布与Google DeepMind合作优化DiffusionGemma,该模型基于扩散去噪实现每步并行生成256个token,在单个H100上达到1000 tokens/sec,并通过NIM和NeMo提供即用部署,显著降低推理成本和延迟。
NVIDIA借DiffusionGemma并行生成,将本地AI推理控制权锁定于自家GPU
NVIDIA优化Google DeepMind的DiffusionGemma开源模型,该模型通过并行生成256 tokens(非逐token)实现4倍加速。在H100上达1000 tokens/sec,DGX Spark上150 tokens/sec,完全本地运行,无云成本。此举强化了NVIDIA GPU在计算密集型本地AI推理中的核心地位。
AMD携手戴尔与剑桥大学,以开放ROCm生态撬动英国主权AI算力基建
AMD联合戴尔和剑桥大学宣布建立英国主权AI创新实验室(SAIL),部署基于第五代EPYC和Instinct MI355X GPU的Zenith超级计算机,以及用于聚变能源研究的Sunrise系统。该实验室旨在推动开放、可互操作的AI基础设施,以ROCm软件栈为核心,对抗NVIDIA的CUDA生态锁定,为英国政府和研究机构提供长期技术选择。
NVIDIA将BESS嵌入AI工厂电力架构:电力控制层从电网转向智能储能系统
NVIDIA通过DSX平台将电池储能系统(BESS)作为AI工厂电力架构的系统级组件,而非独立附加。BESS结合逆变器、实时遥测和动态控制,实现负载平滑、扰动穿越、加速互联,并定义自认证指南,推动电力基础设施从被动备用转向主动控制。
ARM以Neural Dawn演示移动神经图形:专用加速器将改写移动GPU架构
Arm联合Sumo Digital发布Neural Dawn,首款移动端支持Unreal Engine MegaLights的游戏。通过下一代Mali GPU内置神经加速器,实现桌面级实时光线追踪和动态照明,同时维持移动功耗预算。这标志着移动图形从传统渲染向AI原生管线的转折点。
Delivering Lifecycle Control for AI Infrastructure at Scale with NVIDIA DGX Spark Enterprise Manageability
Delivering Lifecycle Control for AI Infrastructure at Scale with NVIDIA DGX Spark Enterprise Manageability2026-06-09T19:00:00+00:00As AI infrastructure scales, enterprise expectations for operational ...
AMD EPYC以机架级密度宣战:Agentic AI的CPU控制权之争
AMD发布博客,宣称其EPYC处理器在机架级性能上领先NVIDIA Vera和Intel Xeon,专为Agentic AI的CPU密集型服务(如编排、缓存、数据库)设计。通过100kW机架模型,EPYC 9965(Turin)实现2.37倍于Vera的吞吐量,下一代“Venice”将扩展至3.30倍。强调现有x86平台即可部署,无需等待未来架构。
GKE Inference Gateway前缀缓存:AI推理延迟降低92%,但锁定风险暗藏
Google Cloud推出GKE Inference Gateway,通过前缀缓存和模型感知路由,在Llama 3.1 8B模型上实现92.8%更短首令牌延迟和15.7%更高吞吐量。Snap实测缓存命中率达75-80%。但该技术深度绑定GKE Gateway API和Google生态,企业需警惕架构弹性损失。
NVIDIA NVFP4:原生4位训练实现1.73倍吞吐跃升,锁定Blackwell生态
NVIDIA发布NVFP4格式,利用Blackwell原生硬件支持,在JAX/MaxText中实现4位混合精度预训练。相比FP8基线,Llama 3.1 405B在GB300上获得1.73倍吞吐提升,且精度无损失。该技术通过微块缩放、随机哈达玛变换等创新,显著降低训练成本,但深度绑定NVIDIA硬件生态。
思科推出AI原生分支架构:AgenticOps与后量子加密重塑WAN控制平面
思科在Cisco Live 2026上完成Secure Router 8000系列更新,推出Unified Branch架构,集成AgenticOps自动化、后量子密码学(PQC)和混合网状防火墙,将控制平面从本地迁移至Cisco Cloud Control,为AI时代分支网络提供统一平台。
NVIDIA 借英国主权AI基金,从芯片商跃升为国家AI基础设施的幕后控制者
NVIDIA 与英国政府合作,通过 Isambard-AI(搭载 5,400 颗 GH200)及 Sovereign AI Fund,扶持本地初创(Cosine, Cursive, Doubleword)。此举表面是技术部署,实则是 NVIDIA 构建主权AI控制平面,将国家算力锁入其生态系统,削弱AWS/Azure等传统云厂商的地位。
NVIDIA与LG共建AI工厂:以DSX平台锁定物理AI全栈生态
NVIDIA与LG集团联合建设AI工厂,基于NVIDIA DSX平台整合Isaac Sim/Lab、Cosmos、GR00T等框架,覆盖机器人、自动驾驶、数据中心及主权AI。LG各子公司分工明确,从冷却组件到机器人平台均深度绑定NVIDIA架构,形成排他性生态。