情报
AI 生成的结构化厂商动态简报
Cloudflare Announces Scheduled Maintenance and Global Infrastructure Expansion
...
Palo Alto GlobalProtect VPN遭主动利用:远程代码执行漏洞暴露企业网关防线脆弱性
Palo Alto Networks GlobalProtect VPN曝出严重漏洞,允许未认证攻击者远程执行任意代码,且已在野被主动利用。该漏洞直接威胁依赖VPN进行远程接入的企业网络边界,凸显了在混合办公模式下,VPN设备作为关键入口点的脆弱性。安全团队需立即修补并审查日志。
AMD收购MEXT:用AI预测让Flash逼近DRAM,降低AI内存TCO
AMD宣布收购AI内存优化初创公司MEXT,其核心技术利用AI预测模型使NAND Flash在延迟和吞吐量上逼近DRAM,旨在扩展AI服务器的有效内存容量,降低总拥有成本(TCO)。该技术将被整合进AMD数据中心全线产品,包括EPYC CPU和Instinct GPU,以应对大模型对内存的饥渴。
NVIDIA力推World-Action模型:机器人控制权从语言转向视频基础模型
NVIDIA发表深度技术博客,提出World-Action Model(WAM)作为VLM-based VLA的替代路线。WAM利用预训练视频/世界模型骨干,同时预测未来状态和机器人动作,旨在克服VLA的语言-动作接地鸿沟。该范式可能重塑机器人基础模型训练格局,但面临推理成本和实时性挑战。
Z.ai GLM-5.2推可用1M Token上下文,无基准测试下挑战长文本推理极限
Z.ai发布GLM-5.2,宣称支持可用的1M token上下文窗口,并引入两种思考努力级别(Thinking-Effort Levels)。但未提供任何标准基准测试结果,引发对其实际性能与可用性的质疑。该模型旨在直接替代传统RAG分块检索流程,实现端到端长文本推理。
DXC与Anthropic深度绑定:用Claude认证工程师军团锁定关键任务AI部署
DXC与Anthropic宣布多年全球合作,DXC成为Claude Partner Network全球顶级合作伙伴。双方将培训数万名Claude认证工程师,通过DXC OASIS平台在银行、保险、制造等关键任务环境中部署Claude模型,采用“Customer Zero”内部验证模式。
Cloudflare吸纳Ensemble团队:架构级模型压缩重塑边缘推理经济
Cloudflare宣布吸纳Ensemble AI核心团队,引入其架构级模型压缩技术NdLinear和NdLinear-LoRA。该技术通过保留多维激活结构而非扁平化处理,直接减少Transformer模型的参数量和计算开销。此举旨在显著降低Workers AI平台的推理成本,提升GPU利用率,并加速全球边缘AI部署。
Anthropic借DXC锁定受监管行业:Claude认证工程师与OASIS平台成新控制点
Anthropic与DXC Technology达成全球联盟,DXC将培训数万名Claude认证的前沿部署工程师,并将Claude深度集成到其管理的银行、航空等关键系统中。DXC的AI原生平台OASIS已默认使用Claude,且95%以上代码由Claude生成,形成深度依赖。
微软联合NVIDIA推RTX Spark Arm AI芯片,Windows PC算力跨越1 Petaflop门槛
微软在Computex 2026宣布与NVIDIA、MediaTek合作推出RTX Spark Arm架构AI超级芯片,集成Blackwell RTX GPU和128GB统一内存,支持本地运行120B参数大模型。同时Intel Arc G3、高通Snapdragon X2系列齐发,Windows AI PC生态全面升级。
NVIDIA联手Google DeepMind推出并行文本生成模型,吞吐量突破1000 tokens/sec
NVIDIA宣布与Google DeepMind合作优化DiffusionGemma,该模型基于扩散去噪实现每步并行生成256个token,在单个H100上达到1000 tokens/sec,并通过NIM和NeMo提供即用部署,显著降低推理成本和延迟。
NVIDIA借DiffusionGemma并行生成,将本地AI推理控制权锁定于自家GPU
NVIDIA优化Google DeepMind的DiffusionGemma开源模型,该模型通过并行生成256 tokens(非逐token)实现4倍加速。在H100上达1000 tokens/sec,DGX Spark上150 tokens/sec,完全本地运行,无云成本。此举强化了NVIDIA GPU在计算密集型本地AI推理中的核心地位。
NVIDIA将BESS嵌入AI工厂电力架构:电力控制层从电网转向智能储能系统
NVIDIA通过DSX平台将电池储能系统(BESS)作为AI工厂电力架构的系统级组件,而非独立附加。BESS结合逆变器、实时遥测和动态控制,实现负载平滑、扰动穿越、加速互联,并定义自认证指南,推动电力基础设施从被动备用转向主动控制。
ARM以Neural Dawn演示移动神经图形:专用加速器将改写移动GPU架构
Arm联合Sumo Digital发布Neural Dawn,首款移动端支持Unreal Engine MegaLights的游戏。通过下一代Mali GPU内置神经加速器,实现桌面级实时光线追踪和动态照明,同时维持移动功耗预算。这标志着移动图形从传统渲染向AI原生管线的转折点。
Google发布Lightning Engine:4.9x性能提升背后的生态锁定与架构隐忧
Google Cloud宣布Lightning Engine全面可用,基于开源Gluten和Velox实现向量化原生执行,声称性能提升4.9倍,价格性能比领先2倍。深度优化Cloud Storage和BigQuery连接器,但通过专有集成和premium tier强化生态锁定。
Delivering Lifecycle Control for AI Infrastructure at Scale with NVIDIA DGX Spark Enterprise Manageability
Delivering Lifecycle Control for AI Infrastructure at Scale with NVIDIA DGX Spark Enterprise Manageability2026-06-09T19:00:00+00:00As AI infrastructure scales, enterprise expectations for operational ...
Anthropic Claude Fable 5上线AWS:数据保留政策打破云安全边界,企业数据主权遭侵蚀
AWS与Anthropic联合发布Claude Fable 5模型,具备长时异步执行、高级视觉与主动自我验证能力。但模型访问要求用户同意30天数据保留并共享给Anthropic,导致推理数据离开AWS安全边界,同时有害提示自动回退至Opus 4.8,引入复杂定价与安全治理风险。
AMD EPYC以机架级密度宣战:Agentic AI的CPU控制权之争
AMD发布博客,宣称其EPYC处理器在机架级性能上领先NVIDIA Vera和Intel Xeon,专为Agentic AI的CPU密集型服务(如编排、缓存、数据库)设计。通过100kW机架模型,EPYC 9965(Turin)实现2.37倍于Vera的吞吐量,下一代“Venice”将扩展至3.30倍。强调现有x86平台即可部署,无需等待未来架构。
Cloudflare 将安全栈延伸至私有源站:DNS 路由开启应用层控制新范式
Cloudflare 发布 Application Services for Private Origins,允许企业客户通过 DNS 记录启用私有路由,将 WAF、Bot 管理、速率限制等安全服务应用于私有 IP 上的应用,无需公网暴露或 connector 软件。该功能基于 Cloudflare 已有的私有网络连接(IPsec/GRE/CNI/Mesh)实现,并支持 Spectrum 和 Workers VPC 绑定,构建统一的私有流量控制平面。
微软借KPMG全球部署Agent 365,锁定企业AI代理管理控制平面
KPMG宣布全球采用Microsoft Agent 365管理AI代理,并扩展Copilot部署。Agent 365成为KPMG Workbench的核心治理层,协调跨系统、数据与业务流程的AI代理。此举将微软的AI管理平台深度嵌入全球最大咨询公司的交付体系,形成对企业AI代理生命周期的集中控制。
GKE Inference Gateway前缀缓存:AI推理延迟降低92%,但锁定风险暗藏
Google Cloud推出GKE Inference Gateway,通过前缀缓存和模型感知路由,在Llama 3.1 8B模型上实现92.8%更短首令牌延迟和15.7%更高吞吐量。Snap实测缓存命中率达75-80%。但该技术深度绑定GKE Gateway API和Google生态,企业需警惕架构弹性损失。