情报
AI 生成的结构化厂商动态简报
NVIDIA RTX Spark:以SoC形态夺取PC控制权,AI算力革命或锁定生态
NVIDIA发布RTX Spark SoC,集成Blackwell GPU与20核Grace CPU(MediaTek设计),通过NVLink-C2C实现600GB/s互联,最高128GB统一内存,1 petaflop FP4 AI算力,支持本地运行1200亿参数大模型。此举从GPU供应商跃升为整机方案商,直接挑战Apple M系列、Qualcomm及x86阵营。
BadHost漏洞暴露Starlette认证绕过,全球AI Agent基础设施面临HTTP走私风险
BadHost漏洞(CVE-2026-48710)利用Starlette ASGI框架中request.url.path与scope[path]的不一致,通过Host头注入实现认证绕过。该漏洞影响FastAPI、vLLM、MCP Server等40万+仓库,使SSE/HTTP传输模式的AI Agent服务器直接暴露,可导致数据泄露乃至RCE。
AMD Ryzen AI Halo与Max PRO 400系列:本地运行300B参数模型,但隐性锁定与工程短板并存
AMD发布Ryzen AI Halo开发者平台(128GB统一内存,支持200B参数模型)及Ryzen AI Max PRO 400系列处理器(首款x86客户端运行300B参数模型)。通过统一内存架构、ROCm优化和OEM合作,推动代理AI从云端走向本地,但实际性能受限于共享内存带宽与散热设计。
AMD联合戴尔展示企业AI异构计算战略
AMD在戴尔技术世界大会上强调其异构计算产品组合,旨在为不同企业AI负载匹配合适的算力,并突出硬件安全与可管理性。此举标志着AI基础设施正从通用方案转向针对具体场景的精细化部署。
AMD发布IDC白皮书,强调AI PC是企业部署Agentic AI的关键基础设施
AMD发布IDC白皮书,指出超过80%的企业正在规划、试点或部署AI PC,以支持Agentic AI的规模化应用。报告强调,高性能NPU和端侧AI处理对于实现实时、安全的工作流至关重要,标志着企业AI基础设施正从云端向端侧扩展。
英伟达内部规模化部署GPT-5.5驱动AI代理,定义企业AI基础设施新范式
英伟达宣布其超过1万名员工已通过Codex应用,在基于GB200 NVL72的NVIDIA基础设施上规模化使用GPT-5.5。此举不仅展示了前沿模型推理在企业内部工作流中实现‘变革性’生产力的技术可行性,更通过专用的安全云VM架构,为企业部署AI代理提供了可审计、隔离的参考范式。
Google Cloud Next '26:Agent Gateway夺取控制面,TPU 8i锁定推理生态
Google Cloud Next '26 发布第八代TPU(8t训练/8i推理)、Agent Platform(含Agent Gateway、Agent Identity、Agent-to-Agent Orchestration)、Agentic Data Cloud及与Wiz整合的Agentic Defense。核心是将控制点从基础设施转向Agent编排层,以垂直整合堆栈锁定企业AI部署。
英伟达推动AI基础设施评估指标从FLOPS转向每token成本
英伟达提出应将“每token成本”而非“每美元FLOPS”作为评估AI基础设施的核心经济指标。这标志着从衡量计算输入转向衡量商业输出,涉及硬件、软件、网络的全栈优化,以降低企业AI推理的总拥有成本。
谷歌发布Gemma 4开源模型,瞄准边缘推理与AI代理架构
谷歌推出Gemma 4开源模型家族,包含从2B到31B的四个版本,强调单位参数性能突破,并原生支持AI代理工作流、多模态与长上下文。其小参数模型专为边缘设备优化,旨在将前沿推理能力扩展至移动与IoT场景。
Google发布Gemma 4开源模型系列
Google推出Gemma 4开源模型系列,包含四种规模变体,特别优化边缘计算和移动设备。该系列支持多模态处理、长上下文窗口和140多种语言,采用Apache 2.0许可。
AMD发布突破性MLPerf 6.0推理结果,展示多节点扩展与多模态能力
AMD在MLPerf Inference 6.0基准测试中,凭借Instinct MI355X GPU在Llama 2 70B和GPT-OSS-120B模型上首次突破每秒100万令牌的推理吞吐量。其提交强调了多节点扩展效率、对新型文本到视频模型(Wan-2.2-t2v)的快速启用,以及广泛的合作伙伴生态系统复现结果。
Meta加速自研AI芯片路线图,专注推理优化
Meta计划两年内推出四代自研AI芯片MTIA系列,采用‘推理优先’设计策略,专注于生成式AI推理任务优化。芯片基于PyTorch和开放计算标准构建,支持数据中心无缝部署。这一快速迭代策略旨在提升计算效率和成本控制。
英伟达Jetson平台推进边缘AI开源模型本地化部署
英伟达通过Jetson边缘AI平台实现开源生成式AI模型的本地化部署,支持包括Qwen3 4B和Mistral 3在内的多种模型在边缘设备运行。平台提供从Jetson Orin Nano到Thor的完整硬件选项,集成计算与内存于SoM以简化设计。关键性能指标显示,Jetson Thor可实现52 tokens/秒的Mistral 3推理速度。
Trend Micro发布AI安全报告,揭示AI供应链风险与模型攻击面
Trend Micro发布《AI生态系统断层线》报告,系统性地分析了AI供应链中的安全风险,包括模型训练数据污染、第三方插件漏洞以及模型窃取攻击。报告指出,企业AI应用的安全边界已从传统IT基础设施扩展至模型层和数据管道。