vLLM - AI基础设施情报搜索

NVIDIA 其他 2026-06-01

NVIDIA RTX Spark：以SoC形态夺取PC控制权，AI算力革命或锁定生态

NVIDIA发布RTX Spark SoC，集成Blackwell GPU与20核Grace CPU（MediaTek设计），通过NVLink-C2C实现600GB/s互联，最高128GB统一内存，1 petaflop FP4 AI算力，支持本地运行1200亿参数大模型。此举从GPU供应商跃升为整机方案商，直接挑战Apple M系列、Qualcomm及x86阵营。

Other 其他 2026-05-22

BadHost漏洞暴露Starlette认证绕过，全球AI Agent基础设施面临HTTP走私风险

BadHost漏洞(CVE-2026-48710)利用Starlette ASGI框架中request.url.path与scope[path]的不一致，通过Host头注入实现认证绕过。该漏洞影响FastAPI、vLLM、MCP Server等40万+仓库，使SSE/HTTP传输模式的AI Agent服务器直接暴露，可导致数据泄露乃至RCE。

AMD 其他 2026-05-20

AMD Ryzen AI Halo与Max PRO 400系列：本地运行300B参数模型，但隐性锁定与工程短板并存

AMD发布Ryzen AI Halo开发者平台（128GB统一内存，支持200B参数模型）及Ryzen AI Max PRO 400系列处理器（首款x86客户端运行300B参数模型）。通过统一内存架构、ROCm优化和OEM合作，推动代理AI从云端走向本地，但实际性能受限于共享内存带宽与散热设计。

AMD 其他中信号 2026-05-04

AMD联合戴尔展示企业AI异构计算战略

AMD在戴尔技术世界大会上强调其异构计算产品组合，旨在为不同企业AI负载匹配合适的算力，并突出硬件安全与可管理性。此举标志着AI基础设施正从通用方案转向针对具体场景的精细化部署。

AMD 其他强信号 2026-04-27

AMD发布IDC白皮书，强调AI PC是企业部署Agentic AI的关键基础设施

AMD发布IDC白皮书，指出超过80%的企业正在规划、试点或部署AI PC，以支持Agentic AI的规模化应用。报告强调，高性能NPU和端侧AI处理对于实现实时、安全的工作流至关重要，标志着企业AI基础设施正从云端向端侧扩展。

NVIDIA 其他强信号 2026-04-24

英伟达内部规模化部署GPT-5.5驱动AI代理，定义企业AI基础设施新范式

英伟达宣布其超过1万名员工已通过Codex应用，在基于GB200 NVL72的NVIDIA基础设施上规模化使用GPT-5.5。此举不仅展示了前沿模型推理在企业内部工作流中实现‘变革性’生产力的技术可行性，更通过专用的安全云VM架构，为企业部署AI代理提供了可审计、隔离的参考范式。

Google 其他 2026-04-22

Google Cloud Next '26：Agent Gateway夺取控制面，TPU 8i锁定推理生态

Google Cloud Next '26 发布第八代TPU（8t训练/8i推理）、Agent Platform（含Agent Gateway、Agent Identity、Agent-to-Agent Orchestration）、Agentic Data Cloud及与Wiz整合的Agentic Defense。核心是将控制点从基础设施转向Agent编排层，以垂直整合堆栈锁定企业AI部署。

NVIDIA 其他强信号 2026-04-15

英伟达推动AI基础设施评估指标从FLOPS转向每token成本

英伟达提出应将“每token成本”而非“每美元FLOPS”作为评估AI基础设施的核心经济指标。这标志着从衡量计算输入转向衡量商业输出，涉及硬件、软件、网络的全栈优化，以降低企业AI推理的总拥有成本。

Google 其他强信号 2026-04-03

谷歌发布Gemma 4开源模型，瞄准边缘推理与AI代理架构

谷歌推出Gemma 4开源模型家族，包含从2B到31B的四个版本，强调单位参数性能突破，并原生支持AI代理工作流、多模态与长上下文。其小参数模型专为边缘设备优化，旨在将前沿推理能力扩展至移动与IoT场景。

Google 其他中信号 2026-04-03

Google发布Gemma 4开源模型系列

Google推出Gemma 4开源模型系列，包含四种规模变体，特别优化边缘计算和移动设备。该系列支持多模态处理、长上下文窗口和140多种语言，采用Apache 2.0许可。

AMD 其他强信号 2026-04-02

AMD发布突破性MLPerf 6.0推理结果，展示多节点扩展与多模态能力

AMD在MLPerf Inference 6.0基准测试中，凭借Instinct MI355X GPU在Llama 2 70B和GPT-OSS-120B模型上首次突破每秒100万令牌的推理吞吐量。其提交强调了多节点扩展效率、对新型文本到视频模型（Wan-2.2-t2v）的快速启用，以及广泛的合作伙伴生态系统复现结果。

Meta 其他强信号 2026-03-11

Meta加速自研AI芯片路线图，专注推理优化

Meta计划两年内推出四代自研AI芯片MTIA系列，采用‘推理优先’设计策略，专注于生成式AI推理任务优化。芯片基于PyTorch和开放计算标准构建，支持数据中心无缝部署。这一快速迭代策略旨在提升计算效率和成本控制。

NVIDIA 其他强信号 2026-03-11

英伟达Jetson平台推进边缘AI开源模型本地化部署

英伟达通过Jetson边缘AI平台实现开源生成式AI模型的本地化部署，支持包括Qwen3 4B和Mistral 3在内的多种模型在边缘设备运行。平台提供从Jetson Orin Nano到Thor的完整硬件选项，集成计算与内存于SoM以简化设计。关键性能指标显示，Jetson Thor可实现52 tokens/秒的Mistral 3推理速度。

Trend Micro 其他强信号 2026-03-03

Trend Micro发布AI安全报告，揭示AI供应链风险与模型攻击面

Trend Micro发布《AI生态系统断层线》报告，系统性地分析了AI供应链中的安全风险，包括模型训练数据污染、第三方插件漏洞以及模型窃取攻击。报告指出，企业AI应用的安全边界已从传统IT基础设施扩展至模型层和数据管道。

情报

筛选