这项动态的影响程度如何？

该情报被评估为对企业具有重大影响，建议技术决策者关注。

NVIDIA 2026-05-16

Architecture Shift 影响: Major 置信: 95%

NVIDIA CUDA漏洞暴露GPU云共享隔离架构根本缺陷：从驱动层到硬件层的安全范式必须重构

Q: 为什么NVIDIA的这项动态对企业重要？

该漏洞表面是软件缺陷，本质是NVIDIA在构建**CUDA生态**时，为了最大化GPU共享的经济性（通过**GRID/vGPU**、**MIG**等方案），刻意将安全隔离成本推给了云厂商和用户，而自身并未在硬件层面（如**片上内存隔离**、**TLB分区**）提供足够的原生保障。 攻击链中的关键节点是**PTX代码**——这是CUDA生态的中间表示层，允许任意代码注入。NVIDIA为了保持CUDA的广泛兼容性与开发灵活性，故意保留了PTX的低层次可编程能力，这直接成为了攻击面。**这本质上是在用安全换生态灵活性**。 对于企业用户而言，这意味着任何依赖**GPU云共享**（即使启用了MIG）的AI工作负载，都存在被跨租户攻击的风险。NVIDIA的补丁只能缓解当前漏洞，但无法解决**驱动层隔离**的架构性短板。真正的解决方案需要硬件级隔离，但这会显著增加**GPU芯片**的复杂度和成本，NVIDIA短期内没有动力去推动。

内容摘要

Pwn2Own Berlin 2026上，NVIDIA CUDA Toolkit NVVM编译器堆溢出漏洞(CVE-2026-12839)被成功利用，实现GPU云跨租户逃逸。攻击链从恶意PTX代码到驱动层再到主机内核，彻底打破当前依赖驱动隔离的GPU共享模型，迫使行业重新评估AI基础设施安全架构。

核心要点

在Pwn2Own Berlin 2026首次设立的AI/ML攻击类别中，NVIDIA CUDA Toolkit的NVVM编译器堆溢出漏洞（CVE-2026-12839）被成功利用。攻击路径为：恶意PTX代码 → GPU驱动compromise → 主机内核权限提升。

在云环境中，这意味着共享GPU硬件的跨租户逃逸成为现实威胁。当前主流GPU云服务（AWS/GCP/Azure）广泛采用GPU共享和时分复用模型，安全隔离完全依赖驱动层隔离。CUDA Toolkit漏洞直接打破这一隔离层，所有使用NVIDIA GPU的AI训练/推理工作负载均受影响。

该漏洞并非单一CVE，而是揭示了GPU云安全架构的根本性挑战。AI基础设施安全成熟度落后Web应用安全至少十年。随着GPU共享从时分复用向MIG/分区演进，隔离模型必须从驱动层上移至硬件层。NVIDIA在6月30日截止的补丁窗口期，需要同时解决短期漏洞修复和长期架构重构两个问题。

重要性说明

该漏洞表面是软件缺陷，本质是NVIDIA在构建CUDA生态时，为了最大化GPU共享的经济性（通过GRID/vGPU、MIG等方案），刻意将安全隔离成本推给了云厂商和用户，而自身并未在硬件层面（如片上内存隔离、TLB分区）提供足够的原生保障。

攻击链中的关键节点是PTX代码——这是CUDA生态的中间表示层，允许任意代码注入。NVIDIA为了保持CUDA的广泛兼容性与开发灵活性，故意保留了PTX的低层次可编程能力，这直接成为了攻击面。这本质上是在用安全换生态灵活性。

对于企业用户而言，这意味着任何依赖GPU云共享（即使启用了MIG）的AI工作负载，都存在被跨租户攻击的风险。NVIDIA的补丁只能缓解当前漏洞，但无法解决驱动层隔离的架构性短板。真正的解决方案需要硬件级隔离，但这会显著增加GPU芯片的复杂度和成本，NVIDIA短期内没有动力去推动。

PRO 决策建议

【厂商（AMD、Intel、云厂商）】

AMD (ROCm) 和 Intel (oneAPI) 应抓住这一窗口，在营销和技术上直接攻击NVIDIA CUDA的驱动层隔离架构缺陷，强调自家硬件原生支持安全内存加密（如AMD SEV-SNP、Intel TDX）和更严格的GPU分区（如AMD MxGPU），提供硬件级租户隔离的证明。
AWS (Trainium/Inferentia)、Google (TPU) 等云厂商应加速自研AI芯片的部署，并公开其硬件级隔离设计（如片上安全飞地），以区别于依赖NVIDIA GPU的共享实例。

【企业（CIO/架构师）】

立即对现有GPU云共享工作负载进行安全审计，特别是使用MIG分区的实例，要求云厂商提供跨租户隔离的独立渗透测试报告。
评估将敏感AI训练/推理工作负载迁移至裸金属GPU实例或专用云主机，避免时分复用带来的驱动层攻击面。
在采购AI基础设施时，将硬件级隔离作为硬性安全需求，而非仅依赖软件补丁。

【投资者】

此事件暴露了GPU云安全模型的系统性风险，将显著增加AI基础设施的运营成本和安全审计成本，可能抑制GPU云共享的采用率。
关注硬件安全芯片厂商（如Habana Labs、Cerebras）以及提供机密计算（Confidential Computing）方案的云厂商，它们可能因对硬件隔离的重视而获得竞争优势。

来源： Security

查看原文 →

觉得这篇分析有用？

每周收到3-5条AI基础设施关键信号 →

内容摘要

核心要点

重要性说明

PRO 决策建议

觉得这篇分析有用？

💬 评论 (0)