N
NVIDIA
2026-05-16
Architecture Shift 影响: Major 置信: 95%

NVIDIA CUDA漏洞暴露GPU云共享隔离架构根本缺陷:从驱动层到硬件层的安全范式必须重构

内容摘要

Pwn2Own Berlin 2026上,NVIDIA CUDA Toolkit NVVM编译器堆溢出漏洞(CVE-2026-12839)被成功利用,实现GPU云跨租户逃逸。攻击链从恶意PTX代码到驱动层再到主机内核,彻底打破当前依赖驱动隔离的GPU共享模型,迫使行业重新评估AI基础设施安全架构。

核心要点

在Pwn2Own Berlin 2026首次设立的AI/ML攻击类别中,NVIDIA CUDA Toolkit的NVVM编译器堆溢出漏洞(CVE-2026-12839)被成功利用。攻击路径为:恶意PTX代码 → GPU驱动compromise → 主机内核权限提升。

在云环境中,这意味着共享GPU硬件的跨租户逃逸成为现实威胁。当前主流GPU云服务(AWS/GCP/Azure)广泛采用GPU共享时分复用模型,安全隔离完全依赖驱动层隔离。CUDA Toolkit漏洞直接打破这一隔离层,所有使用NVIDIA GPU的AI训练/推理工作负载均受影响。

该漏洞并非单一CVE,而是揭示了GPU云安全架构的根本性挑战。AI基础设施安全成熟度落后Web应用安全至少十年。随着GPU共享从时分复用向MIG/分区演进,隔离模型必须从驱动层上移至硬件层。NVIDIA在6月30日截止的补丁窗口期,需要同时解决短期漏洞修复和长期架构重构两个问题。

重要性说明

该漏洞表面是软件缺陷,本质是NVIDIA在构建CUDA生态时,为了最大化GPU共享的经济性(通过GRID/vGPUMIG等方案),刻意将安全隔离成本推给了云厂商和用户,而自身并未在硬件层面(如片上内存隔离TLB分区)提供足够的原生保障。

攻击链中的关键节点是PTX代码——这是CUDA生态的中间表示层,允许任意代码注入。NVIDIA为了保持CUDA的广泛兼容性与开发灵活性,故意保留了PTX的低层次可编程能力,这直接成为了攻击面。这本质上是在用安全换生态灵活性

对于企业用户而言,这意味着任何依赖GPU云共享(即使启用了MIG)的AI工作负载,都存在被跨租户攻击的风险。NVIDIA的补丁只能缓解当前漏洞,但无法解决驱动层隔离的架构性短板。真正的解决方案需要硬件级隔离,但这会显著增加GPU芯片的复杂度和成本,NVIDIA短期内没有动力去推动。

PRO 决策建议

【厂商(AMD、Intel、云厂商)】

  • AMD (ROCm)Intel (oneAPI) 应抓住这一窗口,在营销和技术上直接攻击NVIDIA CUDA的驱动层隔离架构缺陷,强调自家硬件原生支持安全内存加密(如AMD SEV-SNP、Intel TDX)和更严格的GPU分区(如AMD MxGPU),提供硬件级租户隔离的证明。
  • AWS (Trainium/Inferentia)Google (TPU) 等云厂商应加速自研AI芯片的部署,并公开其硬件级隔离设计(如片上安全飞地),以区别于依赖NVIDIA GPU的共享实例。

【企业(CIO/架构师)】

  • 立即对现有GPU云共享工作负载进行安全审计,特别是使用MIG分区的实例,要求云厂商提供跨租户隔离的独立渗透测试报告。
  • 评估将敏感AI训练/推理工作负载迁移至裸金属GPU实例专用云主机,避免时分复用带来的驱动层攻击面。
  • 在采购AI基础设施时,将硬件级隔离作为硬性安全需求,而非仅依赖软件补丁。

【投资者】

  • 此事件暴露了GPU云安全模型的系统性风险,将显著增加AI基础设施的运营成本和安全审计成本,可能抑制GPU云共享的采用率。
  • 关注硬件安全芯片厂商(如Habana LabsCerebras)以及提供机密计算(Confidential Computing)方案的云厂商,它们可能因对硬件隔离的重视而获得竞争优势。

来源: Security
查看原文 →

觉得这篇分析有用?

每周收到3-5条AI基础设施关键信号 →

💬 评论 (0)