Architecture Shift
影响: Important
强度: High
置信: 80%
NVIDIA CUDA Toolkit堆溢出漏洞暴露GPU云共享模型的根本架构缺陷
内容摘要
Pwn2Own Berlin 2026首次纳入AI/ML类别,NVIDIA CUDA NVVM编译器堆溢出CVE-2026-12839被利用。恶意PTX代码可从GPU驱动逃逸至主机内核,云环境中实现跨租户逃逸。GPU云安全隔离依赖驱动层,此漏洞打破隔离基础假设。
核心要点
核心要点有三个:第一,攻击路径PTX代码→NVVM编译器→GPU驱动→主机内核是完整的权限提升链,从用户态AI代码一路打到内核态,这在GPU云环境中意味着跨租户逃逸。第二,当前GPU云服务(AWS P/G5实例、GCP A100/H100实例、Azure ND系列)的隔离模型依赖NVIDIA驱动层,CUDA Toolkit漏洞直接打破这一隔离层。与2010年代初期容器安全漏洞(如Docker逃逸)的类比高度相关——隔离依赖软件层而非硬件层是已知的架构风险。第三,Pwn2Own首次将AI/ML纳入攻击类别,标志着AI基础设施安全从学术讨论进入实战攻防阶段,LiteLLM被攻破三次说明AI网关类产品的安全成熟度严重滞后。
重要性说明
CUDA Toolkit堆溢出CVE-2026-12839允许恶意PTX代码从GPU驱动逃逸至主机内核权限。在云环境中,共享GPU硬件的跨租户逃逸成为现实威胁。影响所有使用NVIDIA GPU的AI训练/推理工作负载。补丁截止6月30日。
PRO 决策建议
云服务商应评估GPU共享隔离模型的安全假设;使用共享GPU实例的客户应关注跨租户风险并考虑专用GPU部署;在6月30日前升级NVIDIA驱动至555.76+
💬 评论 (0)