思科研究:多轮攻击下所有前沿LLM均不安全,安全边界需外移
内容摘要
核心要点
思科发布研究报告,对15个闭源前沿大语言模型(LLM)进行多轮攻击评估。测试模型包括OpenAI的GPT-5.2和GPT-5.4系列、Anthropic的Claude Opus 4.5/4.6、Sonnet 4.5/4.6、Haiku 4.5、Google的Gemini 3 Pro、Amazon的Nova Lite、Nova Micro、Nova 2 Lite以及xAI的Grok 4.1 Fast(推理和非推理配置)。
评估使用30,090个单轮提示和6,986个多轮攻击(分布在1,456个对话中)。结果显示:多轮攻击成功率(ASR)范围从7.89%到88.30%,而单轮ASR范围仅为2.19%到64.91%。跨体制差异显著,例如Gemini 3 Pro从单轮18.10%跃升至多轮73.35%(4倍增长),GPT-5.4从2.74%升至24.68%(9倍增长)。Grok 4.1 Fast非推理模式达到88.30%多轮ASR,而推理模式降至43.47%,配置差异导致安全性能大幅波动。
思科提出三项评估实践:1) 按策略族(角色扮演、上下文模糊、拒绝重定向、信息分解、渐进升级)发布ASR;2) 对前三程序(Imposter AI、Soft Paraphrase、System Prompts)和前三内容类型(Hate Speech、Profanity、Specialized Advice)设置3pp回归阈值,触发部署审查;3) 标记跨体制绝对差距超过15pp的模型(本队列中8/15模型符合)。结论是:没有基础模型是迭代安全的,安全边界必须移到模型外部,采用运行时防护(如Cisco AI Defense)和监控。
重要性说明
思科此举表面上是安全研究,实质是在防守和合围新兴的AI安全厂商(如Palo Alto Networks、Zscaler、CrowdStrike)以及开源安全工具(如Guardrails AI)。通过定义“多轮评估”这一新标准,思科试图将AI安全市场的控制点从单轮基准测试转向其专有的Cisco Integrated AI Security and Safety Framework,从而锁定企业用户的评估流程和防护工具链。
思科故意淡化了其自身AI Defense产品的评估局限性:该研究使用的评估框架和prompt库是思科独有资产,企业若采用其建议,将被迫依赖思科的工具进行模型评估和部署门控,形成评估-防护-监控的端到端锁定。同时,思科未披露其AI Defense产品在多轮攻击下的实际表现,也未提供与其他厂商防护方案的独立对比。
从工程角度看,多轮攻击评估需要大量计算资源和长时间对话模拟,这在生产环境中难以大规模部署。思科提出的“3pp回归阈值”缺乏理论依据,可能过于严格导致误报,或者过于宽松导致漏报。此外,该研究未考虑模型持续更新带来的评估漂移,企业若按此标准门控部署,将面临高昂的持续评估成本和版本迭代时的资产折旧陷阱。
PRO 决策建议
【厂商】Palo Alto Networks、Zscaler等竞争对手应立即行动:1) 发布独立的多轮攻击评估报告,对比Cisco AI Defense与自家产品的实际防护效果,突出Cisco方案在实时部署中的高延迟和资源消耗;2) 推广开源或第三方评估框架(如LLM Security Leaderboard的替代方案),打破Cisco对评估标准的垄断;3) 强调Cisco研究中的样本偏差(仅15个模型,且未包含最新开源模型如Llama 4、Mistral Large 3),证明其结论不具普适性。
【企业】CIO与架构师需保持零信任:1) 要求Cisco提供其AI Defense产品在多轮攻击下的独立基准测试结果,并对比至少两家替代方案;2) 建立内部多轮评估能力,使用开源工具(如Garak、PyRIT)进行验证,避免被单一厂商的评估框架锁定;3) 在采购合同中明确要求供应商提供多轮ASR数据,并设置跨体制差距阈值,但需自行校准阈值(建议基于实际业务场景而非Cisco的15pp一刀切)。
【投资者】看穿Cisco的公关辞令:该研究本质是营销工具,旨在提升AI Defense的市场认知度。真实业务趋势是AI安全评估将从单轮转向多轮,但Cisco的封闭框架面临开源替代和独立验证的挑战。关注那些提供开放、可集成评估工具的安全厂商(如Protect AI、HiddenLayer),以及能够与现有MLOps平台无缝集成的方案。Cisco的供应商集中度风险正在上升,其AI Defense若无法独立验证,将面临企业信任危机。
觉得这篇分析有用?
每周收到3-5条AI基础设施关键信号 →
💬 评论 (0)