M
Microsoft
2026-05-23
Product Launch 影响: Important 置信: 85%

微软Fara1.5浏览器Agent开源权重,72%成功率碾压闭源对手

内容摘要

微软发布Fara1.5系列(4B/9B/27B)浏览器Computer-Use Agent,基于Qwen3.5微调,在Online-Mind2Web达72%成功率,超越OpenAI Operator(58.3%)和Gemini 2.5 CU(57.3%)。开源权重并配套MagenticLite沙盒,但存在视觉提示注入和凭证暴露等安全风险。

核心要点

微软研究院发布Fara1.5系列浏览器Agent模型,基于Qwen3.5微调,参数规模4B/9B/27B,均开放权重。核心架构包括MagenticBrain(14B中央编排器)和Fara1.5模型('观察-思考-行动'循环),每步结合历史与最近3张截图输出动作。配套Agent Harness执行环境支持数百步上下文维持,以及FaraGen1.5合成数据管线产出约200万条SFT样本。

性能上,Fara1.5-27BOnline-Mind2Web取得72%成功率,超越OpenAI Operator(58.3%)、Gemini 2.5 CU(57.3%)、Yutori Navigator n1(64.7%)。Fara1.5-9B即达63.4%,超越所有闭源系统。6个月内性能从34.1%翻倍至72%。

安全机制包括临界点暂停(缺个人信息/任务含糊/不可逆操作)和MagenticLite沙盒隔离,但明确承认三大薄弱点:视觉提示注入(恶意网页操控Agent行为)、凭证暴露(OAuth token/session cookie对Agent可见)、沙盒边界有限(不隔离Agent与企业网络,浏览器可访问内网应用)。

重要性说明

微软此举表面是技术突破,实则在防御/合围OpenAI与Google的Agent生态。通过开源权重和Qwen3.5基座,微软绕开自身闭源模型限制,吸引开发者社区快速构建基于Fara1.5的自动化工具,形成事实标准。其隐性锁定在于:MagenticBrain编排器与Agent Harness执行环境构成专有控制平面,开发者一旦深度集成,切换成本极高。

原文故意淡化了视觉提示注入的致命性:Agent依赖截图作为视觉输入,恶意网页可嵌入对抗性像素(如隐藏文字或修改按钮标签),直接操纵Agent执行未授权操作。这不仅是安全漏洞,更是架构设计缺陷——模型无法区分合法UI与恶意视觉内容。此外,凭证暴露问题意味着任何使用该Agent的企业,其OAuth/session cookie均在Agent的上下文中明文可见,一旦Agent被诱导,攻击者可窃取所有已登录服务的会话。

沙盒边界有限是工程短板:MagenticLite仅隔离Agent与用户设备,但Agent通过浏览器访问企业内网应用时不受约束,相当于在内网开了一个AI驱动的自动化后门。对于现代企业混合云架构,这直接扩大了攻击面,且难以通过传统网络分段防御。

PRO 决策建议

【厂商】OpenAI、Google、Yutori等竞争对手应立刻攻击Fara1.5的安全薄弱点。推出对比基准测试,展示自家Agent在视觉注入防御凭证隔离(如使用独立浏览器会话、短期Token)上的优势。同时,利用微软依赖Qwen3.5基座的事实,强调自身模型在中文/多语言场景下的原生能力,避免被开源生态边缘化。
【企业】CIO与架构师必须对Fara1.5进行零信任审计:强制要求Agent运行在完全隔离的沙盒(如Firecracker microVM)中,限制网络访问仅允许白名单URL;部署Web应用防火墙检测视觉注入模式;所有凭证必须使用短期OAuth Token且Agent无法持久化存储。切勿直接信任MagenticLite的隔离声明。
【投资者】看穿公关辞令:Fara1.5的成功率提升是合成数据管线FaraGen1.5的功劳,而非模型架构创新。真正的商业化障碍是安全风险——企业不会大规模部署一个可被网页操控的Agent。关注微软如何解决凭证暴露和视觉注入,否则该产品将停留在实验室演示阶段。

来源: AI Infra

觉得这篇分析有用?

每周收到3-5条AI基础设施关键信号 →

💬 评论 (0)