Subquadratic 声称突破二次注意力瓶颈:独立基准验证长上下文速度提升52倍
内容摘要
核心要点
Subquadratic 从隐身模式走出,声称构建了首个无二次注意力的 LLM,窗口上下文达 1200 万 token。其核心技术是 Subquadratic Sparse Attention (SSA):动态选择每个查询的相关 token 子集,仅在该子集上执行精确注意力,且选择机制本身也是亚线性,不同于 DeepSeek Sparse Attention 的二次索引器。
独立基准显示:在 1M token 下比 FlashAttention 快 52 倍;在 12M token 下计算减少 1000 倍;RULER 128K 得分 95%;MRCR v2 在 1M 得分 65.9%;SWE-Bench Verified 得分 81.8%。API 目前提供 1M token 窗口,12M 为研究模型。
关键质疑来自 AI 工程师 Will Depue:SubQ 可能是对 Kimi 或 DeepSeek 的稀疏微调,意味着基础训练成本仍是二次的。Subquadratic 未提供形式化反驳,无同行评审论文,未发布 MMLU/GPQA 等通用推理基准。
重要性说明
控制平面转移的隐蔽陷阱:SubQ 声称 SSA 选择机制是亚线性,但未公开该选择机制的算法复杂度证明。如果选择机制在极端长上下文(如 100M token)下退化到接近线性,则其声称的 1000x 减少不可持续。这实质上是将注意力瓶颈转移到了选择器上——一种隐性控制点转移,从计算密集的注意力矩阵转为索引查找,但索引本身可能成为新瓶颈。
对现有推理芯片的合围:当前 NVIDIA H100/B200 等加速器针对二次注意力矩阵乘法优化(通过 Tensor Core)。SubQ 的稀疏注意力破坏了这种硬件对齐,迫使推理转向更通用的 CPU 或定制稀疏加速器。这暗示 Subquadratic 可能在防守 NVIDIA 的主导地位,同时合围那些依赖密集矩阵乘法的模型厂商(如 OpenAI、Anthropic)。
故意隐瞒的训练成本陷阱:即使推理是亚线性,如果训练仍基于二次注意力(如怀疑的微调),则总拥有成本(TCO)节省被夸大。企业若基于推理成本采纳 SubQ,可能被锁定在其 API 生态,而无法获得完整的训练-推理协同优化。论文缺失意味着无法独立验证训练阶段的效率,这是工程透明度的致命短板。
PRO 决策建议
【厂商(竞争对手)】:NVIDIA 应立即投资稀疏注意力加速的原生硬件支持(如 Hopper Next 的稀疏 Tensor Core),并推动 FlashAttention 团队发布 SSA 复现基准,以拆解 SubQ 的速度优势。Anthropic 和 OpenAI 应在其下一代模型(如 Claude 4, GPT-6)中集成类似 SSA 的稀疏注意力机制,或收购 SubQ 技术,防止其成为独立威胁。
【企业】:CIO 和架构师应对 SubQ 进行零信任审计:要求提供完整训练计算图(包括预训练阶段的 FLOPs 统计),并独立运行 MMLU 和 GPQA 基准以验证通用推理能力。避免基于单一长上下文基准做采购决策;优先选择开源替代方案(如基于 Mamba 或线性注意力架构)以保持跨云可移植性。
【投资者】:看穿公关辞令——SubQ 的 5 亿美元估值基于未经验证的训练效率。等待 arXiv 论文或独立实验室复现后再做决策。长期关注稀疏注意力硬件初创(如 Groq、Cerebras)和线性注意力架构(如 RWKV、Mamba),它们可能提供更透明的技术路径。
觉得这篇分析有用?
每周收到3-5条AI基础设施关键信号 →
💬 评论 (0)