Intel联合SambaNova推机架级AI推理,CPU重掌数据中心控制权
内容摘要
核心要点
Intel宣布了多项AI基础设施创新,核心是机架级AI基础设施,基于Intel Xeon 6+处理器(采用Intel 18A工艺,最高36,864核/32U液冷机架)与SambaNova SN-50 Reconfigurable Dataflow Units (RDUs)。该方案针对推理和智能体工作负载,声称能提供更高性价比和能效。
同时,Vector Core Compute(由Vista Equity Partners和Cambium Capital组建)展示了完全解耦推理:使用Xeon 6+进行编排与执行,SambaNova SN40 RDUs负责解码,NVIDIA Blackwell GPUs负责预填充。Together.ai作为首个商业客户,在MiniMax 2.5模型上实现了最快企业推理。
此外,Intel宣布了Xeon 6+的详细规格:基于18A工艺,强调功耗受限下的持续性能,每机架提供最高智能体密度。同时,与Foxconn、Siemens、Hitachi等合作开发行业垂直解决方案。
重要性说明
Intel的这套方案表面上是在推动CPU回归推理主导,实质上是在防守NVIDIA的GPU生态合围。通过将SambaNova RDUs作为解码专用硬件,Intel试图在推理管道中建立一个非GPU的控制点,从而削弱NVIDIA在预填充和解码阶段的垄断地位。然而,这里存在明显的隐性锁定:用户一旦采用SN-50/SN40 RDUs,就被绑定到SambaNova的专有数据流架构,该架构缺乏通用性,无法运行PyTorch/TensorFlow原生模型,需要特定编译和优化,增加了供应商锁定风险和迁移成本。
更关键的是,Intel刻意淡化了解耦推理的网络复杂性:将预填充(GPU)和解码(RDU)分离意味着数据中心内需要高带宽、低延迟的互联(如RoCEv2或InfiniBand),这会显著增加尾部延迟和拥塞控制瓶颈。Intel未提及实际部署中PFC/ECN可能导致的性能抖动。此外,Xeon 6+的18A工艺虽然宣称高密度,但Intel的良率历史表明,早期批次可能存在供应限制和功耗表现不稳定,企业大规模部署时需警惕实际功耗与TCO偏离宣传值。
PRO 决策建议
【厂商(AMD、NVIDIA、Arm服务器阵营)】
AMD应立即推出基于EPYC的同类解耦推理参考架构,利用Infinity Fabric和ROCm开放生态,避免依赖专有RDU。NVIDIA应强化GPU直接解码能力,通过TensorRT-LLM和NVLink展示解耦部署的尾部延迟劣势,并推动GB200 NVL72等一体化方案。Arm服务器厂商(如Ampere)应强调CPU推理原生性能与开放标准,攻击SambaNova的锁定风险。
【企业CIO与架构师】
对Intel/SambaNova方案进行零信任审计:要求提供独立基准测试(包括尾部延迟百分位、功耗实测),验证解耦推理在真实多租户环境下的稳定性。评估跨云可移植性:确保模型能无缝迁移至其他推理硬件(如NVIDIA GPU或AMD MI300),避免被RDU架构锁定。要求Intel明确Xeon 6+的18A良率和供应承诺,并对比同等TCO下的纯GPU方案(如H200或B200)。
【投资者】
Intel此举本质是系统集成战略而非芯片突破,利润率可能低于纯CPU销售。关注SambaNova的财务健康和客户留存,因为RDU生态狭窄。警惕Intel为推广方案而压低Xeon 6+定价,挤压自身利润。长期看,解耦推理可能成为趋势,但Intel若无法主导标准互联协议(如UALink),其控制权将被NVIDIA或AMD夺回。
觉得这篇分析有用?
每周收到3-5条AI基础设施关键信号 →
💬 评论 (0)