Architecture Shift
影响: Important
强度: High
置信: 85%
思科联合AMD发布AI网络性能基准,验证以太网承载大规模AI训练能力
内容摘要
思科与AMD合作,通过发布基于N9000交换机与Pensando Pollara 400 NIC的详细性能基准测试,验证了以太网架构在承载大规模AI训练(如128个GPU集群)时的确定性性能。测试覆盖了多种拓扑和极端拥塞场景,旨在将网络从瓶颈转变为高性能AI基础设施的核心引擎。
核心要点
思科官方博客发布了基于其N9000系列交换机(搭载Silicon One G200)与AMD Pensando™ Pollara 400 AI NIC的端到端AI基础设施基准测试。测试在2×2和4×2 Clos拓扑下,使用128块AMD MI300X GPU,通过IBPerf和MLPerf工具评估了单跳、对分及31:1极端拥塞场景下的RDMA带宽性能。
结果显示,在不同队列对数量和拓扑规模下,P01(最慢会话)与P99(最快会话)带宽均接近400Gbps链路极限且差值极小,证明了架构在高压力、多跳场景下仍能保持确定性性能。MLPerf测试进一步展示了Llama 2/3模型在多节点配置下的训练和推理吞吐量扩展性。
此举旨在为大规模AI集群提供经过验证的以太网设计蓝图,并强调其与Nexus Dashboard结合的可操作性,以应对从试点到生产部署的挑战。
结果显示,在不同队列对数量和拓扑规模下,P01(最慢会话)与P99(最快会话)带宽均接近400Gbps链路极限且差值极小,证明了架构在高压力、多跳场景下仍能保持确定性性能。MLPerf测试进一步展示了Llama 2/3模型在多节点配置下的训练和推理吞吐量扩展性。
此举旨在为大规模AI集群提供经过验证的以太网设计蓝图,并强调其与Nexus Dashboard结合的可操作性,以应对从试点到生产部署的挑战。
重要性说明
这标志着主流网络厂商正通过深度性能验证,推动以太网成为大规模AI训练集群的可靠承载网络。此举将加速AI基础设施从专有网络向标准化、高性能以太网的架构迁移,并确立网络性能验证作为AI解决方案竞争力的新维度。
PRO 决策建议
**技术突破型**
- **厂商/Vendors**: 必须投资或验证自身网络设备在极端AI流量模式下的确定性性能,否则将在高性能AI基础设施市场中失去相关性。
- **企业/Enterprises**: 评估AI训练集群时,应将网络架构的实测性能(如P01带宽、拥塞处理)作为核心选型指标,并规划12个月内进行概念验证。
- **投资者/Investors**: 关注网络设备商在AI性能基准测试上的投入和成果,这是其能否在AI基础设施价值分配中占据更高份额的关键信号。
- **厂商/Vendors**: 必须投资或验证自身网络设备在极端AI流量模式下的确定性性能,否则将在高性能AI基础设施市场中失去相关性。
- **企业/Enterprises**: 评估AI训练集群时,应将网络架构的实测性能(如P01带宽、拥塞处理)作为核心选型指标,并规划12个月内进行概念验证。
- **投资者/Investors**: 关注网络设备商在AI性能基准测试上的投入和成果,这是其能否在AI基础设施价值分配中占据更高份额的关键信号。
💬 评论 (0)