M
MediaTek
2026-06-17
Architecture Shift 影响: Major 置信: 85%

华为LogicFolding架构:以3D堆叠绕过制程封锁,重塑AI芯片竞争格局

内容摘要

华为提出Tau Scaling Law和LogicFolding架构,通过垂直堆叠逻辑单元实现晶体管密度提升55%、能效提升41%,并宣称2031年可达1.4nm等效。同时Ascend 920/910C芯片已用于训练DeepSeek V4-Pro模型,证明其AI芯片从理论走向实战,威胁Nvidia在华市场。

核心要点

华为轮值董事长徐直军公开感谢美国制裁迫使中国半导体加速成长。在IEEE ISCAS会议上,芯片部门负责人何庭波提出Tau Scaling Law,将焦点从晶体管缩小转向减少信号传输时间。LogicFolding架构通过垂直堆叠逻辑单元实现密度和能效提升,据Tom's Hardware报道,可提升晶体管密度55%能效41%,并计划在2031年达到1.4nm class——注意这是通过架构和封装实现的等效密度,而非制程突破。华为还发布了Ascend 920,采用6nm工艺,超过900 TFLOPS4 TB/s HBM3带宽,直接对标被限制的Nvidia H20。黄仁勋称Nvidia在华AI加速器份额已降至零。华为拥有超过10亿鸿蒙设备,构建从芯片到云的完整生态。最新证据:华为关联研究组用超过1000颗Ascend 910C后训练了DeepSeek 1.6万亿参数 V4-Pro模型,证明其芯片可用于实际工作负载,但预训练大规模模型仍需验证。

重要性说明

华为此举表面是技术突破,实则是利用美国出口管制构建的“保护市场”进行生态锁定。LogicFolding架构虽然提升了密度,但依赖先进封装(如HBM3)和3D堆叠,这些技术本身存在物理限制:垂直互连的尾部延迟和散热问题尚未公开解决,且1.4nm class宣传模糊了与TSMC真实制程差距,实际性能功耗比可能仍有代差。
华为通过CANNMindSpore形成封闭工具链,一旦客户采用Ascend系列,将被锁定在鸿蒙生态中,丧失跨平台可移植性。对于AI训练场景,虽然展示了后训练能力,但预训练大规模模型时面临互连带宽瓶颈PFC/ECN拥塞控制问题——华为缺乏类似Nvidia InfiniBand的成熟网络方案,其RoCEv2方案在超大规模集群中尾部延迟表现存疑。
华为故意淡化软件生态短板:CUDA生态的成熟度、调试工具和库的丰富度短期内无法被替代,客户迁移成本极高。同时,华为的供应链仍依赖非国产的HBM和先进封装设备,地缘政治风险未消。

PRO 决策建议

【厂商】Nvidia、AMD、Intel应精准攻击华为的软肋:强调华为在预训练大规模模型时的互连瓶颈和软件生态不成熟,推出兼容性更强的开放方案(如ROCmoneAPI)以吸引中国客户。同时,加强自身在3D堆叠先进封装方面的合作,避免被华为的架构叙事抢占先机。直接展示Nvidia InfiniBand与华为RoCEv2尾部延迟集群效率上的独立基准测试对比。
【企业】CIO和架构师必须进行零信任技术审计:要求华为提供Ascend 920/910C大规模集群下的尾部延迟功耗训练吞吐量的第三方独立测试数据。警惕通过CANNMindSpore进行的工具链锁定,坚持跨云可移植性,评估PyTorch/TensorFlow与华为适配的真实性能损失。考虑混合部署策略,避免供应商集中度风险
【投资者】看穿公关辞令:华为的架构创新确有工程价值,但制程差距依然存在,且依赖先进封装供应链(HBM来自三星/SK海力士)受地缘政治影响。长期看,华为的生态封闭性限制其全球竞争力,而美国出口管制政策变化可能冲击其供应链。关注NvidiaAMD3D堆叠chiplet方面的技术路线,以及ASMLHigh-NA EUV进展对制程优势的巩固。

来源: Startup Fortune
查看原文 →

觉得这篇分析有用?

每周收到3-5条AI基础设施关键信号 →

💬 评论 (0)