华为AI CloudMatrix 384 – 中国对英伟达GB200 NVL72的回应

发布日期: 2025年4月16日 | 来源: SemiAnalysis

华为AI CloudMatrix 384

中国电力充足,100%光学,0%铜缆,功耗效率低,每瓦FLOP低2.6倍,每芯片14个收发器,线性可插拔光学

华为正在用其新的AI加速器和机架规模架构掀起波澜。认识中国最新、最强大的国产解决方案CloudMatrix 384,它采用了Ascend 910C构建。这一解决方案直接与GB200 NVL72竞争,在某些指标上甚至比英伟达的机架规模解决方案更先进。工程优势不仅仅在芯片层面,还在系统层面,包括网络、光学和软件层面的创新。

华为CloudMatrix 384系统

来源: 华为

华为Ascend芯片对SemiAnalysis来说并不陌生,但在系统比微架构更重要的世界中,华为正在推动AI系统性能的极限。虽然存在权衡,但考虑到出口管制和国内产量不佳,很明显中国出口管制存在进一步的漏洞。

关键能力比较

规格华为 CM384英伟达 GB200 NVL72
BF16计算能力300 PFLOPs156 PFLOPs
内存容量12.3 TB3.4 TB
内存带宽1,536 TB/s720 TB/s
功耗500 kW128 kW
每瓦FLOP0.6 TFLOPS/W1.4 TFLOPS/W

来源: SemiAnalysis, 英伟达, 华为

完整的CloudMatrix系统现在可以提供300 PFLOPs的密集BF16计算能力,几乎是GB200 NVL72的两倍。凭借3.6倍以上的总内存容量2.1倍以上的内存带宽,华为和中国现在拥有可以击败英伟达的AI系统能力。

更重要的是,CM384特别适合中国的优势,即国内网络生产、防止网络故障的基础设施软件,以及随着产量进一步提高,扩展到更大领域的能力。

这里的缺点是它消耗了GB200 NVL72的3.9倍功率,每FLOP功率效率差2.3倍,每TB/s内存带宽功率效率差1.8倍,每TB HBM内存容量功率效率差1.1倍。

功率效率的不足是相关的,但在中国不是限制因素。

中国没有电力限制,只有硅限制

西方常说的是AI受电力限制,但在中国,情况恰恰相反。西方在过去十年里一直在将主要基于煤炭的电力基础设施转向更环保的天然气和可再生能源发电,同时提高人均能源使用效率。在中国,情况恰恰相反,生活水平提高和持续的大量投资意味着巨大的电力需求。

中美电力比较

来源: SemiAnalysis数据中心模型

这些电力大部分来自煤炭,但中国也拥有全球最大的太阳能、水电、风能装机容量,现在还是部署核能的领导者。美国只是维持了20世纪70年代部署的核电。简单来说,升级和增加美国能源网络容量是一项失去的能力,而在中国,他们自2011年以来,或者说在过去10年里,已经增加了相当于整个美国电网的容量。

如果由于相对电力充足而没有电力限制,那么放弃功率密度并增加规模,包括在设计中使用光学技术是有意义的。CM384设计考虑了机架外的系统级约束,我们认为不仅仅是相对电力可用性限制了中国的AI雄心。我们认为华为的解决方案有多种方式可以继续扩展。

中国能生产多少Ascend 910C和CloudMatrix 384?

一个常见的误解是华为的910C是在中国制造的。它完全是在中国设计的,但中国仍然严重依赖外国生产。无论是来自三星的HBM,来自台积电的晶圆,还是来自美国、荷兰和日本的设备,都严重依赖外国工业。

虽然中国最大的代工厂中芯国际确实有7纳米工艺,但绝大多数Ascend 910B和910C都是使用台积电的7纳米制造的。事实上,美国政府、TechInsights和其他机构已经获得了Ascend 910B和910C,每一个都使用台积电的芯片。华为能够通过另一家公司Sophgo购买约5亿美元的7纳米晶圆,从而规避对台积电的制裁。

Ascend芯片使用情况

来源: SemiAnalysis数据中心模型

台积电因这种明显的制裁违规行为被罚款10亿美元,仅为其利润的2倍。有传言称华为继续通过另一家第三方公司从台积电获得晶圆,但我们无法验证这一传言。

华为的HBM获取

领先的外国依赖是等式的一部分,但中国对HBM的依赖更大。中国无法可靠地制造这种产品,长鑫存储仍需一年时间才能达到任何合理的产量。幸运的是,三星前来救援,成为中国HBM的第一供应商,通过这种方式,华为能够在任何HBM禁令之前储备总共1300万个HBM堆栈,可用于160万个Ascend 910C封装。

此外,这种被禁止的HBM仍在向中国再出口。HBM出口禁令专门针对原始HBM封装。只要不超过FLOPS规定,带有HBM的芯片仍然可以运输。CoAsia Electronics是三星在大中华区的唯一HBM分销商,他们一直在向ASIC设计服务公司Faraday运送HBM2E,后者让SPIL将其与廉价的16纳米逻辑芯片一起"封装"。

然后Faraday将这个系统封装运往中国,这在技术上是允许的,但中国公司可以通过拆焊来回收HBM。我们认为他们采用了使HBM很容易从封装中提取的技术,比如使用非常弱的低温焊料凸点,所以当我们说它是"封装的"时,我们是以最宽松的方式来说的。

CoAsia收入

来源: CoAsia Electronics

CoAsia的收入在2025年之后爆炸性增长并非巧合,正好是在这些出口管制生效之后。

中国国内代工厂仍可扩产

仍然需要外国生产,但中国国内半导体供应链能力已经迅速提高,仍被低估。我们一直在警告中芯国际和长鑫存储的制造能力。产量和吞吐量仍然是问题,但问题是中国GPU生产扩张的长期情况如何。

中芯国际和长鑫存储都收到了价值数百亿美元的工具,尽管有制裁,他们仍然从外国获得大量独家采购的化学品和材料

敏感性图表

来源: SemiAnalysis

中芯国际正在上海、深圳和北京增加先进节点产能。今年他们将拥有近5万片晶圆/月的产能,由于继续获得外国工具和缺乏有效的制裁和执行,他们继续扩张。如果他们提高产量,他们可以在华为Ascend 910C封装上达到严肃的数字。

虽然台积电已经提供了290万个芯片,足够在2024年和2025年生产80万个Ascend 910B和105万个Ascend 910C,但如果HBM、晶圆制造工具、工具维修和光刻胶等化学品没有得到有效控制,中芯国际的生产有可能大幅增长产能。

CloudMatrix 384系统架构

接下来让我们深入了解CloudMatrix 384架构、扩展网络、扩展网络、功率预算和成本。

完整的CloudMatrix系统分布在16个机架上,每个12个计算机架包含32个GPU。在这16个机架的中间是4个机架的扩展交换机。为了提高世界规模,华为正在跨多个机架扩展,为此华为不得不使用光学技术。像华为这样在全互联扩展中达到数百个GPU并非易事。

华为机架架构

来源: SemiAnalysis

与DGX H100 NVL256 "Ranger"的相似之处

早在2022年,英伟达就宣布了DGX H100 NVL256 "Ranger"平台,但决定不将其投入生产,因为它价格过高、耗电量大,而且由于所需的所有光学收发器和两层网络而不可靠。CloudMatrix Pod需要令人难以置信的6,912个400G LPO收发器用于网络,其中绝大多数用于扩展网络。

英伟达NVL256图

来源: 英伟达HotChips

结论

华为的CloudMatrix 384代表了中国在AI硬件领域的重大进步。尽管在功率效率方面存在不足,但其计算能力、内存容量和带宽都超过了英伟达的GB200 NVL72。在中国电力充足的环境下,这种权衡是可以接受的。

然而,华为仍然依赖外国技术,特别是在HBM和先进制程方面。中国正在努力发展国内半导体供应链,但完全自主仍然面临挑战。

随着AI竞争的加剧,华为的CloudMatrix 384展示了中国在系统级创新方面的能力,这可能会改变全球AI硬件格局。