Huawei's Super Node Computing Power Architecture: A Survival Guide under Process Limitations

9月18日，在华为全联接大会2025上，华为轮值董事长徐直军系统阐述了华为在AI基础设施上的整体布局：从昇腾芯片路线图，到新一代超节点与百万卡集群，再到自研互联协议“灵衢”的开放。

相比过往单点产品的发布，此次演讲的重点更在于 “以超节点为核心的算力架构范式”。徐直军直言：“算力，过去是，未来也将继续是人工智能的关键，更是中国人工智能的关键。”并再次强调：“基于中国可获得的芯片制造工艺，华为努力打造‘超节点+集群’算力解决方案，来满足持续增长的算力需求。”

在谈及未来算力架构之前，他先回顾了过去一年AI产业的重大变化。他提到：“DeepSeek横空出世，让全国人民过了一个快乐的AI年，也让所有大模型训练者开启了不知多少个不眠之夜。”这场冲击也让昇腾产品和生态面临更多的反馈与期待。

为回应这些外部挑战与客户关切，华为在今年8月的昇腾产业峰会上提出了四点明确决定：

华为坚持昇腾硬件变现；CANN 编译器和虚拟指令集接口开放，其它软件全开源，CANN基于Ascend 910B/C的开源开放将于2025年12月31日前完成，未来开源开放与产品上市同步；Mind系列应用使能套件及工具链全面开源，并于2025年12月31日前完成；openPangu基础大模型全面开源。

在此基础上，徐直军公布了昇腾芯片未来三年的演进路标。从即将推出的 Ascend 950 系列开始，分为两款：Ascend 950PR 面向推理 Prefill 和推荐业务，采用低成本 HBM（HiBL 1.0）；Ascend 950DT 面向训练和推理 Decode，采用 HiZQ 2.0，单卡内存容量144GB，内存带宽4TB/s，互联带宽2TB/s。2026年一季度将首先推出 Ascend 950PR，950DT 则计划在2026年四季度上市。

之后在2027年四季度推出的 Ascend 960 将在算力、内存容量和互联带宽上全面翻倍，并支持自研 HiF4 精度格式。2028年计划中的 Ascend 970 则预计在各项指标上再次大幅升级，FP4/FP8算力和互联带宽全面翻倍，内存访问带宽至少增加1.5倍。徐直军表示：“总体上，我们将以几乎一年一代算力翻倍的速度，同时围绕更易用、更多数据格式、更高带宽等方向持续演进。”

基于这些芯片，华为认为“超节点”已经成为核心产品形态。所谓超节点，是物理上由多机组成，但逻辑上表现为一台计算机。Atlas 950 SuperPoD 支持8192 张 Ascend 950DT，FP8 算力达到 8E FLOPS，FP4 算力 16E FLOPS，互联带宽 16PB/s。相比 Atlas 900 超节点，其训练性能提升17倍，达到4.91M TPS；推理性能提升26.5倍，达到19.6M TPS。Atlas 960 SuperPoD 则扩展至15488 张 Ascend 960，FP8 算力 30E FLOPS，FP4 算力 60E FLOPS，互联带宽 34PB/s，训练和推理性能相较 Atlas 950 分别提升3倍和4倍以上。

徐直军强调，Atlas 950 至少“在未来多年都将保持是全球最强算力的超节点”，并将其与英伟达 NVL144 和 NVL576 对比，认为在卡规模、内存容量和带宽上均处于领先。

在集群层面，华为进一步扩展超节点。Atlas 950 SuperCluster 由64个 Atlas 950 超节点互联，规模超过52万张卡，FP8 算力达到524 EFLOPS，计划在2026年四季度上市。Atlas 960 SuperCluster 则将在2027年四季度推出，规模扩展至百万卡，FP8 算力2 ZFLOPS，FP4 算力4 ZFLOPS。两者均支持 UBoE（UB over Ethernet）与 RoCE 组网方案，其中华为推荐 UBoE 以获得更低时延和更高可靠性。徐直军表示，这些集群能够支撑“从千亿参数模型到十万亿参数模型的训练”。

华为也尝试将超节点概念引入到通用计算。基于 Kunpeng 950 的 TaiShan 950 SuperPoD，最大支持16节点、32颗处理器，总内存容量48TB，同时支持内存、SSD 和 DPU 池化。结合分布式 GaussDB 多写架构，可在无需改造的情况下实现性能提升，并平滑替代大型机和 Exadata 系统。徐直军直言：“TaiShan 950加上分布式GaussDB，将成为各类大型机、小型机的终结者。”这款产品预计将在2026年一季度上市。

在定义和设计 Atlas 950、Atlas 960 两个超节点的技术规格时，华为曾遭遇互联技术上的重大挑战。徐直军提到，主要有两个方面：其一是如何做到长距离同时保证高可靠性——现有电互联距离有限，而光互联虽能跨柜但可靠性不足。为此，华为在物理层到传输层引入高可靠机制，并在光路中加入百纳秒级故障检测与保护切换，同时重新设计光器件、光模块和互联芯片，使光互联的可靠性提升百倍，距离可超过200米。其二是如何实现大带宽并保持低时延——现有跨柜互联的带宽和时延与设计需求存在差距。华为通过多端口聚合、高密封装与统一协议，实现了TB级带宽和2.1微秒的时延。徐直军强调：“当时延已经低至2~3微秒时，哪怕0.1微秒的提升，都需要突破物理极限。”

正是基于这些系统性创新，华为最终提出了面向超节点的新型互联协议“灵衢”。该协议具备总线级互联、平等协同、全量池化、协议归一、大规模组网和高可用性等特征。基于灵衢1.0的 Atlas 900 超节点自2025年3月交付以来，已累计部署超过300套。此次发布的 Atlas 950/960 则基于灵衢2.0，华为宣布将开放该协议规范，邀请产业伙伴共建生态。

徐直军表示：“通过该互联协议，把数万规模的计算卡联接成一个超节点，能够像一台计算机一样工作、学习、思考、推理。”

整体而言，华为以“超节点”为核心的布局，指向的是在先进工艺受限背景下的一种算力可持续性探索。未来的检验点在于：灵衢协议在跨厂商生态中的兼容性，超节点在百万卡规模下的能效与稳定性，以及软件栈（CANN、MindSpore、GaussDB）的成熟度。对于中国 AI 产业而言，华为的方案既是技术突围的路径，也是产业协同的探索。