华为昇腾384超节点亮相WAIC 2025，算力性能超越英伟达GB200

发布时间：2025-07-30 阅读量：5365 来源: 我爱方案网作者: wenwei

【导读】2025年7月26日，世界人工智能大会（WAIC）在上海世博中心正式开幕。华为首次线下展出了昇腾384超节点（Atlas 900 A3 SuperPoD），该产品凭借创新的超节点架构和强大的算力表现，成为大会焦点。

超节点架构突破传统算力瓶颈

昇腾384超节点采用全对等（Peer-to-Peer）UB总线互联技术，将384颗昇腾NPU与192颗鲲鹏CPU通过无阻塞Clos架构连接，单跳时延低于200纳秒，带宽高达392GB/s，相比传统RoCE方案提升15倍。通过3168根光纤和6912个400G光模块实现百纳秒级互联，并支持2米以上长距部署，突破了铜缆传输的距离限制。

这一架构解决了传统AI集群中CPU与NPU通信效率低下的问题，使计算、存储等资源能够高效协同，让整个超节点集群像一台超级计算机一样运行。

性能表现超越国际竞品

在算力方面，昇腾384超节点单集群可提供300 PFLOPs的BF16稠密算力，约为英伟达GB200 NVL72的1.7倍。其能效比（MFU）从行业平均30%提升至45%以上，已成功应用于训练7180亿参数的盘古Ultra MoE大模型。

今年5月，华为在鲲鹏昇腾开发者大会上首次发布昇腾超节点（CloudMatrix 384），并实现业界最大规模的384卡高速互联。该方案具备超大带宽、超低时延和超强性能三大优势，适用于大模型训练和高吞吐推理场景。

云服务优化，助力AI规模化应用

华为云近期公布的测试数据显示，CloudMatrix 384超节点可实现单卡推理吞吐量2300 Tokens/s，并支持16万卡集群算力，万卡线性度高达95%。此外，该集群具备40天长稳训练能力和10分钟快速恢复能力，大幅提升了AI计算的稳定性和效率。

国际半导体分析机构SemiAnalysis在4月的报告中指出，华为CloudMatrix 384在内存容量、带宽及整体算力上均优于英伟达GB200 NVL72，标志着中国在AI基础设施领域取得重大突破。尽管单颗昇腾芯片性能约为英伟达Blackwell GPU的三分之一，但华为通过系统级优化，实现了集群算力的整体跃升。

中国AI算力生态加速崛起

华为昇腾384超节点的推出，不仅展示了中国在AI芯片和集群技术上的自主创新能力，也进一步推动了国产AI算力生态的发展。随着大模型训练需求的增长，高效、低能耗的算力解决方案将成为行业竞争的关键。

此次WAIC 2025的展示，印证了华为在AI计算领域的领先地位，同时也表明中国企业在全球AI基础设施竞争中已具备与国际巨头抗衡的实力。未来，昇腾AI生态的持续完善，或将为全球AI产业格局带来深远影响。

相关资讯

免费预登记开启！第106届中国电子展携手600+展商，在上海打造电子产业生态盛宴

随着电子信息产业自主创新能力的持续提升，我国在高端制造、新能源、工业自动化等领域的全球竞争力显著增强。5G、人工智能、物联网等新技术的深度融合，正不断激发国内市场对高端制造、新材料、新能源汽车等方向的旺盛需求。在这一背景下，第106届中国电子展将于2025年11月5日至7日在上海新国际博览中心隆重举办，以“创新强基、智造升级”为主题，全面呈现电子产业前沿成果与关键技术突破，致力打造推动行业高质量发展的核心平台。

英伟达Rubin CPX GPU震撼发布：1亿换50亿的AI"印钞机"来了！

英伟达正式发布代号“Rubin CPX” GPU产品，专为AI领域最棘手的“大规模上下文推理”而生。

SEMI-e 2025深圳国际半导体展助推全球产业协同创新！双展联动，光电融合新时代

9月10日，SEMI-e深圳国际半导体展暨2025集成电路产业创新展在深圳国际会展中心盛大启幕。本届展会由CIOE中国光博会与集成电路产业技术创新联盟（简称“大联盟”）共同主办，规模与影响力显著提升，汇聚全球半导体行业顶尖企业、专家学者与产业链关键代表，聚焦光电融合、先进制造与跨领域协同，全方位呈现集成电路与光电子技术的最新成果与发展趋势，为产业创新与合作搭建起高规格、高效率的国际性平台。

华为海思换帅！徐直军卸任董事长！

华为旗下核心芯片设计公司深圳市海思半导体有限公司完成重大人事调整，徐直军卸任法定代表人、董事长，由技术背景深厚的高戟接棒，同时完成多位高管的更迭

突发！美国联邦通信委员会FCC“拉黑”中国实验室

美国联邦通信委员会（FCC）发布通告：“基于国家安全考量”，FCC即刻实施新规，撤销或拒绝由“外国对手”控制的测试实验室的FCC认证资格