`

【银河计算机吴砚靖】行业点评丨华为昇腾384超节点亮相,国产算力打开新格局

创建于 更新于

摘要

报告聚焦华为昇腾384超节点首次亮相,其性能在算力、内存及内存带宽方面均超越英伟达GB200 NVL72,采用总线技术突破通信瓶颈,实现低时延和高带宽互联,提升多模态大模型训练性能。该节点具备4倍于英伟达的系统能效和2.3倍的算力能效比,表明国产算力通过系统优化具备加速渗透的潜力,驱动国产算力产业链的快速发展与市场拓展 [page::0].

速读内容


华为昇腾384超节点亮相与性能对比 [page::0]


  • 384超节点由16个机柜组成,含384颗昇腾910C芯片,搭载48组服务器。

- BF16算力达300PFlops,是英伟达GB200 NVL72(180PFlops)的1.7倍。
  • 内存容量达49.2TB,约为英伟达13.8TB的3.6倍,内存带宽1229TB/s,是对方2.1倍。


总线技术突破通信瓶颈,提升集群性能与能效 [page::0]

  • 采用总线技术实现384个NPU低时延互联,通信带宽提升15倍,单跳时延降低10倍。

- 昇腾超节点可突破Decode时延15ms,满足实时深度学习需求。
  • LLaMA3大型模型训练性能相较传统集群提升2.5倍,多模态及MoE模型提升超3倍。

- 系统能效是英伟达的4倍,算力能效比2.3倍,带宽能效比1.8倍。

投资逻辑与产业链催化预期 [page::0]

  • 系统工程及结构优化弥补单卡性能不足,打开国产算力发展新局面。

- 国产算力产业链将迎催化,加速渗透,市场空间广阔。
  • 风险因素包括AI技术发展、政策支持、供应链和行业竞争等方面风险。[page::1]

深度阅读

【银河计算机吴砚靖】行业点评丨华为昇腾384超节点亮相,国产算力打开新格局 —— 深度分析报告



---

一、元数据与概览


  • 报告标题:《【银河计算机吴砚靖】行业点评丨华为昇腾384超节点亮相,国产算力打开新格局》

- 作者:吴砚靖、胡天昊
  • 发布机构:中国银河证券研究

- 发布日期:2025年7月31日 08:02 北京时间
  • 主题:聚焦华为昇腾384超节点真机首次发布,国产算力技术创新及其对计算行业格局的潜在影响

- 核心信息
- 华为昇腾384超节点首次真机亮相,性能对标NVIDIA GB200 NVL72
- 通过创新的总线通信技术突破传统集群通信瓶颈
- 国产算力生态有望进入快速发展期,开启新产业格局
  • 主旨

报告意在阐述华为昇腾384超节点的技术创新、性能优势及其对国产算力产业链的催化作用,并预示国产算力有望在全球算力市场建立竞争力,带来长远价值增长机会[page::0].

---

二、逐节深度解读



2.1 报告导读与核心观点


  • 关键论点总结

- 2025年7月26-28日,世界人工智能大会(WAIC)在上海举行,规模空前。
- 华为昇腾384超节点(Atlas 900 A3 SuperPoD)首次展出,由16个单元构成,其中12个单元负责计算,4个单元负责统信管理,整体通过高速互联总线组成一套大规模集群计算系统。
- 昇腾384超节点算力达到300 PFlops(BF16密集算力),较NVIDIA GB200 NVL72的180 PFlops高出约70%。
- 内存容量为49.2 TB,带宽1229 TB/s,分别是英伟达相应型号的3.6倍和2.1倍。
  • 支撑依据与逻辑

- 华为通过设计超节点架构和自主设计NPU(昇腾910C)实现大规模集群级别算力,且通过构建高速互联总线,显著提升节点之间通信效率,解决了传统分布式集群的通信瓶颈。
- 高带宽与低时延的优势带来显著的训练性能提升,特别对于大模型训练和多模态、MoE模型,性能提升分别达到2.5倍和3倍以上。
- 系统能效比优势明显,整体计算效率及带宽效率优于英伟达现有集群,体现国产架构在系统级优化上的突破。
  • 关键数据与意义

- 算力(300 PFlops vs 180 PFlops)
- 内存容量(49.2 TB vs 13.8 TB)
- 内存带宽(1229 TB/s vs 576 TB/s)
- 延迟降低10倍、带宽提升15倍
- LLaMA3等模型训练性能提升2.5倍,Qwen和DeepSeek提升3倍以上
这些数字直观证明华为方案在可扩展性和性能优化方面的领先优势,对高性能计算格局具有颠覆意义。
  • 结论

- 在单卡性能不及英伟达NPU的情况下,华为通过系统工程设计和集群架构创新,弥补了硬件层面的不足,开辟了国产算力新的竞争路径。
- 国产算力发展有望提速,行业格局迎来深刻变革[page::0].

2.2 投资建议


  • 观点总结

- 华为昇腾384超节点系统工程的创新体现为国产算力产业发展提供了新方向。
- 该技术突破将催化国产芯片、计算设备及其上下游产业链的快速成长。
- 报告看好国产算力的市场空间持续扩展,产业链龙头公司或迎来业绩催化。
  • 逻辑与推断

- 技术创新能够转化为产业竞争优势,吸引更多资本和政策支持。
- 通过提升国产算力整体性能与效率,可以满足国内外大规模AI训练需求,降低对外依赖,提高供应链安全。
- 产业链涉及芯片设计、服务器制造、软件优化等多个环节,整体繁荣带动相关企业价值提升[page::0].

2.3 风险提示


  • 报告中识别的主要风险点

- 人工智能发展不及预期:技术路线或需求未达预想速度
- 政策环境变化:政策扶持力度下调或不确定性
- 技术研发节奏滞后:核心技术突破不及时
- 需求端波动:市场接受度低或应用场景有限
- 供应链及产能风险:关键零部件缺货或产能不足
- 行业竞争激烈:国际竞争加剧导致市场份额受压
  • 潜在影响及缓释措施

- 虽无具体缓释策略,但风险覆盖了技术、政策、市场等多维层面,反映出报告对外部及内部挑战的全面认知。
- 适时关注政策导向及技术创新进展为投资决策重要参考。
  • 风险评估的专业性

- 该风险提示体现出本报告严谨的风险意识,为客观分析提供良好基础,有利于投资者理性判断[page::1].

---

三、图表深度解读



3.1 图表1(page 0首图)


  • 描述

- 图像展示了华为昇腾384超节点实机或示意图,能够直观体现机柜规模与外观。
  • 解读

- 16个机柜组成的大型集群强化了硬件集成化和规模计算优势。
- 每个机柜包含4个服务器节点,整体提供384颗昇腾910C处理器,物理规模支撑高性能计算需求。
  • 联系文本与结论

- 该图形支持文本中关于系统规模和复杂度的描述,强化华为系统集成能力及集群规模优势[page::0].

3.2 图表2(算力及内存对比图,page 0第二图)


  • 描述

- 展现华为昇腾384超节点与英伟达GB200 NVL72在算力、内存容量、内存带宽对比的柱状图或雷达图。
  • 趋势与数据

- 昇腾384超节点算力高出约70%
- 内存容量高出3.6倍
- 内存带宽高出2.1倍
  • 意义

- 凸显华为产品在集群级性能和存储带宽方面的显著超越,表明国产方案在系统扩展性和数据吞吐能力上的优势。
  • 联系文本

- 直接验证文本论断,佐证华为通过系统化设计提升整体性能。
  • 潜在局限

- 需注意单卡性能未必达到英伟达水平,优势主要来自架构与系统工程层面优化[page::0].

3.3 图表3(性能对比与能效,page 0第三图)


  • 描述

- 对比华为超节点与英伟达集群在不同大模型训练性能(LLaMA3、Qwen、DeepSeek等)和系统能效指标。
  • 数据特点

- LLaMA3训练性能提升2.5倍以上
- Qwen、DeepSeek多模态及MoE模型性能提升3倍以上
- 系统性能效指标表现:华为算力能效4倍,算力能效比2.3倍,带宽能效比1.8倍优于NVIDIA。
  • 趋势解读

- 低时延和高带宽通信技术带动模型训练效率大幅提升。
- 能效优势有助于降低运营成本和提升环保可持续性。
  • 文本连接

- 支撑报告论点,即总线技术及架构优化成为华为绕过单芯片性能限制的关键路径[page::0].

3.4 分析总结



以上图表共同构成对华为昇腾384超节点技术路线和性能优势的综合呈现,清晰展示其在国产算力领域的标杆地位,同时映射出未来产业链变革的趋势[page::0].

---

四、估值分析


  • 报告未直接涉及具体公司估值或目标价。

- 侧重于对行业趋势与核心技术革新的定性和量化分析。
  • 评级体系详见page 2,报告中未公开给予明确行业评级或个股评级。


---

五、风险因素评估


  • 详见上述风险提示章节,主要包括技术、市场、政策和供应链等多维度风险,且与人工智能行业发展周期和技术复杂性密切相关。

- 报告并未公开风险缓解具体策略,但其详实的风险罗列体现了对潜在不确定性的充分认知[page::1].

---

六、批判性视角与细微差别


  • 报告强调华为系统工程优化及集群设计带来的优势,但对单芯片性能的不足亦有提及,显示立场客观中肯。

- 报告高度看好国产算力产业,但实际推广和市场接受程度仍需关注政策环境和国内外竞争格局的演变。
  • 虽然列出了多项风险,但对风险发生的概率和影响深度评估较为简略,未来版本可望提供更细化风险管理建议。

- 报告未披露具体商业模式和利润预期,投资者应结合宏观产业链趋势和个股基本面综合考量[page::0][page::1].

---

七、结论性综合



华为昇腾384超节点的亮相标志着国产算力技术一个里程碑式突破,强大的集群化设计和创新的高速互联总线技术,使其在大规模AI计算中表现出强劲竞争力。超节点整体算力、内存容量和带宽均显著超越国际竞争对手英伟达GB200 NVL72,特别是在大型模型训练及多模态AI任务中,性能提升幅度达2.5倍至3倍以上,系统能效表现远超对手,充分证明了华为通过系统架构优化弥补单芯片性能限制的成功案例。

此举不仅提升了国产算力的技术高度,也为中国AI算力产业链带来广阔发展空间与产业升级机会。报告强调了国产算力产业链的催化效应和市场的巨大潜力。与此同时,报告谨慎提示了AI行业技术进展、政策环境变化、市场需求波动及供应链风险,为投资者理性判断提供了风险框架。

整体看来,华为昇腾超节点的系统创新为国产算力开辟了新路径,助力形成全球竞争力,预示国产算力黄金期的到来。投资者和行业参与者应重点关注该技术进展对相关企业和整个产业生态的带动作用,具备重要参考价值。

---

参考图片示例



华为昇腾384超节点示意图
图1:华为昇腾384超节点机柜规模示意

算力及内存带宽对比
图2:华为昇腾384超节点与英伟达GB200 NVL72算力及内存性能对比

性能提升与能效表现
图3:大模型训练性能比较与能效指标


---

# 综上,报告全面而深入地阐述了华为新一代超节点的技术优势及其产业价值,逻辑严谨,数据翔实,具有较高的行业指导意义和投资参考价值[page::0],[page::1],[page::2].

报告