英伟达AI芯片加速迭代,目前H200是主流产品
英伟达芯片架构每2年左右升级一次,芯片之间的网络连接同步迭代,速率不断提升,目前采用H200方案较多。
单个GH200集群(256张GPU互联),2层fat-tree网络(NVLink Switch:32*800G端口)结构。L1:96台,L2 36台。由于NVLink4.0双向速率900GB/s,总上行带宽为115200GB/s,800G光模块总需求为2304块。因此,GH200集群内,GPU:光模块=1:9。
若考虑多个GH200互联,参考H100架构,3层网络架构下,GPU:800G光模块需求=1:2.5;2层网络架构下,GPU:800G光模块=1:1.5。即多个GH200互联情况下,GPU:800G光模块上限=1:(9+2.5)=1:11.5。
展望B系列发展,拉动光模块和铜连接需求
GB200 NVL72架构: 18个1U计算托盘和9个NVSwitch托盘组成。每个计算托盘包含2个Bianca板。每个Bianca板是1个GraceCPU和2个Blackwell GPU。NVSwitch托盘有两个28.8Tb/s NVSwitch5 ASIC。每个 B200 GPU 支持 1.8 TB/s 双向带宽。每个计算托盘(4个GPU)提供 7.2 TB/s 总带宽,所有计算托盘合计 129.6 TB/s 双向带宽。
铜连接:NVLink 5.0 1800GB/s速率对应4DP(4*200Gb/s)*18通道=72DP,则总差分线数量=72*72=5184条。GPU:400GDAC=1:36
光模块:GB200集群(576GPU):2层架构8Rack,GPU:800G=1:1.5~2.5;GB300集群: GPU:1.6T=1:1.5~2.5;DGX-B300集群(4096GPU):GPU:800G=1:4~4.5
展望B系列发展,传输速率升级以及独立冷板方案
传输速率升级,采用CPO交换机。GB300 NVL72架构: 和GB200架构类似,采用NVSwitch 5.0, 每个 GPU 支持 1.8 TB/s 双向带宽,每个GPU配备CX-8网卡(800Gb/s)。
散热设计全面升级,从大面积冷板方案改为独立冷板设计。每个GPU单独配备冷板,单个Compute tray配套6块水冷板(4个GPU+2个CPU),同时使水冷管线更密集。水冷快接头(UQD)用量大幅增加,从GB200一个 compute tray 需要6对 UQD,提升到 GB300 的 14 对。
展望Rubin系列发展,正交背板成为未来互联核心技术
NVIDIA Rubin NVL576网络方案升级,Scale up采用正交背板方案。 Compute to NVLink switch,PCB 板背板取代铜缆背板,简化互连链路。 同时,采用第六代|第七代 NVLink技术(3600GBps)、CX9网卡(1.6Tbps)以及 Spectrum6 CPO交换机(102T)。机柜散热和布局升级:机柜采用全液冷方案,Kyber 机架将风扇和电源移出了机架,以提高计算板密度。Feynman系列规划持续升级网路速率,预计采用第八代NVLink技术和CX10网卡,以及204T的Spectrum7 CPO交换机。
AMD将于2026年提供“Helios”AI集群
AMD芯片持续在硬件和软件方面升级。MI系列芯片保持每年一次的迭代升级节奏,在算力、显存、网络带宽等方面升级。软件方面也在持续迭代,ROCm 7:支持 CDNA4 与 MI350,MI300X 在其加持下性能较 ROCm 6.0 快 3.8 倍;PyTorch “零日支持”。
AMD整合CPU+GPU+NIC,实现生态闭环。从 CPU(EPYC)、GPU(Instinct)到 NIC(Pollara),构建全栈硬件生态,满足客户“整机架采购” 需求,预计2026年提供Helios AI集群方案。
华为CloudeMatrix384超节点已规模上线,多项指标超越GB200
华为超节点架构主要从UB、RDMA、和VPC三个平面展开。
UB 平面:UB 平面构成超级节点内主要的超高带宽纵向扩展架构,以全对全拓扑结构连接 384 个 NPU 和 192 个 CPU。每台 Ascend 910C 提供超过392GB/s 的单向带宽(即:底层通过14*400Gbps以太接口互联)。
RDMA 平面:RDMA 平面支持跨 CloudMatrix384个超级节点和外部 RDMA 兼容系统的横向扩展通信。每个 NPU 贡献高达 400Gbps 的单向 RDMA 带宽。
VPC平面:VPC平面通过高速网卡(华为擎天卡)将 CloudMatrix384 超级节点连接到更广泛的数据中心网络,每个节点可提供高达 400Gbps 的单向带宽。
光模块配比: 1:18