万亿级参数大模型训练推动部署分布式智算集群方案。随着 AI大模型参数量从千亿迈向万亿,对超大规模算力需求急剧增长,单个数据中心集群部署面临供电挑战。以 GPT6 为例,需要超 10 万张 H100卡的集群规模,整体功耗约 197 兆瓦,相当于一个典型火电站 1/5 发电量。
Google Gemini Ultra 模型参数量约 1.8 万亿,已采用多数据中心协同训练的分布式智算集群部署方案,解决供电问题并满足超大规模算力需求。
千卡/万卡数据中心互联带宽需求达到百 Tbps 量级。华为 Atlas900 AI 集群由数千颗昇腾训练处理器构成,要求全节点 200Gbps 网络互联,英伟达最新的Blackwell GB200单向网络速率达到400Gbps。按照单卡出口带宽 200Gbps 或 400Gbps 来核算千卡、万卡规模的数据中心间互联带宽需求,初期按照 10%规划互联带宽将达到10~200Tbps,未来最大互联带宽将达到 100~2000Tbps。
数据中心互联推动 400G/800G 高速光传输系统部署。从全球相干光传输网络带宽预测看,数据中心互联(DCI)带宽从 2023 年开始占据光网络总带宽需求的 50%以上,且整体年增速达到 47%,同时电信运营商及互联网企业的光传输带宽也在稳步增长。国内枢纽中心的出局总带宽规划都在 100Tbps 以上,部分节点如长三角枢纽的上海青浦节点,部署带宽已经超过 300Tbps。
2024 年 5 月,北京电信分公司和中国电信研究院联合在现网完成智算长距无损互联技术验证,使用了单波长 800Gbps 的超高速光波分复用传输系统,光层采用 C+L 扩展波段,整个系统传输容量近 100Tbps。
分布式大模型训练对 DCI 网络的可靠性要求非常高。在大模型训练过程中,大约每 4 小时设置 1 个检查点(checkpoint)。一旦发生光模块或网络链路故障,需要从上个 checkpoint 点重新训练,损失 4个小时训练时间将导致训练成本增加,因此对 DCI 网络的可靠性要求很高。
此外传输网络的误码损伤会触发 RDMA 协议的回退机制,每次丢包报文重传,传输时延会增加一个 RTT 周期,导致训练交互时延变大,降低计算效率。分布式 AI 大模型训练要求高可靠无损传输,确保网络可用性达到 6 个 9。
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。来源:中国信通院 思瀚研究院