1、海外科技巨头积极布局多 DC 分布式训练
海外科技巨头积极布局多 DC 分布式训练。关于 AI 大模型训练在什么阶段需要 DCI联接,需要多少 DCI 带宽,我们认为不同的互联网公司,因为 IDC 资源不同、业务模型不同,会有较大的配置差异。但是我们可以清楚的看到 Meta 和 Google 已经开始了多 DC 分布式训练,其中 Google 的 Gemini 1 Ultra 就是通过多 DC 的分布式训练实现的。
谷歌积极布局多 DC 分布式训练。谷歌有两个主要的多数据中心区域,分别位于俄亥俄州和爱荷华州/内布拉斯加州。康瑟尔布拉夫斯周围的区域正在积极扩展,容量将超过现有容量的两倍。除了上述园区外,谷歌还在该地区拥有另外三个正在建设中的站点,这些站点都在升级高带宽的网络。有三个站点彼此相距约 15 英里(康瑟尔布拉夫斯、奥马哈和爱荷华州帕皮隆),另一个站点距离约 50 英里,位于内布拉斯加州林肯市。预计到 2026 年,四个园区的结合将形成一个 GW 级的人工智能训练集群,其中林肯数据中心将是谷歌最大的单个站点。
OpenAI 和微软更加雄心勃勃,计划将各个超大型园区互连在一起起来,并在全国范围内进行大规模的分布式训练。
2、分布式训练给网络带来挑战
AI 训练步入十万卡时代,跨 DC 协同训练对网络带来挑战。
(1)AI 训练对网络丢包的敏感度高,即使是 0.1%的丢包率也可能导致训练效率降低 50%,严重影响协同训练效果。
(2)大象流会导致网络中的传统基于五元组的负载分担方法失效,链路负载不均衡,降低网络使用率。
(3)在万卡集群中,由于业务高突发和高并发,极端情况下流量瞬时并发可达上千 Tbps。目前,十公里的跨机楼并行训练算效损失可低于 5%,具备可行性,未来百公里级、千公里级的跨地域并行训练欲将损失控制在 10%以下,除需建设长距离超宽 DCI 网络之外,还涉及模型切分策略、集合通信算法、无损网络技术等。
为了实现多园区训练,Google 目前使用功能强大的分片工具 MegaScaler,它能够使用 Pathways 的同步训练将一个园区内的多个 pod 和一个区域内的多个校区进行分区。在扩大单个训练工作负载所需的芯片数量时,MegaScaler 为 Google 在稳定性和可靠性方面提供了强大优势。
未来在多园区、多区域集群上训练的模型将达到 100T+的数量级。在不久的将来,我们认为,一个区域内的园区站点间的带宽增长到 5Pbit/s 左右是较为合理的假设,而不同区域之间的合理带宽是 1Pbit/s。
3、DCI 互联方案和市场空间分析
更大的带宽可以通过更高阶的调制方式或者采用 DWDM(密集波分复用)来实现。与使用 PAM4 的强度调制直接检测方案(IMDD)相比,DP-16QAM 的带宽增加了 8 倍。长距离传输仍然存在光纤限制,DWDM 将多种波长的光聚合到同一根光纤上,也可以用来实现更高的带宽。在下面示例中,C 波段(1530nm 到 1565nm)上的 76 个波长和 L波段(1565nm 到 1625nm)上的 76个波长被复用到同一根光纤上。
400G ZR 相干光学技术有望在 DCI 中取代传统的波分复用(WDM)系统。相比于传统的 WDM 系统,400G ZR 系统更加简洁,主要有 MUX/DEMUX,并采用可调谐激光器的相干光模块,直接放在客户侧的交换机/路由器上。
根据通信距离的不同,DCI 场景也会选择不同的产品。(1)在 IDC 园区内部,多个不同的 DC 之间互连,一般会优先选择在楼宇间布放大量光缆+LR 光模块的方式。(2)跨园区的 DCI 互联,一般选择 DWDM+ZR 光模块的方案。根据 LightCounting 的预测,2024-2028 年,400G LR 的光模块保持增长。产品价值量方面,根据 LightCounting 预测,2023 年 400G LR 的价格为 760 美元,2024 年400G ZR 的价格为 646 美元。
根据 LightCounting 的预测,2024-2028 年,400G ZR,ZR+、600G、800G、1.2T、1.6T的光模块保持增长。产品价值量方面,根据 LightCounting 预测,2023 年 400G ZR的价格为 3230 美元,2024 年 800G ZR 的价格为 4800 美元。
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。