1、大模型的巨量迭代引发智算集群架构变革
实现通用人工智能(AGI, Artificial General Intelligent)已成为大模型未来发展方向的广泛共识。大模型技术总体仍遵循扩展法则(Scaling Law),参数已迈向万亿甚至十万亿规模,对智能算力的需求呈现爆炸式增长。模型参数规模的增长速度约每两年400倍,其算法结构在原有Transformer的基础上,引入扩散模型、专家系统(MoE, Mixture of Expert)等,使模型泛化能力增强,并具备处理10M+超长序列能力,推动芯片算力(FLOPS)约每两年3倍的提升,需要至少百倍规模的集群演进速度来支撑大模型的发展,但芯片间的互连能力提升缓慢,只有约每两年1.4倍,远落后于模型规模和算力的演进速度。
超大模型的训练过程尤其是张量并行(TP, Tensor Parallelism)、专家并行(EP, Expert Parallelism)等模式依赖集群内GPU芯片之间频繁的数据交互。然而,互连速率的提升已严重滞后于算力的快速演进,导致显著的通信开销,这直接限制了集群有效算力随GPU数量的线性增长,已成为制约集群规模扩展和性能提升的关键瓶颈。在此背景下,仅仅依靠IB(InfiniBand)或RoCE(RDMA over ConvergedEthernet)等传统网络技术来满足模型性能指标已十分困难,需构建具备高带宽、低延迟特征的GPU卡间互连技术体系,以扩大节点规模,大幅降低通信时间占比,最终实现集群算效的显著提升。
同时,全球智算中心规模触达十万卡级别,智算集群架构正经历一场根本性变革,从传统单机八卡向超节点演变。超节点并非简单的硬件堆叠,是一种通过极致性能的高速互连技术,将数十乃至上千颗GPU芯片集成于单个或多个机柜的集群系统,突破传统设备算力瓶颈,显著降低多芯片并行计算的通信损耗,实现大模型训练与推理效率的飞跃。
2、大规模智算集群呼唤“光进电退”技术
目前,超节点智算集群展现出三大技术特性,一是互连性能高,GPU之间具有超低时延超高带宽(百纳秒级,TB/s级)且无收敛的互连能力;二是算力密度高,由单个或多个机柜构成,包含32个以上甚至到千卡的GPU数量,不断逼近电互连物理部署极限;三是能效PUE高,超节点单机柜功率可达40kW以上,采用液冷为主、风冷为辅的散热方案,配合柜级集中电源供电,在提供更高供电效率的同时大幅降低数据中心PUE。
为了实现更高的集群算效水平,互连技术方案的演进迫在眉睫。在超节点设备的互连选择上,当前主要存在两种路径:基于铜缆和基于光纤的传输方式。尽管铜缆作为目前的主流方案,相较于传统的可插拔光模块与光纤组合,拥有技术成熟度、成本、可靠性以及部署维护便捷性等多方面优势。通常在小于2米短距离和低于800Gbps的非超高速组网场景中,铜缆凭借这些优势依然能满足绝大多数应用需求。
特别是无源直连铜缆(DAC, Direct Attach Cable),凭借其极低的成本和超高的平均无故障时间(MTBF, Mean Time Between Failures),成为当前主流选择。然而,在高速传输场景下,铜缆面临着距离受限、功耗激增、速率瓶颈和布线困难等严峻挑战,已然逼近其性能极限。随着超节点集群规模继续扩展至256节点乃至千卡级别,且单通道传输速率迈向800Gb/s,铜缆的固有物理局限性正日益凸显,已成为制约智算集群互连性能与扩展潜力的严峻挑战。
首先,铜缆的局限性体现在其距离限制。受限于信号衰减,铜缆的有效传输距离极其有限。例如,在极短的10厘米PCB走线中,100Gbps的速率就足以造成超过15dB的插入损耗,导致信号失真率突破5%。当GPU跨越多机柜时,距离超过10米的情况下,信号衰减与功耗问题更为突出。其次,功耗激增是另一核心痛点。在800Gbps及以上的高速传输场景下,电流通过铜线产生的巨大热量不仅大幅推高了数据中心的运营成本,也显著增加了系统的散热复杂性。再者,铜缆面临着传输速率瓶颈。
受限于“趋肤效应”和PCB走线的寄生电容、电感,其中长距离传输的单通道速率难以突破200Gbps,且多通道并行会导致严重的串扰,进一步限制了电互连的带宽密度。最后,布线困难成为规模化部署的巨大障碍。随着智算集群规模呈指数级扩张,所需的铜缆数量几何级增长,使得布线难度与成本显著提高,严重制约集群快速扩展和高效运维。这四大固有物理局限,使得铜缆已无法满足未来高算力密度和大规模扩展的智算集群的严苛需求。
为跨越基于电信号铜缆传输的固有物理极限,新一代光互连技术正快速登上历史舞台。以近封装光学(NPO, Near Package Optics)、共封装光学(CPO, Co-Packaged Optics)、以及光输入/输出(OIO, OpticalInput Output)为代表的创新方案成为替代铜缆方案的优秀选择。这些技术的核心在于最大程度地缩短电信号与光引擎(OE, OpticalEngine)之间的距离,实现在芯片层面即完成光电转换,从根本上规避了传统可插拔光模块的高成本与易故障问题,同时继承了光纤传输的技术优势。
功耗显著降低。NPO、CPO等技术将光引擎与GPU封装在同一基板甚至同一芯片上,将电信号路径缩短至厘米甚至毫米级别,大幅减少了传输过程中的中继损耗,并降低了SerDes接口的性能要求,从而系统性地降低了整体功耗。
带宽密度显著提升。通过缩短电信号传输路径,这些技术能支持更高的单端口传输速率,同时在同一封装体内集成多个光通道,使得带宽密度达到百Gbps/mm²至Tbps/mm²,远超铜缆互连方案。此外,连接距离得到极大扩展。光信号的低损耗特性使其能够轻松覆盖数据中心内数百米甚至10公里以上的距离,彻底打破了铜缆在远距离传输上的桎梏。更为重要的是,光互连在信号完整性上展现出压倒性优势。
多根铜缆并行传输时固有的串扰和反射问题,需依赖复杂的均衡算法进行补偿,而光信号在传输过程中几乎不受电磁干扰,其传输损耗比电信号低4至5个数量级,且与传输频率无关,从根本上保障了信号纯净度。
在空间利用方面,光互连在空间占用和重量上也展现出较大优势。一束直径仅6mm的光纤即可容纳12根光纤,提供超过19.2Tbps的总传输带宽,而提供同等带宽的铜缆束直径将超过50mm,重量更是光缆的8倍。这种极致的轻量化与小型化设计,极大地简化了大规模集群的布线难度,降低了数据中心的运营成本,并为未来更高密度的集成提供了宝贵的物理空间。
尽管面临初期成本高和技术门槛高等挑战,但光互连技术所带来的低损耗、长距离、高带宽密度、高信号完整性以及低空间占用等核心优势,使其成为突破超节点规模和算力极限的关键支撑。通过将光电转换技术集成到芯片级别,光互连不仅拓展了传输距离,降低了系统功耗,更通过光信号的长距离传输解决了单节点规模扩大的空间限制问题。
“光进铜退”已成为智算集群的必然趋势,是实现未来算力跨越式发展的核心驱动力。此外,光技术的引入已拓展到交换层,即光交换技术(OCS,OpticalCircuit Switching)。为解决传统电交换机多次光电转换导致的高能耗和微妙级延迟瓶颈,OCS直接在光域完成信号路由,最高可达纳秒级切换速度,较电交换快2-3个数量级。纯光交换中微镜反射型(MEMS,Micro-Electro-Mechanical Systems)做为其中一种比较成熟的技术,已经实现了商业化应用。