根据不同应用场景,光互连技术主要分为数据中心间(DataCenter Interconnect,DCI)与数据中心内两大类。数据中心内聚焦短距传输场景(数米至数百米),核心诉求是高带宽密度、低延迟及低功耗,常用多模光纤,精准适配机柜内/跨机柜互连需求。本白皮书重点探讨数据中心内光互连技术的分类、器件与技术趋势。
1、业界存在两大类光互连技术光互连
技术是通过应用光电转换与融合技术,取代电信号在传统数据传输场景中的主导角色,甚至直接替代芯片上的电IO功能,最终实现信号在传输过程中远距离、低功耗、高密度的目标。其中,实现光电转换的光引擎(Optical Engine,OE)是光互连技术的核心。根据应用场景、光引擎与xPU芯片的距离以及封装集成程度的差异,业界衍生出许多技术范畴,我们将其主要分为两大类:设备级光互连和芯片级光互联。
在未来十万卡级以上的智算中心集群设计中,设备级光互连主要有两大技术,一是以光交换技术为主,主要应用于交换设备间网络连接中,提供超高端口密度、极高速率(无带宽瓶颈)、连接距离从米级到百公里级;二是以可插拔光模块技术为主,主要应用于超节点设备间网络连接中,提供较高速率、千卡及以上规模、公里级别长距离连接;芯片级光互连主要以共封装光学为主,主要应用于超节点内并进一步下探到芯片内场景,提供超高带宽密度(可达Tbps/mm²级)、超低时延、千卡以下互连规模、公里距离之内的连接,要求高可靠性。
(1)设备级光互连:光交换机的演进与应用
随着智算集群规模持续扩展,电交换芯片逐渐显现瓶颈。单芯片容量受制于集成电路工艺的发展,使得电交换芯片在制程工艺、转发架构与缓存设计等方面面临诸多挑战,交换芯片更新迭代速度明显放缓,网络规模难以快速扩展;高速SerDes和复杂转发架构导致功耗和延迟不断上升,信号完整性问题也需要依赖复杂DSP补偿。
光交换为突破电交换的限制提供了新的路径:
一是,其在光层面直接完成端口间的切换,无需O-E-O转换,彻底绕开了制程、缓存和SerDes衰减等物理瓶颈,可支持极高传输速率与超大规模集群部署。光交换天然具备速率和协议无关的特性,从400G到800G乃至1.6T均可平滑支持,在速率升级时无需更换交换设备,极大降低了系统演进的复杂度和成本。
二是,光交换通过端到端光路直通,避免了复杂的包解析与缓存转发,延迟大幅降低,功耗显著优于电交换。其大规模端口集成能力,使得数百乃至数千端口的互联成为可能,从而支撑大规模GPU集群的灵活组网需求。
三是,通过集中化的控制与软件编排,光交换还能够支持拓扑重构、故障绕行和网络切片,提升算力利用率与网络鲁棒性。在运维方面,自动化光路配置减少了人工布线带来的潜在错误,进一步增强了网络的可用性和可靠性。
(2)设备级光互连:可插拔光模块的演进与应用
可插拔光模块已广泛应用在传统数据中心、电信网络以及智算中心大规模连接中,具备灵活性高与兼容性强等特征。其将光引擎(OE, Optical Engine)集成在可插拔模块中,通过PCB(PCB,Printed Circuit Board)板级走线与有独立基板的xPU(GPU, NPU, Swtich, etc)相连。目前市场主力产品的速率已达800G,未来采用硅光技术可达1.6T水平,封装向高密度QSFP-DD/OSFP等演进。但面向智算未来高速率1.6T/3.2T以上的互连场景下,可插拔光模块将面临信号完整性恶化、依赖数字信号处理器(DSP,Digital Signal Processor)进行复杂信号补偿导致的系统功耗高、传输时延高等难题。
为解决DSP带来的功耗、时延等难题,2022年Macom联合英伟达推出线性直驱可插拔光模块(LPO, Linear Pluggable Optics)方案,相较于传统可插拔光模块,LPO直接去除了DSP芯片,保留发射端高线性度的驱动芯片(Driver),以及接收端高线性度的跨阻放大器(TIA, Transimpedance Amplifier),从而构建一个纯模拟的、“线性直驱”的光信号处理通道,实现功耗和时延的降低。虽然去除了DSP,但是DSP的功能并未消失,而是将部分功能转移到了xPU芯片中。这意味着xPU的SerDes必须具备更强的线性驱动能力和信号处理能力。
(3)芯片级光互连:从近封装到光学I/O
随着专家模型的大EP(Expert Parallelism)架构发展趋势,更大规模、更高带宽密度和极低时延成为智算集群的主要需求。如下图所示,在规模方面,当前Scale-Up单层规模以32卡或64卡为主,需要进一步提升至256卡甚至千卡,高速传输的距离从板级、柜内扩展到柜间;在带宽密度方面,当前国内单通道带宽以200Gbps为主,需要进一步向800Gbps 甚 至 1.6Tbps 迈 进 , 带 宽 密 度要求提升至百Gbps/mm2 到TGbps/mm2;在时延方面,当前卡间数据传输时延为微秒级,需要进一步缩短至百纳米甚至十纳秒级。目前可插拔光模块的互连延迟和带宽瓶颈已无法满足大规模智算集群互连需求。
芯片级光互连技术通过将电信号传输路径缩短至厘米到毫米级(即加速卡内部),相较于基于电互连与可插拔光模块的互连方案,可实现超高带宽密度、超低时延及高能效的智算集群互连能力。根据应用场景、光引擎与 xPU 芯片的距离及封装集成度,可将该技术分为近封装光学(NPO,Near Packaged Optics)、共封装光学(CPO,Co-packaged Optics)及光学IO(OIO,Optical Input/Output)三类。
近封装光学(NPO)
NPO的核心思想是将光引擎(OE)与封装后的xPU芯片相邻布局于同一块高性能PCB基板上,通过极短的高性能电气链路与GPU相连,形成一个集成度较高的系统,GPU与OE的间距通常在数厘米以内,同时确保信道损耗≤13dB。
相较于传统可插拔光模块,互连密度提高了2-3倍,是光互连向高集成度发展的过渡阶段技术,为进一步向CPO演进奠定基础。因NPO将GPU与光引擎物理分离,避免了GPU在工作时的高温热量直接冲击对温度敏感的光器件,从而导致波长漂移和系统性能下降,因此散热设计更简单、高效,系统更加稳定。同时,由于光引擎未和GPU共同封装,在可维护性方面具备一定优势,如果光部分失效,只需更换光引擎模块即可,避免了大量的维护成本;因此,NPO目前是国内GPU芯片厂家选择的主要技术路径,但仍需要在集成度、带宽密度、延迟和能效方面进一步优化。
共封装光学(CPO)
CPO技术通过将OE与电芯片共同封装在同一芯片基板或中介层上,实现系统的高集成度,使电信号只需传输几毫米。CPO技术极大地提升了互连带宽密度并能够显著降低系统误码率和设备功耗,同时也能够大幅节省设备(如交换机)面板的空间,克服面板IO密度的限制。目前作为可插拔光模块的一种替代技术,CPO可实现整机设备功耗降低50%左右。
由于光引擎和电芯片紧密共封装,任何子模块的故障都可能导致整个封装体的更换,对良率和可维护性方面提出了极高要求。因此,基于CPO技术的产品处于发展初期,主要应用场景是智算中心的交换设备。但凭借其在超高带宽、低功耗、低延迟、高密度互连等方面的巨大潜力,CPO有望进一步下探至GPU算力芯片,实现算力芯片的直接出光,构建更高效的端到端光互连链路。
片间光学互连(OIO)
相比NPO/CPO是突破可插拔光模块的性能限制,OIO技术目标是为了取代计算芯片上电IO方案,通过先进封装以芯粒形式与计算芯片集成,比CPO的互连性能更优。其核心理念是彻底摒弃传统的铜线电气I/O,消除了板级电气走线的瓶颈,将带宽密度提升至1Tbps/mm²(3D封装)并将延迟降低至纳秒级,能效提升相比CPO低一个数量级。
OIO技术可以在计算资源池化领域发挥更大的作用,如应对计算芯片显存容量和带宽扩展受限的双重挑战,依托其显著传输性能和距离,打破单芯片显存物理边界,将多节点独立显存整合为共享显存池,通过光域直连实现池化显存的低时延调度与高带宽访问,成为未来新数据中心架构革新的关键驱动力。
(4) 新型光互连技术具备巨大潜力
可插拔光模块、NPO、CPO和OIO四大技术在带宽密度、时延、能耗、兼容性等方面表现各异,共同构成了覆盖数据中心内不同需求场景的光互连技术体系,其中芯片级光互连展现出更能精准匹配智算集群未来演进需求的潜力,后续将聚焦该类技术展开具体分析。
2、芯片级光互连三大技术路线场景互补
(1)芯片级光互连技术的组成原理
从器件构成上来看,相较于采用分立式器件的传统可插拔光模块,主流芯片级光互连技术由于硅光的引入,除激光器外,大部分已实现了多种光电器件的硅基集成。其技术方案构成主要分为三大关键组件:激光器(外置或与光引擎耦合)、光引擎、光纤及连接器。无论与电芯片的距离与集成度如何,实现高效光电转换的光引擎和激光器都是芯片级光互连方案的主要研究对象。
光引擎由光集成电路(PIC, Photonic IntegratedCircuit)和电集成电路(EIC, Electronic Integrated Circuit)组成。其中PIC主要包含调制器(MOD, Modulator)和探测器(PD, Photo--detector),基于硅光子或III-V族化合物材料实现光信号的调制、探测、解调和滤波等功能。其中,调制器负责将光信号调制成与电接口匹配的带宽能力,多采用硅光调制器,包括马赫-曾德尔调制器(MZM, Mach-Zehnder Modulator)、微环调制器(MRM, Micro Ring Modulator)等方案;探测器负责在收端将光信号转换成电信号;
传统可插拔光模块中常采用分立的PIN或者雪崩光电探测器,在芯片级光互连中,集成于硅光芯片上的锗硅探测器(Ge-Si, Germanium-Silicon)成主流方案 。 EIC 主 要 由 驱 动 电 路 ( DRV, Driver )、跨阻放大器(TIA, Transimpedance Amplifier)等组成,提供光调制器的驱动与控制,接收端信号的放大、均衡以及功耗管理等功能。
激光器(Laser)负责提供连续的、高品质的光源,而调制器则将电信号编码到光信号上。与传统光模块将激光器和调制器封装在同一个发射光组件(TOSA, Transmitter Optical Subassembly)内不同,该方案通常将调制器集成到硅光芯片上,而将激光器作为独立的外置光源(ELS, External Laser Source)。这种架构通常以可插拔模块的形式存在,如下图所示,可减少散热影响,增强系统稳定性。外置激光器方案与光引擎的耦合带了新的挑战,业界也有基于直接调制光源的技术方案,可解决光源与调制器分离带来的光效率问题,但也面临传输距离以及速率性能受限等难题。
与传统设备内部无光纤布线设计不同,基于芯片级光互连技术的设备内引入了额外的光纤及光纤连接器。如下图所示,以基于硅光技术的CPO交换设备为例,光引擎紧密围绕ASIC芯片放置,设备内部的光互连路径包含两条:从ELS到光引擎,以及光引擎到机箱前面板。其中后者为业界主要研究方向,其连接方法和类型会影响信号、热量和布线密度的设备设计。
(2) 三大技术路线并驾齐驱,硅光或成未来主流
行业内已提出并应用了多种芯片级光互连(如CPO)的实现方案,这些方案可按材料分类,也可按激光器的放置位置分类,而材料与激光器位置往往密切相关。业界目前有三大主要技术路线:其中基于硅光的集成方案通常采用外置激光源,属于间接调制(即需要一个独立的调制器来对光进行编码);而基于垂直腔面发射激光器(VCSEL, Vertical-Cavity Surface-Emitting Laser)的方案则是由电子设备直接改变其注入电流来调制光源,无需额外的独立调制器;Micro-LED则摒弃传统激光器,采用Micro-LED作为光源,采用阵列形式,单个芯片可集成数十至数百个,满足高聚合速率需求。
目前产业主线多以硅光集成为核心,采用MZM或MRM等调制方式,并配合外置激光器实现高速信号中短距(~几百米)传输;VCSEL阵列则在短距互连(~几十米)中有成熟应用,但在高温稳定性和更高速率下仍面临一定挑战;Micro-LED作为一种新兴技术,主要聚焦于柜内短距高速链路(~数米内)中的应用,展现出高响应速度、高密度阵列集成及低功耗的特性,但其在高速调制(如100Gbps以上)的稳定性以及与电芯片异质集成适配性等方面仍存在问题。
外置激光源+硅光光引擎硅
光 集 成 方 案 是 利 用 现 有 CMOS (Complementary Metal OxideSemiconductor)工艺进行光器件(包括调制器、探测器、光波导等)开发和集成的技术。根据调制器的不同,硅光方案可进一步分为两类:一类采用MZM调制器,另一类采用MRM调制器。MZM在硅光可插拔光模块市场中应用广泛,经过大量部署验证了其可靠性。基于MZM的芯片级互连方案借助这一优势,通过高度集成进一步提升了密度。MRM方案则提供了另一种可能,能够进一步降低调制器的功耗,并提高集成密度。MZM与MRM相比,MRM具有小尺寸及低驱动电压的优点,而MZM则有较宽的可操作光波长范围及较佳的热稳定性。
硅光技术方案因集成度高、调制速率高,光源外置稳定性高,可覆盖其他短距方案等特性,成为CPO的主流方案。随着研究的深入,硅光技术有望成为OIO中最核心的光学解决方案。采用MRM的硅光集成方案实现OIO的第一步,可利用多个波长携带信号,提高带宽密度。目前此路线面临光链路效率与系统协同性上的挑战。一是外置激光器耦合损耗与对准难题,易因偏移导致功率衰减,激光器需提升输出功率增加整体功耗;二是单个光源故障可能影响多通道工作;三是光源参数与硅光引擎的驱动需求适配依赖定制化调试,缺乏统一标准导致集成成本高。未来产业可通过采用晶圆级光学技术集成微透镜阵列,并结合先进封装方案,将系统损耗降低;光源侧可采用量子点光频梳激光器,减少光纤用量并降低功耗并通过标准化统一光源电气与机械参数,进一步优化能效与互操作性。
基于VCSEL的光引擎方案
VCSEL方案依托垂直出光结构带来的光路设计灵活性,以及高密度阵列支持多通道并行传输的能力,可满足智算集群柜内/间的短距传输需求。凭借成本优势与低功耗特性,在光模块领域已应用多年。但基于VCSEL的芯片级互连方案目前仍处研发阶段,核心瓶颈在于砷化镓材料与硅基工艺存在晶格失配,异质集成良率低,难以实现与电芯片的深度共封装,更合适应用于NPO互连方案。
基于VCSEL的芯片级互连方案研究趋势主要聚焦于性能瓶颈突破,如推动单模化以解决带宽限制,业界通过光子晶体结构设计、氧化限制层精度优化,结合PAM4高阶调制技术,已实现单通道200Gbps速率原型,同时抑制杂模提升信号完整性;通过低损耗硅基波导与VCSEL的异质集成可降低信号损耗,使传输距离延伸,进一步提升方案能效与可靠性。
基于Micro-LED的光引擎方案
在光互连领域中,Micro-LED作为新型光源阵列逐渐受到关注。与硅光和VCSEL相比,Micro-LED的突出特点在于其天然适合构建二维高密度阵列,能够实现多通道并行和空分复用,在有限封装岸线上实现超过Tbps/mm2的带宽密度。在功耗方面,研究表明其链路能效有望达到亚pJ/bit量级,适用于机柜内的10米级短距连接。工艺路径上,Micro-LED通常基于氮化镓(GaN, Gallium Nitride)外延,在蓝宝石或GaN衬底上制备微米级发光单元,并通过异质集成与CMOS电路键合,为短距互连带来一种能效与密度兼具的潜力方案。
基于Micro-LED的光互连方案技术趋势着重于优化驱动电路、改进量子阱材料结构、延长激光源使用寿命以适配大规模集群的高可靠性需求。总体来看,硅光方案因其性能优、CMOS工艺集成高等特性已形成较成熟的产业和标准牵引,VCSEL阵列依托既有的短距应用在NPO方案中仍具竞争力,Micro-LED阵列提供了能效和并行密度上的新路径。三者将在智算互连不同场景中形成互补,共同推动短距至中短距光互连技术的迭代升级。