基于英伟达 B200 GPU 算力芯片的 GB200 机柜产品的推出,揭示了 GPU 算力芯片集群方案的又一创新形式。相比于传统的英伟达 HGX H200 8 卡服务器,英伟达 GB200 机柜可以集成 36 张/72 张英伟达 B200 算力芯片在同一个机柜当中,并使得每个算力芯片之间的通信传输速度达到 1.8TB/s, 为构建大规模 AI 算力基础设施提供了最优解。
以 GB200 NVL72为例,一个 NVL72 机柜由 18 个计算板和 9 个 NVLink Switch 板组成。在英伟达创新的 AI算力芯片卡集群机柜当中,我们看到由于卡与卡、板与板的连接方式都产生了比较大的变革,架构创新给上游光/铜连接、液冷方案和电源供电方案相关厂商都来带来全新业务机会。在今年 10 月 OCP (Open Compute Project)全球峰会上,英伟达 GB200 NVL72 成为会议中最大的亮点,各路来自于服务器组装、机架、互联线缆、电源、冷却系统等领域的供应商,均展示了他们符合英伟达 GB200 NVL72 在 OCP 联盟平台上所公布的产品设计指导稿件的零部件产品。
OCP 作为 2011 年由 Meta 发起的开源协作平台,旨在从计算核心部件(包括服务器、存储和网络设备)促进硬件创新,并支持整个数据中心基础设施产业链的发展。目前 OCP 拥有 400 余家会员公司,并已经列出了 270 多个产品和 400 多个批准的成员资源贡献,包括了规范化设计、最佳实践方案和推荐参考架构等。此次英伟达在 OCP平台中展示分享了 GB200 NVL72 的最佳推荐设计方案,包含了机电系统、架构设计、计算板和Switch板设计、液冷系统、热管理和 NVLink Catridge的官方设计指引和详细参数。
英伟达在 OCP 公布其 GB200 NVL72 推荐设计方案的全部内容和参数,将引领英伟达 AI 算力芯片机柜集成产品的产业链走向更加开放以及使更多产业链相关公司有机会受益。
此举是把在过去将近一年时间中,英伟达作为 GB200 机柜产品供应链管理者和准入者的身份交给开放平台,最终由终端 CSP 客户进行把关;有利于提升产业链协同,鼓励相关产业链参与者加快硬件创新和生产效率提升,共同攻克目前 GB200 供应链当中算面临的问题和难点。
铜连接:机柜方案有望成为主流,供应链份额提升前景广阔
在英伟达 GB200 NVL36/72的机柜方案当中,需要实现 36或 72个 GPU之间的高速通信。由于创新的机柜内集成的方式,考虑到成本、传输耗损和能耗等多方面因素,铜连接的方案是多个 GPU近距离通信的最优解。
因而英伟达 GB200 NVL36/72机柜中大量采用了铜线连接。由于每个 GPU 都直连入 18 个 NVLink cartridge 端口,每个 NVLink 端口通过四条线束接到 NVSwitch 板。我们预计每个 GB200 NVL72 机架装有 5,184 条铜缆线。除去计算板之间、计算板与 Switch 交换机板之间的通信,每个计算板上还涉及铜连接跳线、MCIO 连接器、存储接口产品、PCIe 连接器和其他 I/O 接口产品包括 EDSFF 和 Gen-Z 连接器等。
目前,NVLink cartridge 端口由美国安费诺公司独家供应,其中包含对分线束由安费诺下属公司安费诺时代微波,以及安费诺指定的上游厂商供应,如沃尔核材及鼎通科技;而鸿腾精密也在积极送样验证过程中。基于在传统服务器接口和连接器产品的优势,以及与母公司鸿海集团的紧密合作关系,鸿腾精密在计算板上连接产品方面已做到总计 500-1,000 美元单板价值量,在 2024 年三季度开始出货交付,并在 2025 年有进一步提升供应份额的空间。
液冷:接替风冷成为 AI 数据中心主流冷却方案
由于 AI 算力的提升导致的供电需求的明显增加,抬升了对于 TDP(散热设计功耗)的要求,使得传统以风扇为主的散热方案陷入瓶颈,液冷散热为 AI 算力集成系统的最佳方案。英伟达 GB200 的液冷组件主要包括冷板、集流管、背板热交换器(RDHx)和液冷分配单元(CDU)。
CDU 用于调节服务器冷却系统和温度至所需标准,每个 NVL36/72 机架内液体冷却方案需要一个 CDU,而每个 CDU包含四个 UQD(液冷快接头)。由于 AI算力基础设施建设加速,市场对于液冷系统的需求抬升,也在一段时间内造成了液冷快接头供货吃紧的情况。
先前快接头产品主要由包括 Danfoss、Parker、CPC 和 Staubil 在内的欧美供应商供应,市场需求集中在细分领域,供应商扩产意愿不强;目前 AI 数据中心对于液冷组件产品需求激增,带给更多相关产业链供应商业务机会。根据我们的产业链调研,比亚迪电子正在对英伟达 GB200 方案中的液冷分配单元(CDU)及冷板产品进行客户验证,并有望在2025 年通过验证形成出货。
在 2024 年的 HHTD 鸿海科技日展会上,鸿海集团展示了其液冷解决方案和相关组件,如冷板、液冷快接头和集流管。根据我们产业链调查,鸿海精密已对 GB200 配套液冷方案中的液冷快接头开始供货。尽管液冷组件市场是一个竞争激烈的领域,并在 2025 年将迎来更多供应商竞争格局的变化,但我们对鸿腾精密扩大其 AI 服务器产品组合持乐观态度。目前我们预计鸿腾精密在每个 GB200 机架的液冷相关产品价值量贡献为 300 美元左右。
电源:高压大电流应用促进电源零组件革新
英伟达 GB200 机柜方案采用了创新的电源方案,为了适应机架内高计算密度和增加的功率需求,GB200 使用全新的电源系统设计规范,采用了高容量电源母线排,以增强电源传输能力,支持高达 1,400 安培的电流,与当前标准相比电流容量增加了 2 倍。据我们的产业链调研,鸿腾精密已经开始供应电源母线排产品,我们假设电源母线排的平均售价(ASP )为 300 美元,并且鸿腾精密在 2025 财年的供应份额为 5%,预计相关收入将在 2025 财年达到 1,000 万美元。