首 页
研究报告

医疗健康信息技术装备制造汽车及零部件文体教育现代服务业金融保险旅游酒店绿色环保能源电力化工新材料房地产建筑建材交通运输社消零售轻工业家电数码产品现代农业投资环境

产业规划

产业规划专题产业规划案例

可研报告

可研报告专题可研报告案例

商业计划书

商业计划书专题商业计划书案例

园区规划

园区规划专题园区规划案例

大健康

大健康专题大健康案例

行业新闻

产业新闻产业资讯产业投资产业数据产业科技产业政策

关于我们

公司简介发展历程品质保证公司新闻

当前位置:思瀚首页 >> 行业新闻 >>  产业资讯

算力系统面临“木桶效应”挑战,供给端瓶颈或成主要矛盾
思瀚产业研究院    2024-11-28

1、人工智能算力系统面临诸多挑战

随着人工智能的发展,模型的规模和复杂性呈现出指数级增长,自 2012 年 AlexNet 问世以来,算力需求迅速攀升。AlexNet 作为深度学习在计算机视觉领域的开创性成果,训练时依赖于两块 NVIDIA GTX 580 GPU,耗费约 470 petaFLOP,标志着深度学习时代的来临。

而此后模型的扩展速度令人瞩目:2020 年推出的 GPT-3 模型拥有 1750 亿参数,训练消耗约 3.14x108petaFLOP,GPT-4 进一步升级至 1.8 万亿参数,依赖 25000 个 A100 GPU,计算需求达 2.1x1010 petaFLOP,耗时 90 至 100 天,硬件与能源的需求达到新高度。在最新的超大规模模型——Gemini Ultra 上,算力要求再度跃升至 5x1010 petaFLOP。

谷歌为此部署了大量 TPUv4 和 TPUv5e 加速器,以应对计算需求和硬件挑战。Gemini Ultra的训练使用了多个数据中心中跨集群的 TPUv4 加速器,配置在 4096 个芯片组成的SuperPod 中。每个 SuperPod 通过高速互联进行数据通信,并利用专用光开关在大约 10 秒内动态重配置为 3D 环面拓扑。

随着超大规模模型对硬件资源的需求不断增加,系统故障率也相应上升,平均故障间隔时间成比例下降。谷歌通过减少抢占和重新规划的比率尽量减少硬件故障的影响,但在如此规模的硬件部署中,故障不可避免。Gemini Ultra 的计算复杂性推动了多模态 AI 架构和大规模硬件集群的极限,尽管当前的硬件性能接近瓶颈,但要满足这种庞大模型的训练需求仍需数月的时间和大量的能源投入。然而,单卡算力、互联性能和能源供应的发展速度已逐渐趋缓。

即便硬件性能逐年提升,模型规模的增长速度却更为迅猛,带来了计算瓶颈和能耗压力。因此,AI 模型的未来发展将面临这些硬件和能源限制的制约,解决这些关键短板将成为 AI 系统持续迭代和优化的核心挑战。

2、单卡算力升级速率落后于模型迭代速率,Blackwell 延后预示系统摩尔进一步降速

当前基于传统摩尔定律的发展速度(即单芯片晶体管数量的扩展速度)已经远远落后于人工智能模型对于算力的需求。最新的 Epoch AI 数据表明,当前一些知名模型的训练所需算力仅需大约六个月就能实现翻倍。

对这些数据进行了更深入的分析后发现,如今更为主流的多模态大模型(例如 Gemini Ultra 和 GPT4)在算力需求方面的增长趋势更为陡峭。这些模型的算力需求翻倍时间已经缩短到不到六个月。与此形成鲜明对比的是,传统摩尔定律所定义的晶体管数量翻倍周期是 18 个月,这意味着上述多模态大模型的算力需求增长速度已经显著超越了传统芯片晶体管数量增长速度。换句话说,大模型算力需求的增长速度已经明显领先于传统摩尔定律所能支撑的硬件性能提升速度。

系统摩尔是业界为应对摩尔定律放缓的解决方案。英伟达最新的 Blackwell 架构的核心特性之一是其多芯片模块(MCM)设计,B200 芯片将两个接近光罩极限面积的芯片通过 NVHBI 技术连接在一起,该技术基于 NVLink5.0 协议,提供高达 10TB/s 的带宽。

从单卡性能来看,以芯片面积增益进行归一化计算后,空气冷却的 B200 在 FP16 FLOPS性能上每单位芯片面积仅提升了 14%,这与人们对全新架构的期望相去甚远。这是因为大部分性能提升主要依赖于更大的芯片面积和量化优化。

由于计算芯片(die)的面积不断扩大,封装所需的中介层面积也相应增加,导致整体成本上升。与采用完整硅中介层的 CoWoS-S 技术相比,CoWoS-L 技术通过在有机基板中局部嵌入硅桥的方式,减少了硅的使用量,从而有效降低了成本。

这也是 Blackwell 选择采用CoWoS-L 封装技术的主要原因。但与此同时带来的,是工艺上的新难题,Cerebras 联合创始人指出,此次 Blackwell 延后的核心原因是,GPU 之间以及 HBM 和 GPU 之间的局部硅桥的位置校准出现了偏差,尤其是在 Blackwell 所采用的接近两倍光罩极限面积的中介层上,其工艺难度进一步增加,另外,计算 die、CoWoS-L 中局部硅桥、以及 CoWoS-L 中介层中的 RDL 部分三者的热膨胀系数之间的差异也会导致封装结构出现弯曲,影响系统性能。发布会上英伟达表示 GB200 相较于 H200 在 1.8T 参数的 GPT-MoE 模型上的推理性能将提升 30 倍,然而,这一数据是基于一个非常特定的最佳场景得出的。

需要明确的是,这一场景在理论上确实可以实现,但并不能完全代表市场中的普遍应用场景。解释 30 倍性能提升的一个关键因素是将 GB200 NVL 在 FP4 下的性能与 H200 和 B200 在 FP8 量化下的性能进行对比,而且比较基准选取的是最不适合 H200 的 64GPU 张量并行,根据Semianalysis 模拟分析,这一情形下实际性能提升仅有 18 倍,如果在更贴近现实的情况下,性能提升幅度将更低。

Blackwell 因设计问题延迟出货已经反映出了数据中心高性能计算芯片在制造段继续迭代的瓶颈,尽管英伟达可以通过节点内和节点外互联提升总体系统性能,但我们认为单卡算力(计算性能/功耗)的提升仍旧是必要的,节点内 GPU 间通信(NVLink)慢于片上通信,节点间通信(Infiniband/Ethernet)又显著慢于节点内通信,导致并行化带来的算力提升是边际递减的,单卡 PPA 的提升仍是后续系统性能继续提升的关键。

当前市场对英伟达的预期相当充分,根据彭博一致预期,市场预期英伟达 FY2025Q4 至FY2026Q3 毛利率分别为 73.5%、72.2%、72.9%、74.2%,说明市场对未来三个季度 Blackwell研发部署对毛利率的压制是有所认知的,但认为 FY2026Q3 对毛利率的压力将有所缓解。

从时间线上来看,FY2026Q3 英伟达或将开始出货 Blackwell Ultra,Blackwell Ultra 即为 Blackwell 的 HBM 升级版本,技术上难度相对 Blackwell 并没有显著提高,市场预期FY2026Q3 毛利率有所回升是合理的。我们不同于市场的观点是,应当警惕下一代产品即Rubin 不能如期发布的风险,对英伟达的下一代产品来说,从芯片制造的角度,我们认为无论是从单位面积晶体管缩放还是先进封装角度,实现大幅度性能提升的难度都不容小觑。

3、数据中心电力消耗呈指数级增长,核电或成最优解决方案

根据 IDC 数据,24 年云服务厂商数据中心容量达到 28240 兆瓦(MW),2028 年将达到 56756兆瓦(MW),CAGR 为 19%。24 年云服务厂商数据中心预计消耗电力约达到 563 亿千瓦时,按全球 23 年发电量 29.92 万亿千瓦时来算,云厂数据中心耗电量占比将达到 0.2%,而如果按全部数据中心耗电量 4170 亿千瓦时来计算,则这一比例达到 1.4%。按 2028 年 8568亿千瓦时用电量来计算的话则占比达到 2.9%。

数据中心耗电量的快速上升将会影响到正常生活中的用电。且全球主要数据中心集中在中国、美国、欧洲等地区,这些国家发电量仅为全球的一半左右,但数据中心用电量基本没有减少,数据中心耗电量的比例在这些国家中的还会继续上升。如果再进一步集中到这些国家中数据中心密集的地区,则地区的用电压力还会进一步提升。

为了应对越来越高的能源需求,主要的云服务厂商都打算将能源供应的责任放在核电站上。

独立于居民、工业用电的核电具备许多优势。

1)尽管核电站的建设成本历来较高,但其运营成本相对较低,单个反应堆的发电容量通常超过 800 MW。此外,核电站发电过程中不直接排放二氧化碳,对于那些投资高能耗数据中心且试图实现减排目标的科技公司来说,核能具有重要吸引力。

2)与住宅或许多其他行业的用电需求不同,数据中心的用电需求在一天中的各个时间段相对稳定。这种持续的用电需求非常契合核电站的运营特点,后者通常无法快速调整发电功率以应对需求波动。核电站持续稳定的发电能力能够确保数据中心在全天候都能获得足够的电力,同时还为其提供了零碳排放的大规模能源来源。

3)当数据中心与发电源直接连接时,数据中心可以直接从发电厂获取电力,而无需经过更大的输电网络。尽管购电协议的存在并不要求发电厂和数据中心必须在同一地点,甚至不需要在同一时间发电和用电,但这种安排可以通过直接将需求增长与发电来源匹配,降低整体电网成本。

24 年 3 月,亚马逊斥资 6.5 亿美元,从电力运营商 Talen 能源手里买下一座占地 1200 英亩的“核电数据中心园区”——数据中心就坐落在两个核反应堆边上。除此之外,亚马逊也在积极和 Constellation Energy 寻求更多核电站合作。

24 年 9 月,ConstellationEnergy 宣布了一项为期 20 年的购电协议(PPA),将为微软位于美国中大西洋地区的数据中心提供电力。这些电力将来自宾夕法尼亚州三哩岛核电站的 1 号反应堆。谷歌 24 年 10月宣布,与 Kairos Power 公司签署协议,将利用小型核反应堆来生成支持其人工智能(AI)数据中心所需的巨大能源。根据协议内容,谷歌计划在本十年内开始使用首个核反应堆,并在 2035 年前引入更多的核能设施。

但核能并非毫无风险。除了核反应堆安全问题之外,数据中心&核电站供电方式也存在新的问题。虽然新建核电站可以单独供给数据中心,但已建成的核电站通常与电网相连,数据中心过度供电依旧会威胁电网的可靠性,产生的额外费用目前也没有规定该由谁支付。这也是 24 年 11 月,美国联邦能源管理委员会否决亚马逊增加数据中心供电提案的主要原因。考虑政治&安全因素,一些大国如中国、美国国内核电站新建政策可能会收紧,但东南亚一些国家正在积极扩张核电。

除了越南、缅甸、马来西亚等已经建设或考虑建设核电站的国家外,泰国于 11 月 15 日签署核电站项目合作备忘录,首次启动核能发展,以推动清洁、低成本能源建设。该项目以 SMR 小型模块化反应堆技术为核心,旨在降低电价并减少碳排放。该技术具有高安全性、空间需求小等优势,并计划将核电纳入 2037 年国家清洁能源发展目标。

更多行业研究分析请参考思瀚产业研究院《2024-2029年中国汽车紧固件行业发展策略及投资建议分析报告》,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。

免责声明:
1.本站部分文章为转载,其目的在于传播更多信息,我们不对其准确性、完整性、及时性、有效性和适用性等任何的陈述和保证。本文仅代表作者本人观点,并不代表本网赞同其观点和对其真实性负责。
2.思瀚研究院一贯高度重视知识产权保护并遵守中国各项知识产权法律。如涉及文章内容、版权等问题,我们将及时沟通与处理。