首 页
研究报告

医疗健康信息技术装备制造汽车及零部件文体教育现代服务业金融保险旅游酒店绿色环保能源电力化工新材料房地产建筑建材交通运输社消零售轻工业家电数码产品现代农业投资环境

产业规划

产业规划专题产业规划案例

可研报告

可研报告专题可研报告案例

商业计划书

商业计划书专题商业计划书案例

园区规划

园区规划专题园区规划案例

大健康

大健康专题大健康案例

行业新闻

产业新闻产业资讯产业投资产业数据产业科技产业政策

关于我们

公司简介发展历程品质保证公司新闻

当前位置:思瀚首页 >> 行业新闻 >>  产业科技

高端算力资源稀缺,GPU云(算力租赁)市场价值显现
思瀚产业研究院    2025-08-25

海内外CSP万卡集群迅速布局

在大模型军备竞赛的背景下,国内外巨头加速万卡集群建设。据IDC研究,预计2022年至2032年全球人工智能产业规模的复合增长率高达42%,2032年将达到1.3万亿美元。国际上Meta、微软&OpenAI、xAI等多家AI巨头陆续宣布或者完成10万卡集群建设,国内通信运营商、头部互联网、大型AI研发企业等均发力超万卡集群的布局。

谷歌2023年5月,推出AI超级计算机A3,搭载了约26000块H100 GPU,为其在机器学习和深度学习研究中的应用提供强大的算力支持。2024年,深化在万卡智算集群的布局。其基于自研芯片搭建的TPUv5p 8960卡集群高效运转,在人工智能基础研究与应用开发方面不断发力。

Meta2024年初,Meta建成了两个各含24576块GPU的集群。2024年底,其朝着构建包含35万块H100 GPU的基础设施的目标推进,建成后将大幅提升在元宇宙和AI研究领域的技术竞争。

微软自构建万卡超级计算机后,微软不断扩充其万卡集群规模与应用范畴。在云计算和ai服务领域,微软利用万卡集群为旗下人工智能产品与服务提供坚实算力支撑,推动Azure云服务中AI功能的持续升级优化。

亚马逊 Amazon EC2 Ultra集群采用了2万个H100 TensorCore GPU,为用户在处理大规模数据分析和机器学习任务方面提供强大算力支持。

特斯拉 2023年8月,特斯拉上线集成1万块H100 GPU的集群,将极大提升特斯拉在自动驾驶和车辆智能化方面的研发速度。

百度 百度文心大模型4.0是在万卡AI集群上训练出来的,也是国内首次使用万卡规模集群进行训练的语言大模型。

腾讯 推出的星脉高性能网络能够支持高达10万卡GPU的超大规模计算,网络带宽高达3.2T,为未来的AI和大数据应用提供了广阔的发展空间。字节跳动 提出的MegaScale生产系统,支撑12288卡Ampere架构训练集群,为宇节跳动在内容推荐、图像处理等AI应用方面提供了强大的算力保障。

阿里巴巴阿里云已服务全国一半的人工智能大模型企业,在通义千问Qwen3训练中,基于1.2万卡H100集群,训练周期仅14天,模型算力利用率(MFU)达68%,较传统架构成本降低53%,彰显出其在万卡智算集群应用上的领先优势。

华为 2023年7月华为昇腾AI集群全面升级,规模从4000卡集群扩展至16000卡,是业界首个万卡AI集群,拥有更快的训练速度和30天以上的稳定训练周期。小米 2024年12月正在着手搭建自己的GPU万卡集群,将对AI大模型大力投入。

中国移动 2025年,计划商用哈尔滨、呼和浩特、贵阳三个万卡集群,总规模接近6万张GPU卡。

中国电信 计划2024年在上海规划建设一个达到15000卡、总算力超过4500P的万卡算力池。2024年3月,天翼云上海临港万卡算力池已正式启用。

中国联通 计划今年内在上海临港国际云数据中心建成中国联通首个万卡集群,集群建成后将为中国联通在数据中心和云针算市场提供的竞争优势力。

资料来源:AI云原生智能算力架构,公司公告,国信证券经济研究所理

全球市场英伟达高端AI芯片仍处于供不应求的状态

供给端高度集中且产能受限。目前AI芯片市场已形成由英伟达和AMD构成的“一超一强”寡头垄断格局,其中英伟达作为行业领导者占据全球超80%的市场份额;在生产端,英伟达的芯片采用4nm工艺与CoWoS封装技术由台积电独家代工。在2024年H100芯片产能为150万块,而台积电的CoWoS产能在2025年每月仅7.5~8万片,尽管计划到2028年提升至每月15万片,但短期内产能紧张的问题仍较为突出。

需求端爆发式增长且需求旺盛。在AI芯片的需求端,市场呈现出强劲且持续扩张的态势,微软、谷歌等四大云服务商贡献了英伟达数据中心业务50%以上的收入,而OpenAI等公司对算力的需求更是急剧攀升,以GPT-4V为例,其单次训练需要8000块H100运行60天;从需求规模来看,截至2023年底,全球计算力总规模已突破1300 EFLOPS,其中智能算力占比超63%,预计到2030年全球算力规模将突破16ZFlops,2023-2030CAGR达42%,其中智能算力占比预计超90%。

供需缺口明显且短期难缓解。GB200原计划2024年9月量产,因液冷等技术挑战推迟至2025年二季度;GB300原计划 2025年三季度量产,后调整为9月批量出货,因此只能复用现有设计缓解供应链压力。

云计算市场再迎分化,GPU云(算力租赁)市场规模扩张显著

AIGC产业趋势下更高规格的算力需求显著提升,生成式AI服务的市场规模快速增长。当前AIGC产业趋势明晰,生成式AI已成为不可或缺的生产工具,预计2026年80%以上的企业将会使用生成式AI。全球生成式AI服务的市场规模预计在2027年将增长至1800亿美元,2022-2027年的CAGR为169.7%。

云计算市场历经传统云、混合云阶段后,迎来了第三次分化浪潮——AI 智算云 NeoCloud。Gartner 预测,到 2026 年,全球云计算市场有望达到万亿美元。而伴随着大模型技术持续突破,云计算市场加速分化,逐步形成多元化格局。在AIGC浪潮下,云服务商开始提供专门为 AI 训练和推理优化的GPU。VerifiedMarket Research数据预测,预计到 2033 年,全球 GPU 云市场规模将增至 128亿美元。

算力租赁:因地制宜、部署灵活、性价比高的算力解决方案

算力租赁是指企业或个人通过支付租金的方式,从拥有大量计算资源的服务提供商那里租用所需的计算能力。对于需要大规模计算能力但又不希望或无法承担高昂前期投资成本的用户来说,算力租赁提供了一种灵活、高效且成本较低的解决方案。服务提供者通常是拥有大量计算资源的公司,如云服务厂商、传统IDC服务厂商以及其他跨界布局的企业。

随着AIGC发展,专门针对生成式AI提供高性能算力租赁的厂商被称之为NeoCloud,成为当前节点算力租赁的核心力量。算力租赁的产品形态多元,主要分为服务器租赁、虚拟机租赁、GPU租赁以及存储和网络资源租赁。其中GPU租赁是指针对需要进行大规模并行计算的任务,如人工智能训练和图像处理,用户可以租赁GPU服务器资源。

运营模式可分为签约制和按需使用两种:签约制能够为服务商提供稳定现金流和长期业务可见性。客户通过预先承诺资源使用量换取较低单价和更高服务保障,服务商则依托合约融资,支撑GPU采购和数据中心建设等高额资本开支。按需使用主要服务于中小型企业或临时需求,灵活性高,但单价较高且可能面临资源竞争。

服务提供者NeoCloud:提供AI高性能GPU云(算力租赁)服务

Neocloud商业模式与传统云厂商相似,核心区别在于提供以英伟达为代表的最新高性能芯片的能力。AI算力云专注于提供GPU算力租赁服务,支持AI模型训练、微调和推理等任务。AI算力云对于数据中心资源的需求急剧增加,特别是在液冷基础设施和高速网络互联方面。因此领先的IDC服务商需升级设施,提供高功率密度液冷机柜和卓越的网络解决方案,以满足AI云厂商的需求。同时,AI算力云商寻求与这些IDC服务商建立长期合作,为自己的设备部署提供稳定支持,进一步提高数据中心的使用率和投资回报率。

Hyperscalers(如AWS、Azure、Google Cloud等)依托其全球庞大的基础设施,提供全方位的云服务,优势在于大规模的资源整合、全球化的服务覆盖以及强大的市场份额。这些巨头在传统计算和 GPU 云服务等领域均具备强大的技术实力和市场影响力。

NeoCloud (如CoreWeave、Lambda Labs、Crusoe等)则专注于提供专为 AI 领域进行工作负载优化的计算资源。NeoCloud 服务商通过深度优化 GPU 资源、专注于 AI 模型训练和推理等特定应用场景,能够为用户提供更灵活、高性价比的计算能力。传统云厂商在按需服务领域更具优势,Neocloud的竞争力集中在高性能专有集群和长期合约优化上。

算力租赁相较于IDC自建各有优劣,获卡渠道的稳定性为核心壁

IDC核心壁垒在于获取一线城市及周边地区的土地资源与能耗指标,并通过绿色节能技术降低运营成本。政策要求数据中心PUE逐步降低,且在绿色电力比例要求下,一线城市能耗指标审批趋严,数据中心逐步向其他非一线城市部署。算力租赁行业的核心壁垒为获卡渠道稳定性,尤其在英伟达高端芯片如H100等GPU供应受限背景下,资源垄断性成为关键。国产替代(如华为昇腾910系列)虽加速,但短期内无法完全替代英伟达系芯片单次大模型训练需消耗千卡级GPU集群。

微软与CoreWeave加强合作,CSP自建转租赁或为产业趋势

算力租赁具备成本效益高、灵活性高、技术更新及时的优势,能够应对算力短缺。相较于自建,算力租赁具备较强的成本和灵活性优势,同时得益于有专业团队进行维护和技术迭代,GPU集群的利用率有望维持较高水平。CSP自建转租赁或为产业趋势:CSP巨头之一微软为CoreWeave第一大客户,算力租赁满足其快速增长的AI算力需求。

微软的Azure云服务在AI领域的需求激增,尤其是在训练和推理大规模AI模型方面。微软考虑到CoreWeave作为一家专注于高性能GPU云服务的公司,能够提供大量的英伟达GPU资源,更高效地支持微软的AI项目。同时微软无需自行大规模投资建设数据中心,不仅优化了成本,还提高了资源利用效率。

免责声明:
1.本站部分文章为转载,其目的在于传播更多信息,我们不对其准确性、完整性、及时性、有效性和适用性等任何的陈述和保证。本文仅代表作者本人观点,并不代表本网赞同其观点和对其真实性负责。
2.思瀚研究院一贯高度重视知识产权保护并遵守中国各项知识产权法律。如涉及文章内容、版权等问题,我们将及时沟通与处理。