近年来大模型持续迭代,大模型参数规模总体呈现增加趋势,参数增加带动算力需求扩容。另外,ChatGPT 3.5 的问世加速了生成式人工智能的商业化进程,实现注册用户数量破亿仅仅耗时两个月,微软、谷歌等科技巨头纷纷接入,之后大模型热度持续火爆,带动算力需求扩容。
Deepseek 问世推动大模型平价化,降低了大模型开发成本,利于为下游端侧和应用侧打开市场空间,下游爆发同样将催生大量算力需求,并推动算力需求由训练端向推理端转移。据 IDC 预测,推理的服务器工作负载占比预计由 2020 年的 51.5%逐年增加至 2026 年的 62.2%,中国人工智能服务器工作负载结构中的推理算力占比总体呈现增加趋势。
1.参数数量总体呈现增加趋势
大模型的参数量与算力消耗呈现显著的正相关关系,当参数量不断增加,模型运行对硬件性能要求会大幅增加,能耗及时间成本也会随之上升,性能指标的提升也将同时推动模型优化技术的发展。OpenAI 团队经研究发现,模型性能与模型参数量、训练数据量和计算资源相关,通常大模型性能随着参数量、训练数据量和计算资源的增加而提升,这种现象被称为“Scaling Laws”。具体来说,参数量的增加与性能提升之间存在幂律关系,即参数数量增加的对数与性能提升之间呈近似线性关系。
近年来大模型快速迭代,大模型的参数量总体呈现上升趋势,以 OpenAI 发布的大模型为例,公司 2018 年发布的首款大模型 GPT-1 参数量为 1.17 亿,2019 年发布 GPT-2 大模型参数规模达到 15 亿,2019 年发布的 GPT-3 参数规模进一步达到 1,750 亿,2023 年发布GPT-4 大模型参数规模突破万亿规模,达到 17,600 亿,近似呈现指数级增长,2025 年发布的 GPT-5 参数规模达到 20,000 亿,参数量继续增加但与 GPT-4 保持在同一数量级,参数规模有收敛的趋势。将主要大模型按照发布时间进行排序,参数量呈现出先爆发增长,后趋于收敛的类似变化。
参数量与算力需求关系密切,参数量越大,模型复杂度越高,对算力的需求越大。以大模型训练为例,模型训练的总运算量与模型参数规模和 toke 数量的乘积有关,给定单卡运算性能和拟完成训练的时间,参数量越大意味所需芯片数量越多,算力需求越大。
2.大模型火热,用户量激增
ChatGPT 3.5 于 2022 年重磅推出后收获了极好的市场反馈,发布当天便吸引了超过 10 万用户,五天后注册人数突破百万,获得 1 亿用户仅用时两个月,而知名应用软件 TikTok 达成 1 亿用户共耗时 9 个月,微信耗时 433 天。
随后 OpenAI 于 2023 年 3 月发布了不仅能够处理多模态数据且智能水平大幅提高的 ChatGPT 4 大模型,微软、摩根士丹利等一众名企纷纷接入,ChatGPT 实现了 AI 大模型由实验室到商业化应用的历史性转变,大模型热度继续升温,Meta 跟进开源 Lama 大模型,百度发布文心一言大模型、阿里推出通义千问大模型、科大讯飞发布星火大模型,大模型赛道百花齐放。
2025 年 1 月 20 日,Deepseek发布重大更新推出 Deepseek-R1 模型,用户数量出现爆发式增长,2024 年 12 月底至 2025年 1 月底,用户数由 34.7 万猛增至近 1.2 亿,实现 1 亿用户的增长仅用时 7 天,2 月 8 日国内 APP 端日活用户达到 3,494 万,跃居国内 1 月月均活跃用户数榜首。大模型拥有极高人气,用户规模或将持续增加,推理端算力需求将不断增长。
3. Deepseek 推动大模型平价化,利好端侧、应用侧爆发
大模型训练成本高企,ChatGPT-4 的训练使用了约 25,000 块 A100 GPU,以 2.15e25FLOPS 的计算量训练了 90 至 100 天。若 H100 每小时的租用成本为 1 美元,单次训练成本高达 6,300 万美元。
为满足大模型训练的算力需求,多家 AI 巨头斥巨资打造万卡集群,即由一万张及以上的计算加速卡(如 GPU、TPU 或其他专用 AI 加速芯片)组成的高性能计算系统,用以支持千亿级甚至万亿级参数规模的大模型训练,而高端算力卡供应几乎被英伟达一家公司垄断,H100 的官方售价大约在 3000 美元左右,由于供需失衡和缺货原因,市场售价远高于官方价格,英伟达毛利率高达 70%以上。高昂的芯片价格拉升了大模型的训练成本,不利于以大模型为底层架构的应用侧及端侧的商业化,限制了 AI 产业的商业化进程。
通过一系列算法优化,Deepseek-V3 相较于同类模型,训练成本大幅下降,完成训练仅耗时不到两个月,按 H800 芯片算力测算, Deepseek-V3 预训练阶段训练时长为 266,4 万GPU 小时,上下文扩展训练耗时 11.9 万 GPU 小时,后训练阶段耗时 5,000 GPU 小时,假设 H800 每小时的租赁价格为 2 美元,总训练成本为 557.6 万美元,训练成本仅为 GPT-4o的十分之一。
Deepseek-V3 模型和 Deepseek-R1 模型在保证模型性能的前提下,通过优化算法减少训练成本实现了 API 服务价格的显著下降,推动大模型平价化。Deepseek-V3 模型 API 服务定价为每百万输入 Token 0.5 元(缓存命中),每百万输入 Token 2 元(缓存未命中),每百万 Token 输出价格为 8 元。Deepseek-R1 模型每百万 tokens 输入为 1 元(缓存命中),百万 tokens 输入为 4 元(缓存未命中),每百万 tokens 输出为 16 元。GPT-4 每百万输入 Token 约 70 元,大幅高于 Deepseek-V3 模型和 Deepseek-R1 模型的 API 调用价格。
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。