大模型推理服务大规模部署，如何影响硬件市场？ - 产业科技 - 行业新闻

大模型推理服务大规模部署，如何影响硬件市场？
思瀚产业研究院 2024-11-28

1、大模型性能提升，推动推理算力需求加速增长

大模型服务已从聊天机器人进化为严肃生产力，十一月中，MacOS ChatGPT 客户端已经开始支持读取用户屏幕上的代码并给出编程建议，这是 OpenAI “Work with Apps”功能在编程工具上的体现，从名字上可以看出，该功能可能不仅面向编程工具，未来可能支持更多工具。Anthropic 也已在十月中发布了其 Claude 3.5 Sonnet 更新版本，通过其“Computer USE”API，Claude 被训练具备屏幕视觉理解能力，能够“观察”屏幕上发生的事情，并通过分析屏幕截图理解用户界面（UI）的布局和内容。

当开发者将特定任务交付给 Claude 并授予其必要的权限时，它可以通过解析截图计算光标需要移动的具体像素距离（包括垂直和水平方向），以便精准定位到目标区域进行操作。尽管作为第三方模型，Work with Apps 和 Computer USE 并没有接入系统底层，大模型在系统层面的集成已经初见雏形，从推理算力的结构上来看，系统集成大模型提供类似于 AIAgent 功能，输入和输出 Token 的数量将大大增加，单位 Prompt 所需的推理算力将显著增长。

大模型正在被加速应用，其生产力属性已经在消费级市场获得了验证，GPT-4o 和 Claude 3.5 的发布代表着大模型能力进入了一个新的阶段，将驱动推理算力需求的大幅提升。

2、服务器推理：内存墙难破，HBM 容量仍为竞争要点

GPT 类模型通过给定前文来预测下一个 token（即单词或符号）进行训练。在生成文本时，需要首先输入提示词（prompt），然后模型预测下一个 token，并将其添加到提示词中，随后再预测下一个 token，重复这一过程直到完成生成。

这一生成机制每次生成下一个token 时，所有模型参数必须从内存传输到处理器，而这些庞大的参数需要尽可能靠近计算单元存储，以降低数据传输的延迟,必须确保这些参数能够在需要时精准加载到芯片上。这种推理模式对硬件的内存带宽、容量以及数据传输效率提出了严苛要求，也成为当前生成式 AI 技术突破的重要瓶颈之一。

Instinct GPU 相对于英伟达 GPU 一直提供更高的存储容量和存储带宽，MI325X 和 Hopper架构中存储容量最大的 H200 相比，Instinct 在显存容量上具有 1.8 倍的优势，这意味着加载特定模型参数时所需的 GPU 数量减少了 1.8 倍，同时，AMD 在带宽上也具备 1.25倍的优势，这表明在将模型参数传输至 GPU 的过程中所需时间更短。在 AMD 的路线图中，未来的 Instinct GPU 的存储容量和带宽将持续增长，MI355X 将采用HBM3E，存储容量将达到 288GB，带宽将达到和 B200 相同的 8TB/s，而存储容量将显著高于 B200 的 192GB。

Instinct GPU 除了在存储容量方面具有显著优势，其相对英伟达 GPU 较低的定价更为低廉，三星于去年采购过一批 MI300X GPU，单价约为一万美金，相较于当时 H100 三万至四万美金，有显著的成本优势。根据我们的产业链调研，出于降低成本和寻找第二供应商的考虑，海外云场正在积极尝试使用 AMD GPU 集群。尽管 AMD 受制于软件生态和互联性能在训练领域尚难以于英伟达竞争，我们认为随着推理算力需求大幅提升，AMD 在该领域将持续收益。

3、端侧推理：单用户推理导致内存端高成本，端云结合将是未来趋势

AI 手机和 AIPC 提供的端侧 AI 允许用户将数据留在本地，但端侧 AI 的单用户场景意味着Batch Size 为 1，这意味着每次从内存加载模型参数到芯片上时，其成本只能分摊到单个token 上，无法通过其他用户的并发计算来缓解这一瓶颈，服务器端的推理我们先前已经讨论过，内存墙仍然存在，但多个用户的推理请求使内存加载参数的成本分摊到多个token 上，大幅降低单个 token 生成的开销，对生成式模型的推理效率提升有显著作用。从模型参数占据的存储空间来看，当前 AI 手机的内存容量仍旧是严重不足的。

以 Llama7B 模型为例，在 FP16 格式下，每个参数占据两个字节，对应 14GB 的内存容量，除此之外，手机 RAM 中还需要存储应用程序和操作系统相关数据，在 AI 手机本地存储并运行这一规模的端侧模型还是颇有难度的。

根据 IDC 数据，端侧 AI 需求尚未推动智能手机单机内存容量显著增长，我们认为这并非手机厂商没有意识到端侧 AI 的重要性，而是在端侧实现高性能模型所需的存储容量远高于目前技术所能提供的，即便手机厂商将存储容量从16GB 提升至 32GB 能够显著增大可容纳模型参数规模，但和超大云端模型当前所能提供的性能相比，仍旧是不具有可比性的。

从消费者的角度来看，端侧并非严肃生产力场景，用户并不需要频繁处理复杂任务。即使是在类似 AIPC 这样的端侧场景中，复杂任务往往可以通过网页或客户端接入云服务来完成，而非依赖本地化运行复杂内容。因此，单纯为了本地化复杂任务而额外增加内存开销并不具备充分的合理性。我们认为，端侧 AI 用户的核心需求并不在于直接在本地处理复杂任务，而是通过 AI 实现系统层面的非标准化操作。

例如，自动将个人住址信息填写到电商应用中。相比单纯依靠提升 AI 能力来满足这些需求，我们认为更优的解决方案是将系统底层的数据接口和指令接口与 AI 模型深度集成。具体而言，AI 模型可将用户指令拆解为具体操作指令，并通过脚本直接与操作系统交互，从而以更高效、更经济的方式实现个性化功能。

在本地模型性能显著提升需要大量额外内存容量，而端侧 AI 用户的核心需求能够通过数据接口和脚本操作来满足的背景下，我们认为端侧 AI 硬件厂商大幅增加内存容量并非明智之举。当前市场数据也验证了这一观点，在内存技术尚未实现单位体积容量大幅提升或单位容量成本显著下降的前提下，端侧 AI 硬件厂商对内存容量配置的谨慎态度可能将持续。

更多行业研究分析请参考思瀚产业研究院《2024-2029年中国汽车紧固件行业发展策略及投资建议分析报告》，同时思瀚产业研究院亦提供行研报告、可研报告（立项审批备案、银行贷款、投资决策、集团上会）、产业规划、园区规划、商业计划书（股权融资、招商合资、内部决策）、专项调研、建筑设计、境外投资报告等相关咨询服务方案。

免责声明：
1.本站部分文章为转载，其目的在于传播更多信息，我们不对其准确性、完整性、及时性、有效性和适用性等任何的陈述和保证。本文仅代表作者本人观点，并不代表本网赞同其观点和对其真实性负责。
2.思瀚研究院一贯高度重视知识产权保护并遵守中国各项知识产权法律。如涉及文章内容、版权等问题，我们将及时沟通与处理。