首 页
研究报告

医疗健康信息技术装备制造汽车及零部件文体教育现代服务业金融保险旅游酒店绿色环保能源电力化工新材料房地产建筑建材交通运输社消零售轻工业家电数码产品现代农业投资环境

产业规划

产业规划专题产业规划案例

可研报告

可研报告专题可研报告案例

商业计划书

商业计划书专题商业计划书案例

园区规划

园区规划专题园区规划案例

大健康

大健康专题大健康案例

行业新闻

产业新闻产业资讯产业投资产业数据产业科技产业政策

关于我们

公司简介发展历程品质保证公司新闻

当前位置:思瀚首页 >> 行业新闻 >>  产业科技

AI推理芯片的主要部署地点及分类
思瀚产业研究院    2025-08-25

大模型应用带动AI推理的快速增长

AI、大数据和云计算的快速发展正推动著一场席捲行业的智能化转型浪潮,从根本上重塑各行各业的生产模式和竞争格局。AI正日益解决交通、互联网搜索和制造等领域的实际问题,从而加快社会的智能化转型。

大模型参数量持续增长,训练千亿参数模型的成本已突破千万美元级别,边际效益开始递减。同时,推理成本的颠覆性下降也引发了推理应用的爆炸性增长。DeepSeek等国产开源模型的出现,无需完整的训练週期即可进行特定场景的优化,进一步降低开发壁垒。此外,国产芯片替代的进展亦为大规模落地创造了更可靠的硬件基础。

AI已从迭代算法改进发展到计算基础设施的稳健进步,推动了基础硬件的创新。在这一演变过程中,作为实现智能计算的核心硬件,AI芯片正成为价值链中的关键组成部分。AI的发展亦重新定义硬件产品。大模型正在催化两条并行的硬件演进路径,包括由AI快速发展催生的全新产品类别的AI原生产品及通过整合AI能力对现有产品进行升级改造而产生的AI赋能产品。

AI芯片的定义及分类

AI芯片已成为支持大规模运算任务方面不可或缺的硬件,在AI模型开发和部署的两个基本阶段—训练和推理中,均发挥著至关重要的作用。

训练 涉及利用大规模数据集和机器学习算法开发AI模型。作为AI发展的基石,此阶段著重于设计模型架构及优化参数。其计算需求随著模型複杂度和训练规模的指数增长而增加。

推理 则与之相对,其将应用训练好的模型来处理新数据,可执行影像、语音、文字识别、分类及预测等任务。其效能取决于併发处理及响应速度,针对特定部署情境进行定制。

鑑于该等阶段的运算强度、处理频率及部署环境上的显著差异,各阶段都需使用专门AI芯片:

训练芯片 擅长构建大规模AI模型,强调高运算精度、大内存带宽及高吞吐量。该等芯片主要用于云端数据中心,用于处理高负荷工作。

 推理芯片 则优化效率,强调低延迟、高性价比、能效比及可扩展性。该等芯片可覆盖云平台至边缘及终端等多样化场景,满足各种应用的即时需求。

AI推理芯片的架构演变

随着人工智能应用的快速普及,为满足市场对极致推理性价比的高能效人工智能推理系统的需求,用于人工智能推理的芯片架构正在发生根本性变革,从CPU通用计算,GPU通用并行计算转向NPU面向人工智能推理领域优化的并行计算。

在人工智能的早期阶段,人工智能模型的训练和推理计算,採用的是面向通用计算的基于CPU的IT基础设施,但CPU在并行处理能力和能效方面的局限,促使行业开始採用具备通用并行计算能力的图形处理器(GPU)。当前,多数人工智能模型的训练是利用GPU完成的。但是,人工智能模型的训练和推理是两类不同的任务,它们之间存在显著的差异。

儘管GPU具备更出色的并行计算能力,但其面向图形处理的架构,对于张量运算(即大规模矩阵运算),尤其是仅关注神经网络前向计算的AI推理而言,并非最优选择。随着人工智能应用採用的深度学习模型日趋複杂,GPU在功耗和计算密度上的短板逐渐暴露,行业由此转向专门设计的神经处理单元(NPU)。

NPU是人工智能推理加速计算领域的一次巨大飞跃,它原生支持张量运算,支持低精度量化,并具备大规模并行处理能力。这种架构专用化的芯片在四个关键维度实现了前所未有的提升:(1)延迟降低(支持实时推理);(2)能效提升(最大化每瓦吞吐量,将部署范围扩展至边缘设备和终端设备);(3)计算密度提高(单位尺寸的芯片可容纳更强的专用工作负载计算性能);及(4)成本效益优化(推动其在各类应用场景中更广泛、更可持续地落地。)

通过软硬件协同设计,NPU实现了算法感知层面的优化,将人工智能推理从一种功能性能力转变为可扩展、高性价比且可投入生产的解决方案。从通用CPU到半专用GPU,再到针对人工智能推理工作负载优化的NPU,这种架构演进历程映射出人工智能部署的成熟过程。

场景特定化优化的趋势将进一步强化,未来的芯片会更精准地适配垂直领域应用的独特计算模式。这种硬件专用化与算法优化的结合,正形成一个良性循环,推动人工智能从实验室走向实际应用,产生真实世界价值。

AI推理芯片的主要部署地点及分类

AI推理芯片可按部署地点分为三类:云端推理芯片、边缘推理芯片及终端推理芯片。

云端推理芯片用于数据中心及公众云服务器,提供每秒100至超过1,000次TOPS的运算能力,用于高併发任务及大模型推理。虽然该等芯片具有优秀处理能力及可扩展性,但其高能耗带来显著能源管理挑战。

边缘推理芯片用于云服务器及终端,通常为边缘网关、机器人等应用提供100-300TOPS的计算能力。该等芯片以低延迟、高可靠度及均衡能效为设计核心,通过本地数据处理以降低对云端的依赖及带宽需求。该等芯片的中阶运算效能使其非常适合需要快速响应及在数据来源附近稳定运作的场景。该等芯片亦能够执行压缩的AI模型,支持各种边缘智能任务。

终端推理芯片 直接集成至智能手机(1至50 TOPS+)及可穿戴设备(0.1至0.5 TOPS)等轻量级商业产品,著重超低功耗及紧凑设计。该等芯片可进行毫秒级本地推理,在加强即时响应的同时优化电池寿命。

随著轻量级大模型逐渐增加在终端层面的应用,终端推理芯片在支持智能语音助手、实时翻译和图像识别等应用上扮演著重要角色。通过处理终端内的数据,该等芯片能大幅改善移动应用的用户体验,并大幅降低云传输需求。

更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。

免责声明:
1.本站部分文章为转载,其目的在于传播更多信息,我们不对其准确性、完整性、及时性、有效性和适用性等任何的陈述和保证。本文仅代表作者本人观点,并不代表本网赞同其观点和对其真实性负责。
2.思瀚研究院一贯高度重视知识产权保护并遵守中国各项知识产权法律。如涉及文章内容、版权等问题,我们将及时沟通与处理。