首 页
研究报告

医疗健康信息技术装备制造汽车及零部件文体教育现代服务业金融保险旅游酒店绿色环保能源电力化工新材料房地产建筑建材交通运输社消零售轻工业家电数码产品现代农业投资环境

产业规划

产业规划专题产业规划案例

可研报告

可研报告专题可研报告案例

商业计划书

商业计划书专题商业计划书案例

园区规划

园区规划专题园区规划案例

大健康

大健康专题大健康案例

行业新闻

产业新闻产业资讯产业投资产业数据产业科技产业政策

关于我们

公司简介发展历程品质保证公司新闻

当前位置:思瀚首页 >> 行业新闻 >>  产业投资

多模态大模型拉动AI训练、推理算力需求增长
思瀚产业研究院    2024-05-07

大模型训练算力测算:训练过程可分前向传播(Forward Pass)和反向传播(Backward Pass)。

Ø 前向传播:输入数据(例如图像、文本等)通过神经网络的各层进行传递,以得到输出结果,包含输入数据与权重矩阵相乘、应用激活函数等操作,目的为将计算网络预测输出,并将其与实际目标值比较,计算损失函数(Loss Function)的值。

Ø 反向传播:一种高效计算梯度算法,从输出层开始,沿着网络层次结构向输入层反向传播,计算每个权重的梯度(注:梯度表示权重对损失函数贡献的大小);同时,在计算出所有权重的梯度后,使用优化算法更新权重,达到减小损失函数值的目的。

Ø 计算次数:一次前向传播需要一次计算,一次反向传播需要两次计算(计算梯度+权重更新),则完成一次神经网络迭代需要对所有输入的数据和模型参数进行3次计算;每一次计算就是矩阵运算,对于一次矩阵运算需要进行一次乘法及加法(共计2次浮点运算),即对于每个Token、每个模型参数,需要进行2 ×3 Flops = 6次浮点运算。以GPT-3大模型训练为例,模型参数量为175B,训练Token数量为300B,采用稠密(Dense)模型,其需要的训练总算力为175B × 300B × 6 = 3.1523 FLOPs。

Ø 所需算力卡数量及时间:假设使用业内FLOPS最大的利用率来测算(此处取46.2%),单卡A100 FP16精度下算力为312 TFLOPS,则3.15 23 FLOPs/(312 TFLOPs ×46.2%×3600s × 24h/天)= 2.53万张A100/天,即若使用1000张A100,大约训练一遍GPT-3需要25.3天。

表:芯片利用率情况资料来源:Aakanksha Chowdhery等著-《PaLM:Scaling Language Modeling with Pathways》- arXiv(2022)-P9,国信证券经济研究所整理Model# of Parameters(in billions)Accelerator ChipsModel FLOPSUtilizationGPT-3 175B V100 21.3%Gopher 280B 4096 TPU v3 32.5%Megatron-TuringNLG530B 2240 A100 30.2%PaLM 540B 6144 TPU v4 46.2%

• 大模型推理算力测算:推理过程主要包括分词(Tokenize)、嵌入(Embedding)、位置编码(Positional Encoding)、Transformer层、Softmax。

推理主要计算量在Transfomer解码层,对于每个token、每个模型参数,需要进行2 × 1 Flops = 2次浮点运算,则单词推理算力消耗为模型参数量 × (提问Tokens + 回答Tokens)×2。

• 以GPT-3单次推理为例,假设用户每次提问20 Tokens,ChatGPT回答300 Tokens,模型参数量为175B,则单次推理算力需求为175B × (20 Tokens + 300 Tokens)×2=1.1214 FLOPs,若使用单张A100 GPU进行推理,假设芯片利用率为46.2%,则完成单次所需时间为1.12 14 FLOPs/(312 TFLOPs

免责声明:
1.本站部分文章为转载,其目的在于传播更多信息,我们不对其准确性、完整性、及时性、有效性和适用性等任何的陈述和保证。本文仅代表作者本人观点,并不代表本网赞同其观点和对其真实性负责。
2.思瀚研究院一贯高度重视知识产权保护并遵守中国各项知识产权法律。如涉及文章内容、版权等问题,我们将及时沟通与处理。