大语言模型的竞争主要集中在两个核心要素上:性能和成本。性能决定了模型能够处理的任务复杂度和准确性,而成本则影响模型的商业可行性和普及程度。这两者的平衡将直接影响大语言模型在市场上的竞争力与应用广度。
硬件性能的提升与软件算法的创新共同推动了大语言模型的不断提升。在硬件方面,GPU 性能的增强显著提升了模型的训练和推理能力,得益于半导体工艺的进步和持续的 GPU 设计创新,这使得复杂任务的处理更快速高效。
软件方面,创新算法如 Chinchilla 的最优缩放、人类反馈强化学习(RLHF)、推测解码(Speculative Decoding)和 Flash Attention 等,为大模型的发展注入了新的活力。例如,Chinchilla 通过合理分配模型大小和训练数据量,优化了有限计算资源下的模型训练;Llama2 利用RLHF 方法,确保输出更符合用户期望;推测解码实现了推理速度的显著提升;而Flash Attention则通过优化注意力机制,提高了 GPT 模型的训练速度。这些因素的结合使得大语言模型在性能和效率上不断取得突破。
随着训练成本的不断下降,AIGC 的应用正变得越来越普及。赖特定律(Wright's Law)表明,当一种产品的累计产量翻倍时,其单位成本将下降一个固定百分比。在 AIGC 领域,尤其是大模型训练中,GPU 硬件性能的提升和算法优化对成本降低起到了关键作用。
根据ARK 的分析,随着硬件技术的不断进步,AI 相对计算单元(RCU)的成本预计每年将降低53%,而模型算法的增强预计每年可使训练成本降低 47%。预计到 2030 年,硬件和软件的融合将使AIGC 训练成本以每年 75%的速度下降。这一显著的成本降低将推动AIGC技术的普及与经济性,从而促进 AIGC 的广泛应用和创新。
随着 LLM 公司之间竞争的加剧,AIGC 的推理成本正迅速降低。AIGC模型在处理输入和输出时,其计算资源消耗与输入输出的数据量成正比,费用计算基于输入输出的 Token 数量,这种计费方式为不同用户提供了灵活性。
以 OpenAI 为例,在过去两年里,它将 API 访问成本降低了99%。具体来看,GPT-3 的 API 推理成本从 2021 年的每千 Token 0.06 美元降至2022年的0.02美元,降幅达 66%。到 2023 年,GPT-3.5 Turbo 的API 推理成本与2021年相比下降了 86%。同时,GPT-4 Turbo 的 API 推理成本与GPT-4-32k 相比降低了92%,其成本甚至低于一年前的 GPT-3。
值得注意的是,这一推理成本的降低是在提供更长的上下文、更低的延迟和更新知识截止日期的情况下实现的。微软CEO 纳德拉认为,与摩尔定律类似,AI 领域也存在 Scaling Law(尺度定律),在AI 时代,衡量单位是“每美元每瓦特的 Token 数”。这种竞争态势将进一步推动AIGC 技术的普及与应用。
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。