首 页
研究报告

医疗健康信息技术装备制造汽车及零部件文体教育现代服务业金融保险旅游酒店绿色环保能源电力化工新材料房地产建筑建材交通运输社消零售轻工业家电数码产品现代农业投资环境

产业规划

产业规划专题产业规划案例

可研报告

可研报告专题可研报告案例

商业计划书

商业计划书专题商业计划书案例

园区规划

园区规划专题园区规划案例

大健康

大健康专题大健康案例

行业新闻

产业新闻产业资讯产业投资产业数据产业科技产业政策

关于我们

公司简介发展历程品质保证公司新闻

当前位置:思瀚首页 >> 行业新闻 >>  产业新闻

关于 Scaling Law 的争议,从数据规模到数据精度
思瀚产业研究院    2024-12-30

1、大模型的摩尔定律,算力需求指数级增长

Scaling LawAI 产业发展的通用规律,在 Scaling Law 下,大模型对算力的需求以每年 10 倍左右的速度增长,甚至超过了摩尔定律下半导体晶体管密度的增长速度。AI 大模型的算力需求在过去几年呈现快速增长的态势,Transformer算力需求在 2 年内增长 750 倍,平均每年以接近 10 倍的速度增长。以 Open AIGPT 为例,GPT 1 在 2018 年推出,参数量级为 1 亿个,Open AI 下一代推出的 GPT 5 参数量级预计达到 10 万亿。

2、数据成为瓶颈,Scaling Law 放缓

大模型的 Scaling Law 表明,计算量、数据量、参数规模三个因素的增长能够不断提升大模型的性能。在任意其他两个指标不受限制的情况下,大模型的性能和另一个因素都呈现幂律关系,在大模型过去的发展过程中,算力、数据量、参数规模三个指标均没有达到上限,Scaling Law 仍然在发挥作用,大模型的性能也在持续改善。

然而公开数据量的有限性制约了 Scaling Law 进一步发挥作用。据 IDC,2018年全球数据总量为39.9ZB,预计到2028年,全球数据总量将达到393.8ZB,CAGR 增速为 25.7%,该增速远远低于 Scaling Law 下大模型参数和算力需求每年 10 倍左右的增长速度。Pablo Villalobos 等人的研究表明,在 2028 年左右,大模型能够获得的数据量级将达到上限,受限于数据量,Scaling Law 将会放缓。实际上,由于大模型自 2022 年底以来的加速发展,数据量可能在 2028 年以前就会达到天花板,从而限制 Scaling Law 发挥作用。

3、Scaling Law 2.0,高精度私域数据的强化学习

当下传统的 Scaling Law 受限于数据量,私域高精度数据或成为 ScalingLaw 2.0 的核心要素。12 月 15 日,在 NeurIPS 大会上,Open AI 前首席科学家Ilya 在公开演讲中提到,由于目前“我们已经达到了数据的峰值,未来不会再有更多的数据”,当前 AI 模型的预训练方式可能走向终结。

Ilya 的发言认为当前传统的 Scaling Law 即将失效,新的 Scaling Law,即在特定领域的强化学习将发挥更重要的作用。想要在特定领域训练出垂直化的“专家大模型”,数据的数量不再成为衡量数据好坏的唯一标准,数据的精度、准确度等指标更为重要,私域数据、人工标注的数据可能成为下一阶段大模型发展过程中的核心竞争力。

更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。

免责声明:
1.本站部分文章为转载,其目的在于传播更多信息,我们不对其准确性、完整性、及时性、有效性和适用性等任何的陈述和保证。本文仅代表作者本人观点,并不代表本网赞同其观点和对其真实性负责。
2.思瀚研究院一贯高度重视知识产权保护并遵守中国各项知识产权法律。如涉及文章内容、版权等问题,我们将及时沟通与处理。