智能算力需求:训练数据量+参数量大幅提升,模型能力“涌现”
训练数据量+参数量大幅提升,模型能力“涌现”。根据2022年谷歌、斯坦福大学和Deepmind联合发表的《Emergent AbilitiesofLarge Language Models》,很多新能力在中小模型上线性放大都得不到线性的增长,模型规模必须呈指数级增长并超过某个临界点,新技能才会突飞猛进。同时,模型的参数量和数据量在一定程度下是正相关的,因为:
a)在小规模数据上训练模型时,若模型参数量过大,可能出现过拟合情况;
b)在大规模数据上训练模型时,若不增加模型参数量,可能造成新的知识无法存放的情况。
智能算力需求:大模型训练+推理拉动智能算力需求快速增长
大模型训练+推理拉动智能算力需求快速增长。
a)模型迭代和数量增长拉动AI算力需求增长:从单个模型来看,模型能力持续提升依赖于更大的训练数据量和模型参数量,对应更高的算力需求;从模型的数量来看,模型种类多样化(文生图、文生视频)和各厂商自主模型的研发,均推动算力需求的增长。
b)未来AI应用爆发,推理侧算力需求快速增长:各厂商基于AI大模型开发各类AI应用,随着AI应用用户数量爆发,对应推理侧算力需求快速增长。
智算中心:以GPU、AI加速卡为核心的新型数据中心
智算中心是以GPU、AI加速卡等智能算力为核心,集约化建设的新型数据中心。智算中心为AI大模型训练、推理提供算力支撑,同时为AI应用提供算力服务、数据服务和算法服务;以中国移动推出了NICC新型智算中心为例,可分为“三层两域”:
• 基础设施层:提供计算、存储、网络等硬件资源。
• 智算平台层:作为资源管理核心,提供裸金属、虚机和容器等多样化实例以及细粒度的资源池化能力;搭建算力原生平台提供应用跨架构迁移能力。
• 应用使能层:集成行业主流AI开发框架。
• 智算运维域:负责对底层IaaS进行管理维护,确保系统稳定运营。
• 智算运营域:对接外部客户,提供计量计费、访问、交易等界面,对内根据上层任务进行资源编排调度。