数据觉醒:AI 驱动数据长留存,大量冷数据变温,并需要被高效处理
随着大模型训练与推理对数据访问需求的爆发式增长,大量曾被视为“冷数据”的资源正被重新激活。这些数据因频繁参与模型迭代与实时推理,逐渐转变为“温数据”,甚至因持续调用而成为“热数据”。我们预测,到2035 年,温数据的占比有望超过 70%,传统的数据三层结构将逐渐演变为“热温 - 温冷”两层结构,比例趋于 3:7。这一转变不仅显著提升数据利用效率,更意味着企业和社会能够从历史数据中挖掘出前所未有的价值,推动数据资源从“被动存储”走向“主动赋能”。
在 AI 时代,数据价值得到前所未有的重视,而数据的长期留存也存在诸多问题和挑战。首先是成本与效率的挑战,温数据规模巨大且需被频繁调用,若处理延迟或吞吐不足,会直接导致模型训练周期拉长、智能体响应迟钝,计算与时间成本急剧攀升;其次是实时性的要求,AI 应用(如自动驾驶、实时决策系统)往往需在毫秒内访问关联记忆和上下文数据,低效的 I/O 和数据处理将成为性能瓶颈,无法满足实际场景的实时交互需求;
更重要的是价值密度与提取速度,数据的长留存不是为了“囤积”,而是为了“即时洞察”,高效处理意味着能快速从海量温数据中定位、关联并提取高价值信息,转化为模型智能或行动指令,使数据真正成为驱动智能决策的“高活性燃料”,而非存储系统中的“沉默负担”。因此,对海量温数据的高效处理,是 AI 价值规模化释放的关键前提。
数据驱动智能:数据决定模型智能的高度,记忆决定智能体应用的宽度
大模型的发展正在经历从“参数竞争”到“数据竞争”的战略转向。早期 GenerativeAI 依赖海量训练数据(规模已达PB 级别),单纯增加参数数量的边际效益逐渐递减。在Generative AI 时代,数据能力主要体现在训练数据量上,训练数据规模从 ChatGPT 的 0.1 万亿 Token 增长到未来的 60~100 万亿 Token,训练数据规模将超过 100PB。
到了 AI 智能体时代,数据能力的要求将出现三大变化 , 第一,AI 从无状态交互变为有状态交互,从被动响应升级为主动规划、反思迭代,可自主完成复杂任务,在推理过程中,模型状态持续更新,需保存 PB 级状态数据,支持百万级并发查询,知识提取可促进模型自进化;第二,AI 从智能个体升级为多智能体系统,多智能体要通过紧密协作实现集群智能,而多智能体任务协作需共享任务状态和历史上下文,且这些数据需要具备跨任务的可迁移性;第三,智能体的单一会话记忆升级为持续的、跨会话的持久性记忆,个性化终身记忆的数据增长速度从 10GB/s 增长到 1TB/s,提供百 PB 级的持久记忆能力,从而有效提升 Agentic AI 的智能水平、精度和泛化性。
而进入物理 AI 时代,数据是物理世界到数字世界的实时映射。通过与环境数据的高频交互,AI 系统可实现动态自演进,不再依赖预先标注的数据集,而是通过实时感知与反馈循环不断优化。
伴随数字孪生、具身智能与超级智能体的普及,预计到 2035 年,存储容量需求将比2025 年增长 500 倍,AI 数据占比超过 70%。
数据存储范式变革:从存数据到存知识,释放数据价值
为适应大模型对数据逻辑与语义关系的深度需求,数据存储的基本范式正在发生深刻变革。传统以文件、对象为基础单位的存储方式逐渐无法满足 AI 对数据关联性、状态性与可演进性的要求。过去,一个文件或一个对象是一个封闭的、静态的单元,存储系统的主要职责是保证其不变性、持久性和可检索性。然而,AI 应用处理和理解世界的方式是动态的、关联的且充满状态变化的,这与传统存储范式产生了根本性的不匹配。
未来,数据存储范式的变革主要体现在:
第一,数据的关联性。AI 需要理解数据之间复杂的语义关系。在训练、推理时,智能体需要快速检索到与当前对话最相关的历史片段。传统的文件系统将这些数据分别存储在孤立的文件和文件夹中,它们之间的语义关联是隐含的、未被记录的,需要耗费大量计算资源在每次调用时重新建立关联。而未来的存储范式会直接存储已经计算好的“关联”(如KVCache、知识图谱三元组),使数据天生就带有“上下文”。
第二,数据的状态性。智能体具有连续性的记忆,其价值很大程度上体现在其不断演进的状态上,如对话的历史、任务的执行进度、从交互中学到的偏好等。传统的文件存储的是“结果”,而 AI 进程需要持续读写和更新的正是这些“状态”。以文件为单位来频繁更新这些状态数据是极其低效的。未来的存储系统需要为这种细粒度、高频的状态更新而设计,直接管理智能体的“记忆流”。
第三,数据的可演进性。AI 模型本身在持续学习与微调,这意味着其核心知识(通常体现为权重)在不断发生增量变化。传统的存储方式只会保存整个模型的完整副本,这造成了巨大的冗余。未来的存储范式需要能够高效地保存和检索权重增量,只记录变化的部分,从而实现模型知识的轻量化、版本化管理和快速回滚,这大大降低了模型迭代的成本和复杂性。
到 2035 年,数据的价值不再仅源于其规模或存储形态,而是通过动态激活、场景化供给与语义化存储得以全面释放。届时,数据不仅承载记忆,更将成为推动文明跃迁的“新燃料”。存储不再只是“数据仓库”,而将进化为“智能发动机”,与算力和算法一道,共同推动人类迈向智能社会的新纪元。
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。