当前主流模型仅涵盖三个模态,未来扩展空间大。当前主流的机器人大模型多是VLA,即只包括视觉、语言和动作三个模态,未来若想加强人形与世界的交互,构筑更真实的世界模型,或将需要融入如触觉、温度等更多模态。
触觉或为下一个模态,VTLA已有相关研究储备。触觉的引入可助力VLA模型进一步泛化。通过引入触觉这一关键信息,VLA模型可进一步延申为VTLA模型。目前包括戴盟、帕西尼在内的公司已有相关VTLA技术储备,预计未来触觉将成为下一个融入模型的模态。
2、架构演进:引入“世界模型”作为核心推理机制
未来机器人通用大模型的架构演进方向之一,是将“世界模型”引入决策推理流程,作为具身智能的核心支撑模块。 当前的大模型大多基于感知和语言指令直接生成动作,但缺乏对环境物理规律的建模能力,导致其泛化性与高阶推理能力受限。
世界模型(World Model)本质上是一类可以模拟环境动态的神经网络,以 Cosmos 为代表的架构能够通过学习状态转移规律,基于当前状态与输入预测未来状态,实现“感知—建模—预测—决策”的闭环认知。这类机制的引入有望赋予机器人“想象力”,让其不仅能看到当前、听懂指令,更能推演未来,从而在面对复杂任务、多变环境时具备更强的适应能力与泛化能力。
3、世界模型:英伟达发布Cosmos世界模型平台
英伟达发布世界模型平台,提供大量仿真数据。25年1月,英伟达发布Cosmos 世界模型平台,上面有一系列开源、开放权重的视频世界模型,参数量从 4B 到 14B 不等。这些模型的作用非常明确,就是为机器人、自动驾驶汽车等在物理世界中运行的 AI 系统生成大量照片级真实、基于物理的合成数据,以解决该领域数据严重不足的问题。Cosmos一共包括四大功能模块:扩散模型、自回归模型、视频分词器,以及视频处理与编辑流程。
4、数据构成:仿真数据与真实数据融合共用
未来机器人大模型的训练数据将呈现“仿真+真实”共存的融合态势,这是提升模型泛化性与智能性的必然选择。纯真实数据训练虽然更贴近实际,但采集效率低、成本高,同时由于大多为“成功范式”,模型难以从失败中学习,缺乏负样本经验。而单靠仿真数据又存在明显的 Sim2Real Gap,仿真环境难以完全还原现实世界中的感知噪声、物理扰动与交互复杂性。因此,真实数据用于纠偏与对齐,仿真数据用于规模扩展和多样性覆盖,二者融合训练可有效兼顾效率与表现,是行业公认的发展方向。
为了支撑大模型对海量多样化数据的需求,构建标准化、可扩展的机器人数据训练场,已成为业内普遍共识与行动方向。 根据 Scaling Law 的经验推演,1 亿条高质量行为轨迹数据是支撑具身智能大模型能力跃迁的关键门槛。当前,包括优必选、机器人创新中心、Tesla、华为在内的多个企业和研究机构,正加速搭建“仿真-真机融合”的数据训练场,通过并行机器人、远程操控、仿真回放等机制,高效采集覆盖不同场景、任务和交互模式的大规模数据。这些训练场不仅是数据源,更是模型评估、数据标准化和迭代反馈的基础设施,将成为未来具身智能训练体系的关键底座。