世界模型——预测未来的“梦境”
近期自动驾驶领域掀起开发世界模型的热潮,关于世界模型,谷歌在2018年发表了影响深远的论文《World Models》,对世界模型进行了定义——即根据世界运行的规律可以预测未来的“梦境”。人类的思考和行为会参考大脑中的“世界模型”,甚至人的感知亦是对外部世界的抽象和预测,而最简单的世界模型构成即为感知+记忆模块,将外部环境的信息压缩并理解进而预测未来。
对自动驾驶而言,世界模型具有重要的意义:
(1)可以构建闭环的验证测试体系,对端到端算法来说,构筑闭环的验证体系难度大且必要性强;
(2)可以作为训练数据的生成器,生成诸多长尾场景供自动驾驶算法训练时使用;
(3)可以直接作为自动驾驶算法的决策器,当模型可以预测未来路况,其实也可以预测驾驶员应当执行的行为。
目前已经有诸多玩家如特斯拉、英伟达、Wayve等玩家开始构建自己的世界模型。
特斯拉的通用世界模型可以预测未来,实现多种功能
自动驾驶领域,世界模型百花齐放
特斯拉的World Model
特斯拉在2023CVPR上对其端到端模型进行了简单的介绍,希望能够构建一个完整的4D神经网络,能够理解世界运行的规律。具体而言,世界模型可以根据过去的视频预测未来场景的演化,具体而言拥有几大功能:
(1)预测未来;
(2)在没有本体实体的情况下帮助网络学习;
(3)行动本身可以作为生成的条件;
(4)车辆本身的行为会影响生成的效果,比如左转右转会分别生成不同的视角。
(5)可以用于仿真;
(6)可以生成图像、几何空间的信息、语义信息等;
(7)泛化性比较好。
世界模型呈现出对物理世界一定程度的模拟。特斯拉发现网络可以联合预测汽车周围8个摄像头的信息;同时各个摄像头的颜色保持一致,表明可以更好地预测传感器的特性;此外尽管开发者没有要求它以三维或者非三维的方式进行计算,但是网络自行理解了三维空间的概念,视频中运动的物体也具有一致性,通过自然语言的提示,模型可改变视角;其可根据要求以相同的起点生成不同的结局;对视频语料的适应性好,可以通过行驶记录、油管或者自己手机中的数据来训练这个模型。
Wayve的GAIA-1
GAIA-1亦可实现对场景的理解。英国的端到端自动驾驶公司 Wayve.ai 在 2023 年发布了GAIA-1模型,它可以依靠视频、文本和动作的输入生成逼真的视频。模型可以生成分钟级的视频,同时可以生成多种合理的未来,帮助自动驾驶模型的训练和仿真。
多模态数据训练后的模型亦呈现出对驾驶场景出人意料的认知。GAIA-1模型呈现出一些有趣的特点:
(1)学习到了高级结构和场景动态:可以生成连贯的场景,其中的对象位于合理的位置并且展示出合理的交互状态,如路灯、道路规则、让路等,表明模型不仅记住统计模式,还理解控制世界上物体的排列和基本规则。
(2)拥有强泛化性和创造性:可以产生训练集中尚未明确出现的的对象和场景。
(3)拥有情景意识:可以根据上下文的信息生成连贯的动作和响应,并展示出对3D几何的理解以及道路使用者决策过程中的因果关系的理解,如可反应道路不平整引起的视角俯仰等作用。
英伟达
英伟达的基础模型基于多模态数据训练,可生成逼真且灵活变化的驾驶场景视频。英伟达在近期2024年GTC大会上也展示了其在世界模型领域的新进展,通过将多模态数据输入模型训练并让模型预测未来驾驶场景,自动驾驶基础模型可以稳定生成多个摄像头拍摄到的逼真的驾驶场景演变,此外通过语言提示词也可以使得模型呈现的场景灵活变化,如告诉模型视角为前视摄像头,汽车正行驶在雪天的道路上,两侧道路的树木被雪覆盖,道路上也有雪散落,模型可以生成逼真的驾驶场景。