发展目标趋同,采用技术相似,Sora和世界模型有望互相促进,共同前行
模拟真实世界,预测未来是共同的目标。Open AI给自己的Sora模型起名叫做World simulator(世界模拟器),无独有偶,视频生成公司Runway在接连发布了Gen-1和Gen-2视频生成软件后,表示将进军通用世界模型的构建,以更好的理解和预测视觉世界及其动态。
在视频生成领域,要想实现进一步的视频生成效果提升,让模型理解物理世界的规律似乎为必经之路。在自动驾驶领域包括特斯拉、Wayve等公司均通过视频训练来构建自己的世界模型,各类玩家逐步走向相似的方向。
技术上来看,算法架构存在共性。从模型结构来看,无论世界模型、Sora,都采用编码器将复杂的外部世界编码、压缩成为潜在空间的向量,在潜在空间中预测未来,并将结果通过不同类型的解码器解码成为所需要的信息形式如点云、视频、控制信息等。而自动驾驶和视频生成的目标均为长时间的生成稳定性、前后一致性高的视频信息。
集结最优秀人才和资源,产业发展有望加速。我们已经看到Sora出现后,OpenSora、Vidu等新兴视频生成算法表现出优异的性能。我们认为视频生成、大模型领域以及自动驾驶领域汇集全球最优秀的人才和最丰富的资源,有望互相促进,Sora的构建和发展有望为自动驾驶带来启发,推动产业加速前行。
国内团队采用U-Vit架构构建视频生成工具Vidu,效果惊艳