Sora凭借惊艳的视频生成效果和分钟级的时长引领市场。前述视频生成模型所遇到的问题在Sora诞生后出现根本改变。2023年2月16日凌晨,OpenAI发布了文生视频大模型Sora,能够根据用户提供的文本描述生成长达60秒的视频,同时视频精准反应提示词内容,复杂、逼真、效果惊艳,引燃市场热情。
Sora生成东京街头女士,场景复杂
对比其他的视频生成工具,Sora的性能优异呈现出碾压式的优势。
(1)视频时长:可生成时长长达1分钟的视频,并且品质优异、内容稳定;
(2)场景复杂内容逼真:可生成主题精确背景细节复杂的场景,视频效果逼真。
(3)语言理解能力优异:能够深入理解提示词并且精准、忠实表达。
(4)灵活度高:可随意生成不同时长、长宽比、分辨率的视频。
Sora是扩散模型和Transformer以及视频压缩网络的综合体。Sora的主干网络是Diffusion Transformer模型,在训练过程中采用了特殊设计的编码器将图像和视频信息进行编码,之后将视频数据压缩为隐变量,输入Diffusion Transformer模型中对模型进行训练。推理的过程中,将自然语言(文字)或者图像乃至视频作为提示词输入到模型中,通过扩散模型输出相应的去噪之后的隐变量并通过解码器将信息解码成为视频,即可输出品质优越的视频结果。
起于视频生成,迈向世界模拟器
在对 Sora 进行大规模训练的过程中 ,OpenAI还发现模型具有更多的能力,即对现实世界的基础规律产生一定的理解。这使得它可以模拟现实世界中的人物、动物、环境等。
(1)空间一致性:Sora能够生成带有动态摄像头的运动视频,随着摄像头的移动和旋转,人物和场景元素在三维空间中始终保持一致的运动规律。
(2)时间一致性:在Sora生成的长视频中,元素之间通常能够保持较好的时空一致性,如即使动物被遮挡,或离开画面,在后续的视频中仍然能被较好的呈现。
(3)因果一致性:Sora生成的视频可呈现一定的因果关系。比如画家可在画布上留下笔触,人吃汉堡也能在汉堡上留下痕迹。
(4)Sora还能够模拟人工过程,如视频游戏,可用基本策略控制《我的世界》,无需特殊的微调,在Sora中提示“我的世界”即可实现。