Vidu 是国内首个直接对标 Sora 的视频大模型。4 月 27 日,在中关村论坛未来人工智能先锋论坛上,生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。该模型采用原创的 U-ViT 架构,结合 Difusion与 Transformer 技术,能够一键生成长达 16 秒、1080P 分辨率的高清视频。
Vidu能模拟真实物理世界,具备丰富的想象力,支持多镜头生成,保持时空一致性。这是自 Sora 发布之后,全球率先取得重大突破的视频大模型,性能直接对标国际顶尖水平,并在加速迭代提升中,代表了中国在视频大模型领域的技术突破。
我们判断,不同于仅聚焦“长”视频的大模型,Vidu 已经在综合能力上成为继 Sora 首个完成突破的大模型。归纳来讲,Vidu 主要功能包括多镜头生成、模拟真实世界、保持时空一致性、丰富的想象力、理解中国元素等。目前,Vidu 在发布之际,生数科技特别推出“Vidu 大模型合作伙伴计划”。
多镜头生成,给予视频“镜头语言”。现有 AI 生成的视频,能够明显地感觉到镜头语言的单调与叙事感的不足,镜头的运动仅包含了轻微幅度的推、拉、移等简单镜头。核心原因为现有的视频内容沿用的技术路径大多通过图片的插帧和拼接而成,对于长时序的连贯预测存在明显不足。Vidu 突破这些局限,能够围绕统一主体在一段画面里实现远、中、近景、特写等多样化镜头的切换。此外,Vidu能直接生成转场、追焦、长镜头等效果,包括能够生成影视级的镜头画面,给视频注入镜头语言,显著提升画面的叙事感与质感。
保持时空一致性。AI 视频生成较难突破画面时空一致性与场景在没有任何转场的情况下突变等问题。Vidu 在一定程度上克服了这些问题。例如,从它生成的一段“带珍珠耳环的猫”的视频中可以看到,随着镜头的移动,作为画面主体的猫在 3D 空间下能够一直保持服饰、表情、模态的一致,视频整体看上去非常的连贯、统一和流畅,表现出较好的时空一致性。
资料来源:生数 ShengShu 微信公众号,德邦研究所
模拟真实的物理世界。同 Sora 类似,Vidu 也能够很好地模拟真实物理世界的运动。例如,在模拟“一辆老式 SUV 行驶在山坡上”中,Vidu 和 Sora 模拟的效果非常相近,灰尘、光影、背景等细节与真实世界中人类的感知非常相近。
Vidu“一辆老式 SUV 行驶在山坡上”效果
资料来源:生数 ShengShu 微信公众号,德邦研究所
Sora“一辆老式 SUV 行驶在山坡上”效果
资料来源:OpenAI 官网,德邦研究所
丰富的想象力。Vidu 能够虚构出真实世界不存在的超现实主义画面,这是当前的视频生成模型难以实现的。例如,“帆船”、“海浪”能够合理地出现在画室里,而且海浪与帆船的整体交互背景非常恰当自然;“鱼缸女孩”的片段也是不符实际的,但 Vidu 能够给予人奇幻的合理感。
Vidu 模拟“鱼缸女孩”
资料来源:生数 ShengShu 微信公众号,德邦研究所
理解中国元素。Vidu 能够生成特有中国元素的画面,比如熊猫、龙、宫殿场景等。
我们认为,虽然 Vidu 在视频时长、视频效果、支持模态多样性等方面相比Sora 仍有提升空间,然而在以镜头语言为代表的动态性,以及对物理世界规律的理解与模拟能力等方面已做到了 Sora 相近水平,Vidu 或将发挥在国产视频大模型的“鲇鱼效应”,激励国产多模态大模型突破创新。
来源:思瀚 德邦
更多行业研究分析请参考思瀚产业研究院《2023-2028年中国大模型行业市场现状与投资前景预测规划报告》,同时思瀚产业研究院亦提供行研报告、可研报告、产业规划、园区规划、商业计划、专项调研、建筑设计、境外投资报告等相关咨询服务方案。