Vidu 的研发团队为清华背景的生数科技,团队从事生成式人工智能和贝叶斯机器学习的研究超过 20 年。生数科技的核心团队来自清华大学人工智能研究院,此外汇集了来自阿里、腾讯、字节等知名科技公司的顶尖人才,是全球范围内领先的深度生成式算法研究团队,拥有扩散概率模型底层创新研发能力。
公司致力于打造全球领先的多模态模型,在文本、图像、视频、3D 等多模态信息中均有所探索。凭借全球领先的科研成果,生数科技是目前国内在多模态大模型赛道估值最高的创业团队。自 2023年成立以来,团队已获得蚂蚁集团、启明创投、BV 百度风投、字节系锦秋基金等多家知名产业机构的认可,完成数亿元融资。此次 Vidu的推出,是生数科技在多模态原生大模型领域的再一次创新和领先。
生数科技两个月内快速突破能够生成 16s 流畅视频的 Vidu,核心原因是团队对 U-ViT 架构的深入理解以及长期积累的工程与数据经验。Vidu 团队凭借在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果,生数科技 3 月份内部就实现了 8 秒的视频生成,紧接着 4 月份就突破了 16 秒生成,生成质量与时长全方面取得突破。U-ViT 架构同样是与 Sora 类似的 Diffusion 和 Transformer 融合的架构,与 DiT 架构的路径以及部分结论相似。
2022 年 9 月,生数科技团队研发出的 UViT 网络架构是全球首个 Diffusion 和 Transformer 融合的架构,早于 Sora 采用的 DiT 架构。U-ViT 与 DiT 二者均提出了将 Transformer 与扩散模型融合的思路,即以 Transformer 的网络架构替代基于 CNN 的 U-Net 架构,并且在具体的实验路径是一致的。比如,二者采用了相同的 patch embedding、patch size;二者得出了同样的结论:patch size 为 2*2 是最理想的。
U-ViT 架构不同于采用插帧等处理长视频的方法,感官更为“一镜到底”,视频质量更为连贯与自然。从底层来看,这是一种“一步到位”的实现方法,基于单一模型完全端到端生成,不涉及中间的插帧和其他多步骤的处理,文本到视频的转换是直接且连续的。
此外,生数科技扎实的工程化能力也是团队快速突破 Vidu 的重要原因,即将图文能力迁移至文生视频领域。
1)开源 UniDiffuser 图文模型,验证 U-ViT 架构在大规模训练任务的可扩展性(Scaling Law)。2023 年 3 月,基于 U-ViT 架构,生数科技团队开源了全球首个基于 U-ViT 融合架构的多模态扩散模型 UniDiffuser,率先完成了 U-ViT 架构的大规模可扩展性验证,比同样 DiT 架构的 Stable Diffusion 3 领先了一年。
UniDiffuser 是在大规模图文数据集 LAION-5B 上训练出的近 10 亿参数量模型,支持图文模态间的任意生成和转换,具有较强的扩展性。简单来讲,除了单向的文生图,还能实现图生文、图文联合生成、无条件图文生成、图文改写等多种功能。
2)在视频任务中复用图文经验,包括训练加速、并行化训练、低显存训练等,训练速度累计提升 40 倍。视频本质是图片的集合,实现图像在时间维度的扩增,这使得图文任务取得的成果往往可以在视频领域复用。例如,Sora 采用了 DALL・E 3 的重标注技术,通过为视觉训练数据生成详细的描述,使模型能够更加准确地遵循用户的文本指令生成视频。Vidu 同样复用生数科技在图文领域的众多经验。
根据甲子光年,生数科技团队通过视频数据压缩技术降低输入数据的序列维度,同时采用自研的分布式训练框架,在保证计算精度的同时,通信效率提升 1 倍,显存开销降低 80%,训练速度累计提升 40 倍。目前,Vidu 仍在加速迭代,未来将从图任务的统一到融合视频能力持续升级,灵活的模型架构也将能够兼容更广泛的多模态能力。
来源:思瀚 德邦
更多行业研究分析请参考思瀚产业研究院《2023-2028年中国大模型行业市场现状与投资前景预测规划报告》,同时思瀚产业研究院亦提供行研报告、可研报告、产业规划、园区规划、商业计划、专项调研、建筑设计、境外投资报告等相关咨询服务方案。