近期,以 Open AI 与 Google 为代表的龙头厂商掀起海内外多模态“军备竞赛”,瞄准视频领域加速迭代。
海外方面:
1)OpenAI CEO 年初密集“剧透”GPT-5,相比 GPT-4 实现全面升级,其中将支持文本、图像、代码和视频功能,或将实现真正的多模态;此外,2 月发布文生视频大模型 Sora,能够根据文本指令或静态图像生成 1 分钟的视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动,同时也接受现有视频扩展或填补缺失的帧,能够很好地模拟和理解现实世界。
2)Google推出原生多模态大模型 Gemini,可泛化并无缝地理解、操作和组合不同类别的信息;此外,2 月推出 Gemini 1.5 Pro,使用 MoE 架构首破 100 万极限上下文纪录,可单次处理包括 1 小时的视频、11 小时的音频、超过 3 万行代码或超过 70 万个单词的代码库。
国内方面:
继 Sora 发布后,国内便对文生视频展开了丰富的实践。近期,除生数科技通过技术沉淀发布 Vidu 外,国内潞晨科技公司对其开源文生视频模型Open-Sora 进行了大更新,现在可生成 16 秒,分辨率高达 720P 的视频。同时具备可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的多模态功能,性能加速向 Sora 靠齐。
我们认为,多模态提升了大模型的泛化能力,在多元信息环境下实现“多专多能”,多模态尤其是视频大模型的成熟奠定了 AIGC 应用普及的基础,在垂直领域具有广阔的应用场景和市场价值。4 月 15 日,全球多媒体巨头 Adobe 在官网宣布,将 Sora、Pika、Runway等集成在视频剪辑软件 Premiere Pro 中(简称“PR”)。
在发布短片中,PR 展现出在视频中添加物体、消除物体以及生成视频片段等能力。通过 AI 驱动的音频功能已普遍可用,可使音频的编辑更快、更轻松、更直观。我们判断,这将是多模态大模型在 AIGC 应用融合中的重要尝试,未来或将催生更多现象级应用的开发。
来源:思瀚 德邦
更多行业研究分析请参考思瀚产业研究院《2023-2028年中国大模型行业市场现状与投资前景预测规划报告》,同时思瀚产业研究院亦提供行研报告、可研报告、产业规划、园区规划、商业计划、专项调研、建筑设计、境外投资报告等相关咨询服务方案。