海内外大模型瞄准视频领域，加速向应用端延伸 - 产业科技 - 行业新闻

海内外大模型瞄准视频领域，加速向应用端延伸
思瀚产业研究院 2024-05-07

近期，以 Open AI 与 Google 为代表的龙头厂商掀起海内外多模态“军备竞赛”，瞄准视频领域加速迭代。

海外方面：

1）OpenAI CEO 年初密集“剧透”GPT-5，相比 GPT-4 实现全面升级，其中将支持文本、图像、代码和视频功能，或将实现真正的多模态；此外，2 月发布文生视频大模型 Sora，能够根据文本指令或静态图像生成 1 分钟的视频，其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动，同时也接受现有视频扩展或填补缺失的帧，能够很好地模拟和理解现实世界。

2）Google推出原生多模态大模型 Gemini，可泛化并无缝地理解、操作和组合不同类别的信息；此外，2 月推出 Gemini 1.5 Pro，使用 MoE 架构首破 100 万极限上下文纪录，可单次处理包括 1 小时的视频、11 小时的音频、超过 3 万行代码或超过 70 万个单词的代码库。

国内方面：

继 Sora 发布后，国内便对文生视频展开了丰富的实践。近期，除生数科技通过技术沉淀发布 Vidu 外，国内潞晨科技公司对其开源文生视频模型Open-Sora 进行了大更新，现在可生成 16 秒，分辨率高达 720P 的视频。同时具备可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的多模态功能，性能加速向 Sora 靠齐。

我们认为，多模态提升了大模型的泛化能力，在多元信息环境下实现“多专多能”，多模态尤其是视频大模型的成熟奠定了 AIGC 应用普及的基础，在垂直领域具有广阔的应用场景和市场价值。4 月 15 日，全球多媒体巨头 Adobe 在官网宣布，将 Sora、Pika、Runway等集成在视频剪辑软件 Premiere Pro 中（简称“PR”）。

在发布短片中，PR 展现出在视频中添加物体、消除物体以及生成视频片段等能力。通过 AI 驱动的音频功能已普遍可用，可使音频的编辑更快、更轻松、更直观。我们判断，这将是多模态大模型在 AIGC 应用融合中的重要尝试，未来或将催生更多现象级应用的开发。

来源：思瀚德邦

更多行业研究分析请参考思瀚产业研究院《2023-2028年中国大模型行业市场现状与投资前景预测规划报告》，同时思瀚产业研究院亦提供行研报告、可研报告、产业规划、园区规划、商业计划、专项调研、建筑设计、境外投资报告等相关咨询服务方案。

免责声明：
1.本站部分文章为转载，其目的在于传播更多信息，我们不对其准确性、完整性、及时性、有效性和适用性等任何的陈述和保证。本文仅代表作者本人观点，并不代表本网赞同其观点和对其真实性负责。
2.思瀚研究院一贯高度重视知识产权保护并遵守中国各项知识产权法律。如涉及文章内容、版权等问题，我们将及时沟通与处理。