大模型：加速多模态研发，闭源模型逐步逆袭开源 - 产业资讯 - 行业新闻

大模型：加速多模态研发，闭源模型逐步逆袭开源
思瀚产业研究院 2025-09-04

多模态技术尚未收敛，生成视频、多模态实时交互为未来方向

多模态大模型融合了多种感知路径和表达形态，能够同时处理文本、图像、语音等多种数据，并进行深度的语义理解和交叉模态处理，具备深度人机交互和全面智能应用的潜力。当前，多模态大模型主要分为理解和生成两种类型，技术路线尚未收敛，成为国内外大模型厂商重点突破方向之一。

多模态理解模型：多模态理解模型对齐视觉特征与文本特征实现跨模态的统一理解，分为以下两类技术路线：1）一方面，基于语言大模型底座，配合多类外部专家模型共同实现多模态处理；2）另一方面，通过跨模态特征对齐学习，实现多模态输入的统一和融合，例如OpenAI的CLIP模型通过对比学习，将图像与文本通过各自的与训练模型获得的编码向量在向量空间上对齐，从而理解和推理图像和文本之间的关系。

多模态生成：多模态生成模型基于对不同模态信息的理解，具备文本、图像、视频、语音信息的生成能力，分为两类技术路线： 1）一方面，DiT结合扩散模型与Transformer优势，成为视频生成模型主流架构；2）另一方面，端到端统一多模态架构，实现跨模态生成与实时交互响应，例如GPT-4o与Gemini均采用端到端原生多模态单体模型的方式学习文本、视觉、语音等不同模态的统一表征，实现跨模态实时交互响应。

国内外大厂积极涌入多模态赛道，图片&视频陆续刷新SOAT

图片：继GPT-4o原生图像生成功能掀起使用热潮后，谷歌最新Gemini 2.5 Flash Image迅速登顶多个主流图像排行榜；Meta也宣布将从初创企业Midjourney授权AI图像模型，以跟随OpenAI与谷歌步伐。

3月底，GPT-4o集成多模态原生图像生成功能，效果良好引爆用户使用热情。GPT-4o原生图像生成，意味着图像生成不再依赖于单独的DALL-E 3模型，而是直接集成到了GPT-4o的核心能力中，这种集成带来了更流畅的用户体验和更强大的图像生成、修改能力，具备更好的文本集成、增强的上下文理解、改进的多对象绑定、多样化风格适应等优势。

得益于超预期的效果，GPT-4o原生图像功能上线不到72小时，OpenAI CEO奥特曼宣布ChatGPT图像生成功能开始暂时受限。8月底，谷歌发布了最新的图像生成和编辑模型Gemini 2.5 Flash Image，成为新晋性能冠军，单图片生成成本仅0.039美元。

2.5 Flash Image相较2.0 Flash Image，在图像质量、编辑控制和应用场景上有大幅改进。用户不仅可以对人物和宠物进行精准编辑，保持其特征一致，还能实现多图合成、多轮次修改与风格迁移等复杂操作。在大模型竞技场LMArena的文生图与图像编辑两个场景，谷歌的图像模型均拿下全球第一，在图像编辑榜单上模型表现尤为出色，获得1362的高分。

视频：阿里字节等大厂刷新视频生成时长、帧率、一致性等能力高度，谷歌将视频模型迈入支持实时交互的通用世界模型。

6月，字节豆包视频生成模型Seedance 1.0 pro超越Veo3、可灵2.0等多模态模型，在文生视频、图生视频两项任务上均排名首位（评测榜单Artificial Analysis）。该模型具备三大特性：无缝多镜头叙事、多动作及随心运镜、稳定运动与真实美感。Seedance支持文字与图片输入，可生成多镜头无缝切换的1080P高品质视频。

8月，阿里通义万相正式开源全新多模态视频生成模型通义万相Wan2.2-S2V，单次生成的视频时长可达分钟级，支持73帧长视频生成，完美匹配口型。7月28日，阿里开源文生视频Wan2.2-T2V-A14B、图生视频Wan2.2-I2V-A14B和统一视频生成Wan2.2-IT2V-5B三款模型。其中，文生视频模型和图生视频模型为业界首个使用MoE架构的视频生成模型。此次开源的Wan2.2-S2V则更加偏向音频驱动，专攻图像+音频，让画面和音频更加契合。

8月，谷歌发布首个支持实时交互的世界模型Genie 3 相较于前两代产品，它不仅能在。 720p、24 fps的规格下即时生成可交互的三维场景，还把单次交互时长从几十秒延长到数分钟，并首次加入“可提示的世界事件”和“视觉记忆”等关键特性，使得同一房间里的涂鸦、家具位置等细节在玩家多次往返时依然保持一致，真实感提升。

经历开源浪潮后，闭源模型逐渐开始维持性能领先优势

25年开年，DeepSeek多款模型通过算法的系列创新提升算力利用率，以成本、低价、性能等特征显著出圈，带来了模型平权和应用加速。

DeepSeek以开源方式加速追赶闭源模型，API低价推动“大模型平权”。2024年12月，深度求索推出的DeepSeekV3以极低的训练成本，实现了与GPT-4o和Claude Sonnet 3.5等顶尖模型相媲美的性能；2025年1月，DeepSeek推出推理模型DeepSeek R1，在后训练阶段大规模使用了RL技术，在仅有极少标注数据的情况下，在数学、代码、自然语言推理等任务上，性能比肩OpenAI o1正式版。R1 API输出16元/百万tokens，而GPT o1为438元/百万tokens。

模型能力和推理成本迎来拐点，国内Agent应用企业积极接入DeepSeek API，把握AI应用需求爆发红利。2月，国内万兴科技、易点天下、泛微网络等AI应用厂商相继宣布自身产品接入DeepSeek模型系列，并取得良好的协同赋能。

历经开源浪潮后，当前大模型生态呈现两大核心特征：

一方面，随着预训练模型Scalling Law（缩放定律）增速放缓，闭源与开源大模型的性能差距有所收窄，但以OpenAI、Claude、xAI、Google为代表的闭源厂商，凭借资源、人才与技术积累仍占据性能领先地位，持续刷新模型能力上限。例如，OpenAI新推出的GPT 5在数学、代码、多模态理解、健康等领域基准测试均获最新SOAT。根据Artificial Analysis编制的人工智能综合指数，GPT 5以69的综合评分排名第一，Grok 4以1分之差位居第二。

另一方面，闭源厂商逐步推行“开源 + 闭源”协同策略，在保留主模型闭源优势提高商业价值的同时，通过开源上一代或轻量小模型打造生态入口，既激活开发者推动技术改进，也反哺自身闭源模型，助力其维持领先。例如，OpenAI开源两款全新的大语言模型：gpt-oss-120b和gpt-oss-20b，前者可在单块800GB显存的H100上高效运行，后者转为低延迟、本地化或专业场景设计，仅需16GB内存即可在边缘设备上运行；谷歌开源系列Gemma 3模型（单云和桌面加速器的Gemma 3和Gemma 3 QAT、实时多模态AI的Gemma 3n、轻量化Gemma 3 270M）；xAI在7月发布了Grok4之后，8月开源上一代grok2.5并计划约6个月后年开源Grok3。

更多行业研究分析请参考思瀚产业研究院官网，同时思瀚产业研究院亦提供行研报告、可研报告（立项审批备案、银行贷款、投资决策、集团上会）、产业规划、园区规划、商业计划书（股权融资、招商合资、内部决策）、专项调研、建筑设计、境外投资报告等相关咨询服务方案。

免责声明：
1.本站部分文章为转载，其目的在于传播更多信息，我们不对其准确性、完整性、及时性、有效性和适用性等任何的陈述和保证。本文仅代表作者本人观点，并不代表本网赞同其观点和对其真实性负责。
2.思瀚研究院一贯高度重视知识产权保护并遵守中国各项知识产权法律。如涉及文章内容、版权等问题，我们将及时沟通与处理。