首 页
研究报告

医疗健康信息技术装备制造汽车及零部件文体教育现代服务业金融保险旅游酒店绿色环保能源电力化工新材料房地产建筑建材交通运输社消零售轻工业家电数码产品现代农业投资环境

产业规划

产业规划专题产业规划案例

可研报告

可研报告专题可研报告案例

商业计划书

商业计划书专题商业计划书案例

园区规划

园区规划专题园区规划案例

大健康

大健康专题大健康案例

行业新闻

产业新闻产业资讯产业投资产业数据产业科技产业政策

关于我们

公司简介发展历程品质保证公司新闻

当前位置:思瀚首页 >> 行业新闻 >>  产业科技

GPT5 发布在即,有望挑战多模态 AI 新高度
思瀚产业研究院    2025-07-29

 多模态 AI 的新基准:“多模态通才”。全新的 General-Level 提出全新理念:判断一个多模态通用模型是否更强大,不能简单地等同于在基准测试中获得更高的分数,或者与其他模型相比支持尽可能多的多模态任务。

2025 年 5 月,十所顶尖高校联合发布 General-Level 评估框架和 General-Bench 基准数据集,用五级分类制明确了多模态通才模型的能力标准。当前多模态大语言模型在任务支持、模态覆盖等方面存在不足,且多数通用模型未能超越专家模型,真正的通用人工智能需要实现模态间的协同效应。

General-Level 建立了五个层级的评价水平,当前全球范围内多模态模型仍然处于 L4 阶段。据新智元微信公众号,该评价体系将考察体系分为四个方向:

模态理解和同时进行多模态理解和生成:最初阶段,多模态大语言模型(MLLMs)的回复仅限于基于用户提供的多模态输入生成文本输出;后续的多模态大语言模型不仅具备多模态理解能力,还能在各种模态之间生成、编辑内容;

支持更广泛的模态:多模态通才需要广泛支持和处理多种模态数据,包括但不限于文本、图像、视频、音频,甚至是三维数据,支持的模态范围反映了一个人工智能系统能力的广度。到目前为止,多模态模型可以将图像与视频结合、视频与音频结合等,最先进的模型甚至可以处理任意模态;

支持各种任务和范式:多模态通才必须能够处理各种不同定义和要求的任务,来提高整体的多功能性。例如,早期的视觉多模态大语言模型只能进行粗粒度的图像理解,后续发布的模型能够实现细粒度、像素的图像/视频定位和编辑等。模型的解码组件也必须足够灵活,能够以各种任务格式生成输出,处理不同类型的任务,例如目标定位、像素级修改以及多模态内容创作;

多模态智能体与多模态基础模型:刚开始的多模态智能体,就是大语言模型通过调用外部工具和模块(通常是专用模型)来执行特定的多模态任务。后续的研究重点逐渐转向构建联合多模态大语言模型,其中大语言模型与其他模块(如多模态理解组件和多模态生成组件)通过共享嵌入空间紧密集成。

基于上述考察体系,L1-L5 的评价分别要求:

1)L1 专家型模型:针对特定任务或特定模态的数据集进行微调,可以看作是针对特定任务的专家模型,包括各种学习任务,例如语言或视觉识别、分类、生成、分割、定位、图像修复等,比如 CLIP,Stable Diffusion 等;

2)L2 支持多任务的通才:模型从专用模型转变为通用模型,需要让系统能够适应各种任务建模方式,支持多种模态类型和输入格式,同时处理各种模型类型和输出格式(可用于理解或生成)。目前,最流行且广泛采用的做法是以大语言模型(LLM)作为核心/智能媒介,整合各种专业模型来构建通用模型,通过现有的编码和解码技术整合各种模型,从而实现多种模态和任务(比如理解和生成任务)的融合与统一;

3)L3 出现任务级协同的通才:要从普通的通用模型提升到第 3 级,系统必须展现出跨任务的协同能力,使得至少两个任务(无论这两个任务是理解类的还是生成类的,都能够共享特征并实现相互性能提升;

4)L4 范式级协同的通才:如果一个通用智能体能够达到第 4 级,也就意味着该系统不仅具备强大的理解能力,而且在进一步学习和训练生成能力时仍能保持基础性能,比如 Morph-Token 分离出视觉重建损失用于生成学习,以避免与理解学习损失相互干扰;

5)L5 模态级全协同的通才:是通用智能体的最终目标,从某些模态的任务中学到的特征、知识甚至智能可以在一定程度上迁移到其他支持的模态任务中。目前,大多数多模态通用智能体受到架构发展的限制,主要通过语言智能来支持其他模态的智能,要想真正达到第 5 级,必须实现所有模态之间的协同。

更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。

免责声明:
1.本站部分文章为转载,其目的在于传播更多信息,我们不对其准确性、完整性、及时性、有效性和适用性等任何的陈述和保证。本文仅代表作者本人观点,并不代表本网赞同其观点和对其真实性负责。
2.思瀚研究院一贯高度重视知识产权保护并遵守中国各项知识产权法律。如涉及文章内容、版权等问题,我们将及时沟通与处理。