首 页
研究报告

医疗健康信息技术装备制造汽车及零部件文体教育现代服务业金融保险旅游酒店绿色环保能源电力化工新材料房地产建筑建材交通运输社消零售轻工业家电数码产品现代农业投资环境

产业规划

产业规划专题产业规划案例

可研报告

可研报告专题可研报告案例

商业计划书

商业计划书专题商业计划书案例

园区规划

园区规划专题园区规划案例

大健康

大健康专题大健康案例

行业新闻

产业新闻产业资讯产业投资产业数据产业科技产业政策

关于我们

公司简介发展历程品质保证公司新闻

当前位置:思瀚首页 >> 行业新闻 >>  产业科技

大模型高地争夺:多模态的理解和响应,原生多模态技术比拼
思瀚产业研究院    2024-07-05

最终判断依据:多模态的理解、生成和响应

多模态理解与生成,毫秒级响应,实现即时语音对话。 GPT-4o实现毫秒级视觉理解,GPT-4o能够接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。使用语音模式与ChatGPT对话当中,GPT-3.5与GPT-4平均延迟分别为2.8s、5.4s,而GPT-4o对音频输入的响应时间最短为232毫秒,平均为320毫秒,这与人类在对话中的响应时间相似。

更先进的视觉与音频理解能力,智能感知语气与语态。与现有模型相比,GPT-4o展现了出色的视觉和音频理解能力:首先,用户可在对话中随时打断;其次,可根据场景生成多种音调,带有人类般的情绪和情感;直接通过和AI视频通话让它在线解答各种问题。

技术争夺:端到端原生多模态技术,统一神经网络

传统多模态大模型技术架构一般包括编码、对齐、解码等步骤,逐步整合多模态关联信息,输出目标结果。

编码:包括视觉、音频、文本等模态编码器,目的是有效处理多个模态信息,转化为可处理状态;

对齐:不同模态编码器可能不能直接融合,通过建立共同表示空间,将不同模态的表示统一,有效整合多个模态信息;

解码:编码的反向过程,把模型的内部表示转化为物理世界的自然信号,即输出人类可识别的信息;

特点:传统的多模态基础模型,通常为每种模态采用特定的编码器或解码器,将不同的模态分离开。

缺点:限制了模型有效融合跨模态信息的能力。

以GPT-4为例,根据Semianalysis猜测,GPT-4多模态模型可能类似于Flamingo架构,它的文本编码器与视觉编码器是分开的,同时引入了交叉注意力机制。

在语音对话场景,传统语音AI通常经过三步法实现对话功能,在这过程中会丢失很多信息且不能判断情绪变化。三步法具体为:1)语音识别或ASR:音频到文本,类似 Whisper;2)LLM 计划下一步要说什么:文本1到文本2;3)语音合成或TTS:文本2到音频,类似ElevenLabs或VALL-E。GPT-4便采用该模式,在这过程中不仅响应速度更慢而且丢失了大量信息,无法直接观察语调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感等。

GPT-4o为跨模态(文本、视觉和音频)端到端训练新模型,意味着所有输入和输出都由同一神经网络处理,成为真正的多模态统一模型,带来性能的飞跃提升。

5月16日,Meta推出混合模态的基座模型Chameleon,与GPT-4o类似,不仅使用了端到端的方式从头开始训练,而且训练时将所有模态(文本、图像、代码)的信息交织混合在一起,并使用统一的Transformer架构处理。

数据处理:除了文本,图像也转化为一系列离散的tokens,最终生成交错的文本和图像tokens序列。

训练数据:训练数据既有纯文本、文本-图像对,也有文本、图像交错出现的多模态文档,共计10万亿tokens。

预训练:一开始就被设计为混合模型,使用统一的架构,以端到端的方式在所有模态(即图像、文本和代码)的交错混合上从头开始训练,而不需要单独的解码器或编码器。

Chameleon实现了广泛的能力:

在纯文本任务中保持竞争力:Chameleon-34B的性能在常识推理和阅读理解测试任务上与Mixtral 8x7B和 Gemini Pro等模型相匹配。

在视觉问答和图像标注基准上:Chameleon-34B超过了Flamingo、IDEFICS和Llava-1.5等模型。

为了进一步评估模型生成多模态内容的质量,论文在基准测试之外引入了人类评估实验:

Chameleon在混合模态推理和生成方面提供的全新功能:在开放式问题(即混合图像和文本的问题)的混合模态响应质量方面,人类评估者更喜欢Chameleon模型,而不是Gemini Pro和GPT-4V。它可回答包含文本和生成图像的问题。

更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告、产业规划、园区规划、商业计划书、专项调研、建筑设计、境外投资报告等相关咨询服务方案。

免责声明:
1.本站部分文章为转载,其目的在于传播更多信息,我们不对其准确性、完整性、及时性、有效性和适用性等任何的陈述和保证。本文仅代表作者本人观点,并不代表本网赞同其观点和对其真实性负责。
2.思瀚研究院一贯高度重视知识产权保护并遵守中国各项知识产权法律。如涉及文章内容、版权等问题,我们将及时沟通与处理。