最终判断依据:多模态的理解、生成和响应
多模态理解与生成,毫秒级响应,实现即时语音对话。 GPT-4o实现毫秒级视觉理解,GPT-4o能够接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。使用语音模式与ChatGPT对话当中,GPT-3.5与GPT-4平均延迟分别为2.8s、5.4s,而GPT-4o对音频输入的响应时间最短为232毫秒,平均为320毫秒,这与人类在对话中的响应时间相似。
更先进的视觉与音频理解能力,智能感知语气与语态。与现有模型相比,GPT-4o展现了出色的视觉和音频理解能力:首先,用户可在对话中随时打断;其次,可根据场景生成多种音调,带有人类般的情绪和情感;直接通过和AI视频通话让它在线解答各种问题。
技术争夺:端到端原生多模态技术,统一神经网络
传统多模态大模型技术架构一般包括编码、对齐、解码等步骤,逐步整合多模态关联信息,输出目标结果。
编码:包括视觉、音频、文本等模态编码器,目的是有效处理多个模态信息,转化为可处理状态;
对齐:不同模态编码器可能不能直接融合,通过建立共同表示空间,将不同模态的表示统一,有效整合多个模态信息;
解码:编码的反向过程,把模型的内部表示转化为物理世界的自然信号,即输出人类可识别的信息;
特点:传统的多模态基础模型,通常为每种模态采用特定的编码器或解码器,将不同的模态分离开。
缺点:限制了模型有效融合跨模态信息的能力。
以GPT-4为例,根据Semianalysis猜测,GPT-4多模态模型可能类似于Flamingo架构,它的文本编码器与视觉编码器是分开的,同时引入了交叉注意力机制。
在语音对话场景,传统语音AI通常经过三步法实现对话功能,在这过程中会丢失很多信息且不能判断情绪变化。三步法具体为:1)语音识别或ASR:音频到文本,类似 Whisper;2)LLM 计划下一步要说什么:文本1到文本2;3)语音合成或TTS:文本2到音频,类似ElevenLabs或VALL-E。GPT-4便采用该模式,在这过程中不仅响应速度更慢而且丢失了大量信息,无法直接观察语调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感等。
GPT-4o为跨模态(文本、视觉和音频)端到端训练新模型,意味着所有输入和输出都由同一神经网络处理,成为真正的多模态统一模型,带来性能的飞跃提升。
5月16日,Meta推出混合模态的基座模型Chameleon,与GPT-4o类似,不仅使用了端到端的方式从头开始训练,而且训练时将所有模态(文本、图像、代码)的信息交织混合在一起,并使用统一的Transformer架构处理。
数据处理:除了文本,图像也转化为一系列离散的tokens,最终生成交错的文本和图像tokens序列。
训练数据:训练数据既有纯文本、文本-图像对,也有文本、图像交错出现的多模态文档,共计10万亿tokens。
预训练:一开始就被设计为混合模型,使用统一的架构,以端到端的方式在所有模态(即图像、文本和代码)的交错混合上从头开始训练,而不需要单独的解码器或编码器。
Chameleon实现了广泛的能力:
在纯文本任务中保持竞争力:Chameleon-34B的性能在常识推理和阅读理解测试任务上与Mixtral 8x7B和 Gemini Pro等模型相匹配。
在视觉问答和图像标注基准上:Chameleon-34B超过了Flamingo、IDEFICS和Llava-1.5等模型。
为了进一步评估模型生成多模态内容的质量,论文在基准测试之外引入了人类评估实验:
Chameleon在混合模态推理和生成方面提供的全新功能:在开放式问题(即混合图像和文本的问题)的混合模态响应质量方面,人类评估者更喜欢Chameleon模型,而不是Gemini Pro和GPT-4V。它可回答包含文本和生成图像的问题。
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告、产业规划、园区规划、商业计划书、专项调研、建筑设计、境外投资报告等相关咨询服务方案。