OpenAI创立:以实现安全的AGI为主旨
OpenAI于6月发布GPT-3模型 ,9 月微软获得该模型独家许可。OpenAI 于 11月发布聊天机器 人 模 型ChatGPT,能够与人类进行多轮连续的各种对话,给出较为合理的回答,引发全球关注。2020 2022 2024 OpenAI由Sam Altman、Elon Musk等在2015年创办,主旨是努力在安全的前提下创建通用人工智能(AGI)并让全人类共同受益;2020年发布GPT-3模型,2022年11月发布GPT-3.5模型,能够与人类进行多轮连续的各种对话,给出较为合理的回答;2023年3月发布GPT-4模型;2024年2月发布AI视频生成模型Sora,AI视频生成领域迎来ChatGPT时刻。
GPT发展回顾:模型性能随结构、规模的提升不断优化
GPT-1通过无监督预训练和有监督微调两个步骤训练;GPT-2无需有监督微调,而是通过更大规模的模型参数和训练数据集进行无监督预训练,模型参数量达到15亿;GPT-3的模型参数和数据集进一步扩大,模型参数量增加到1750亿,上下文窗口宽度增加到2048个token。
GPT 发展回顾:GPT3.5改进训练步骤实现性能跃升
ChatGPT/GPT-3.5:2022年11月30日发布,在GPT-3的基础上进行有监督微调(Supervised Fine-Tuning)、奖励模型训练(RewardModeling)和来自人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)。ChatGPT具有以下特征:主动承认自身错误、质疑不正确的问题、承认自身的无知和对专业技术的不了解以及支持连续多轮对话,极大提升了对话交互模式下的用户体验。
GPT发展回顾:多模态大模型GPT-4
2023年3月14日,OpenAI宣布推出大型的多模态模型GPT-4,可以接收图像和文本输入。OpenAI称,GPT-4参加了多种基准考试测试,包括美国律师资格考试Uniform Bar Exam、法学院入学考试LSAT、“美国高考”SAT数学部分和证据性阅读与写作部分的考试,在这些测试中,它的得分高于88%的应试者。
GPT发展回顾:更快更强更便宜的GPT-4 Turbo
2023年11月7日,OpenAI在开发者大会披露新版本具备:1) 更长的上下文长度:支持128K上下文窗口,相当于300页文本;2) 更便宜:新模型的价格是每千输入token 1美分,而每千输出token 3美分,输入和输出费用分别降至GPT-4(8K)的1/3和1/2,总体使用上降价约2.75倍;3) 更聪明:内部知识库更新至2023年4月,并支持上传外部数据库或文件;4) 视听多模态:支持文生图模型DALL·E3、文本转语音模型TTS,未来还将支持自动语音识别模型Whisper v3;5) 更快的速度:用户每分钟的Token速率限制将会翻倍,可通过API账户申请进一步提速。
最新进展:GPT-5有望实现性能跃升
商标律师Josh Gerben在社交平台晒出OpenAI于2023年7月18日向美国专利商标局(USPTO)提交GPT-5商标的消息,GPT-5提供的功能包括自然语言处理、文本生成、理解、语音转录、翻译、预测和分析等,实际发布功能可能有变动。
根据OpenAI首席执行官Sam Altman的披露,GPT-5将具备三大升级点:1) 多模态:支持文本、语音、图像、代码和视频输入;2)个性化:理解个人偏好的能力,如整合用户信息、电子邮件、日历、约会偏好,并与外部数据源建立联系;3) 推理能力和准确性:如果GPT-4目前解决了人类任务的10%,GPT-5应该是15%或者20%,当前大模型的通病——幻觉问题也将在GPT-5中得到解决。
图片生成模型:OpenAI发布DALL.E 3
2023年9月,OpenAI发布DALL.E 3,比以往系统更能理解细微差别和细节,能够让用户更加轻松地将自己的想法转化为非常准确的图像;该模型原生构建在ChatGPT之上,用ChatGPT来创建、拓展和优化prompt,用户无需在prompt上花费太多时间。
DALL.E 3的技术架构主要分为图像描述生成和图像生成两大模块。图像描述生成模块使用了CLIP图像编码器和GPT语言模型(GPT-4),可为每张图像生成细致的文字描述;图像生成模块先用VAE将高分辨率图像压缩为低维向量,降低学习难度。然后使用T5 Transformer将文本编码为向量,并通过GroupNorm层将其注入diffusion模型,指导图像生成方向。
DALL.E 3生成高质量图像
资料来源:OpenAI官网,思瀚,国元证券研究所
视频生成模型:OpenAI发布“物理世界模拟器”Sora
2024年2月16日,OpenAI发布AI生成视频模型Sora,其卓越之处在于能够生成跨越不同持续时间、纵横比和分辨率的视频和图像,甚至包括生成长达一分钟的高清视频,“碾压”了行业目前平均约”4s”的视频生成长度,AI视频生成领域迎来ChatGPT时刻。
OpenAI在Sora技术报告中写道: ”Our results suggest that scaling video generation models is a promising path towards buildinggeneral purpose simulators of the physical world”.
视频生成模型:OpenAI发布“物理世界模拟器”Sora
Sora不仅接受文字输入,还可根据图像和视频输入来生成视频。Sora能够执行各种图像和视频编辑任务——创建完美循环的视频、为静态图像制作动画、在时间维度上向前或向后扩展视频、在两个截然不同的输入视频之间实现无缝过渡、零输入转换输入视频风格和场景,展示了该模型在图像和视频编辑领域的强大能力和应用潜力,有望给产业端带来革命性的变革。
模型尺度扩展带来惊人的涌现能力(emerging simulation capabilities)。1) 3D一致性:在3D一致性方面,Sora能够生成带有动态摄像头运动的视频。随着摄像头的移动和旋转,人物和场景元素在三维空间中始终保持一致的运动规律。2) 较长视频的连贯性和对象持久性:这是视频生成领域面对的一个重要挑战,而Sora能有效为短期和长期物体间的依赖关系建模,人和物被遮挡或离开画面后,仍能被准确地保存和呈现。3) 与世界互动:Sora能以简单的方式模拟影响世界状态的行为,例如画家可以在画布上留下新的笔触。4) 模拟数字世界:Sora能够模拟人工过程,比如视频游戏。
Sora的本质是一种Diffusion transformer模型。Diffusion transformer (DiT)架构由William Peebles 和Saining Xie在2023年提出,使用Transformer来训练图像的潜在扩散模型,取代了通常使用的U-Net骨干网络,融合了扩散模型与自回归模型的双重特性。
AI生成视频的技术路线主要经历了四个阶段:循环网络(RNN)、生成对抗网络(GAN)、自回归模型(autoregressive transformers)、扩散模型(diffusion models)。目前领先的视频模型大多数是扩散模型,比如Runway、Pika等。自回归模型由于更好的多模态能力与扩展性也成为热门的研究方向,如谷歌在2023年12月发布的VideoPoet。
Sora模型训练范式:patch统一原始视觉数据。OpenAI提出了一种用patch作为视频数据来训练视频模型的方式,patch是将图像或视频帧分割成的一系列小块区域,是模型处理和理解原始数据的基本单元,这是从大语言模型的token汲取的灵感。Token统一了文本的多种模式——代码、数学和各种自然语言,而patch则统一了图像与视频。过去的图像和视频生成方法通常会将视频调整大小、裁剪或修剪为标准尺寸,而这损耗了视频生成的质量,将图片与视频数据patch化之后,无需对数据进行压缩,就能够对不同分辨率、持续时间和长宽比的视频和图像的原始数据进行训练。
Sora模型训练范式:re-captioning标注技术带来优秀的语言理解能力。训练文本转视频生成系统需要大量带有相应文本字幕的视频,为此OpenAI借鉴了DALL·E3中的re-captioning技术,首先训练了一个高度描述性的转译员模型,然后使用它为训练集中的所有视频生成文本转译。通过这种方式对高度描述性的视频转译进行训练,可显著提高文本保真度和视频的整体质量。与DALL·E3类似,OpenAI利用GPT技术将简短的用户提示转换为更长的详细转译,并发送到视频模型,令Sora能精确按照用户提示生成高质量视频。
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。