AIGC(Artificial Intelligence Generated Content)是一种利用生成式AI 技术自动创作内容的新型生产方式。与传统AI 主要关注于识别和预测现有数据模式不同,AIGC 则专注于创造全新的、有创意的数据。其核心原理在于学习和理解数据的分布,从而生成具有相似特征的新数据,能够生成文本、图像、音频、视频等多种形式的内容。
AIGC 涵盖了利用生成式 AI 技术生成的多种类型内容,而大型AI模型则是实现 AIGC 的重要技术手段。生成式 AI 通过深度学习模型在大数据集上进行训练,以创造新的文本、图像和音乐等多样化的内容。
AIGC 不仅包括生成式AI算法,还涉及自然语言处理、计算机视觉(CV)和音频处理等核心技术。在生成式AI 的框架中,大型 AI 模型发挥着至关重要的作用,通常采用大量参数的神经网络架构,主要包括大语言模型(LLM)、大多模态模型(LMM)和大视觉模型(LVM)。
其中,大语言模型是最为核心的类型,包含数十亿以上参数的深度神经网络语言模型,运用自监督学习方法,通过大量未标注的文本进行预训练,从而掌握语言的复杂结构。需要注意的是,并非所有的大语言模型都专注于生成任务,有些模型(如 BERT)更适合理解任务,而其他模型(如GPT系列)则更擅长生成任务。
大语言模型的发展经历了基础模型、能力探索和突破发展三个阶段。2017年,Vaswani 等人提出的 Transformer 架构为大语言模型的演进奠定了坚实基础。自 2018 年以来,Google、OpenAI 和 Meta 等公司相继推出了多种大语言模型,如 OpenAI 的 GPT 系列、Google 的 Gemini 和Meta 的LLaMA系列,推动了这一领域的迅猛发展。
在基础模型阶段(2018 年至 2021 年),研究主要集中在语言模型本身,Google 的 BERT 和 OpenAI 的 GPT-1 标志着预训练语言模型时代的开启,模型参数量实现了数量级的提升,从 GPT-1 的 1.17亿增加到GPT-3 的1750亿,这使得大模型在自然语言任务中的表现极为出色。
在能力探索阶段(2019 年至 2022 年),研究者们探索如何在不针对单一任务进行微调的情况下,充分发挥大语言模型的能力,随后引入指令微调方案(Instruction Tuning),使模型在特定任务上的表现更加精准,同时保留了在其他任务上的泛化能力。
在突破发展阶段(2022 年 11 月至今),大语言模型向多模态持续进阶,模型能力不断扩展,从文本生成延伸到图像和视频生成。自ChatGPT于2022年推出以来,它迅速在全球范围内引发了 AIGC 的广泛关注与应用热潮。以ChatGPT 为起点,一个大语言模型即可实现回答问题、文稿撰写、代码生成和
数学解题等多项能力,这在过去需要多个小模型才能分别实现。GPT-4作为一款开创性的多模态模型,凭借其卓越的综合实力成为行业标杆,后续推出的GPT-4V、GPT-4-Turbo 和 GPT-4o 在性价比上不断提升。此外,Sora文生视频模型能够根据文本提示生成视频内容,并对现有图像或视频进行编辑和扩展。