多模态模型:最新发布Gemini 1.5,支持超长上下文窗口
2024年2月,谷歌发布最新一代MoE多模态模型Gemini 1.5。MoE (Mixture of Experts)是一种混合模型,由多个子模型(即专家)组成,核心思想是使用一个门控网络来决定每个数据应该被哪个模型训练,从而减轻不同类型样本之间的干扰。
支持超长的上下文窗口,信息处理能力进一步增强。谷歌增加了Gemini 1.5 Pro的上下文窗口容量,并实现在生产中运行高达100万个Token,远超32k的Gemini 1.0、128k的GPT-4 Turbo、200k的Claude 2.1,这意味着Gemini 1.5 Pro可以一次性处理大量信息——包括1小时的视频、11小时的音频、超过30000行代码的代码库或超过700000个单词。
图像生成模型:Imagen 2可生成高质量、更逼真的输出
2023年12月,Google发布最新的图像模型Imagen 2,在数据集和模型方面改善了文本到图像工具经常遇到的许多问题,包括渲染逼真的手和人脸,以及保持图像没有干扰视觉的伪影。
Imagen 2基于扩散技术提供了高度的灵活性,使控制和调整图像风格变得更加容易。通过提供参考风格的图像并结合文字提示,使用者可以调节Imagen 2生成相同风格的新图像;此外,还支持修补(inpainting)和扩图(outpainting)等图像编辑功能。
视频生成模型:Genie可通过单张图像生成交互式环境
2024年2月26日,谷歌发布Genie(Generative Interactive Environments),它是一个110亿参数的基础世界模型,可通过单张图像提示生成可玩的交互式环境。谷歌认为Genie是实现通用智能体的基石之作,未来的AI智能体可以在新生成世界的无休止的curriculum中接受训练,从Genie学到的潜在动作可以转移到真实的人类设计的环境中。
Genie包含三个关键组件:1) 潜在动作模型(Latent Action Model, LAM),用于推理每对帧之间的潜在动作