Google技术积累深厚，模型发布节奏加速 - 产业科技 - 行业新闻

Google技术积累深厚，模型发布节奏加速
思瀚产业研究院 2024-11-11

多模态模型：最新发布Gemini 1.5，支持超长上下文窗口

2024年2月，谷歌发布最新一代MoE多模态模型Gemini 1.5。MoE (Mixture of Experts)是一种混合模型，由多个子模型（即专家）组成，核心思想是使用一个门控网络来决定每个数据应该被哪个模型训练，从而减轻不同类型样本之间的干扰。

支持超长的上下文窗口，信息处理能力进一步增强。谷歌增加了Gemini 1.5 Pro的上下文窗口容量，并实现在生产中运行高达100万个Token，远超32k的Gemini 1.0、128k的GPT-4 Turbo、200k的Claude 2.1，这意味着Gemini 1.5 Pro可以一次性处理大量信息——包括1小时的视频、11小时的音频、超过30000行代码的代码库或超过700000个单词。

图像生成模型：Imagen 2可生成高质量、更逼真的输出

2023年12月，Google发布最新的图像模型Imagen 2，在数据集和模型方面改善了文本到图像工具经常遇到的许多问题，包括渲染逼真的手和人脸，以及保持图像没有干扰视觉的伪影。

Imagen 2基于扩散技术提供了高度的灵活性，使控制和调整图像风格变得更加容易。通过提供参考风格的图像并结合文字提示，使用者可以调节Imagen 2生成相同风格的新图像；此外，还支持修补(inpainting)和扩图(outpainting)等图像编辑功能。

视频生成模型：Genie可通过单张图像生成交互式环境

2024年2月26日，谷歌发布Genie(Generative Interactive Environments)，它是一个110亿参数的基础世界模型，可通过单张图像提示生成可玩的交互式环境。谷歌认为Genie是实现通用智能体的基石之作，未来的AI智能体可以在新生成世界的无休止的curriculum中接受训练，从Genie学到的潜在动作可以转移到真实的人类设计的环境中。

Genie包含三个关键组件：1) 潜在动作模型(Latent Action Model, LAM)，用于推理每对帧之间的潜在动作

免责声明：
1.本站部分文章为转载，其目的在于传播更多信息，我们不对其准确性、完整性、及时性、有效性和适用性等任何的陈述和保证。本文仅代表作者本人观点，并不代表本网赞同其观点和对其真实性负责。
2.思瀚研究院一贯高度重视知识产权保护并遵守中国各项知识产权法律。如涉及文章内容、版权等问题，我们将及时沟通与处理。