大语言模型:开源LLaMA 2
2023年7月,Meta发布了开源大语言模型——LLaMA 2。LLaMA 2是在LLaMA 1基础之上构建而成,训练数据比上一版本多出40%,拥有70亿、130亿和700亿三种参数,并且允许商业化。技术方面,该预训练模型接受了2万亿个标记的训练,上下文长度是上一版本的两倍,能处理更长的文本内容;性能方面,LLaMA-13B在大多数基准上超过了参数量达1750亿的GPT-3。
视觉大模型:开源图片分割基础模型SAM
2023年4月,Meta AI在官网发布了基础模型Segment Anything Model (SAM) 并开源。SAM已在1100万张图片和11亿个掩码的数据集上进行了训练,具有超强的自动识别、切割功能。SAM能感知超出数据训练的对象和图像,就算图片不在SAM训练范围内,它也能识别。这意味着,用户无需再收集自己的细分数据,并为用例模型进行微调。SAM可以集成在任何希望识别、切割对象的应用中,在医疗、农业、气象、天文、媒体等主流行业拥有广阔的应用空间。
多模态大模型:开源ImageBind,具备超强联想能力
2023年5月,Meta开源了多模态大模型ImageBind,可跨越图像、视频、音频、深度、热量和空间运动6种模态进行检索。例如,输入鸽子的图片,外加一个摩托音频,模型能够检索出一张摩托和鸽子的图片。ImageBind模型把不同模态数据串联在一个嵌入空间(Embedding Space),从多维度理解世界,未来将引入更多模态增强对世界感知,比如如触觉、语音、嗅觉和大脑fMRI信号。
多年布局:理论基础深厚,发布多个基础架构
2016年,谷歌宣布公司战略从Mobile First转向AI First,此后陆续发布Transformer、BERT、T5等重要的基础模型(架构);2023年4月,谷歌将Google Brain和DeepMind合并为Google DeepMind,全力冲刺AI,8个月后发布Gemini。
大语言模型:PaLM 2实现轻量化,可在移动设备上离线运行
PaLM2性能升级,部分测试结果超过GPT-4,轻量版可运行在移动设备上:2023年5月,谷歌发布PaLM2,对于具有思维链prompt或自洽性的MATH、GSM8K和MGSM基准评估,PaLM 2的部分结果超越了GPT-4。PaLM2包含四种尺寸的模型,其中最轻量的“壁虎”版本能在移动设备上快速运行(包括离线状态)。
谷歌将PaLM2融入办公软件、搜索引擎等产品:AI聊天机器人Bard被整合到谷歌的办公软件“全家桶”中,为Gmail、GoogleDocs、Sheets以及Slides创造了名为”Duet AI”的办公助手;Bard还被整合到谷歌搜索优化搜索答案。
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。