2024 年 10 月 1 日,OpenAI 开发者大会上,公司公布了几大创新:实时 API、提示词缓存、模型蒸馏、视觉微调。
1)Realtime API:让开发者可以构建近乎实时的“语音转语音”的体验,并可以选择使用 OpenAI 提供的六种声音。
2)提示词缓存:类似于 Anthropic 几个月前推出的缓存功能,允许开发人员在 API 调用之间缓存常用上下文,从而降低成本并改善延迟。
3)模型蒸馏:让开发人员可以使用较大的 AI 模型(例如 o1-preview 和 GPT-4o)来微调较小的模型(例如GPT-4o mini)。
4)视觉微调:使开发人员能够使用「图像」结合「文本」,来微调他们的 GPT-4o 应用程序,“看”的能力被极大强化。
5)新广场玩法:提示词新的框架、用法等,以及结构化输出新的突破,这些让开发变得前所未有容易。
OpenAI推出了 Realtime API 的公开测试版,让所有付费开发者都能在其应用中打造低延迟、多模式体验。与ChatGPT 的高级语音模式类似,Realtime API 支持使用六种预设声音进行自然的语音对语音对话。OpenAI 还在 Chat Completions API 中引入了音频输入和输出(在新窗口中打开)以支持不需要 Realtime API 的低延迟优势的用例。通过此更新,开发人员可以将任何文本或音频输入传递到 GPT-4o,并让模型以他们选择的文本、音频或两者做出响应。
比如:1)Healthify 是一款营养和健身指导应用程序,它使用实时 API 实现与其 AI 教练 Ria 的自然对话,同时在需要个性化支持时让人类营养师参与进来。2)Speak 是一款语言学习应用程序,它使用 Realtime API来支持其角色扮演功能,鼓励用户用新语言练习对话。
Realtime API 收费模式和价格:文本输入令牌的价格为 5 美元/1M tokens,输出令牌的价格为 20 美元/1Mtokens。音频输入的价格为 100 美元/1M tokens,输出的价格为 200 美元/1M tokens。这相当于每分钟音频输入约 0.06 美元,每分钟音频输出约 0.24 美元。
海外 AI+音频代表性应用公司及应用场景:Duolingo(语言及其他课程学习)
2024 年 9 月 24 日,全球领先的移动学习平台 Duolingo 在其年度会议 Duocon 2024 上宣布了重大产品创新,主要包括:独特虚拟 IP 视频通话、虚拟世界探险学玩、扩展音乐、数学课程等更新。
1)Video Call With Lily 口语对练:这一功能已上线 iOS 端的英语、西班牙语及法语课程,供海外部分市场的Duolingo Max 会员使用。允许 Duolingo Max 订阅者与 Duolingo 最受欢迎的角色之一 Lily 进行自发、真实的对话;
2)Adventures:一种创新的探索游戏式体验,用户首次可以探索动态设置和故事情节,通过结合上下文来与拽姐、奥斯卡等高人气角色对话,完成任务。
3)Music:Duolingo 宣布与领先的便携式乐器制造商 Loog 合作,打造专为 Duolingo Music 课程设计的紧凑型便携式数码钢琴,课程售价为 249 美元;
4)数学课程:多邻国新增四款益智游戏,模拟更加生活化的教学场景,满足不同群体的学习需求。
目前 Duolingo 股价历史新高,受益于生成式 AI,公司产品的用户付费率逐渐提升,公司财务和经营数据均表现较为亮眼。24Q2 公司实现营收 1.78 亿美元,比去年同期增长 41%;调整后的 EBITDA 为 4810 万美元,去年同期为 2090 万美元,24Q2 和 23Q2 调整后的 EBITDA 利润率分别为 27.0%和 16.5%;用户情况:24Q2Duolingo 月活超过 1 亿,季度末付费用户总数达到 800 万,比去年同期增长 52%,即目前 Max 产品付费率超过 8%,本次产品更新有望进一步加速 Max 产品付费渗透率。
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。