首 页
研究报告

医疗健康信息技术装备制造汽车及零部件文体教育现代服务业金融保险旅游酒店绿色环保能源电力化工新材料房地产建筑建材交通运输社消零售轻工业家电数码产品现代农业投资环境

产业规划

产业规划专题产业规划案例

可研报告

可研报告专题可研报告案例

商业计划书

商业计划书专题商业计划书案例

园区规划

园区规划专题园区规划案例

大健康

大健康专题大健康案例

行业新闻

产业新闻产业资讯产业投资产业数据产业科技产业政策

关于我们

公司简介发展历程品质保证公司新闻

当前位置:思瀚首页 >> 行业新闻 >>  产业科技

智能语音语言行业在新技术方面的发展情况和未来发展趋势
编制:诸葛御 责任编辑:赵皋 来源: 思瀚产业研究院 思必驰    2023-05-04


近年来,行业内智能语音语言算法不断更新迭代,基础性能持续增强,通用识别准确率等已不再是智能语音语言行业发展的核心挑战,语音语言技术逐步由以语音感知为主,向综合感知、认知、知识计算的全链路对话系统方向拓展。

关键基础算法层面,在可控环境和简单结构化知识源条件下,语音及语言处理技术的性能已经表现良好,达到产业化水平,但在复杂真实环境和自然非结构化语言及知识处理方面,与产业需求仍然有不小差距。例如,在远场、高噪声、多人会议场景下的自由语音识别准确率还有待提升,知识型的开放问答和语义理解对话尚无通用模型。

因此,在感知技术方面,业内研究逐步转向聚焦突破高噪声、多干扰、端侧低资源等真实复杂自然场景;在认知及知识计算方面,聚焦理解式的知识问答、对话理解及管理技术,以及专业领域的深度知识结构化,进一步增强面向垂直领域信息智能化的知识图谱、对话问答、阅读理解、翻译等能力。

另一方面,个性化、场景定制化、私有化部署等需求已经成为传统产业进行智能化改造和数字化升级的普遍需求,比如个性化的声音复刻、新语义领域的问答对话、为保护隐私的私有化识别部署等。支撑这一需求的小数据迁移学习和自主学习算法及其在语音语言处理各个领域的结合,也是智能语音及语言行业算法技术发展的趋势。

1)全双工语音出现,人机交互朝着更自然、更顺畅的方向发展

全双工是通信学科中的一个术语,意为允许数据在两个方向上同时传输,应用在智能语音语言行业,即为实时的、双向的语音信息的交互,这是人们进行即兴自由交互情境下的对话模式。目前市场上大部分产品只能满足单轮交互或多轮交互,单轮交互的情景下,用户每次都需要使用唤醒词开启交互,使得人机对话非常割裂;多轮交互的情景下,用户只需一次唤醒,在机器判断任务尚未完成时,会持续的接收用户发出的语音信息,待到机器判断单次任务完成后,再综合信息进行分析并做出回应,但在多轮交互中机器仍不能做到接收信息和发出语音同步进行。区别于单轮交互与多轮交互,全双工可以做到“边听、边想、边说”,在接收语音信息的同时进行思考,并实现动态的预估,进而以更快的速度进行回答,使人机交互更自然、更流畅;

同时,全双工语音还可做到节奏控制,根据用户回答内容的重要性,决定打断还是继续倾听,是先完成上一个问题还是先回答用户的追加问题;此外,全双工语音还能进行场景理解,识别用户当前是否在与 AI进行对话,并根据不同对象、不同场景进行音量、语气等方面的调节。未来,智能语音语言的应用场景越发多样化,应对的环境状况越发复杂,全双工语音的优势将会越发凸显,并成为智能语音语言行业的主流交互方式。

2)优化人机交互体验,多模态交互成为必然趋势

人类在交互过程中并非孤立地依据声音、表情及动作中的单项进行沟通与交流,而是综合视觉、听觉、触觉甚至嗅觉来进行有效的沟通。同理,要使机器做到更加逼真的“拟人化”,就需要通过语音、视觉、文本等信息结合的方式来推动人机交互的优化与升级。例如,在复杂声学环境尤其是多人同时说话的时候,语音识别性能会显著下降,此时若引入视觉信息对讲话者进行唇语识别,综合语音和视频信息则可以大幅提升说话人跟踪和语音识别准确率;

又例如,在人机交互过程中,机器通过采集用户的表情、说话语气,甚至脚步的频率和急缓程度,可以分析用户的情绪状态,以采用不同的方式推进交互,提高人机交互的交互效率与质量。应对人机交互场景化应用不断拓展的市场需求,多模态、智能化的完整解决方案可以更好地应对不同场景的复杂变化,多模态交互成为行业发展的必然趋势。

3)芯片研发日益关键,端侧智能与云侧智能双轮驱动 AI 深度应用

目前基于深度学习的智能算法通常运行于具有强大计算能力的云计算中心,而相比于云计算,边缘计算将资源和服务下沉到网络边缘端,从而带来更低的带宽占用、更低的时延、更高的能效和更好的隐私保护。随着移动终端设备的普及率越来越高,未来行业将逐步将人工智能模型全部或分布式的部署到资源受限的终端设备上,与云侧智能协同。同时,结合感知硬件和计算模组的软硬一体化解决方案,也成为人工智能软件算法技术落地优化的趋势。

软硬一体化的方案将更容易提升人工智能用户的最终体验,更好解决 AI 落地的“最后一公里”问题。软硬一体化的重要形态就是专用人工智能芯片。专用芯片往往是场景化或针对特定功能的,成本和效率大大优于通用芯片,可以进一步提高产品端侧的计算效率,并提升针对特定应用场景的优化适应能力。未来,人工智能语音芯片的发展将进一步推动智能语音语言产品在各垂直行业领域商业化落地。

4)以对话交互为核心的认知和知识计算成为智能信息服务的重要技术趋势

基于知识交互的认知智能是信息服务智能化的核心技术,在智能客服、教育、办公、金融、政务、医疗等各个垂直领域的数字化转型中具有重要作用。在各类智能信息软硬件爆发式增长的大背景下,对话式语言认知智能,尤其是对话理解和管理技术,将成为感知与认知系统级融合的关键技术,极大影响用户体验。另一方面,针对垂直领域的复杂结构化数据库、各类知识文档等多种形态的原始知识源,进行知识结构化和知识图谱构建,形成可控人机理解式交互的知识源,支撑知识问答和对话,支持人类决策,将是面向信息服务智能化的知识计算的发展方向。

5)系统级的大规模场景化柔性定制成为赋能传统产业的关键

由于人工智能赋能产业过程中的场景化定制需求巨大,当前智能语音语言行业的公司逐步由向硬件设备厂商提供单一技术授权或单点技术的项目制开发等商业模式,逐步转向以最终用户体验为目标的轻量化需求产品的快速迭代、规模化定制开发和软硬一体化,通过提供人工智能芯片及模组、智能语音及语言技术定制接口、业务级对话技能开发以及灵活的知识资源库等智能语音语言的全链路柔性定制方案,增加技术输出的厚度,扩大技术输出的边界,增加下游产业的粘性,形成生态优势。

免责声明:
1.本站部分文章为转载,其目的在于传播更多信息,我们不对其准确性、完整性、及时性、有效性和适用性等任何的陈述和保证。本文仅代表作者本人观点,并不代表本网赞同其观点和对其真实性负责。
2.思瀚研究院一贯高度重视知识产权保护并遵守中国各项知识产权法律。如涉及文章内容、版权等问题,我们将及时沟通与处理。