近年来,视觉人工智能的多数研究都集中在深度学习、检测和分类面部/手部/姿势、3D 传感技术等方面。随着识别准确度的提升空间趋小,研究重心将逐渐转向技术协同、融合与应用。
在视觉人工智能领域内,将终端设备演进为小型数据中心集群,并与云端高效协同将成为研究重点之一。终端设备的铺设和数据量的增长将使面向云端的传输压力倍增,这要求端侧完成部分云侧的图像处理功能。而在终端逐渐提高的算力要求,例如更加准确的实时识别,也需要端云架构的协同整合。
在识别技术趋于成熟的今天,端云的深度结合与协同将成为识别技术的重要依托,如何将两侧的架构进行不断耦合优化也将不会局限于计算机视觉技术,而成为人工智能技术层共同探索的方向。
目前,业内的部分研究也在突破对识别准确度的单一聚焦,转向更加综合的计算机视觉问题,如图像描述、事件推理、场景理解等。未来,视觉人工智能将与其他的智能技术协同融合,评判因素也将由准确性延伸至识别的灵活性、推测的合理性。例如,融合自然语言处理技术来完成图像描述,将图片翻译为一段文字。
而事件推理则是通过识别复杂视频中的因果关系,并基于因果关系给出合理推测。未来,安防领域可运用这项技术,建立端到端的时间推理系统,从而帮助提升案件侦查效率,改善治安管理效果。
场景理解则通过由自身传感器收集的环境感知数据,获得周边场景的几何/拓扑结构、构成要素与时空变化,并进行语义推理甚至决策出未来时间内的运动走向。该项技术有广大的潜在市场亟待渗透,未来随着数据集的不断拓展和自监督学习,视觉人工智能的交互性和通用性将大大增强,为各种行业所用。
技术的协同和融合将进一步积累针对多样化场景的解决方案,而更加广泛、密集的应用又将推动技术的不断迭代。海量数据、多种技术的交互作用有利于最终构成完整的技术赋能平台,持续的整合和创新将不断扩展视觉人工智能的技术边界,转化为下一阶段的产业化能力和平台化能力。