3D 视觉是一个多学科交叉融合的领域,涉及计算图形学、计算视觉、人工智能等。它旨在让机器理解和处理三维空间中的信息,实现对物体和场景的深度感知、识别与理解。
1.1 主要任务
1.1.1 3D 重建
3D 场景的深度估计或者对物体表面的数字化采样,以及对 3D 数据的处理及展示;单目重建、双目重建、基于结构光的重建、基于激光的重建;大场景三维重建、移动端三维重建。
1.1.2位姿感知
对相机或物体在三维物理空间中的位置和朝向的计算、以及实时跟踪。
1.1.3 3D 理解
物体的检测、识别、检索,以及对场景或者物体的分割和语义标记等。
1.2 工作原理
3D 视觉成像是工业机器人信息感知的一种最重要的方法,可分为光学和非光学成像方法。目前应用最多的还是光学方法。
1.2.1 飞行时间法(TOF)
通过测量光从发射到接收的时间差来计算物体距离。以 TOF 相机为例,每个像素利用光飞行的时间差获取物体的深度。经典测量方法中,探测器系统发射光脉冲时启动探测接收单元计时,接收到目标光回波时存储往返时间,根据公式估算目标距离。
分为直接 TOF(DTOF)和间接 TOF(I-TOF),DTOF 通常用于单点测距系统,实现面积范围 3D 成像常需扫描技术;I-TOF 从光强度的时间选通测量中间接外推时间往返行程,不需要精确计时,是目前基于 TOF 相机的电子和光混合器的商用化解决方案。TOF 成像可用于大视野、远距离、低精度、低成本的 3D图像采集,在智能无人系统(如机器人、无人车、无人机等)中用于环境感知。
1.2.2 结构光投影 3D 成像
结构光投影三维成像目前是机器人 3D 视觉感知的主要方式。由投影仪向目标物体投射特定的结构光照明图案,如条纹、格雷码图案等,相机摄取被目标调制后的图像。由于物体表面的高低起伏,结构光图案在物体表面会发生变形。通过图像处理和视觉模型,对比变形前后的图案,分析图案的畸变情况,就可以计算出目标物体表面各点的三维坐标信息。
在机器人手眼系统应用中,对于三维测量精度要求不高的场合(如码垛、拆垛、三维抓取等),投射伪随机斑点获取目标三维信息的方式比较受欢迎。这种方法常用于工业检测、3D 建模等领域,能够快速获取物体表面的三维数据。结构光成像系统是由若干个投影仪和相机组成,常用的结构形式有:单投影仪-单相机、单投影仪-双相机、单投影仪-多相机、单相机-双投影仪和单相机-多投影仪等典型结构形式。
结构光投影三维成像的基本工作原理是:投影仪向目标物体投射特定的结构光照明图案,由相机摄取被目标调制后的图像,再通过图像处理和视觉模型求出目标物体的三维信息。常用的投影仪主要有下列几种类型:液晶投影(LCD)、数字光调制投影(DLP:如数字微镜器件(DMD))、激光LED 图案直接投影。
根据结构光投影次数划分,结构光投影三维成像可以分成单次投影 3D 和多次投影 3D 方法。单次投影结构光主要采用空间复用编码和频率复用编码形式实现,常用的编码形式有:彩色编码、灰度索引、几何形状编码和随机斑点。目前在机器人手眼系统应用中,对于三维测量精度要求不高的场合,如码垛、拆垛、三维抓取等,应用较多的是投射伪随机斑点获得目标三维信息。
多次投影 3D 方法主要采用时间复用编码方式实现,常用的图案编码形式有:二进制编码、多频相移编码τ35 和混合编码法(如格雷码十相移条纹)等。条纹投影 3D 成像基本原理如下图所示,利用计算机生成结构光图案或用特殊的光学装置产生结构光,经过光学投影系统投射至被测物体表面,然后采用图像获取设备(如CCD 或 CMOS 相机)采集被物体表面调制后发生变形的结构光图像,利用图像处理算法计算图像中每个像素点与物体轮廓上点的对应关系;最后通过系统结构模型及其标定技术,计算得到被测物体的三维轮廓信息。在实际应用中,常采用格雷码投影、正弦相移条纹投影或格雷码十正弦相移混合投影 3D 技术。
对于粗糙表面,结构光可以直接投射到物体表面进行视觉成像测量;但对于大反射率光滑表面和镜面物体 3D 测量,结构光投影不能直接投射到被测则表面,3D 测量还需要借助镜面偏折技术。
在这种方案中,条纹不是直接投影到被测则轮廓上,而是投射到一个散射屏上,或用液晶显示屏代替散射屏把条纹直接显示出来。相机通过光亮表面折返光路,获取被光亮表面曲率变化调制的条纹信息,然后解算出三维轮廓形貌。
1.2.3 扫描 3D 成像
扫描 3D 成像方法可分为扫描测距、主动三角法、色散共焦法等。扫描测距是利用一条准直光束通过一维测距扫描整个目标表面实现 3D 测量。典型扫描测距方法有:单点飞行时间法,如连续波频率调制(FM-CW)测距、脉冲测距(激光雷达)等;激光散射干涉法,如基于多波长干涉、全息干涉、白光干涉散斑干涉等原理的干涉仪;共焦法,如色散共焦、自聚焦等。
单点测距扫描 3D 方法中,单点飞行时间法适合远距离扫描,测量精度较低,一般在毫米量级。其他几种单点扫描方法有:单点激光干涉法、共焦法和单点激光主动三角法,测量精度较高,但前者对环境要求高;线扫描精度适中,效率高。比较适合于机械手臂末端执行 3D 测量的应是主动激光三角法和色散共焦法。主动三角法是基于三角测量原理,利用准直光束、一条或多条平面光束扫描目标表面完成 3D 测量的。
光束常采用以下方式获得:激光准直、圆柱或二次曲面柱形棱角扩束,非相干光(如白光、LED 光源)通过小孔、狭缝(光栅)投影或相干光衍射等。主动三角法可分为三种类型:单点扫描、单线扫描和多线扫描。目前商业化的用于机械手臂末端的产品大多数是单点和单线扫描仪。
在多线扫描方法中,条纹极数可靠识别是难点。为了准确识别条纹编号,通常采用两组垂直光平面高速交替成像,这样还可以实现“FlyingTriangulation”扫描,其扫描与三维重构过程如下图所示。多线条投影一次频闪成像产生一幅稀疏 3D 视图,通过纵横向条纹投影扫描生成若干幅 3D 视图序列,再通过三维图像准配生成高分辨率的完整致密的三维曲面模型。
色散共焦似乎可以扫描测量粗糙和光滑的不透明和透明物体,如反射镜面、透明玻璃面等,目前在手机盖板三维检测等领域广受欢迎。色散共焦扫描有三种类型:单点一维绝对测距扫描、多点阵列扫描和连续线扫描,下图分别列出了绝对测距和连续线扫描两类示例,其中连续线扫描也是一种阵列扫描,只是阵列的点阵更多、更密集。在商业产品上,目前较为知名的扫描光谱共焦传感器是法国的 STILMPLS180,采用 180 个阵列点形成一条线,最大线长4.039mm(测量点 11.5pm,点与点间距为 22.5pm),另一款产品是芬兰的FOCALSPECUULA,采用的是色散共焦三角法技术。
1.2.4 立体视觉 3D 成像
立体视觉一般情况下是指从不同的视点获取两幅或多幅图像重构目标物体3D 结构或深度信息。深度感知视觉线索可分为 ocularcues 和 Binocularcues(双目视差)。目前立体视觉 3D 可以通过单目视觉、双目视觉、多目视觉、光场 3D 成像(电子复眼或阵列相机)实现。单目视觉深度感知线索通常有:透视、焦距差异、多视觉成像、覆盖、阴影、运动视差等。
在机器人视觉里还可以用镜像 1,以及其他 shapefromX10 等方法实现。双目视觉深度感知视觉线索有:眼睛的收敛位置和双目视差。在机器视觉里利用两个相机从两个视点对同一个目标场景获取两个视点图像再计算两个视点图像中同名点的视差获得目标场景的 3D 深度信息。典型的双目立体视觉计算过程包含下面四个步骤:图像畸变矫正、立体图像对校正、图像配准和三角法重投影视差图计算。
多目视觉成像即多视点立体成像,用单个或多个相机从多个视点获取同一个目标场景的多幅图像,重构目标场景的三维信息。
多视点立体成像主要用于下列几种场景:使用多个相机从不同视点,获取同一个目标场景多幅图像,然后基于特征的立体重构等算法求取场景深度和空间结构信息;从运动恢复形状(SM)的技术,使用同一相机在其内参数不变的条件下,从不同视点获取多幅图像,重构目标场景的三维信息。该技术常用于跟踪目标场景中大量的控制点,连续恢复场景的 3D 结构信息、相机的姿态和位置。光场成像与传统相机成像原理不同,传统相机成像是光线穿过镜头在后续成像平面上直接形成 2D 图像。
光场相机在传感器平面前增加微透镜阵列,经过主镜头入射的光线再次穿过每个微透镜,由感光阵列接收,从而获得光线的方向与位置信息。这使得成像结果可在后期处理,达到先拍照后聚焦的效果,并且能够利用这些信息恢复场景的三维结构。在虚拟现实、增强现实等领域,光场成像技术有助于提供更真实的视觉体验,实现对场景更精确的三维感知和交互。
光场 3D 成像的原理与传统 CCD 和 CMOS 相机成像原理在结构原理上有所差异,传统相机成像是光线穿过镜头在后续的成像平面上直接成像,一般是 2D 图像。光场相机成像是在传感器平面前增加了一个微透镜阵列,将经过主镜头入射的光线再次穿过每个微透镜,由感光阵列接收,从而获得光线的方向与位置信息,使成像结果可在后期处理,达到先拍照,后聚焦的效果,如下图所示。
光场 3D 成像相机内部结构
1.2.5 3D 视觉成像方法比较
类似于 ToF 相机、光场相机这类相机,可以归类为单相机 3D 成像范围,它们体积小,实时性好,适合 Eye-in-Hand 系统执行 3D 测量、定位和实时引导。但是 ToF 相机、光场相机短期内还难以用来构建普通的 Eye-inHand 系统。主要原因如下:ToF 相机空间分辨率和 3D 精度低,不适合高精度测量、定位与引导。对于光场相机,目前商业化的工业级产品只有德国 Raytrix 一家,虽然性能较好,空间分率和精度适中,但价格太贵,一台几十万元,使用成本太高。
结构光投影 3D 系统,精度和成本适中,有相当好的应用市场前景。它由若干个相机-投影仪组成,如果把投影仪当作一个逆向的相机,可以认为该系统是一个双目或多目 3D 三角测量系统。被动立体视觉 3D 成像,日前在工业领域也得到较好应用,但应用场合有限。因为单目立体视觉实现有难度,双目和多目立体视觉要求目标物体纹理或几何特征清晰。
结构光投影 3D、双目立体视觉 3D 都存在下列缺点:体积较大,容易产生遮挡。因为这几种方法都是基于三角测量原理,要求相机和投影仪之间或双目立体两个相机之间必须间隔一定距离,并且存在一定的夹角θ(通常大于 15°)才能实现测量。如果减小相机与投影仪(结构光光源)的夹角,虽然在某些程度上可以解决问题,但是却会严重降低系统的测量灵敏度,影响该测量系统的应用。
针对上述问题虽然可以增加投影仪或相机覆盖被遮挡的区域,构成投影仪-相机-投影仪系统、相机-投影仪-相机测量系统或者多个相机投影仪系统,增大可视范围,减小阴影区域,扩大測量区域,但会增加成像系统的体积,减少在 Eye-In-hand 系统中应用的灵活性。从 Eye-In-Hand 系统的角度来看,最佳的方案是开发一种成本低廉、精度适中、被动单目 3D 成像系统。
1.3 应用场景
1.3.1 3D 高精度扫描
当前,3D 视觉技术正广泛应用于精密物件扫描与测量中,在多领域均有广泛应用。在工业制造中,3D 视觉技术可对工业产品进行全方位、高精度的检测。通过获取产品的三维数据,能精确测量其尺寸、形状,检测出表面缺陷、内部瑕疵等问题。
无论是汽车零部件、电子产品外壳,还是机械加工件,都能实现快速、准确的质量评估。同时,高精度的 3D 扫描技术还可以实现高效、便捷、精确的三维测量与扫描,结合三维设计与 3D 打印技术,从而深度应用于户外工程作业、场景数据采集、产品定制设计等多个领域。以先临三维为例,其推出的无线一体式三维扫描仪 EINSTAR VEGA 构建了全场景适应的扫描方案,在应对复杂多变的户外环境也能做出高效准确的扫描反馈。
近期,先临三维还在 2025 年 4 月 22 日发布了全新一代计量级高精度蓝光三维扫描仪 OptimScan Q12,构建高精度的硬件模块与基于 3D 视觉技术的三维重建算法,实现了 5 微米计量级精度,同时拥有强大细节还原能力、双重范围无缝切换技术及自动化智能检测能力,在汽车行业、民用航空、3C 电子等高端制造领域具有重要作用。在面对制造业规模化生产需求时,OptimScan Q12 支持与RobotScan 机器人智能 3D 检测系统集成,通过预设检测程序,设备完成自动扫描、自动检测、输出报告的一系列全流程应用,从而实现全自动、批量化全尺寸检测。
1.3.2 机器人领域智能优化升级
在生产过程中,工业机器人需要精准地识别和操作目标物体。3D 视觉赋予其更强大的感知能力,使机器人能够精准识别目标物体的位置、姿态和形状,实现高精度的抓取、装配、焊接等操作。在复杂的生产环境中,3D 视觉帮助机器人快速适应不同的工件和工况,提高生产的柔性和自动化程度。同时,还能对机器人的运动轨迹进行实时监测和调整,避免碰撞和错误操作,提升机器人的工作效率和安全性。
奥比中光基于 3D 视觉感知技术,采用 dToF 激光雷达实现目标及环境深度信息的获取与输出,助力工业机器人实现运动避障、抓取规划、机器人配合等功能,可应用于货品周转搬运、拣选上料、装配、涂胶、检测等工业、物流业场景。
在人形机器人领域,3D 视觉技术为机器人提供高精度的环境三维信息,帮助机器人识别周围环境中的物体、障碍物及人类的动作、手势和表情,实现路径规划、物体抓取与操作、人机交互等功能。
在近期进行的人形机器人半程马拉松比赛中,北京人形机器人创新中心自研的全尺寸人形机器人“天工 Ultra”,用时 2 时 40 分 42 秒跑完 21.0975 公里,夺得全球首个人形机器人半程马拉松冠军。其中,为了确保天工能够全面感知周围环境,基于 3D 视觉技术的深度相机被广泛运用在此机器人身上:在头部、胸部、腰部和后背各配置了一个深度相机,其中头部配置的是奥比中光 335,其余部位配置的是奥比中光 335L。这种配置不仅能探测前方一定角度区域内的障碍物,还能有效感知后方和脚下的障碍物信息,从而提高机器人的整体感知能力和运行安全性。
1.3.3 智能物流与仓储管理
在智能物流与仓储中,3D 视觉技术可用于货物的识别、定位和测量,实现自动化的分拣、码垛和存储。通过扫描货物的三维信息,系统能快速确定货物的位置和姿态,引导机器人或机械臂进行准确的抓取和放置。还能对仓库的空间进行合理规划和利用,提高仓储密度和物流效率。此外,3D 视觉还可用于库存盘点和货物状态监测,实时掌握库存信息,在人工叉车定位、库位状态识别、人体安全防护、立库安全保障与货物体积测量等智能物流与仓储管理领域的关键场景中起到重要作用。
以浙江迈尔微视科技有限公司(以下简称:迈尔微视)为例,其在工业移动机器人场景中实现了深度视觉技术的规模化落地,并将视觉解决方案应用于物流仓储自动化的多个关键场景。迈尔微视的库位状态识别系统通过将 3D 视觉传感器与AI 智能算法相结合,实时监控库位的物料状态、位置和类别,精准识别库位的占用情况并同步至仓库管理系统。同时,迈尔微视的 RGB-D 相机能够提供库位的三维数据,识别货物堆放的规范性与异常占用。
在人工叉车定位场景中,迈尔微视通过在叉车顶部安装 3D 视觉相机,实现了 1-3 厘米的高精度定位,在复杂环境中提供稳定的定位支持,确保叉车作业的精准性和安全性。在立库安全与人体防护场景中,迈尔微视依托视觉传感器的精准三维数据监测,实时检测托盘与货架的位移
和倾斜情况,及时反馈给堆垛机控制系统,确保自动化作业的安全进行;同时利用3D 视觉技术实时监测工作人员的动态,能够及时识别是否有人员进入危险区域,保障作业安全。
1.3.4 生物识别
作为在 3D 视觉传感领域的深耕者,奥比中光在多领域中提供“一站式”解决方案和个性化定制服务。在支付领域,安全与便捷是用户关注的核心要点。奥比中光的 3D 刷脸支付解决方案具备金融级商用实力,有效破解传统 2D 人脸识别的安全困境,为千万消费者提供安全、便捷的“无感”支付体验。在智能家居安防领域,奥比中光将真 3D 结构光方案运用到智能门锁/门禁系统中,通过 3D 人脸辨识算法与人脸活体检测技术,为用户提供了安全可靠的门禁解决
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。