深度学习驱动下的相机标定综述

2023-05-08 13:35 721 阅读 ID:1036
将门
将门

  相机标定在计算机视觉和机器人等领域中占据举足轻重的地位,它为后续场景理解及决策推断提供了标准化的成像空间和精准的几何先验。然而,传统的相机标定技术常常依赖于繁琐的人工干预和特定的场景假设,因此难以灵活拓展至不同的相机模型和标定场景。近年来,基于深度学习的解决方案展现出代替手动操作、摆脱场景假设的潜力,实现了全自动化的相机标定技术。在这些方案中,各种各样的学习机制、网络架构、先验知识、优化函数、数据集等方面均得到了广泛的研究。

论文链接:

https://arxiv.org/pdf/2303.10559.pdf

本综述总结的方法细节、数据集和构建的评测基准已在线公开并将定期更新,详情请见:

https://github.com/KangLiao929/Awesome-Deep-Camera-Calibration

本综述首次系统性地概述了深度学习驱动下的相机标定技术,涵盖了深度学习时代以来(8年时间跨度)各类相机模型标定及其应用的最新研究进展。主要探索的标定类别包括标准针孔相机模型、畸变相机模型、跨视角模型和跨传感器模型等。该路线紧密契合了基于深度学习的相机标定的研究趋势和实际市场需求。在每个类别中,相应技术发展的贡献点、优势、局限性得到了充分论述,具体的未来研究技术点也进行了一定展望。此外,本文还整合、构建了一个公开且全面的评测基准数据集,可作为开放平台用于不同研究方法的性能评测。该数据集包括了不同仿真环境下生成的合成数据,以及不同场景下由各类真实相机采集到的图像和视频序列。每一个数据样本均提供了准确的标定结果、相机参数、或视觉线索。最后,我们讨论了整个基于深度学习的相机标定领域仍然存在的挑战以及未来可能的研究方向。

一、相机模型及标定目标

相机模型描述了从三维世界坐标中的点到其在二维图像平面上投影的成像过程。其中,不同的相机和传感器系统对应不同类型的参数模型。在本综述中,我们首先回顾了标准的针孔相机模型涉及的内外相机参数以及几何表征。随后,我们根据基于深度学习的相机标定技术发展和市场需求回顾了更加复杂的模型,如广角/鱼眼相机模型、卷帘门模型、跨视角模型和相机-雷达联合模型。特别地,考虑到传统相机标定中部分标定目标的隐式性和异质性,我们还归纳总结了该领域利于神经网络学习的新标定目标。这些新目标能够加速训练损失收敛并有助于提高标定性能。更多细节详见本综述补充材料的第二部分。

                               本综述涵盖了目前市场主流的相机模型、标定目标及其拓展应用

二、基于深度学习的相机标定范式及策略

在工业界和学术界中,有一些标准的相机标定技术可供选择(如OpenCV、Kalibr),因此这个过程通常在计算机视觉的最新发展中被忽视。然而,使用传统方法对单个或自然图像和序列(in the wild)进行标定仍然极具挑战,特别是当待标定数据来自互联网或未知的相机模型。近年来,深度学习为相机标定技术带来了新的灵感,实现了无需人工干预的全自动标定过程。本综述首先从学习范式和学习策略这两个方面对基于深度学习的相机标定进行分类总结。

学习范式

受不同神经网络架构的启发,研究人员开发出了两种主流的深度学习相机标定范式。

第一种称为回归范式,使用具有卷积和全连接层的神经网络从输入中回归标定目标。随后,回归得到的相机参数用于进行后续任务,如畸变矫正、相机定位、三维重建等。这种学习范式在该领域内最早得到研究,各类标定模型的第一个深度学习工作均属于回归范式,如内参标定(Deepfocal[21]),外参标定(PoseNet[22]),广角相机标定(Rong[23]),卷帘门标定(URS-CNN[23]),相机-雷达联合标定(RegNet[27])等。

第二种称为重建范式,它抛弃了传统的参数回归思想,使用全卷积网络直接从初始输入学习像素级的映射函数,将待标定域映射到标定域上。这种方式专注于像素级重建并与后续任务联合学习,可以实现无参数、一阶段标定。该范式下经典的标定算法有:针孔相机(MisCaliDet[108]),广角相机(DR-GAN[31]),卷帘门模型(DeepUnrollNet[46]),相机-雷达模型(CFNet[153])等。

学习策略

在基于深度学习的相机标定发展中,多种学习策略得以探索,其中有监督学习占绝大多数(超过90%)。考虑到标记工作费时费力,越来越多的研究者探索使用半监督学习、弱监督学习、无监督学习和自监督学习来降低神经网络对参数标签的训练需求。这些学习策略的研究重心也从数据量、网络层数的堆叠等逐渐转变为对数据本身先验知识的挖掘。

在相机标定技术中,几何先验具有高效利用数据的特点,因为它们消除了从数据中学习这些信息的必要性,这使得网络框架易于解释,并且更好地适用于相近的数据分布。此外,强化学习也被用于动态解决相机标定问题。我们注意到,该领域仍然有很多学习策略尚未被开发研究,如主动学习、少样本学习、零样本学习等。这些学习策略可以进一步提高标定算法的效率和鲁棒性,从而扩展相机标定的应用场景,例如在医疗图像处理、军事侦察和自动驾驶等领域。

三、具体研究进展及讨论

本综述的结构和层次分类如下图所示,其中每个部分对应标定不同的相机模型或拓展模型的研究进展。在第三章中,我们介绍了标准针孔相机标定,其中按标定目标分为内参标定、外参标定、内外参联合标定。在第四章中,我们介绍了畸变相机模型标定,其中按畸变类型分为径向畸变和卷帘门畸变。对于径向畸变,我们按学习范式进行分类概述;对于卷帘门畸变,我们按数据类型进行逐一分析。在第五章中,我们介绍了跨视角模型应用,其中按算法流程分为直接方案、级联方案和迭代方案。在第六章中,我们介绍了跨传感器模型标定,特别是相机-雷达联合标定,其中按标定目标分为像素级、语义级和物体/关键点级标定。在每一章节中,我们还归纳了对应标定模型下的深度学习研究趋势,并展望了未来研究的技术路径。

有趣的是,我们发现虽然不同模型标定算法之间的发展鲜有关联,但是它们的研究趋势均呈现出从回归范式到重建范式的拓展。新的标定目标的发展也不谋而合。此外,部分方案根据传统标定的流程重新设定了每个学习模块的结构和功能,在灵活整合几何求解算法的同时大大提高了网络的可解释性。更多分析和讨论详见综述的第三章至第六章。

                               本综述的结构和层次分类,其中每个类别下列出了一些经典的方法

四、评测基准

由于在基于深度学习的相机标定领域中还没有公开且统一的评测基准,因此我们整合、构建了一个数据集,以用于评估不同方法的泛化性能。在这个数据集中,图像和视频是由不同的相机在各种场景下拍摄的,包括模拟环境和真实世界的场景。此外,我们基于不同的条件提供了标定的真实结果、参数标签和视觉线索等,如下图所示。特别地,对于畸变相机模型,我们使用大约40种广角相机采集室内的原始数据。其中每个数据均配有标定获得的内参、外参和畸变系数。为了丰富场景多样性,我们还用一辆配备了不同标定相机的车载系统来采集街景环境下的视频序列,涵盖了白天、黑夜以及不同的天气。

                                                       本综述整合、构建的评测基准数据集

五、未来研究展望

相机标定是计算机视觉和机器人领域中一个基础但具有挑战性的研究课题。从以上的技术回顾和趋势洞察,我们发现目前的深度学习方案仍有很大的提升空间。从第三章到第六章,本综述讨论了各类相机模型未来研究的技术路径。在本节中,我们将提出整个研究社区可能关心的一些更为宏观的未来研究方向。

· 序列标定的拓展

现有的深度学习研究侧重于单个图像的标定,而忽略了采集序列中的时空相关性。将现有方法应用于第一帧并传播到后续帧是一种直接的解决方法,但是无法确保完美标定每个输入,因此标定误差将贯穿整个序列。学习时空相关性可以为网络提供运动结构相关的知识,同时在一定程度契合了传统相机标定的思想。

· 标定目标的革新

传统的标定目标由于与图像特征之间的隐式关系,很难通过神经网络准确学习。为此,一些研究开发了新颖的学习目标来替代传统的标定目标,为神经网络提供了更加友好的学习表征。此外,一些中间的几何表示方法也被提出,以弥合图像特征和标定目标之间的差距,例如反射振幅系数图、矫正流、表面几何和法向流等。展望未来,我们认为仍有很大的潜力设计更明确和合理的标定目标学习方法。

· 预训练策略的探索

在深度学习中,使用ImageNet数据集进行预训练已成为一种广泛使用的策略。然而,近期研究表明,这种方法对于特定的相机标定任务(如广角相机标定)会起到负面作用。这主要由两个原因造成:数据差距和任务差距。此外,据我们所知,对于超过单个图像和单个模态的标定预训练策略,相关领域尚未进行深入研究。因此,我们认为探索面向相机标定的深度学习预训练策略是一个有趣且有价值的研究方向。

· 隐式、统一模型的构建

基于深度学习的相机标定方法大多使用传统的参数化相机模型,这种模型缺乏适应复杂情况的灵活性。非参数化相机模型将每个像素与其对应的三维入射光线相关联,克服了参数化模型的限制。此外,它们允许隐式和统一的标定,通过像素级回归适配所有相机类型,避免了显式特征提取和几何求解等过程。深度学习方法显示出对重建式标定任务的潜力,使得非参数化模型值得重新审视,并有可能在未来代替参数化模型。

另一方面,研究人员将隐式、统一表示的优势与神经辐射场(NeRF)相结合,用于重建三维结构和合成新视角。其中,自标定NeRF方法可用于具有任意非线性畸变的通用相机,探索了无需标定目标学习深度和自运动的端到端流程。

本综述认为,隐式和统一相机模型在未来可以用于优化基于学习的标定算法,也可集成到下游的三维视觉任务中。同时,该领域中精心设计的几何先验、标定策略、优化方式、学习表征等也可用于启发NeRF等领域的发展,以进一步摆脱对相机参数和相机模型的依赖。

更多的未来研究方向,特别是相机标定的实际应用研究点,详见本综述补充材料的第三章。

六、总结

我们提供了一份深度学习驱动的相机标定技术综述,涵盖了传统相机模型、新的学习范式和学习策略、现有方法的详细回顾、公开的基准测试以及未来研究方向。为了展示发展过程和现有工作之间的联系,我们提供了一种新的精细分类法,通过同时考虑相机模型和拓展应用来对文献进行分类。此外,在每个类别中,我们都对研究方法的贡献点、优势和局限性进行了深入地讨论。我们将维护一个开放的github仓库并定期更新最新的工作和数据集。我们希望本综述能够为相关研究和从业者提供一个重要参考,并推动这个领域未来的研究发展。

来源:知乎@https://zhuanlan.zhihu.com/p/619217025

作者:廖康@MePro-BJTU、林春雨@MePro-BJTU、张敬@USYD

免责声明:作者保留权利,不代表本站立场。如想了解更多和作者有关的信息可以查看页面右侧作者信息卡片。
反馈
to-top--btn