本文是对我们ICLR 2023被接收的文章Exploring Active 3D Object Detection from a Generalization Perspective的介绍。这是主动学习(Active Learning)在3D目标检测中的开创性研究,旨在以最低的边界框标注成本来提升检测性能。为此,我们提出了一种用于3D目标检测的分层主动学习方案,该方案可根据提出三个选择标准逐步筛选出少部分的点云用以人工标注。很荣幸地,我们的文章被ICLR 2023收录,目前项目代码已开源,欢迎大家试用。
论文链接:
https://openreview.net/forum?id=2RwXVje1rAh
代码链接:
https://github.com/Luoyadan/CRB-active-3Ddet
一、概述
基于LiDAR的三维物体检测在三维场景理解中扮演着不可或缺的角色,广泛应用于自动驾驶和机器人等领域。新兴的三维检测模型可在大规模标注点云的代价下实现精确识别,其中7自由度(DOF)的三维边界框——包括每个物体的位置、尺寸和方向信息——被标注出来。在像Waymo这样的基准数据集中,超过1200万个LiDAR边界框需要进行标注,对于一个标注者来说,标注一个精确的3D框需要超过100秒的时间。这种性能提升的先决条件在很大程度上阻碍了将模型应用于野外境中的可行性,特别是在标注预算有限的情况下。
为了缓解这一限制,主动学习(Active Learning,简称AL)旨在通过仅查询一小部分未标注数据的标签来降低标注成本。基于标准的查询选择过程会迭代性地选择最有益于后续模型训练的样本,直至标注预算耗尽为止。该标准有望利用从样本不确定性和样本多样性中得出的启发式方法来量化样本的信息量。然而,这些AL方法通常倾向于包含更多物体(从而具有更高概率包含不确定和多样物体)的点云。在固定的注释预算下,选择这种类型的点云远非最佳选择,因为需要更多点击来形成3D框标注。
为了克服上述局限性,我们提出了以3D框为标注成本的经济高效AL标准,并实证研究其与优化泛化上界之间的关系。具体来说,我们提出了三个经济高效的点云采集选择标准,称为CRB,即标签简洁性(Label Conciseness)、特征代表性(Feature Representativeness)和几何平衡性(Geometric Balance)。我们的标准设计基于优化泛化风险上限的理论分析,泛化风险上限可以重新表述为所选子集与测试集的分布一致性。需要注意的是,由于测试集的经验分布在训练过程中无法观察到,无失一般性地,我们对其先验分布做了适当的假设。经过大量实验验证,所提出的CRB策略在两个大规模3D目标检测数据集上,无论检测器架构如何,始终能够稳定地优于所有现有的最先进AL基线算法。
二、方法
2.1 理论动机
2.2 阶段1:简洁标签采样
2.3 阶段2:代表性原型选择
2.4 阶段3:贪婪点密度平衡
三、 实验
3.1 定量分析
我们用PVRCNN为主干3D目标检测器。不同主动学习策略所实现的三维(3D)和鸟瞰图(BEV)检测性能如上图所示,阴影区域表示三次试验的标准差。我们可以清楚地观察到,无论注释的边界框数量和难度设置如何,CRB策略始终明显优于所有最先进的主动学习方法。值得注意的是,在KITTI数据集上,所提出的CRB的标注时间比随机抽样(RAND)快3倍,同时实现了可比较的性能。
我们发现,在仅用1%标注框的情况下,由于所采用的获取标准共同考虑了分类和回归任务,LLAL和LT/C取得了具有竞争力的结果。我们提出的CRB将3D mAP分数提高了6.7%,这验证了最小化泛化风险的有效性。
3.2 定性分析
观察发现,在相同的条件下,与RAND相比,CRB能够提供更准确、更高置信度的预测。此外,从图中橙色框中突出显示的骑车者来看,采用RAND训练的检测器产生了显著较低的置信度分数。这证实了CRB所选样本与测试案例更为匹配。
3.3 3D目标检测器选择
在KITTI数据集上,利用SECOND作为检测主干网络进行实验,结果如上表所示。仅利用3%的查询3D边界框,观察到所提出的CRB方法在各种检测难度下均稳定优于同类通用AL方法,在3D mAP和BEV mAP分别上提升了4.7%和2.8%。
四、 结论、不足与未来展望
本文研究了主动3D物体检测的三种新标准,它们能以最低的3D边界框标注成本和运行时复杂性的前提下有效实现高性能3D目标检测。我们从理论上分析了找到最佳获取子集与减少集合差异之间的关系。该框架具有多功能性,可适应现有的AL策略,为启发式设计提供了深入的见解。这项工作的局限性在于对测试数据先验分布所做的一系列假设,这些假设在实践中可能会被违反。相反地,它为采用我们的框架进行主动领域自适应(Active Domain Adaptation)提供了机会,在这种情况下,目标分布可用于对齐。解决这两个问题将留给未来的工作。
作者:陈卓潇
来源:知乎:https://zhuanlan.zhihu.com/p/651427154