ICRA 2023 | 利用真实世界中的海量无标注点云提升房屋结构估计

2023-02-23 13:27 369 阅读 ID:815
将门
将门

Paper 地址:

https://arxiv.org/abs/2301.13865

开源代码仓库地址:

https://github.com/AIR-DISCOVER/Omni-PQ

                                                                                   图 1

一、 简介

室内场景的框架预测任务(Room layout estimation, [1, 2, 3, 4, 5] )是一项长期存在的机器人视觉任务,为机器人的环境感知和运动规划等行为提供算法层面的支持。但大多数现有的工作 [6, 7, 8, 9, 10, 11] 都尝试利用房屋的 2D 透视图或全景图作为输入,用 3D 点云作为输入 [12] 的方法仍然面临着标注难、数据缺乏的问题。

同时,我们相信在未来,世界各地的智能机器人可以利用大量的无标注数据来不断提高集体智慧(在本项目中即利用大量无标注的室内三维点云数据来提高框架预测准度)。为此,我们先从半监督(Semi-supervised)设定开始探索,假设 ScanNet [13] 数据集只有一小部分比例的数据存在标注。然后,我们将我们的方法推广到真实世界的半监督学习(Omni-supervised)的设定,使用最新发布的 ARKitScenes [14] 数据集来证明我们的方法的有效性。

实际上,半监督的室内场景框架预测在工作 SSLayout360 [15] 中已被提出。然而,这份工作只是简单地利用了模型参数指数移动平均(Exponential Moving Average of model parameters, EMA)技术,从没有标注的 2D 室内场景全景图中学习。同时,这种范式并不适用于全监督场景下室内场景框架预测任务的最新进展—— 基于 3D 点云作为输入,直接预测房屋的框架 [12]。

为此,我们提出首个使用点云作为输入的半监督的室内场景框架预测方法。我们的方法建立在室内场景框架预测的原 SOTA 方法 PQ-Transformer [12] 之上,该方法的输入是室内场景的三维点云(图 1(a)),并训练模型直接预测一组代表房屋框架元素(墙、地板或天花板)的平面参数,包括平面中心点坐标、平面法向与平面的长与宽。但是,该方法在缺少数据标注时表现并不理想,正如图 1(b) 中所展示的,在只利用 20% 数据的情况之下,它在没见过的室内场景中表现十分之差。而相比之下,我们的方法则可以利用剩下的 80% 的无标注的数据中所蕴含的知识,从而预测出更准确的房屋框架,正如图 1(c) 所示。

具体来说,我们方法的成功主要有两个原因。

第一是基于模型输出一致性的训练框架,其灵感来自于 Mean Teacher [16] 方法。基于中心距离最近这一匹配策略,我们定义了两组场景框架预测结果之间的“距离”,设计了三组损失函数来约束面对输入扰动时,模型输出的一致性。

· 第二是一个伪标签改良模块,我们在点云和预测框架间定义一个新的度量(Metric)来表示点云中的点和某个预测框架的相关性,然后假设这个度量服从r混合分布,将这个度量分解成两支。

直观上来说,我们通过这种方法将和预测框架强相关的点筛选出来,然后利用这些筛选出来的点进一步估计一个更加准确的场景框架作为“伪标签”。消融实验证明这两种方法都是有效的,而将它们结合起来会带来更大的改进。

通过实验,可以证明我们方法的有效性:

1. 在 ScanNet 数据集上,面对不同的有标注的数据比例(5% ∼ 40%),我们的方法在无标注数据的帮助下,可以大大超越仅用这些标注数据训练的基线模型。

2. 仅用 ScanNet 40% 的标注数据,我们就能够超越原先的全监督 SOTA。

3. 即使是在 ScanNet 全监督的设置中,引入我们的方法还可以比基线结果提高+4.11 %。

4. 我们进一步将我们的方法扩展到真实世界的半监督学习的设置中 [17],利用所有 ScanNet 训练数据和未标记的 ARKitScenes [14] 数据,在 ARKitScenes 测试集上取得了显著的性能提升,F1 分数从 10.66% 上升到 25.85%。

总结来看,我们的作品贡献如下:

· 我们提出了首个点云输入的室内场景框架预测任务的半监督框架,包括中心距离最近匹配策略和三组一致性损失函数。

· 我们提出了一种通过分解相关性度量这一混合分布来筛选和预测结果有关联的点的伪标签改良技术。

· 我们在半监督、全监督和真实世界的半监督学习的实验设定下都取得了显著的成果。

二、方法

                                                                                  图 2

基于一致性的方法(QMT)

为了实现一致性约束,我们从Mean Teacher [16] 中得到启发,同时维护同样架构的学生网络与教师网络,给它们输入经过不同扰动的数据,然后让它们的输出结果尽可能保持一致。这种方法成功的关键在于数据扰动方式的选取与一致性损失函数的设计,我们接下来进行详细阐释。

                                                                              图 3

数据增广方法

我们采用四种数据增广的方式,FPS 降采样(Farthest Point Sampling)[23]、沿 X/Y 轴翻转、沿 Z 轴旋转以及坐标缩放。FPS 降采样通过不断重复选择距离已选点集合最远的点来实现对点云降采样的同时尽可能少地丢弃含重要几何信息的点的目的。而点云的翻转、旋转与坐标缩放则是在模仿视角的变换。

在这几种数据增广方式中,房屋边框的标注对点云降采样是不变的(Invariant),因为降采样不会更改房屋的几何形状,而对其他三种是等变(Equivariant)的,即对点云进行的变换也要体现到边框标签上。因此,在我们的训练架构中,在学生网络前和教师网络后的两次变换中,我们采用的FPS 种子是不同的,而对其他三种变换采用相同的随机参数,以达到将输出结果变换到同一坐标系,方便后续比较的目的。

边框集合匹配策略

一致性损失函数设计

基于伪标签的方法(GMF)

相关性度量

混合分布成分分解

损失函数

三、实验

半监督与全监督场景

由于有标注数据的缺少,在 ScanNet 数据集上以三维点云作为输入的边框预测模型并不多,而此前更是没有工作探究过在半监督场景下如何解决这个问题。我们给出这个领域的两个模型,SceneCAD [25] 和 PQ-Transformer [12] 在所有 ScanNet 训练集数据(100 %) 上训练得到的框架预测准度。

从表 1 中可以看出,无论是基于一致性的方法(QMT)还是基于伪标签的方法(GMF)都能带来性能的提升。而将这两种技术结合在一起,模型的性能可以被进一步的解放。不管有标注的数据比例有多少,我们方法的性能都比基线结果要好很多。在只有 40 % 的标注的前提下,我们的方法达到了比原先全监督设定下更好的性能。除此之外,我们的方法在全监督的情况下也可以进一步提高模型的能力。我们把这一现象归因于基于一致性的方法给模型带来的对扰动鲁棒性的提升,以及伪标签改良模块提供的关于房屋边框的知识的指导。

真实世界的半监督场景

此外,我们分别在图 5 和 图 6 中提供了我们的方法在 ScanNet 和 ARKitScenes 上的房屋场景边框预测的可视化结果。

                                                                                   图 5
                                                                                  图 6

此外,我们还通过一系列的消融实验证明了我们提出的方法的各个部分的作用,感兴趣的读者可以查看原论文。

四、总结

我们的工作主要探究半监督设定下的点云输入的室内场景框架预测任务。我们的训练框架结合了基于一致性的方法和基于伪标签改良的算法,以此来更好地利用未标记的数据。实验结果证明了我们的方法在半监督、全监督和真实世界的半监督学习设定下的有效性。我们的方法仍然具有一定的局限性,比如在不完整的场景中,我们的方法预测不出没有被扫描到的墙壁。在未来,我们会继续探究改进的可能性,包括将本方法做成在线的工具包,充分利用 PQ-Transformer [12] 模型的实时推理速度。

参考文献

[1] Yang, S., D. Maturana, S. Scherer. Real-time 3d scene layout from a single image using convolutional neural networks. In 2016 IEEE international conference on robotics and automation (ICRA), pages 2183–2189. IEEE, 2016.

[2] Hedau, V., D. Hoiem, D. Forsyth. Recovering the spatial layout of cluttered rooms. In 2009 IEEE 12th international conference on computer vision, pages 1849–1856. IEEE, 2009.

[3] Hosseinzadeh, M., Y. Latif, T. Pham, et al. Structure aware slam using quadrics and planes. In Asian Conference on Computer Vision, pages 410–426. Springer, 2018.

[4] Pintore, G., M. Agus, E. Gobbetti. Atlantanet: Inferring the 3d indoor layout from a single 360◦ image beyond the manhattan world assumption. In European Conference on Computer Vision, pages 432–448. Springer, 2020.

[5] Yan, C., B. Shao, H. Zhao, et al. 3d room layout estimation from a single rgb image. IEEE Transactions on Multimedia, 22(11):3014–3024, 2020.

[6] Zou, C., J.-W. Su, C.-H. Peng, et al. Manhattan room layout reconstruction from a single 360◦ image: A comparative study of state-of-the-art methods. International Journal of Computer Vision, 129(5):1410–1431, 2021.

[7] Liu, C., A. G. Schwing, K. Kundu, et al. Rent3d: Floor-plan priors for monocular layout estimation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3413–3421. 2015.

[8] Zhang, W., Y. Zhang, R. Song, et al. 3d layout estimation via weakly supervised learning of plane parameters from 2d segmentation. IEEE Transactions on Image Processing, 31:868–879, 2021.

[9] Hirzer, M., V. Lepetit, P. ROTH. Smart hypothesis generation for efficient and robust room layout estimation. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 2912–2920. 2020.

[10] Zhang, W., W. Zhang, Y. Zhang. Geolayout: Geometry driven room layout estimation based on depth maps of planes. In European Conference on Computer Vision, pages 632–648. Springer, 2020.

[11] Lin, H. J., S.-H. Lai. Deeproom: 3d room layout and pose estimation from a single image. In Asian Conference on Pattern Recognition, pages 719–733. Springer, 2019.

[12] Chen, X., H. Zhao, G. Zhou, et al. Pq-transformer: Jointly parsing 3d objects and layouts from point clouds. IEEE Robotics and Automation Letters, 7(2):2519–2526, 2022.

[13] Dai, A., A. X. Chang, M. Savva, et al. Scannet: Richly-annotated 3d reconstructions of indoor scenes. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 5828–5839. 2017.

[14] Dehghan, A., G. Baruch, Z. Chen, et al. Arkitscenes: A diverse real-world dataset for 3d indoor scene understanding using mobile rgb-d data. In NeurIPS Datasets and Benchmarks. 2021.

[15] Tran, P. V. Sslayout360: Semi-supervised indoor layout estimation from 360deg panorama. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 15353–15362. 2021.

[16] Tarvainen, A., H. Valpola. Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results. Advances in neural information processing systems, 30, 2017.

[17] Radosavovic, I., P. Dollár, R. Girshick, et al. Data distillation: Towards omni-supervised learning. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 4119–4128. 2018.

[18] Laine, S., T. Aila. Temporal ensembling for semi-supervised learning. In International Conference on Learning Representations. 2017.

[19] Yin, J., J. Fang, D. Zhou, et al. Semi-supervised 3d object detection with proficient teachers. arXiv preprint arXiv:2207.12655, 2022.

[20] Sohn, K., D. Berthelot, N. Carlini, et al. Fixmatch: Simplifying semi-supervised learning with consistency and confidence. Advances in neural information processing systems, 33:596–608, 2020.

[21] Zhang, B., Y. Wang, W. Hou, et al. Flexmatch: Boosting semi-supervised learning with curriculum pseudo labeling. Advances in Neural Information Processing Systems, 34:18408– 18419, 2021.

[22] Li, G., X. Li, Y. Wang, et al. Pseco: Pseudo labeling and consistency training for semi-supervised object detection. arXiv preprint arXiv:2203.16317, 2022.

[23] Qi, C. R., L. Yi, H. Su, et al. Pointnet++: Deep hierarchical feature learning on point sets in a metric space. Advances in neural information processing systems, 30, 2017.

[24] Zhao, H., M. Lu, A. Yao, et al. Pointly-supervised scene parsing with uncertainty mixture. Computer Vision and Image Understanding, 200:103040, 2020.

[25] Avetisyan, A., T. Khanova, C. Choy, et al. Scenecad: Predicting object alignments and layouts in rgb-d scans. In European Conference on Computer Vision, pages 596–612. Springer, 2020.

[26] Zhao, N., T.-S. Chua, G. H. Lee. Sess: Self-ensembling semi-supervised 3d object detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 11079–11087. 2020.

作者:高焕昂

免责声明:作者保留权利,不代表本站立场。如想了解更多和作者有关的信息可以查看页面右侧作者信息卡片。
反馈
to-top--btn