SIGGRAPH 2023 | UrbanBIS：大规模城市场景理解基准测试数据集

本文是VCC杨国庆博士对论文UrbanBIS: a Large-scale Benchmark for Fine-grained Urban Building Instance Segmentation 的解读。该工作由深圳大学可视计算研究中心黄惠教授课题组与香港中文大学傅志荣教授合作完成，已发表在国际计算机图形学顶级会议SIGGRAPH 2023上。

项目主页：https://vcc.tech/UrbanBIS/

该工作成功构建了一个大规模城市场景理解基准测试数据集，提供包括图像、点云以及网格模型在内的海量多模态数据和三维语义标注与建筑物实例标注，可广泛应用于语义分割、实例分割、点云重建、布局规划等多项城市理解任务，为智慧城市前沿技术建设提供重要支撑。同时提供一个面向城市场景点云建筑物实例分割的轻量化模型B-Seg，采用端到端的学习结构，提高处理效率的同时提升模型针对不同城市场景的泛化性能。

注：本文图片与视频均来自原论文与其项目主页。

一、引言

本次导读论文提出了一个用于建筑物实例分割的大规模真实城市场景数据集UrbanBIS以及面向城市场景点云的实例分割算法B-Seg。UrbanBIS共包含6个真实场景，总面积高达10.78 平方千米，包含3370栋建筑，不仅提供城市场景的常见语义信息以及建筑物单体实例信息，同时提供细粒度的建筑物语义标注信息。是目前唯一一个可用于点云实例分割的大规模的3D真实城市场景数据集。B-Seg采用端到端的方式并选用了简单策略进行实例聚类，因此可有效应用于大规模场景的数据处理中。该数据集的建立以及分割方法的提出可为实例分割的相关研究提供助力，也可应用于其他各类城市场景理解的相关任务中。

二、数据集的特点

本工作所提出的UrbanBIS具有以下特点：

场景面积大：UrbanBIS共提供6个城市场景，总面积达到10.76 ，这也是目前最大的三维真实场景数据；
多模态的数据：除了点云数据，UrbanBIS同样提供图像以及三角网格数据，数据类型多样，可以满足不同的应用需求；
实例标注数据UrbanBIS不仅对三维场景中的语义信息进行了标注，也对建筑物实例进行了提取与标注，并且进一步围绕建筑物使用功能提供了细粒度的标签；
针对实例分割的基准测试：基于UrbanBIS对一些算法在其上的性能表现进行了测试，为新算法设计提供了新的评估基准，建立了首个城市场景实例分割的测试基准。

如表1所示，相比其他的城市场景数据集，UrbanBIS拥有目前最大的面积以及最为丰富的数据类型，并支持多项任务的训练与验证。

三、数据集的介绍

UrbanBIS是基于无人机倾斜摄影技术获取图像作为原始数据并基于此采用处理软件进行重建得到的三维模型。重建得到的模型进行了人工标注，结合之前已经发布的一些数据集的标注规则，确定了7种城市场景中常见的语义类别，具体包括地面、水面、船只、植被、桥梁、车辆以及建筑物，如下图所示：

对于各个语义类别的统计数量如下表所示：

除了语义信息，同样对建筑物实例进行了划分，并且考虑到建筑物的类内差异过大的实际情况，进一步按照使用功能对建筑物进行划分为商业建筑、居住建筑、办公建筑、文化建筑、交通建筑、市政建筑以及临时建筑，各个建筑物示意如下图所示：

UrbanBIS提供了多源数据和丰富的标注信息，可以用于多项视觉与图形学相关任务中，例如：

四、B-Seg与实例分割基准测试

B-Seg的主要流程如下图所示，主要包含三大部分：

用于提取点云特征的骨干网络，该网络学习得到的点云特征将用于后续的三个子任务分支；
用于生成建筑物实例候选的建筑物候选生成模块，主要包括建筑物候选选择、建筑物分组以及建筑物合并三个子模块；
用于预测建筑物实例候选得分的建筑物得分预测模块，该模块预测的建筑物得分用于评估建筑物实例的预测质量，同时滤除错误的预测。

下图所示为B-Seg的特征提取网络和三个分支，其中特征提取网络采用3D UNet，而分支采用全连接网络。

4.1语义分割分支

4.2中心偏移分支

4.3实例感知分支

在点云特征学习以及三个子任务分支之后，为了得到建筑物的实例预测，本文提出了一种新的建筑物实例候选生成模块，该模块包括了建筑物实例候选选取、建筑物分组、建筑物合并三个部分。

建筑物实例中心实例候选选取部分基于语义分割分支的预测结果将输入点云划分前景点（建筑物点）和背景点（非建筑物点）。对于前景点，本文选择简单的点云采样方法算法采样K个点作为建筑物实例候选点。为了使得采样得到的建筑物实例候选点能够均匀地覆盖每个建筑物实例表面上，本文选择FPS进行采样；

尽管在建筑物分组阶段，本文已经得到了每个建筑物前景点的初始建筑物实例预测标签，但这些预测标签会出现冗余的情况。这是因为在建筑物实例候选选择阶段，本文为了避免对建筑物的遗漏设置了大量的建筑实例候选点采样。这种做法虽然能覆盖场景中的建筑物，但是也会大概率使得同一个建筑物上分布着多个建筑物候选点。经过了建筑物分组操作后会出现同一个建筑物会具有多个不同建筑物实例预测标签的情况。为了解决这个问题，本文提出了一个建筑物合并子模块将属于同一个建筑物上的所有建筑物实例预测标签进行合并。先使用了在中心偏移分支网络预测的建筑物实例中心偏移向量O 将K 个建筑物实例候选点进行偏移，使得它们朝着对应的建筑物实例中心移动。建筑物实例候选点在经过了中心偏移之后，会分别聚集在对应建筑物的中心附近区域，从而完成后续的合并；

由于语义预测错误、建筑物候选点错误选择、中心偏移预测错误等原因，本文的建筑物实例候选生成模块难以避免地会产生一些错误、无效的建筑物实例预测。为了解决这种问题，引入了实例得分预测网络，用于对生成的建筑物实例预测进行质量评估与错误过滤。得分预测网络结构与本文的骨干网络类似，是具有两层对称结构的三维子流形稀疏卷积U-Net网络，为每一个建筑物实例输出一个建筑物评价得分，该得分衡量了生成的建筑物实例的质量好坏。

根据UrbanBIS上的设置不同，主要可分为几种不同的基准测试方式，包括全部场景的基准测试、交叉场景的基准测试以及单一场景的基准测试，每种不同的测试方法可根据需要具体选择。

五、UrbanBIS与B-Seg的下载与使用

UrbanBIS可提供图像、点云以及三角网格等多种不同格式的数据下载。我们在项目主页 https://vcc.tech/UrbanBIS/ 中提供UrbanBIS点云和分割数据集的直接下载与相关的使用说明，支持Dropbox与百度云网盘两种下载方式。用户可以根据需求按照不同的场景、不同的应用下载。对于图像和三角网格数据，我们提供申请下载的方式，可在项目主页上下载申请表并按照要求填写，我们会在第一时间回复下载要求。B-Seg以及相关资料可参照主页上的提示下载。

六、总结与展望

这篇文章详细介绍了一个大型真实城市场景数据集UrbanBIS，为广大用户提供了六个代表性城市场景以及丰富的语义数据标签和建筑物实例标签。该数据集不仅可用于城市场景的语义和实例分割任务，同样可用于建筑物重建、虚拟城市设计等一系列其他方向的发展。同时提出的面向城市场景的实例分割算法B-Seg可以为城市场景的建筑物单体提取问题提供思路。

七、思考与讨论

以下是开放性问题，欢迎读者朋友留言讨论：

Q: UrbanBIS中包含不同类型的城市场景，各个场景之间也存在较大的差异，如何定量的描述城市之间的这种差异，并根据自己的城市情况选取合适的训练数据？

参考文献

[1] Li Jiang, Hengshuang Zhao, Shaoshuai Shi, Shu Liu, Chi-Wing Fu, Jiaya Jia. PointGroup: dual-set point grouping for 3d instance segmentation[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020: 4867–4876.

[2] Shaoyu Chen, Jiemin Fang, Qian Zhang, Wenyu Liu, Xinggang Wang. Hierarchical aggregation for 3d instance segmentation[C]. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). 2021: 15467–15476.

[3] Tong He, Chunhua Shen, Anton van den Hengel. DyCo3D: robust instance segmentation of 3d point clouds through dynamic convolution[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2021: 354–363.

[4] Thang Vu, Kookhoi Kim, Tung M. Luu, Xuan Thanh Nguyen, Chang D. Yoo. SoftGroup for 3d instance segmentation on point clouds[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2022: 2708–2717.

[5] Meida Chen, Qingyong Hu, Zifan Yu, Hugues Thomas, Andrew Feng, Yu Hou, Kyle McCullough, Fengbo Ren, Lucio Soibelman. STPLS3D: a large-scale synthetic and real aerial photogrammetry 3d point cloud dataset[C]. Proc. BMVC. 2022.

[6] Timo Hackel, Nikolay Savinov, Lubor Ladicky, Jan D. Wegner, Konrad Schindler, Marc Pollefeys. SEMANTIC3D.NET: a new large-scale point cloud classification benchmark[C]. ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences: Vol IV-1-W1. 2017: 91–98.

[7] Jens Behley, Martin Garbade, Andres Milioto, Jan Quenzel, Sven Behnke, Cyrill Stachniss, Jurgen Gall. SemanticKITTI: a dataset for semantic scene understanding of lidar sequences[C]. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). 2019: 9297–9307.

[8] Xavier Roynard, Jean-Emmanuel Deschaud, François Goulette. Paris-Lille-3D: a large and high-quality ground-truth urban point cloud dataset for automatic segmentation and classification[J]. The International Journal of Robotics Research, 2018, 37(6): 545–557.

[9] Qingyong Hu, Bo Yang, Sheikh Khalid, Wen Xiao, Niki Trigoni, Markham Andrew. Sensaturban: learning semantics from urban-scale photogrammetric point clouds[J]. International Journal of Computer Vision, 2022, 130(2): 316–343.

[10] Iman Zolanvari, Susana Ruano, Aakanksha Rana, Alan Cummins, Aljosa Smolic, Rogerio Da Silva, Morteza Rahbar. DublinCity: annotated lidar point cloud and its applications[C]. Proc. BMVC. 2019.

[11] Weikai Tan, Nannan Qin, Lingfei Ma, Ying Li, Jing Du, Guorong Cai, Ke Yang, Jonathan Li. Toronto-3D: a large-scale mobile lidar dataset for semantic segmentation of urban roadways[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). 2020: 797–806.

[12] Nina Varney, Vijayan K. Asari, Quinn Graehling. DALES: a large-scale aerial lidar data set for semantic segmentation[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020: 717–726.

[13] Xinke Li, Chongshou Li, Zekun Tong, Andrew Lim, Junsong Yuan, Yuwei Wu, Jing Tang, Raymond Huang. Campus3D: a photogrammetry point cloud benchmark for hierarchical understanding of outdoor scene[C]. Proc. ACM Int. Conf. on Multimedia. 2020: 238–246.

[14] Michael Kölle, Dominik Laupheimer, Stefan Schmohl, Norbert Haala, Franz Rottensteiner, Jan Dirk Wegner, Hugo Ledoux. The Hessigheim 3D (H3D) benchmark on semantic segmentation of high-resolution 3d point clouds and textured meshes from uav lidar and multi-view-stereo[J]. ISPRS J. Photogrammetry and Remote Sensing, 2021, 1: 100001.

[15] Weixiao Gao, Liangliang Nan, Bas Boom, Hugo Ledoux. SUM: a benchmark dataset of semantic urban meshes[J]. ISPRS J. Photogrammetry and Remote Sensing, 2021, 179: 108–120.

[16] Gülcan Can, Dario Mantegazza, Gabriele Abbate, Sébastien Chappuis, Alessandro Giusti. Semantic segmentation on Swiss3DCities: a benchmark study on aerial photogrammetric 3d pointcloud dataset[J]. Pattern Recognition Letters, 2021, 150: 108–114.

作者：杨国庆

本文来自：深圳大学可视计算研究中心