CVPR 2023 | LinK：用线性核实现3D激光雷达感知任务中的large kernel

论文链接：https://arxiv.org/abs/2303.16094
代码链接：https://github.com/MCG-NJU/LinK

一、研究动机

在2D计算机视觉任务中，更大的感受野使得模型在语义分割、目标检测等下游任务上的性能获得显著的提升。此前，一些方法（RepLKNet[1]等）探究了2D图像处理领域中使用更大的卷积核来获得更大范围的感知能力。

由于3D数据模态的稀疏性，将大卷积核的设计引入3D存在两方面的障碍。

一是效率问题：3D任务中，开销随尺寸立方增长，若将卷积核大小从3×3×3简单地扩张到7×7×7，模型大小会是原来的10倍，扩展到21×21×21则会变为343倍。
另一方面是优化问题：由于点云在空间中分布较为稀疏，如果卷积核的每个位置都被赋予一定的权重，那么3D数据的稀疏性会导致大量空闲位置的权重在网络迭代中并没有参与更新，导致参数更新缓慢。

此前有人尝试使用局部块内元素共享参数的方式来缓解这两个问题，提出了大小为7×7×7的空间共享权重卷积核（LargeKernel3D[2]）。该设计成功地在3D语义分割和目标检测任务上提升了小卷积核的性能，但感受野的扩张幅度仍然有限。

为了解决这些问题，我们提出线性核LinK，以类卷积的方式实现更大的感知范围。该方法有两处核心设计：

一是用线性核生成器替换静态的卷积权重，仅为非空区域的点云提供权重。同时，该模块是逐层共享的，避免了稀疏分布的权重在某次迭代中没有被优化的情况，改善了优化问题。

二是在不同滑动窗口的重叠区域复用预先计算的聚合结果，使整体计算复杂度进一步降低，甚至最终计算量为常量，与实际感受范围无关。换句话说，我们可以基于LinK以一致的开销实现任意大小的线性核。

二、我们的方法

2.1核生成器

线性核生成器解决了参数量增长的问题，然后，并没有解决计算量的问题。于是我们考虑，能否将不同卷积窗口的重叠区域的特征聚合结果进行复用，这样有可能降低计算量。

可以发现，每个重叠区域中的元素对a和b采用不同的local offset来获得权重。因此，基于local offset的方式难以复用重叠区域的聚合结果，如下图所示：

2.2基于global coordinate的预聚合

2.3基于LinK的类卷积核设计

三、网络结构

3.1 LinK模块结构

LinK模块由两个分支组成：一个分支为使用线性投影+三角核函数实现的大核分支，另一分支为 3×3×3 的稀疏卷积小核旁路，结构图如下所示。

3.2 下游任务应用

应用到下游任务（检测和分割）中时，我们分别选取CenterPoint和MinkUnet作为基础架构，并使用基于LinK的backbone替代了原本基于稀疏卷积实现的backbone，保留了原始的检测头和分割头不变，具体结构如下图所示。

四、实验

我们在nuScenes上评估了目标检测的结果，在SemanticKITTI上评估了语义分割的结果。结果分别如下所示：

4.1 nuScenes

截止论文发表，我们的方法在nuScenes数据集上取得了SOTA（73.4 NDS）。得益于超大的感受野，与baseline CenterPoint相比，我们的方法在大尺寸的物体（例如bus、con-veh等）上提升显著。

4.2 SemanticKITTI

在SemanticKITTI上，我们的方法相较baseline MinkUNet获得了2.7 mIoU的提升。更多可视化分析见原始论文。

五、总结

在本文中，我们提出了一个线性核生成器LinK，能够以不变的计算量任意扩大模型感受野，大幅提升现有模型在下游任务（检测、分割）上的性能。我们通过实验证明了LinK对下游任务性能提升的有效性与通用性。LinK在nuScenes（LiDAR only）上达到了SOTA性能，希望可以让大家对大感受野的新方法以及其在3D感知任务上的应用有更多关注。

引用

[1] Ding, Xiaohan, et al. "Scaling up your kernels to 31x31: Revisiting large kernel design in cnns."Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

[2] Chen, Yukang, et al. "Scaling up kernels in 3d cnns."arXiv preprint arXiv:2206.10555(2022).

[3] Lu, Tao, et al. "APP-Net: Auxiliary-point-based Push and Pull Operations for Efficient Point Cloud Classification."arXiv preprint arXiv:2205.00847(2022).

作者：鲁涛

本文来自：https://zhuanlan.zhihu.com/p/632715205