NeurIPS 2022 | P2P: 基于预训练图像模型的点到像素提示学习方法

在这里和大家分享一下我们被NeurIPS 2022录用的点云理解工作"P2P: Tuning Pre-trained Image Models for Point Cloud Analysis with Point-to-Pixel Prompting".

单位：清华大学
项目主页：http://p2p.ivg-research.xyz
代码仓库：https://github.com/wangzy22/P2P
论文下载地址：https://arxiv.org/pdf/2208.02812.pdf

简介：

预训练大模型最近在NLP和Vision领域都发展迅速，成为了深度学习领域的热门研究课题。得益于海量的训练数据和日益增长的模型参数量，预训练大模型的性能提升显著，并在各种下游任务上取得了出色的成绩。将预训练模型迁移到下游任务主要有两种方法，一种是大家常用的fine-tuning，需要对模型的所有参数都进行微调，将预训练模型适用于下游任务；另一种是最近NLP领域研究较多的prompt-tuning方法，通过将下游任务转换为类似于预训练时的任务，仅引入少量可学习参数而保持大部分预训练模型参数不变，实现预训练知识的下游任务迁移。随着下游任务种类日渐丰富，以下游任务为中心的fine-tuning模式需要对不同的下游任务做不同的参数调整，带来了非常大的计算资源消耗；而以预训练大模型为中心的prompt-tuning研究范式能够更好地解耦深度模型的特征提取和任务导向模块这两部分的研究，有助于实现由一个公有的基础模型和若干特异性设计功能模块组成的高效通用人工智能。目前计算机视觉领域针对prompt-tuning的研究还处于起步阶段，如何针对不同下游任务设计有效且轻量化的prompt模块、如何克服视觉任务之间的更为显著的差异性，是未来视觉领域关于通用人工智能研究的重点问题之一。

在三维视觉领域，针对预训练大模型和下游任务迁移的研究仍旧方兴未艾。与二维视觉的大规模训练数据（如包含22k类别，共1500万张图片的ImageNet）相比，三维视觉的数据量更少，数据多样性也更小。因此，我们在这篇论文中提出，将研究更加深入、训练更加充分的二维预训练模型迁移应用到三维点云的研究中，通过将三维点云转换为彩色二维图像的Point-to-Pixel (P2P) Prompting方法，以较少的可学习参数实现二维预训练知识向三维领域的迁移。下图展示了点云经过我们设计的P2P Prompting后生成的图像结果，第一行为输入点云，第二、三行分别为不同角度的彩色投影图像。

图1. P2P Prompting生成的彩色投影图像，左为ModelNet数据集样例，右为ScanObjectNN数据集样例

方法：

我们提出的P2P模型主要分为四个模块：(1)点云几何特征编码器；(2) Point-to-Pixel Prompting模块，用于生成彩色投影图像；(3)预训练图像大模型，包括ViT, ConvNeXt等结构；(4)任务处理head.

首先，我们对输入点云进行逐点的特征编码，这一步的目的是为了获取点云中的几何空间信息。我们采用了一个轻量化的DGCNN网络聚合空间邻域特征，对N*3的输入点云数据最终输出N*C的点云特征。

在Point-to-Pixel Prompting模块，我们首先选取角度将N*C的三维点云特征投影为H*W*C的二维图像特征，其中H,W为预定义的图像大小。具体实现方法为，我们将三维点云按照旋转矩阵R旋转一个角度，然后将前两维坐标均匀划分到H*W的像素中，将第三维坐标直接省略以实现维度压缩。在找到从三维点云到二维图像的Point-Pixel对应关系后，我们将投影到同一个像素的点的特征进行加和，得到该像素点的特征。采用“加和”操作的优势主要在于，与“仅取投影表面点”相比，加和操作能够保留所有点的信息；与“取平均”相比，加和操作能够保留局部区域三维点的密度信息。这些三维知识都有助于减轻投影过程带来的维度损失和信息丢失。在得到H*W*C的二维图像特征后，我们设计了一个上色模块，对每个像素预测其RGB颜色。由于二维图像特征是三维点云特征的聚合，因此生成的彩色图像能够一定程度上体现出物体原本的几何信息，例如图1中的“半透明”结果。

在得到彩色投影图像后，我们通过一个预训练的二维图像模型进行特征提取和学习，最后经过一个任务处理head的到不同任务的预测结果。针对预训练二维图像模型，我们保持其绝大部分参数不变，只去优化其normalization层的参数，这是因为彩色投影图像和预训练数据集（如ImageNet）的图像之间还是存在较大的domain gap，因此我们简单通过对normalization层参数的调整更新去缩小这个domain gap.此外，由于整个模型是端到端学习的，因此固定的预训练模型参数也能一定程度上影响前面可学习部分的几何编码器和上色模块，使得生成的彩色投影图像能够更容易地被预训练模型识别理解。

实验结果：

我们在分类问题和分割问题上进行了实验，得出了以下实验结论：

P2P可以充分利用2D预训练知识，具有scale-up特性。我们应用了不同规模的预训练模型设计对比实验，发现同样的预训练模型结构，参数量更多的二维预训练模型能够为P2P带来更好的三维点云分类性能。
P2P在点云分类任务上取得了ModelNet40数据集94.0, ScanObjectNN数据集89.3的性能，取得了ScanObjectNN上的SOTA结果。
P2P也能成功应用到dense prediction类任务中，在ShapeNetPart数据集instance mIoU上取得了超过KPConv的性能。

具体实验结果如下：

由于二维图像领域的预训练大模型往往具有很好的scale-up特性，因此我们也应用了不同规模的预训练大模型来探究P2P的scale-up特性：

2. 我们将P2P的实验结果分别与基于模型结构设计的方法、基于预训练的方法进行了比较，在ScanObjectNN上达到了SOTA的结果，在ModelNet40上也达到了与主流方法相近的结果：

3. 在物体part分割任务上，我们的方法在instance mIoU也超过了主流方法KPConv等，证明了P2P也能成功应用到dense prediction类任务中：

结论：

P2P提出了一种prompt-tuning学习方法，将二维图像预训练模型迁移到三维领域，以很少的可学习参数达到了高性能的结果。更多细节请参考我们的文章与开源代码。

参考文献：

Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay E Sarma, Michael M Bronstein, and Justin M Solomon. Dynamic graph cnn for learning on point clouds. ToG, 2019.
Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. Imagenet: A large-scale hierarchical image database. In CVPR, pages 248–255. Ieee, 2009.
Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell, and Saining Xie. A convnet for the 2020s. arXiv preprint arXiv:2201.03545, 2022.
Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. In ICLR, 2020.
Hugues Thomas, Charles R Qi, Jean-Emmanuel Deschaud, Beatriz Marcotegui, François Goulette, and Leonidas J Guibas. Kpconv: Flexible and deformable convolution for point clouds. In ICCV, 2019.

NeurIPS 2022 | P2P: 基于预训练图像模型的点到像素提示学习方法

简介：

方法：

作者信息

文章信息

上一篇

下一篇