密集预测(dense prediction)网络是解决诸如语义分割和图像本征分解(intrinsic decomposition)等场景理解问题的基本框架。现有工作[1-2] 通常使用像素级标注作为训练密集预测模型的监督。但是像素级别的密集标注非常昂贵, 对一些任务也无法给出精准的像素标注,如在图像本征分解中为野外(in-the-wild)图像标注特定的反射率。这促使我们转而利用廉价的稀疏点监督来训练密集预测网络。
为利用点监督的自身特性,我们提出了一种基于坐标点查询的密集预测网络,它可以预测图像空间中每个连续二维坐标点的对应值,该方法被命名为密集预测场(Dense Prediction Field, DPF)。受最近成功的隐式表示[3-4]的启发,我们使用隐式神经函数来实现 DPF。DPF 为连续的二维空间位置生成可解析的视觉特征,从而允许输出任意分辨率的预测结果。
论文题目:DPF: Learning Dense Prediction Fields with Weak Supervision
论文链接:https://arxiv.org/abs/2303.16890
代码链接:https://github.com/cxx226/DPF
一、解决方案
网络架构
隐式密集预测场
二、实验结果
我们分别在语义分割数据集PASCALContext、ADE20K和图像本征分解数据集IIW上进行了定量和定性实验,分别如下所示:
DPF对不同backbone的影响,包含使用CNN-based网络(FASTFCN[8])与Transformer-based网络(DPT[1])两组baseline,均有大幅提升:
对PASCALContext(第一行)、ADE20K(第二行)和IIW(最后一行)进行定性比较的结果:
为探究backbone与guidance encoder的影响,我们还对latent code z与g分别进行了t-SNE可视化:
在本文中,为解决像素级标注的昂贵代价,我们专注于点监督密集预测,并提出了一种针对点坐标查询进行密集值预测的新范式——密集预测场 (DPF)。我们使用隐式神经函数对 DPF 进行建模,从而与点监督进行兼容,并生成更加平滑的预测结果。为在语义分割和图像本征分解任务上验证 DPF 的有效性,我们以三个大型公共数据集PASCALContext、ADE20K和IIW为benchmark,DPF在上述数据集上均达到SOTA的实验结果,相比baseline有显著提升。
参考文献
1. Vision transformers for dense prediction. In ICCV (2021)
2. Cerberus transformer: Joint semantic, affordance and attribute parsing. In CPVR (2022)
3. Deepsdf: Learning continuous signed distance functions for shape representation. In ICCV (2019)
4. LODE: Locally Conditioned Eikonal Implicit Scene Completion from Sparse LiDAR. In ICRA (2023)
5. Joint implicit image function for guided depth super-resolution. In ACMMM (2021)
6. Revisiting deep intrinsic image decompositions. In CVPR (2018)
7. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. In ECCV (2020)
8. Fastfcn: Rethinking dilated convolution in the backbone for semantic segmentation. In CVPR (2019)
作者:陈小雪