在这里和大家分享一下我们被 NeurIPS 2022 录用的有序回归工作 "OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal Regression".
单位:清华大学, 鉴智机器人
项目主页:OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal Regression (xk-huang.github.io)
论文下载地址:[2206.02338] OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal Regression (arxiv.org)
近年来, 大规模视觉语言预训练模型在计算机视觉领域 "大放异彩". 此类模型拥有强大的表征能力, 编码的特征具有很强的泛化能力和鲁棒性. 一个令人惊艳的例子便是 CLIP 模型的零样本 (Zero-shot) 预测能力. 越来越多的工作开始引入大规模视觉语言预训练模型. 这些工作一方面在各自的领域获得了 SOTA 的性能, 另一方面则挖掘了之前闻所未闻的新任务和新挑战. 那么, 计算机视觉中的有序回归, 这个重要而目标明确的任务, 可否借力大规模视觉语言预训练模型, 获得新的发现与创新呢? 本论文对这一问题给出了肯定的回答, 同时也是第一次成功地将大规模视觉语言模型, 及其背后的范式引入到有序回归任务中来.
简介
本文提出了一种基于语言引导的有序回归范式. 现有方法通常将每个序数视为一个类别, 并使用一组权重来学习序数概念. 但此种方式容易过拟合训练标签, 并且学习到的序数概念主要来自训练集, 通常无法取得令人满意的性能. 最近, CLIP 等大型预训练视觉语言模型在各种视觉任务中取得了非常好的性能. 本文提出从蕴含丰富语义信息的 CLIP 特征空间中学习序数概念. 具体来说, 我们将有序回归重新定义为具有对比目标的图像-语言匹配问题: 将标签视为文本, 输入文本编码器得到每个序数获取语言原型嵌入. 然而, 人工选择 CLIP 的提示词选择 (Prompt Engineering) 非常耗时. 我们提出了 OrdinalCLIP, 一种可微分的提示词学习方法, 将 CLIP 适配到有序回归任务. OrdinalCLIP 由可学习的上下文提示词嵌入和可学习的序数嵌入组成; 其中, 可学习的序数嵌入通过显式建模数值连续性来构建. OrdinalCLIP 可以在 CLIP 空间中产生有序且紧凑的语言原型嵌入. 一旦完成学习, 可仅保存语言原型嵌入并丢弃庞大的语言模型. 与使用线性预测头的模型相比, OrdinalCLIP 的额外计算开销为零. 实验结果表明, 新范式在有序回归任务中取得了有竞争力的性能, 并且在年龄估计任务的少样本设置和分布偏移设置方面获得了性能改进.
方法
我们提出的 OrdinalCLIP 包括 3 个模块: (1) 序数嵌入学习模块; (2) 序数嵌入与上下文嵌入联合编码模块; (3) 语言原型特征-图片特征匹配模块.
首先, 我们初始化可学习的基础序数嵌入, 通过线性或者反比例插值, 得到所有序数嵌入. 基础系数嵌入的数量远远小于实际序数嵌入数量. 通过插值的方式, 我们将序的概念引入到所有序数嵌入中. 例如, 在年龄估计任务中, 可学习的基础序数嵌入的数量可被设置为 5, 插值得到的实际序数嵌入数量为 101 (从 0 到 100).
但是单独的序数嵌入所蕴含的信息有限, 将其直接输入 CLIP 的语言编码器所得到的语言原型特征的表现力不佳. CLIP 语言编码器的输入通常需要额外的上下文信息. 例如在年龄估计任务中, 我们可以将上下文提示词设计为 "年龄估计: 这张照片中的人的年龄为 {}.", 将其向量化 (Tokenization) 后得到上下文嵌入. 之后将上下文嵌入和序数嵌入连接, 一同输入到 CLIP 的固定参数的语言编码器中, 得到语言原型特征. 此外, 上下文嵌入可被设计为可学习的模块, 从而提升模型特征空间的表达能力.
最后, 我们将语言原型特征, 和视觉编码器得到的图片特征, 归一化到超球面上. 之后计算每张图片与每个语言原型的相似度, 得到最终的预测结果. 在这里, 我们使用 CLIP 和 ActionCLIP 论文中的损失计算方式, 同时计算文本到图像的损失以及图像到文本的损失.
实验结果
我们在年龄估计, 图像美学评估, 历史图像年代估计任务上进行实验, 得出以下实验结论:
- 相较于之前的范式, 基于语言-图像匹配的新范式能够学习到更加有序且非常紧凑的特征空间, 且获得了更好的性能. 这种紧凑的特征空间仍然具有很强的判别力, 这从侧面展现了大规模预训练视觉-语言模型 (如 CLIP) 特征空间的丰富语义信息与结构. 在少样本的分布偏移的设置下, 新范式可取得更好性能表现.
- 随着语言原型嵌入的有序性提升, 模型性能能够得到提升. 相较于之前的算法, OrdinalCLIP 构建的基于插值的序关系建模显著提升了嵌入的有序性. 此外, 模型在少样本和分布偏移的设置下也获得了更好的性能.
- 在建模序关系的基础上, 引入可学习的上下文提示词嵌入, 相比于人工设计上下文提示词, 可进一步提升模型性能.
具体实验结果如下:
在年龄估计, 美学评估, 历史年代估计任务上的性能:
消融实验: 语言原型嵌入的有序性可视化, 以及对序数嵌入学习模块和各个可学习部件的消融实验:
少样本设置与分布偏移设置下的性能:
结论
在本文中, 我们提出了基于语言引导的有序回归范式. 现有的有序回归方法通常存在过拟合以及特征空间有序性缺失的问题, 这来源于其仅从训练数据中学习序数概念. 我们提出了 OrdinalCLIP, 它将每个序数类别与其源自 CLIP 文本编码器的语言概念相关联. 为了利用语言先验, 每个序数概念都被映射到相应的语言原型. 我们进一步提出了可学习的序数提示词来显式学习序数的嵌入, 以保持语言原型在语言特征空间中的顺序. 在年龄估计、历史图像年代估计和图像美学评估这三个任务上的大量实验结果表明, OrdinalCLIP 在有序回归任务中获得了非常有竞争力的性能. 此外, OrdinalCLIP 还提升了深度学习模型在年龄估计任务的少样本和分布偏移设置下的性能.
参考文献
- Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International Conference on Machine Learning. PMLR, 2021.
- Hu, Xiaowei, et al. "Scaling up vision-language pre-training for image captioning." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.
- Zhou, Kaiyang, et al. "Learning to prompt for vision-language models." International Journal of Computer Vision 130.9 (2022): 2337-2348.
- Wang, Mengmeng, Jiazheng Xing, and Yong Liu. "Actionclip: A new paradigm for video action recognition." arXiv preprint arXiv:2109.08472 (2021).
本文使用 Zhihu On VSCode 创作并发布