CVPR 2023 | 跨模态微调（cross-modal adaptation）：基于CLIP的小样本学习算法

论文工作亮点：我们提出了一种简单而有效的基于多模态预训练模型CLIP的小样本微调算法，通过将跨模态信息（例如文字标签）作为训练样本加入cross-entropy loss进行微调，即可用一个简单的线性分类器在十一个图像识别训练集中取得SOTA效果。我们的方法（cross-modal adaptation）的训练速度和性能均大幅优于先前基于prompting、adapter或ensemble的算法，例如CoOp、CoCoOp、Tip-Adapter和WiSE-FT等。

此外，实验表明了我们的算法在OOD测试集（比如ImageNet-V2和Sketch等）上也具备良好泛化能力，并可以适应多种输入模态（例如音频）。我们希望这项工作能为未来的多模态学习提供有益的参考价值，也可以取代传统的linear-probing来作为未来预训练模型的衡量基准。

论文链接：

https://arxiv.org/abs/2301.06267

代码链接：

https://github.com/linzhiqiu/cross_modal_adaptation

项目主页：

https://linzhiqiu.github.io/papers/cross_modal/

一、研究动机

小样本学习（Few-shot learning)是机器学习领域的一个重要方向，然而基于深度学习的识别算法仍然无法达到人类甚至婴儿在此类任务上的性能。我们认为这一现象主要是因为现阶段的小样本学习任务往往只考虑单一模态的训练样本，例如只用少量图像来训练一个分类器。然而，大量神经科学的研究1 2指出人脑在学习新概念的时候会利用跨模态的信息，比如语言或者音频。

这一跨模态学习的现象在当前以CLIP为代表的预训练模型上尤为突出。CLIP在各大图像识别任务上都取得了非常先进的“zero-shot”识别性能, 即是仅用文本的信息（标签名）就可以取得非常优异的分类结果。此类模型利用了“contrastive learning”（对比学习）使得不同模态的样本能在同一个空间中对齐。基于此，我们提出了一个简单的基于CLIP的小样本微调算法，即是将跨模态的信息（比如文本标签）作为额外的训练样本，同图像样本一起用来优化softmax (cross-entropy) loss。

二、方法介绍

我们发现目前最流行的基于CLIP的小样本学习算法，例如 CoOp, Tip-Adapter, WiSE-FT 等，均只用单一的图像样本来训练一个分类器：

三、实验结果

对于图像识别而言，几乎所有的数据集（例如ImageNet等）都会附带每个class的文本标签，因此我们的方法可以得益于这类数据集自带的“免费”跨模态信息来进行训练。在训练过程中，我们只需要微调一个线性分类器（Cross-modal Linear Probing），即可以取得SOTA的效果。同时，我们也可以部分微调CLIP的图像特征提取器来取得更好的性能，例如神经网络的最后一层（Cross-modal Partial Finetuning）：

需要注意的是，我们所比较的方法，例如CoOp和Tip-adapter等均利用了同样的跨模态文本标签信息。在这一基础上，我们发现我们提出的损失函数仍然可以提升以往方法的性能：

我们的方法仅需要微调很少的参数，同时，不同于prompting，我们因为能够提前提取最后一层网络特征，可以将训练成本和速度压缩好几倍：

为了证明我们的方法能扩展到更多模态，我们利用AudioCLIP提出了第一个小样本视觉音频识别任务ImageNet-ESC，并证明了我们的方法也能够利用音频来提升图像识别的性能（或者用图像来提升音频识别的性能）：

四、理论分析

我们将cross-modal adaptation方法和现阶段流行的classifier ensembling方法（WiSE-FT）进行了对比。WiSE-FT方法指出在微调CLIP之后，应当将微调后的网络权重和原始的CLIP网络权重做一个加权平均，例如用0.5来取一个平均权重。在实践中，我们发现我们的方法要显著优于WiSE-FT。我们认为这个原因可以追溯到机器学习理论中的Representer Theorem。这一理论证明了对于机器学习分类器，最优的权重一定是所有训练样本的线性组合。对于cross-modal linear-probing方法来说，因为我们训练时使用了对于所有训练样本的cross-entropy loss，我们的方法能自动找到每一个样本（无论模态）对应的权重。

而WiSE-FT在linear-probing训练时仅能找到对于视觉特征样本所对应的权重，仅在训练之后将其他模态的特征样本权重与之相加。这一分析解释了为何我们的方法要优于WiSE-FT。

在我们使用PCA的方法来在二维空间观测我们的分类器时，我们发现我们的方法通过引入跨模态文本标签信息可以有效改变分类器的权重：

五、结论与展望

Cross-modal adaptation先进的实验结果证明了CLIP这一类的多模态模型的最优微调范式一定要利用跨模态的信息，这一点和单模态微调（例如prompting和adapter之于大语言模型）有显著的区别。我们认为文本模态对于小样本泛化任务有非常明显的帮助，因此后续工作应当着重研究如何利用更多的文本信息来提升图像分类的效果。

在论文中我们还展示了我们方法在OOD（out-of-distribution）测试集上，例如ImageNetV2和ImageNet-Sketch上的优越泛化性能。基于此，我们希望跨模态微调（cross-modal adaptation）能够取代单模态微调，成为未来预训练模型的性能衡量基准。

六、PyTorch代码展示

我们的方法有非常简单的代码实现，可参考以下pseudocode：

代码链接：
https://github.com/linzhiqiu/cross_modal_adaptation

作者：林之秋