ICLR 2023 | 化繁为简：简单且高效的视觉表征学习框架Unicom

现有的图像检索方法极度需要预训练好的特征提取器来提取图像级别的描述。但是大部分模型都是在ImageNet-1K这样有限类别的数据集上预训练得到的，这样的特征表达泛化能力不足以扩展到开放类别。为了解决这个问题，我们利用CLIP的文本和图像特征对大规模数据集LAION 400M进行聚类产生100万伪类别，但这样产生的类别在类间会产生严重的冲突。为了解决这些类间冲突，我们随机选取部分类间中心来构建带间隔的softmax损失函数。同时，为了提升低维特征的表达能力，我们随机选取了部分特征维度来计算特征和中心之间的相似度。两种部分选取的方法使得分类器训练时对类间冲突更鲁棒，特征表达更紧凑。我们的方法在多个无监督和有监督的图像检索数据集上都比最好的方法有显著提升。

本论文已被ICLR2023接收，第一作者为格灵深瞳的算法工程师安翔，通讯作者为邓健康。

论文链接：https://arxiv.org/abs/2304.05884

Github：https://github.com/deepglint/unicom

Openreview：https://openreview.net/forum?id=3YFDsSRSxB-

一、背景介绍

在图像检索任务中，图像的表征是最关键的部分，现有的图像表征训练方法有两个主要组成部分：特征提取器和损失函数。特征提取器的结构分为：卷积神经网络（CNN）和Transformer（ViT）两种类型，损失函数主要采用交叉熵损失函数和三元组损失函数。特征提取器将原始图像转换为紧凑的特征表示，而损失函数则用于训练模型，拉近相似图像的特征，将不相似图像的特征远离。

现有的图像表征训练方法有以下缺点：

（1）ImageNet数据集预训练的模型不适用于开放的世界对象。

（2）有监督学习不具有可扩展性，因为大规模训练数据的手动标注成本高昂。

（3）实例级判别方法（例如CLIP）无法有效地编码训练数据的语义结构，因为基于实例的对比学习始终将两个样本视为负样本对，而不考虑它们的语义相似性。

二、方法

为了得到图像的标签信息，首先我们对LAION 4亿图文数据进行多模态聚类得到了100万伪标签的数据集。我们使用这个带噪声的数据集通过噪声抑制分类损失监督训练得到了一个通用的图像特征模型。

1. 多模态聚类

我们充分利用了CLIP模型的视觉能力和本文信息，对图文数据的图片和文本进行了特征抽取。我们采用了K-means聚类算法，将特征相似的实例分组在一起并赋予伪标签。这在标记数据有限但存在大量未标记数据的情况下特别有用，但是因为类别噪声和图像内容噪声的原因，导致伪标签质量较低。

针对上述问题，我们可以调整聚类算法中类别的数量，其中增加聚类类别可提高簇内一致性，但同时也会增加簇间的散度。相反的，减少聚类类别会使簇内的一致性变差，并伴随着簇间的散度增加。因此我们通过将4亿图文数据聚类到了100万类，远远超过了ImageNet-1K的1千种类别。尽管这样的聚类结果在簇内相对较为纯净，但是在簇间却存在着明显的散度。如果我们使用普通的交叉熵损失函数进行训练，则难以收敛。针对这类型的数据集，我们设计了一种噪声抑制的分类损失函数的进行训练。

2. 噪声抑制分类损失

设计：

针对簇间散度太大，无法使用分类正常的问题，如果这样的图像较多，训练优化的过程就会出现梯度困惑的情况。为了解决这一问题，我们采用了采样及过滤的方法。具体而言，我们在训练过程中采用了两种方法来解决类间冲突问题。首先，在每次迭代中，除了当前样本所属的类别，其他负类中心的权重都会被随机选择一定比例（例如：10%）用来计算softmax损失函数。其次，如果负类和当前样本之间的内积超过某个阈值，我们会将当前类别所产生的梯度置为极小值。这两种方法可以极大地降低梯度困惑的概率，从而大大降低模型在训练过程中的难度。

分布式实现：

为了在分布式训练中降低交叉熵损失中百万维度线性矩阵的存储和通信压力，我们采用了模型并行的方式，将100万个类别均匀分配到所有显卡中进行并行计算。需要注意的是，对于当前批次的每个样本，它们都是共享同一批负类中心。

3. 维度压缩

在图像检索任务中，图像特征的鉴别性和特征的维度都是极为重要的因素。为了实现预训练模型在不接触下游数据集情况下的零样本检索，本论文采用了ArcFace Loss作为损失函数，并在训练过程中对特征维度进行了随机选择，使得模型产生的特征向量在只取前N维时也能够表现出相当优秀的可鉴别性能。

三、实验

1.实验细节

该论文实验中主要使用了不同大小的4个ViT模型，并在自动聚类的 LAION 4亿图文数据集上从头开始训练32个Epoch，我们在预训练步骤中将随机类别采样比率设置为 0.1，损失函数我们使用了ArcFace Loss，其中最大的 ViT-L/14 使用了128个V100训练了16天。

2. 实验结果

如表1所示，我们的模型在Top-1准确率方面一直优于OPEN-CLIP模型，对于ViT B/16模型，我们的预训练模型达到了85.9%的准确率，超过了在ImageNet-21K上进行监督预训练的模型84.0%和在IG 3.6B上进行弱监督预训练的模型85.3%。此外，我们的ViT L/14模型获得了88.3%的准确率，优于在JFT 300M上预训练的ViT L/16模型87.8%和在IG 3.6B上预训练的ViT L/16模型88.1%。在ImageNet-1K分类任务的总体结果中，即使其他模型使用了更大的训练数据集（例如JFT 3B和IG 3.6B），我们的模型也表现出了很强的竞争力。

按照与CLIP相同的评估设置，我们将在LAION 400M数据集上预训练的模型冻结，并仅微调最后的线性分类层。我们在表1中报告了在13个数据集上进行线性探测的性能，我们的模型显著优于CLIP和OPEN-CLIP模型。值得注意的是，我们的ViT B/32、ViT B/16和ViT L/14在使用相同的训练数据时平均比OPEN-CLIP的对应模型高3.6％、2.7％和1.4％，这表明我们所提出的自监督训练方法可以提高实例判别的表示能力。

为了验证Unicom在图像检索任务上的迁移能力，我们在7个图像检索数据集上将Unicom与之前的SOTA方法进行了对比，实验结果如表3所示。在微调过程中，由于下游图像检索数据集是干净的，我们将负类选择比例设置为1。实验结果表明，我们所提出的方法在SOP，iNaturalist和VehicleID数据集上超越了最新方法RA@K；在CUB和In-Shop数据集上超越了最新方法Hyp-ViT。

表4 Unicom在多个常见的图像检索数据集的0样本结果 (无需finetune)

在表4中，在直接使用预训练模型进行零样本检索的设定下，我们跟CLIP和OPEN-CLIP进行对比。GLDv2数据集使用mAP@100作为评估指标，而其他数据集使用Recall@1。我们的ViT L/14模型在7个图像检索数据集上实现了69.9％的平均结果，超过了OPEN-CLIP对应模型7.5％，甚至比更大的OPEN-CLIP模型ViT H/14表现优异5.4％。

四、结论

本文提出一种简单且高效的视觉表征学习框架Unicom。我们首先通过在大规模无标注数据进行多模态聚类来获取伪标签，然后采用一次随机的负类选择来提高类间严重冲突下的鲁棒性，采用另一次随机的特征选择来提高特征表示的紧凑性。本文在无监督图像检索和有监督图像检索任务上对所提出的方法进行了验证，实验表明Unicom在不同维度约束下均能达到了最先进的性能，这也证实了聚类判别有利于挖掘大规模训练数据内的语义结构。

参考文献

[1] Xiang An, Jiankang Deng, Jia Guo, Ziyong Feng, XuHan Zhu, Jing Yang, and Tongliang Liu. Killing two birds with one stone: Efficient and robust training of face recognition cnns by partial fc. In CVPR, 2022

[2] Gabriel Ilharco, Mitchell Wortsman, Ross Wightman, Cade Gordon, Nicholas Carlini, Rohan Taori, Achal Dave, Vaishaal Shankar, Hongseok Namkoong, John Miller, Hannaneh Hajishirzi, Ali Farhadi, and Ludwig Schmidt. Openclip, 2021

[3] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In ICML, 2021.

作者：安翔

ICLR 2023 | 化繁为简：简单且高效的视觉表征学习框架Unicom

一、背景介绍