“一把梭ViT”来了，谷歌提出可以灵活应对各种图像块尺寸的FlexiViT

论文链接：

https://arxiv.org/abs/2212.08013

代码链接：

https://github.com/google-research/big_vision

视觉Transformer（ViT）目前已成为学界和工业界常用的视觉任务backbone，其通过将一整幅图像切割成图像块（patch）的方式来将其转换为序列送入到Transformer编解码结构中进行特征建模。很多工作已经证明，切割出来的图像块的大小往往决定了整体模型的性能和速度，如果输入模型较小的图像块，会得到更高的识别准确率，但是计算成本会增加，反之亦然。图像块的大小直接控制了模型速度与准确率之间的权衡。那我们究竟是该选择大图像块还是小图像块呢，是否需要根据下游任务来决定呢？来自谷歌研究院的研究者告诉我们，“小孩子才做选择，成熟的ViT模型可以灵活应对各种尺寸”。

在本文中，作者提出了一种ViT训练策略，即在训练时随机确定图像块的大小来训练模型，这样训练得到的模型称为FlexiViT，其权重可以适应多种输入尺寸，这使得模型在部署阶段根据不同任务不同数据定制模型成为可能。作者在大量下游任务上进行了验证实验，包括图像分类、图像-文本检索、开放世界目标检测、全景分割和语义分割等，结果表明FlexiViT可以超过在单一尺寸下训练的诸多模型，可以灵活的应对各种现实场景，下图展示了FlexiViT与其他baseline模型在ImageNet-1K上的速度-准确性曲线对比情况。

一、引言

视觉Transformer的火热标志着学界对之前占主导地位的卷积神经网络（CNN）模式的重大革新，其通过“图像序列化”的方式来进行底层的像素处理，这种“序列化”也带来了一些新的处理模式，例如mask图像块、为特定任务添加专门的token，以及混合不同模态的图像块来处理多模态任务。作者发现，ViT模型中的图像块作为最基本的视觉处理单元，但是对于图像块尺寸的研究却很少，相比CNN时代的多尺度几何分析、金字塔特征建模等工作，ViT还缺乏在这一方面的探索。虽然初代版本的ViT中使用了三种图像块尺寸（32×32、16×16和14×14），但在后续的演变中，为了训练方便，大家更愿意将图像块固定为16x16大小。在这项工作中，作者对图像块尺寸对于模型预测精度和计算速度的影响进行了研究，期间模型的参数容量并不发生变化。实验结果证明固定图像块训练得到的ViT只能在单一的输入尺度上表现良好，如果输入发生变化，模型性能会严重受损，但是如果想要适应新输入，就只能重新训练模型。

为了克服这个限制，本文作者提出了FlexiViT，顾名思义，这是一种可以灵活处理输入尺度的ViT模型。作者在训练期间随机生成不同尺寸的图像块，并针对每种尺度自适应的调整位置和嵌入参数的大小，如下图所示。

作者发现，这种自适应的训练pipeline可以有效提升模型的泛化能力，作者在广泛的下游任务上进行了实验，作者还发现，以这种方式训练得到的backbone在跨尺度的情况下性能也会得到保留，根据这一观察我们可以使用其来进行资源高效的迁移学习。

二、方法介绍

2.1 对标准的ViT进行分析

2.2 如何训练更加灵活的ViT模型呢

在上图中，作者展示了基础FlexiViT-B模型的性能，FlexiViT-B是在与ViT-B/16和ViT-B/30模型相同的设置下进行训练的，除了输入图像块大小进行了动态调整，其输入的图像块大小是从一组预定义的尺寸集合中随机均匀采样得到的，在具体实现时，仅需要对训练代码进行两处小改动。

下图展示了将标准ViT转换为FlexiViT的伪代码，需要注意的是，调整图像块大小不等同于调整输入图像大小，调整图像块尺寸不会影响模型参数，而调整输入图像尺寸则会丢失图像信息。

2.3 如何调整图像块嵌入的大小

2.4 FlexiViT与知识蒸馏能否碰撞出火花

鉴于FlexiViT的灵活性，作者突发奇想，能否将其与知识蒸馏技术相结合来提高性能。一般情况下，知识蒸馏框架的优化难度要远远大于传统的标签监督方法，一些工作会将学生模型与教师模型架构设置的非常接近来解决这一问题，但是这样做又会影响蒸馏性能，因为教师模型通常要比学生模型具有更大的架构和规模，并且构成结构上的差异性。对于这种两难的情况，使用FlexiViT在合适不过，由于FlexiViT天然的架构灵活性，可以使用更加庞大复杂的ViT作为教师模型来优化学生FlexiViT，FlexiViT的随机块采样可以完美覆盖多种大型模型，并显著提高蒸馏性能。作者使用大型ViT-B/8模型作为教师模型进行实验，通过最小化教师和学生 FlexiViT的预测与随机块嵌入之间的KL距离进行优化：

三、实验效果

作者在实验部分对FlexiViT进行了广泛的评估，评估任务包括图像分类、图像-文本检索、开放世界目标检测、全景分割和语义分割。下图展示了这些迁移实验的效果，可以看到，预训练的FlexiViT在其他下游任务中的性能仍然与使用单一尺度大规模训练的ViT效果一致，在某些任务上甚至超过了原模型，这表明，我们可以只大规模预训练一个FlexiViT作为视觉backbone，然后在对应的下游任务数据集上进行小成本的微调就可以实现多种任务。这种方式进一步提高了ViT模型的可用性和适用性。

此外，作者还对FlexiViT的内部进行了分析。为了探究FlexiViT对于不同尺度的图像块的处理方式，作者对模型的内部表征进行了研究，使用minibatch centered kernel alignment（CKA）方法[1]来比较神经网络内部的表征，为了方便可视化，作者将特征图的CKA值和token的余弦相似度转换为统一度量，并使用t-SNE算法进行降维可视化，效果如下图所示。

上图上半部分表示特征图表征可视化，可以看到，从网络的第一层到第六层的MLP块中，不同尺度的特征图表征是非常接近的，而在第六层中的MLP块中，表征开始出现分歧，但是在最后一个区块中再次收敛。相比之下，token表征在不同尺寸中始终保持一致，从这我们可以得出结论，虽然FlexiViT在内部表示中会因为尺寸变化而受影响，但是其输出表示通常是一致的。

为了进一步分析多种尺度对FlexiViT的性能影响，作者提出了这样一个疑问，“对于同一幅输入图像，较大尺寸的图像块特征是如何与较小尺寸的图像块进行匹配和相关的呢？” 为了回答这个问题，作者先对不同尺度的注意力进行可视化，如下图上半部分所示，当图像块尺寸缩小时，注意力会逐渐细化到整个图像中的关键区域。此外，作者还对这些不同尺度的token特征之间的余弦相似度进行计算，并进行可视化，效果如下图下半部分，我们可以跨越尺度来找到token中的对应关系。

四、总结

本文提出的FlexiVit引入了一种非常简单有效的方法，可以应对多种图像块尺寸来自适应的训练单个模型，显著降低了ViT模型的预训练成本。作者团队在这项工作中进行了充分详实的实验评估，满满的谷歌味道。作者在大量下游任务中（包括图像分类、图像-文本检索、开放世界目标检测、全景分割和语义分割等常规视觉任务）进行了迁移实验，模型均表现良好，可以灵活的应对各种现实图像。作者还进一步展望，通过这项工作激发社区探索更多图像序列化的创造性应用。

参考

[1] Corinna Cortes, Mehryar Mohri, and Afshin Rostamizadeh. Algorithms for learning kernels based on centered alignment. The Journal of Machine Learning Research, 13:795–828, 2012. 5

作者：seven_