学生模型反超老师模型？简单高效的蒸馏机制CrossKD：超越现有所有知识蒸馏方案！

GT信号与蒸馏目标之间的优化目标不一致是预测模拟失效的关键原因？为缓解该问题，本文提出一种简单且有效的蒸馏机制CrossKD，基于MSCOCO数据集，仅需预测模拟损失，CrossKD可以将GFL-ResNet50-1x的指标从40.2提升至43.7，超越了现有所有知识蒸馏方案。

论文链接：https://arxiv.org/abs/2306.11369

代码链接：https://github.com/jbwang1997/CrossKD

作为一种有效的模型压缩技术，知识蒸馏在多个CV领域取得了突出的成绩。目前，在检测领域，特征模仿(Feature Imitation)方案往往具有比预测模拟(Prediction Mimicking)方案具有更高的性能。

在本文中，作者发现：GT信号与蒸馏目标之间的优化目标不一致是预测模拟失效的关键原因。为缓解该问题，本文提出一种简单且有效的蒸馏机制CrossKD，它直接将学生检测头的中间特征送入到老师检测头，所得跨头(Cross-Head)预测将被用于最小化与老师模型预测之间差异。这样的蒸馏机制缓解了学生检测头从GT与老师预测处接收截然相反的监督信息，进而极大的改善了学生模型的检测性能。基于MSCOCO数据集，仅需预测模拟损失，CrossKD可以将GFL-ResNet50-1x的指标从40.2提升至43.7，超越了现有所有知识蒸馏方案。

一、背景知识

在证实介绍CrossKD之前，我们先简要介绍两种主要的KD范式，即特征模仿与预测模拟。

Feature Imitation 特征模仿旨在增强老师-学生模型在隐特征方面的一致性，其优化目标可描述如下:

二、出发点

作者发现：预测模拟需要直面真值与蒸馏目标之间存在的冲突(参考上图)，而这被已有蒸馏方法忽视了。当通过预测模拟方式进行训练时，学生模型的预测被迫同时最小化与两者之间的差异，进而影响了学生模型的性能。以上图为例，当老师模型输出不准确的类别概率时，这无疑会影响学生模型达成更高的性能。为缓解该问题，作者提出了直接将学生模型的中间特征融入到老师检测头中以构建跨头预测蒸馏。

三、本文方案

为缓解前述问题，本文构建了CrossKD方案，见上图。类似于已有预测模型，CrossKD直接对预测输出进行蒸馏；不同之处在于：CrossKD直接将学生模型的中间特征送入到老师模型的检测头以达成跨头预测蒸馏。

通过CrossKD，检测损失与蒸馏损失将独立作用到不同的分支。从上面图示可以看到：检测损失的梯度流经了完整的学生检测头，而蒸馏损失的梯度则经由冻结老师模型检测层后流入学生模型的隐层特征，这可以一定程度提升学生模型与老师模型的一致性。相比直接减少输出预测的差异，CrossKD使得学生模型检测头部分仅与检测损失相关，进而更好的朝着真值目标优化。