AAAI 2023 | 动态温度超参蒸馏新方法

论文链接：

https://arxiv.org/abs/2211.16231

开源代码：

https://github.com/zhengli97/CTKD

一、背景问题

目前已有的蒸馏方法中，都会采用带有温度超参的KL Divergence Loss进行计算，从而在教师模型和学生模型之间进行蒸馏，公式如下：

那么这就带来了两个问题：

不同的教师学生模型在KD过程中最优超参不一定是4。如果要找到这个最佳超参，需要进行暴力搜索，会带来大量的计算，整个过程非常低效。
一直保持静态固定的温度超参对学生模型来说不是最优的。基于课程学习的思想，人类在学习过程中都是由简单到困难的学习知识。那么在蒸馏的过程中，我们也会希望模型一开始蒸馏是让学生容易学习的，然后难度再增加。难度是一直动态变化的。

于是一个自然而然的想法就冒了出来：

在蒸馏任务里，能不能让网络自己学习一个适合的动态温度超参进行蒸馏，并且参考课程学习，形成一个蒸馏难度由易到难的情况？

于是我们就提出了CTKD来实现这个想法。