CVPR 2022 Oral | LAS-AT：一种基于可学习攻击策略的对抗训练新范式

近日，由中科院信工所、香港中文大学（深圳）和腾讯AILab共同提出的一种可学习的对抗训练框架LAS-AT，被CVPR 2022（Oral）顺利接收。通过引入“可学习的攻击策略”，LAS-AT可以学习自动产生攻击策略以提高模型的鲁棒性。该框架由一个使用对抗样本进行训练以提高鲁棒性的目标网络和一个产生攻击策略以控制对抗样本生成的策略网络组成。在不同数据集上的实验结果展现了LAS-AT的优越性。

论文链接:

https://arxiv.org/abs/2203.06616

代码链接:

https://github.com/jiaxiaojunQAQ/LAS-AT

一、问题背景

许多先前工作证明，深度神经网络（DNN）的许多实际应用都很容易受到对抗样本（AE）的影响，如图像分类、物体检测、机器翻译等。为了解决该问题，有许多相关的防御方法被提出。其中，对抗训练（AT）被认为是最有效的防御方法之一。对抗训练经常被建模为求解一个min-max问题，而对抗样本的生成是求解该问题的关键。以前的研究工作大多采用投影梯度下降法（PGD），并手动指定攻击参数来生成AE，这些攻击参数的组合可被视为攻击策略。目前的方法主要存在以下两个问题：

1. 大多数现有的方法仅利用手工制定的攻击策略来生成AE，即仅使用固定的攻击策略来生成AE，限制了模型的鲁棒性；

2. 大多数方法只使用一种攻击策略，而目前已有研究指出在对抗训练的不同阶段中使用固定的攻击策略会使得模型的鲁棒性受限。

在本文中，我们通过引入“可学习的攻击策略”，即LAS-AT，提出了一个新颖的对抗训练框架，它可以学习自动产生攻击策略以提高模型的鲁棒性。

二、方法介绍

LAS-AT方法的总体框架如图所示：

LAS-AT框架图：它由一个策略网络和一个目标网络组成。这两个网络是具有竞争关系的。对于策略网络，在给定一个干净的图像时，策略网络会生成一个对应的针对该样本的攻击策略；对于目标网络，AE生成器会根据攻击策略和目标网络来生成一个AE，用于训练目标网络。同时，目标网络也会分别给予AE生成器和策略网络一个监督信号。

2.1 目标网络

2.2 策略网络

2.3 对抗样本生成器

给定一个干净的样本，对抗样本的生成过程可以被定义为:

2.4 对抗训练公式化表述

标准对抗训练有固定的攻击策略，可以表示为：

由论文提出的对抗训练的公式可知，目标网络和策略网络是有一种相互竞争的关系，即最小化和最大化相同的损失函数。目标网络学习调整参数去抵御对抗攻击策略生成的对抗样本，而策略网络根据给定的攻击目标网络的样本去提高攻击策略。

在一开始的训练阶段，目标网络是非常脆弱的，一个弱的攻击就可以使它分类出错，此时，策略网络可以很容易的生成有效的攻击策略，并且策略是多种多样的，因为弱的攻击策略和强的攻击策略都可以成功攻击目标网络。

随着训练过程的进行，目标网络变得越来越鲁棒，策略网络不得不去学习生成更强对抗样本的攻击策略。因此，这种博弈机制可以随着策略网络的生成策略的提高逐步促进目标网络的对抗鲁棒性。

2.5 损失函数

2.5.1 评估鲁棒性损失

2.5.2 预测干净样本损失

一个好的攻击策略应该不仅可以提高目标模型的鲁棒性也能够保持预测干净样本的准确率。在本论文中我们也考虑了单步更新目标模型在预测干净样本的性能，评估攻击策略的损失函数可以被定义为：

2.5.3 总损失函数

结合以上两个损失函数项，本论文方法的对抗训练总损失函数可以表述为:

2.6. 优化

我们提出一个算法交替优化这两个网络的损失函数。给定参数，优化目标网络的子问题可以表述为：

其中

在这个优化问题中，最大的挑战在于对抗样本生成的过程是不可微的，即梯度信息不能通过对抗样本被反向传播到攻击策略的调整中。

另外，还有其它很多不可微的操作，如关系到对抗攻击中迭代次数的选择等，它们很难将梯度信息反向传播到策略网络中。在该论文中我们利用强学学习算法去解决以上不可微的问题，具体过程请参见原文。

三、实验结果

3.1 与其他AT模型比较

下表分别为不同对抗训练的方法在CIFAR10、CIFAR100以及Tiny Imagenet三种不同数据集上鲁棒性的实验结果。可以发现，在大多数攻击场景下，论文中提出的三种方法对抗训练出的模型的性能都优于其它方法对抗训练出的模型，而且在很多情况下，论文中的方法不仅提高了基础模型的鲁棒性，而且提高了干净样本分类的精度。

Cifar-10结果

Cifar-100结果

Tiny-ImageNet结果

3.2 超参数选择

我们将论文中方法与其他超参数搜索方法进行了比较，包括经典的超参数搜索方法（随机搜索）和两种自动超参数搜索方法。从下图可以看出，论文中的方法在所有攻击场景下对抗训练出的模型都达到了最佳的鲁棒性性能。

为了研究LAS-AT的工作原理，我们分析了策略网络在不同训练阶段的攻击策略分布。最大扰动强度的范围设定为3到15，下图所示为对抗训练期间最大扰动强度的分布演变情况。

在对抗训练开始时，分布覆盖了最大扰动强度的所有可选值。每个值都有选择的机会，这确保了对抗样本的多样性。随着对抗训练的进行，小扰动强度的百分比降低。在后期，最大扰动强度的分布被几个大值占据。

这一现象表明，策略网络逐渐增加大扰动强度的百分比，以生成更强的对抗扰动，进而目标网络的鲁棒性通过使用强对抗样本进行训练而逐渐增强。

3.3 鲁棒性实验

我们也在WRN-70-16上测试了方法的有效性。实验表明LAS-AWP可以提高模型的鲁棒性，实现更高的鲁棒性精度。在CIFAR-100上，Cui等人为LBGAT训练WideResNet34-20（WRN-34-20），并在没有额外的真实或合成数据的情况下实现了最先进的稳健性。在WRN-34-20上，LAS-AWP也可以达到更高的鲁棒性精度。结果见表5。

3.4 消融实验

四、总结

我们通过引入“可学习攻击策略”的概念，提出了一个新颖的对抗训练框架，它由目标网络和策略网络构成。在博弈机制下，策略网络根据目标模型的鲁棒性学习产生动态的攻击策略，用于对抗样本的生成，而不是使用纯手工的方法。为了指导策略网络的学习，我们还提出了两个损失项，并在三个基准数据集上进行了广泛的实验评估，以证明所提方法的优越性。

作者：加小俊

文章来源：公众号【CVer】Illustration by Robin's Pixel from IconScout