NeurIPS 2022 | 频域中卷积神经网络对抗鲁棒性的探究与提升

卷积神经网络（CNN）在许多图像任务例如图像分类上取得了巨大成功，同时对抗攻击（Adversarial attack）的提出使CNN的对抗鲁棒性受到了广泛关注。基于卷积的性质，许多前人工作从频域对CNN的对抗鲁棒性进行了探究和解释。然而大部分的前人工作是基于人为的频段划分，将信号划分为高频与低频的定性研究。

本文将介绍一项被 NeurIPS’22 会议接受的新工作。在该工作中，我们基于Shapley值量化了一张图像中不同频率成分对CNN输出的影响，并探究了对抗训练与对抗攻击对CNN的影响；基于我们的发现，我们进一步提出了一个数据增广方法CSA来提升CNN鲁棒性。该工作有幸被选为 Spotlight 展示。

论文链接：

https://openreview.net/pdf?id=rQ1cNbi07Vq

代码链接：

https://github.com/Ytchen981/CSA

一、研究背景与动机

1.1 对抗攻击（adversarial attack）：

对抗攻击【1，2，3】通过在数据中加入人类无法察觉的小扰动攻击神经网络，使得神经网络分类错误。

1.2 对抗训练（adversarial training）：

对抗训练【4】通过使用对抗攻击生成的对抗样本来训练神经网络，从而提高神经网络面对对抗攻击时的鲁棒性

对于对抗攻击，一个被广泛接受的假设是CNN相比于人类使用了更多的高频信号，使得对抗攻击得以通过扰动高频信号在人类难以察觉的条件下干扰CNN，前人工作【5，6，7，8】提供了定性的实验结果支撑这一假设。然而针对低频信号的对抗攻击【9，10】引发了对这一假设的怀疑【11，12】。

在本工作中，我们提出更细粒度地探究不同频率信号在对抗攻击和对抗训练中对CNN的影响。不同于人为将频域划分为高频低频，我们基于Shapley值量化了图像中不同频率信号对CNN输出的影响。

二、量化方法

在本工作中，我们提出了基于Shapley值量化不同频率信号对CNN输出的影响。合作博弈论(Cooperative Game Theory)中的Shapley值由L. S. Shapley在1953年提出，将参与游戏的奖励合理分配给每个参与游戏的玩家。

三、量化结果

3.1 数据样本间的差异性：

相较于基于整个数据集进行的前人研究，我们发现不同数据样本中不同频率成分的影响存在差异。

如上图所示，每一行从左至右依次为原图，由Shapley值为正的频率成分（PFC）重建的图像，由Shapley值为负的频率成分（NFC）重建的图像，不同频率成分Shapley值的热力图。其中对于热力图，红色表示Shapley值为正，蓝色表示Shapley值为负，越靠近图像中心的频率越低反之频率越高。

对于第一行中的金鱼图像，PFC主要为低频信号，组成了鱼的主体，而NFC中包含高频的信号，组成了鱼的轮廓。对于第二行中的鲨鱼图像，PFC包含更多高频信号，组成了鲨鱼的轮廓，而NFC包含了较多低频的信号。

3.2 对抗训练与标准训练下的模型差异：

虽然单个数据样本间存在差异性，我们发现对多个样本的统计展现出了清晰的趋势。我们探究了对抗训练的模型与标准训练的模型间的差异与规律。

如上图所示，左图为标准训练的模型，右图为对抗训练的模型；横轴为不同的频率，纵轴为平均Shapley值；红色表示原始的干净样本的结果，蓝色表示对抗样本的结果。我们发现，标准训练与对抗训练的模型均主要依赖低频信息。然而当面对对抗样本时，标准训练的模型在高频信号的平均Shapley值大幅下降。反之，对抗训练的模型在高频信号的平均Shapley值下降有限。因此我们推测，对抗训练提升了CNN对高频信号的鲁棒性。

3.3 对抗训练中的公平问题（Fairness of Adversarial Training）：

对抗训练中的公平问题是指，同一数据集中的不同类别在标准训练中模型准确率相似，而在对抗训练中，模型面对对抗攻击的鲁棒性在不同类别中存在较大的差异。我们通过实验结果发现，标准训练中，模型在高频信号上平均的Shapley值绝对值越大的类别，在对抗训练后，对抗鲁棒性越差。CIFAR10上ResNet18得到的结果如下图。

纵轴为对抗训练后模型在PGD-20攻击下的分类准确率，横轴为不同类别的高频信号在标准训练模型上平均的Shapley值绝对值。结果表现出较强的负相关性（Pearson’s R=−0.8765）。

3.4 对抗攻击噪声的不同频率成分：

我们进一步探究了对抗攻击噪声的不同频率成分的攻击效果。我们将频率成分分为四种，高频成分（HFC）、低频成分（LFC）、Shapley值为正的频率成分（PFC）和Shapley值为负的频率成分（NFC）。我们探究对抗攻击噪声的对应频率成分的攻击效果，发现对抗噪声的PFC部分具有接近完整噪声的攻击效果，好于NFC部分的攻击效果；对抗噪声的HFC部分的攻击效果好于LFC部分（Figure 6）。为了更好地解释针对低频信号的对抗攻击，我们发现，PFC与NFC共同存在于每一个频段（Figure 7）。

四、数据增广

五、总结

这项工作基于Shapley值量化了输入的不同频率成分对CNN的影响。我们的探究了对抗训练与标准训练中的模型差异，对抗训练的公平问题与对抗噪声不同频率成分攻击效果等问题，提供了对其背后机理的一些洞察。基于我们的量化方法我们提出了一种数据增广方法CSA，实验证明，CSA可以有效提升模型鲁棒性并在模型间迁移。欢迎在留言区进一步的交流和讨论！

参考文献

[1] C. Szegedy, W. Zaremba, I. Sutskever, J. Bruna, D. Erhan, I. J. Goodfellow, and R. Fergus. Intriguing properties of neural networks. In ICLR (Poster), 2014.

[2] I. J. Goodfellow, J. Shlens, and C. Szegedy. Explaining and harnessing adversarial examples. In ICLR (Poster), 2015.

[3] A. Madry, A. Makelov, L. Schmidt, D. Tsipras, and A. Vladu. Towards deep learning models resistant to adversarial attacks. In ICLR (Poster). OpenReview.net, 2018.

[4] A. Athalye, N. Carlini, and D. Wagner. Obfuscated gradients give a false sense of security: Circumventing defenses to adversarial examples. In International conference on machine learning. PMLR, 2018.

[5] H. Wang, X. Wu, Z. Huang, and E. P. Xing. High-frequency component helps explain the generalization of convolutional neural networks. In CVPR, pages 8681–8691. Computer Vision Foundation / IEEE, 2020.

[6] Z. Wang, Y. Yang, A. Shrivastava, V. Rawal, and Z. Ding. Towards frequency-based explanation for robust CNN. CoRR, abs/2005.03141, 2020.

[7] A. A. Abello, R. Hirata, and Z. Wang. Dissecting the high-frequency bias in convolutional neural networks. In CVPR, 2021.

[8] Z. Lin, Y. Gao, and J. Sang. Investigating and explaining the frequency bias in image classification. In IJCAI, 2022.

[9] C. Guo, J. S. Frank, and K. Q. Weinberger. Low frequency adversarial perturbation. In UAI, volume 115 of Proceedings of Machine Learning Research, pages 1127–1137. AUAI Press, 2019.

[10] Y. Sharma, G. W. Ding, and M. A. Brubaker. On the effectiveness of low frequency perturbations. In IJCAI, pages 3389–3396. ijcai.org, 2019.

[11] R. Bernhard, P. Moëllic, M. Mermillod, Y. Bourrier, R. Cohendet, M. Solinas, and M. Reyboz. Impact of spatial frequency based constraints on adversarial robustness. In IJCNN, pages 1–8. IEEE, 2021.

[12] S. R. Maiya, M. Ehrlich, V. Agarwal, S. Lim, T. Goldstein, and A. Shrivastava. A frequency perspective of adversarial robustness. CoRR, abs/2111.00861, 2021

作者：陈奕廷

文章来源：公众号【 sjtuThinklab】