卷积神经网络(CNN)在许多图像任务例如图像分类上取得了巨大成功,同时对抗攻击(Adversarial attack)的提出使CNN的对抗鲁棒性受到了广泛关注。基于卷积的性质,许多前人工作从频域对CNN的对抗鲁棒性进行了探究和解释。然而大部分的前人工作是基于人为的频段划分,将信号划分为高频与低频的定性研究。
本文将介绍一项被 NeurIPS’22 会议接受的新工作。在该工作中,我们基于Shapley值量化了一张图像中不同频率成分对CNN输出的影响,并探究了对抗训练与对抗攻击对CNN的影响;基于我们的发现,我们进一步提出了一个数据增广方法CSA来提升CNN鲁棒性。该工作有幸被选为 Spotlight 展示。
论文链接:
https://openreview.net/pdf?id=rQ1cNbi07Vq
代码链接:
https://github.com/Ytchen981/CSA
一、研究背景与动机
1.1 对抗攻击(adversarial attack):
对抗攻击【1,2,3】通过在数据中加入人类无法察觉的小扰动攻击神经网络,使得神经网络分类错误。
1.2 对抗训练(adversarial training):
对抗训练【4】通过使用对抗攻击生成的对抗样本来训练神经网络,从而提高神经网络面对对抗攻击时的鲁棒性
对于对抗攻击,一个被广泛接受的假设是CNN相比于人类使用了更多的高频信号,使得对抗攻击得以通过扰动高频信号在人类难以察觉的条件下干扰CNN,前人工作【5,6,7,8】提供了定性的实验结果支撑这一假设。然而针对低频信号的对抗攻击【9,10】引发了对这一假设的怀疑【11,12】。
在本工作中,我们提出更细粒度地探究不同频率信号在对抗攻击和对抗训练中对CNN的影响。不同于人为将频域划分为高频低频,我们基于Shapley值量化了图像中不同频率信号对CNN输出的影响。
二、量化方法
在本工作中,我们提出了基于Shapley值量化不同频率信号对CNN输出的影响。合作博弈论(Cooperative Game Theory)中的Shapley值由L. S. Shapley在1953年提出,将参与游戏的奖励合理分配给每个参与游戏的玩家。
三、量化结果
3.1 数据样本间的差异性:
相较于基于整个数据集进行的前人研究,我们发现不同数据样本中不同频率成分的影响存在差异。
如上图所示,每一行从左至右依次为原图,由Shapley值为正的频率成分(PFC)重建的图像,由Shapley值为负的频率成分(NFC)重建的图像,不同频率成分Shapley值的热力图。其中对于热力图,红色表示Shapley值为正,蓝色表示Shapley值为负,越靠近图像中心的频率越低反之频率越高。
对于第一行中的金鱼图像,PFC主要为低频信号,组成了鱼的主体,而NFC中包含高频的信号,组成了鱼的轮廓。对于第二行中的鲨鱼图像,PFC包含更多高频信号,组成了鲨鱼的轮廓,而NFC包含了较多低频的信号。
3.2 对抗训练与标准训练下的模型差异:
虽然单个数据样本间存在差异性,我们发现对多个样本的统计展现出了清晰的趋势。我们探究了对抗训练的模型与标准训练的模型间的差异与规律。
如上图所示,左图为标准训练的模型,右图为对抗训练的模型;横轴为不同的频率,纵轴为平均Shapley值;红色表示原始的干净样本的结果,蓝色表示对抗样本的结果。我们发现,标准训练与对抗训练的模型均主要依赖低频信息。然而当面对对抗样本时,标准训练的模型在高频信号的平均Shapley值大幅下降。反之,对抗训练的模型在高频信号的平均Shapley值下降有限。因此我们推测,对抗训练提升了CNN对高频信号的鲁棒性。
3.3 对抗训练中的公平问题(Fairness of Adversarial Training):
对抗训练中的公平问题是指,同一数据集中的不同类别在标准训练中模型准确率相似,而在对抗训练中,模型面对对抗攻击的鲁棒性在不同类别中存在较大的差异。我们通过实验结果发现,标准训练中,模型在高频信号上平均的Shapley值绝对值越大的类别,在对抗训练后,对抗鲁棒性越差。CIFAR10上ResNet18得到的结果如下图。
纵轴为对抗训练后模型在PGD-20攻击下的分类准确率,横轴为不同类别的高频信号在标准训练模型上平均的Shapley值绝对值。结果表现出较强的负相关性(Pearson’s R=−0.8765)。
3.4 对抗攻击噪声的不同频率成分:
我们进一步探究了对抗攻击噪声的不同频率成分的攻击效果。我们将频率成分分为四种,高频成分(HFC)、低频成分(LFC)、Shapley值为正的频率成分(PFC)和Shapley值为负的频率成分(NFC)。我们探究对抗攻击噪声的对应频率成分的攻击效果,发现对抗噪声的PFC部分具有接近完整噪声的攻击效果,好于NFC部分的攻击效果;对抗噪声的HFC部分的攻击效果好于LFC部分(Figure 6)。为了更好地解释针对低频信号的对抗攻击,我们发现,PFC与NFC共同存在于每一个频段(Figure 7)。
四、数据增广
五、总结
这项工作基于Shapley值量化了输入的不同频率成分对CNN的影响。我们的探究了对抗训练与标准训练中的模型差异,对抗训练的公平问题与对抗噪声不同频率成分攻击效果等问题,提供了对其背后机理的一些洞察。基于我们的量化方法我们提出了一种数据增广方法CSA,实验证明,CSA可以有效提升模型鲁棒性并在模型间迁移。欢迎在留言区进一步的交流和讨论!
参考文献
[1] C. Szegedy, W. Zaremba, I. Sutskever, J. Bruna, D. Erhan, I. J. Goodfellow, and R. Fergus. Intriguing properties of neural networks. In ICLR (Poster), 2014.
[2] I. J. Goodfellow, J. Shlens, and C. Szegedy. Explaining and harnessing adversarial examples. In ICLR (Poster), 2015.
[3] A. Madry, A. Makelov, L. Schmidt, D. Tsipras, and A. Vladu. Towards deep learning models resistant to adversarial attacks. In ICLR (Poster). OpenReview.net, 2018.
[4] A. Athalye, N. Carlini, and D. Wagner. Obfuscated gradients give a false sense of security: Circumventing defenses to adversarial examples. In International conference on machine learning. PMLR, 2018.
[5] H. Wang, X. Wu, Z. Huang, and E. P. Xing. High-frequency component helps explain the generalization of convolutional neural networks. In CVPR, pages 8681–8691. Computer Vision Foundation / IEEE, 2020.
[6] Z. Wang, Y. Yang, A. Shrivastava, V. Rawal, and Z. Ding. Towards frequency-based explanation for robust CNN. CoRR, abs/2005.03141, 2020.
[7] A. A. Abello, R. Hirata, and Z. Wang. Dissecting the high-frequency bias in convolutional neural networks. In CVPR, 2021.
[8] Z. Lin, Y. Gao, and J. Sang. Investigating and explaining the frequency bias in image classification. In IJCAI, 2022.
[9] C. Guo, J. S. Frank, and K. Q. Weinberger. Low frequency adversarial perturbation. In UAI, volume 115 of Proceedings of Machine Learning Research, pages 1127–1137. AUAI Press, 2019.
[10] Y. Sharma, G. W. Ding, and M. A. Brubaker. On the effectiveness of low frequency perturbations. In IJCAI, pages 3389–3396. ijcai.org, 2019.
[11] R. Bernhard, P. Moëllic, M. Mermillod, Y. Bourrier, R. Cohendet, M. Solinas, and M. Reyboz. Impact of spatial frequency based constraints on adversarial robustness. In IJCNN, pages 1–8. IEEE, 2021.
[12] S. R. Maiya, M. Ehrlich, V. Agarwal, S. Lim, T. Goldstein, and A. Shrivastava. A frequency perspective of adversarial robustness. CoRR, abs/2111.00861, 2021
作者:陈奕廷
文章来源:公众号【 sjtuThinklab】