给图片悄悄加上像素级水印：防止AI「抄袭」艺术作品的方法找到了

本文介绍的是一篇收录于 ICML 2023 Oral 的论文，论文由位于上海交通大学的上海市可扩展计算与系统重点实验室、纽约大学和贝尔法斯特女王大学的华扬老师共同完成。论文的共同一作是即将攻读南加州大学博士学位的梁楚盟和上海交通大学的研究生吴晓宇。

自开源 AI 图像生成模型 Stable Diffusion 发布以来，数字艺术创作进入了一个全新的阶段。Textual Inversion，Dreambooth 和 LoRA 等多种以 Stable Diffusion 为基础的模型微调技术催生了大量能够创作特定风格绘画作品的艺术「私炉」。这些「私炉」能够从多则几十张少则几张的绘画作品中训练学习其艺术风格或内容，并模仿这些风格、内容创作新的作品。这些技术使得每个人都能以较低的成本创造自定义的绘画作品。

然而，这些微调技术却饱受绘画创作者们的非议和批评。在创作者们看来，「私炉」产出的绘画作品更像是在人类绘画作品的基础上进行移花接木，是一种「高明的抄袭」。更有人利用此类技术专门模仿特定画手的风格生产画作，并以此在网络上对画手本人进行攻击。一些创作者选择从互联网上撤下自己的画作，通过物理隔绝的方式避免画作被用于训练 AI。

最近的一项工作提出了一个避免绘画作品被用于 AI 模型微调训练的算法框架「AdvDM」。通过在画作中添加像素级的微小水印，该框架能够有效误导当前的模型微调技术，让模型无法从画作中正确地学习其艺术风格和内容并进行模仿创作。在相关法律法规尚不完善的当下，这一技术能够成为艺术创作者保护自身权益、对抗 AI 滥用行为的工具。

论文地址：https://arxiv.org/abs/2302.04578
项目主页：https://mist-project.github.io/
开源地址：https://github.com/mist-project/mist

在扩散模型中定义对抗样本

在传统图像分类任务中，对抗样本是一类被广泛研究的图像。它们和真实图像的最大差距仅有几个像素值，这一差距常常无法被人眼所识别。但图像分类的 AI 模型却会将其错误地分类。这类样本的定义由下面的公式给出：

直白地说，对抗样本是经过一点微小扰动的真实图像。这个扰动的方向由最大化模型分类损失函数的方向确定。也就是说，将真实图像向模型分类正确的反方向推动一点点。在具体操作时，推动的最大像素值的上限受到严格限制。这保证了人眼难以识别这种扰动。例如：下图中绿色方框内的猫和红色方框内的猫在人类视觉下几乎完全一样。然而，实验证明，即使是一点极其微小的像素扰动也足以让分类模型判断错误：下图中红色方框内的猫在分类模型看来是一只狗。

不难发现，让画作不被扩散模型通过微调正确学习的想法和对抗样本的概念有许多相似之处：它们同样要求模型在特定图像上无法完成给定任务，它们也同样不希望显著改变图像在人类视觉下的内容。受到对抗样本的启发，作者在扩散模型乃至生成模型的语境中给出对抗样本的定义：

计算扩散模型的对抗样本

直观地说，AdvDM 算法采样不同的隐变量，并针对每个采样进行一次梯度上升。完整的算法如下：

实验结果

作者在图像内容学习和图像风格迁移两个场景下测试了 AdvDM 算法框架的效果。

针对图像内容学习的保护

利用微调技术，扩散模型能够将一组图像中的相同物体抽取为一个概念 S*，并基于概念生成新图片。例如：通过学习一组同一只猫在森林中漫步的图片，模型能够生成这只猫在沙滩晒太阳的图片。在本实验中，作者把含有同一类物体的原图作为对照组，把原图经 AdvDM 处理后得到的对抗样本作为实验组，分别在两组图片上进行扩散模型微调训练，并利用微调中抽取的概念生成新图片。此时，比较生成图片和微调所用的训练图片的差异能够反映基于对照组和实验组图片进行模型微调的效果差别。若基于实验组生成图片与原图的差距远大于对照组中的差距，则可说明 AdvDM 算法成功阻止了模型通过微调抽取数据集中的内容。

具体实验中，作者使用了 LSUN-cat、LSUN-sheep 和 LSUN-airplane 三个单类别图像数据集。作者从每个数据集中随机抽取 1,000 张图片选作微调训练数据集。根据 Textual Inversion 微调方法的官方推荐，以每 5 张测试图片为一组抽取一个概念 S*，并用抽取的概念生成总计 10,000 张图像。作者使用 Fréchet Inception Distance（FID）和 Precision（prec.）对生成图像与原始图像的相似度进行了评估。实验结果显示在下表中。可以观察到，AdvDM 生成的对抗样本显著增加了生成的图像的 FID 值并降低了 Precision 值。这表明 AdvDM 能够有效地保护图像的内容，避免其内容概念被扩散模型抽取，并用于后续的生成。

针对风格迁移的保护

另外一个受到广泛关注的重要微调场景是扩散模型支持的的艺术风格迁移。该场景通过在少量属于相同或相似艺术风格的画作图片上微调扩散模型，能够从图片数据中归纳出其共同风格的概念 S*，并基于这一概念生成具有类似风格的新图片。

针对该场景，作者在 WikiArt 数据集中选择 10 位个人风格鲜明的艺术家的画作。作者使用 AdvDM 处理这些画作，并在处理前、后的画作上分别微调扩散模型。在微调结束后，作者再通过模型学习的风格概念生成新的画作。生成对比结果如下图所示。可以观察到 AdvDM 处理后生成的图片普遍图像质量较低，具有混乱的纹理，丧失了作为艺术作品的可用性。这表明 AdvDM 可有效对抗基于扩散模型的艺术风格迁移。

近期，作者已将该工作扩展为开源应用 Mist。Mist 针对更多的微调技术和更为复杂的场景均具有较好的效果，并对去噪有一定鲁棒性。相关工作已更新在 GitHub 仓库中。