AAAI 2023 | 双域风格图像和谐化

2023-02-07 18:29 647 阅读 ID:768
将门
将门

图像合成(Image Composition)是指将前景从一张图片上剪切下来,然后粘贴到另一张图片上,生成一张合成图片的技术。但通过这种方式获得的合成图片,其前景和背景会存在色彩、光照等统计信息不一致的问题,这导致整张图片看起来不真实、不和谐。图像和谐化(Image Harmonization)任务旨在调整合成图片中的前景区域的外观表现,使其与背景一致,使合成图片变得更加真实和谐。

近年来,图像和谐化任务得到了越来越多的关注。已有的工作中,大多数处理的是由两张照片合成的图片。而在实际应用中,用户也可能从照片上剪切下来一个前景物体,然后粘贴到一张油画背景上,期望生成一张艺术风格的合成图。

  论文链接:http://arxiv.org/abs/2212.08846代码链接:https://github.com/bcmi/PHDNet-Painterly-Image-Harmonization

如下图所示,我们将剪切自照片的前景物体(foreground object)粘贴到具有艺术风格的背景图片(background)上,生成一张艺术风格的合成图片(composite)。可以看出,在合成图片中,前景的色彩、纹理、笔触等风格信息与背景明显不一致,导致整张图看起来不真实。

我们通过风格图像和谐化(Painterly Image Harmonization)来解决这类合成图片不和谐的问题。给定一张合成图,其前景来自照片,而背景来自艺术图片,风格图像和谐化的任务是调整前景的风格,使其与背景和谐一致。

现在已经有少量的工作来做风格图像和谐化。这些工作可以分为两类:基于优化的(optimization-based)方法和前馈(feed-forward)方法。基于优化的方法通过最小化目标函数,直接对输入的合成图片进行迭代优化。这一类方法通常会对每张合成图求得最优解,但过程是非常耗时的。

前馈方法将合成图片输入网络,然后通过损失函数的约束,让网络来学习生成和谐化图片。这一类方法通过提供大量数据,训练网络使其掌握艺术和谐化的能力,在推理阶段是十分快速的。但现有的方法仍然存在前景风格化不充分,以及前景没有很好地融入背景的问题。

考虑到应用的实时性问题,我们采用了前馈方法。根据艺术图片的纹理特性,我们将频域知识引入到风格图像和谐化任务中。我们设计了一个双域(dual-domain)风格图像和谐化网络,将在空间域和频域中捕捉到的特征信息共同用于风格图像和谐化。我们的工作已被 AAAI 2023 接收。

频域(frequency domain)是描述信号在频率方面特性时用到的一种坐标系。频域空间的操作,如快速傅里叶变换(FFT),具有图片全局感受野,并且可以提取纹理等边缘信息。而艺术风格的图片通常具有周期性的纹理和图案,可以在频域内被很好地捕捉。

在风格图像和谐化任务中,我们需要将合成图片中艺术背景的纹理、笔触、图案、颜色等风格信息迁移到前景,而背景图片的风格信息可以通过频域上的 FFT 操作进行提取。因此,我们提出了一个双域风格图像和谐化网络,可以同时利用空间域和频域的特征完成对合成图片的和谐化。网络结构如下图所示。

我们的双域风格图像和谐化网络包括一个双域生成器和一个双域判别器。我们通过双域生成器来生成和谐化结果,并采取对抗学习的策略,通过双域判别器生成 n*n 大小的块掩码,用来区分前景块和背景块,从而提升生成器的和谐化能力。

在双域生成器中,我们沿用了 AdaIN[1] 中的编-解码器结构,并且在编-解码器的每一层都添加了跳跃连接。在跳跃连接中,我们首先通过 AdaIN[1] 模块,在空间域中将合成图片前景特征的均值和标准差与背景图片特征的均值和标准差对齐,初步实现背景风格向前景的迁移。然后,我们将对齐之后的特征输入我们设计的 ResFFT 模块,通过 FFT 将空间域的特征变换到频域,再将频域特征送入残差块 [2],最后通过逆 FFT 将频域特征变换到空间域,获得和谐化后的特征。

由于频域中的操作可以捕捉全局纹理信息,ResFFT 模块可以补全一些缺失的细节纹理,并增强已有的纹理,进一步将背景风格迁移到前景。我们将和谐化后的特征输入解码器,来生成和谐化图片。在解码器之后,我们用一个混合层[3]来学习软前景掩膜,将解码器生成的图片与原始的合成图片进行混合,获得最终的和谐化结果。

在双域判别器中,我们用编码器中的空间域分支和频域分支分别提取两个域的特征。具体来说,我们先将图片输入编码器的空间分支,然后取一层中间特征,将其均匀地分成 n*n 个不重叠的块,并把每个块送入编码器的频域分支获得频域特征向量,再将所有块对应的频域特征向量按照原来的空间位置拼接起来,获得频域特征图。然后,我们将空间域和频域的特征图拼起来之后送入一个小型自编码器,生成 n*n 的块掩码,其中每一块对应输入图片中相应空间位置的矩形区域,以此来区分该区域为前景还是背景。

我们与现有的风格图像和谐化方法进行了对比,可视化结果见下图。可以看出,我们的方法(PHDNet)可以将背景风格中的纹理很好地迁移到前景,并且保留了前景的内容信息,和谐化效果优于其他方法。

风格图像和谐化任务需要将背景的风格迁移到前景物体,与艺术风格迁移(Artistic Style Transfer)任务息息相关。所以我们也将经典的和最新的艺术风格迁移任务作为基准方法,与我们的方法(PHDNet)进行比较,可视化结果见下图。相较于基准方法而言,我们的方法拥有更强的风格迁移能力,并且能够使前景更加自然地融入到背景当中。

另外,我们通过可视化频谱图,直观地展示了频域学习的有效性。如下图,图(a)是合成图片(composite)、我们的和谐化结果(PHDNet)和背景图片(background)经过 FFT 后的频谱图;图(b)是判别器 n*n 个块特征的频谱图,红框内是前景区域;图(c)是生成器中编码器每一层特征经过 ResFFT 模块之前的频谱图(左)和经过 ResFFT 模块之后的频谱图(右)。

从图(a)和图(b)可以看出和谐化结果的纹理与背景图片更加接近,并且保留了合成图片中的纹理信息。图(c)中经过 ResFFT 后新出现的亮点和亮度增强的点,分别体现出 ResFFT 模块的纹理补全能力和纹理增强能力。

关于定量评估,因为没有 ground-truth,所以无法用 MSE、PSNR 等量化指标对结果进行评估。因此,我们从测试集中随机选择了 100 张合成图片,并通过用户主观评测(user study)来将我们的方法与基准方法进行对比。通过用户主观评测的指标 B-T score 来看,我们的方法优于基准方法。关于我们方法的技术细节和全部的实验结果,请参见论文正文和补充材料。欢迎大家关注我们的方法,关注风格图像和谐化相关领域。

参考文献

[1] Huang, Xun, and Serge Belongie. “Arbitrary style transfer in real-time with adaptive instance normalization.” In ICCV, 2017.

[2] He, Kaiming, et al. “Deep residual learning for image recognition.” In CVPR 2016.

[3] Sofiiuk, Konstantin, et al. “Foreground-aware Semantic Representations for Image Harmonization.” In WACV 2021.

作者: 曹俊燕

文章来源:公众号【 PaperWeekly】

免责声明:作者保留权利,不代表本站立场。如想了解更多和作者有关的信息可以查看页面右侧作者信息卡片。
反馈
to-top--btn