深度神经网络在图像重缩放(Image Rescaling , IR)任务中取得了巨大成功,该任务旨在学习最佳的下采样表示,即低分辨率(LR)图像,来重建原始的高分辨率(HR)图像。与固定降尺度方案(例如 bicubic)的超分辨率方法相比,由于学习了下采样表示,IR 通常可以实现更好的重建性能,这突出了一个良好的下采样表示的重要性。现有的 IR 方法主要通过联合优化下采样和上采样模型来学习生成低分辨率图片。
研究者发现,可以通过一种不同的且更为直接的方式来改进下采样表示——直接优化下采样图像(LR 图像)本身,而不是下采样/上采样模型。所提出的方法专注于模型的推理阶段,无需对现有模型进行重新训练,因此可以很好地推广到不同的模型中,并不断改进结果。本工作发表在 ICCV 2023,为提升现有 IR 方法的性能提供了有效途径。
论文地址:
https://arxiv.org/abs/2211.10643
Image Rescaling (IR)旨在将高分辨率(HR)图像缩小为视觉上舒适的低分辨率(LR)图像,然后将其放大以恢复原始HR图像。在实际应用中,缩小后的图像在节省存储空间或带宽以及拟合不同分辨率的屏幕等方面发挥着重要作用。IR的典型应用场景是在边缘设备(例如移动设备)上获取HR图像/视频(之前存储在服务器中)。为了节省存储空间和减少传输延迟,通常将原始HR图像/视频缩小到LR,然后存储在服务器上。在某些情况下,这些LR图像可以直接被边缘设备使用,例如当设备屏幕分辨率较低或仅作为预览时,同时也可以在需要时将其升级到原始分辨率。为了提高IR任务的性能,现有方法通过最小化重建损失来共同学习下采样和上采样模型。然而,在一个完整的pipline中,除了训练好的神经网络模型外,被缩小的低分辨率图片本身也非常重要。
当不同的数据被输入到一个参数冻结的模型中时,通常会得到明显不同的结果。如图1所示,与原始LR图像相比,基于对抗样本生成办法所生成的LR图像会使重建的HR图像的PSNR下降0.93dB,并且在视觉上线条变得模糊。相比之下,基于梯度下降生成协同的LR图像时,不仅性能提高了1.29dB,而且线条更加清晰流畅。因此,本文提出了一种协作的降尺度方案Hierarchical Collaborative Downscaling (HCD),如图2所示,其重点是获得图像的更好的下采样表示(紫色框),而不是学习模型(蓝色框),该方案优化了HR和LR图像域的表示,获得了更优的下采样图片。
本文提出的HCD与现有方法的不同之处被概括为以下3点:
- 优化目标不同。 现有方法对模型参数进行优化,而HCD优化了数据的表示,这与优化模型的方法是正交的。
- 专注于不同的阶段。 现有方法专注于训练阶段,HCD专注于推理阶段,是第一个用于IR任务推理阶段优化方法。此外,HCD可以很好地推广到不同的模型中,并不断改进结果。
- 优化方案不同。 现有方法在每次迭代中进行向前-后向传播。相比之下,HCD采用分层方案,采用分层方式进行前-后向传播,即先更新HR图像,再更新LR图像。
一、技术路线
HCD方法的整体流程图如图3所示。由于LR图像是从相应的HR图像中所获得的,因此可以基于HR域中的协同样本来改进LR表示。通过这种方式,依次在HR和LR域生成协同样本,可以获得更优的下采样表示。从本质上讲,可以将共同学习HR和LR域图像看作是一个双层优化问题。
如图3所示,本文提出的HCD方法共包括三个步骤(整个过程中保持模型参数固定):首先,迭代生成HR协同样本(黑色虚线框),该过程如黑线所示。其次,将它们输入到下采样模型中,以获得更好的初始LR图像,并迭代生成LR协同样本(红色虚线框),该过程如红线所示。最后,将最终生成的LR图像输入到上采样模型中以重建高分辨率图像。
二、定性 & 定量比较
本文基于IRN、HCFlow和GRAIN这三个最新的Image Rescaling方法评估了HCD的有效性,并在DIV2K验证集和Set5、Set14、BSD100、Urban100和Manga109五个标准数据集上对提出的方法进行了定量和定性分析。
2.1 定量比较
该实验部分对本文提出的方法与其他先进的IR方法进行了定量比较。在所有数据集上,本文提出的HCD在PSNR和SSIM上的性能明显优于最先进的方法。与原模型相比,HCD在15次迭代中显著提高了HR图像的重建效果。对于2倍尺度的重建图像,HCD比IRN方法提高了0.19-0.68 dB。对于4倍尺度的重建图像,HCD比HCFlow方法提高了0.16-0.7 dB,比IRN方法提高了0.27-0.44 dB。即使在64倍尺度放大任务上,HCD基于最新方法GRAIN仍然可以提高0.66-1.48 dB,证明了该方法的鲁棒性。
2.2 定性比较
作者通过展示重建图片的细节定性地评估了HCD的性能。如图4所示,基于HCFlow的HCD结果呈现出更真实的细节和高质量的视觉效果。在最后一组对比中,HCD缓解了IRN和HCFlow方法所带来的颜色差异。与IRN相比,它产生的线条更整齐,没有错误的水平线。这表明论文提出的HCD在视觉上明显优于baseline方法HCFlow和IRN。
三、分析与讨论
3.1 层次化协同学习的影响:
迭代次数降为零表示跳过了HR或LR图像的协作样本生成步骤。表2显示,当利用HR和LR协同样本时,PSNR可以进一步提高0.22-0.3 dB,这些结果证明了所提出的层次化学习方案的有效性,表明协同HR样本可以与协同LR样本相结合,以提高图像重缩放任务的性能。
3.2 HCD方法图像下采样和上采样延迟的影响:
本文方法所增加的延迟仅存在于获取低分辨率图像的过程中,该过程可以在服务器上离线处理。获取到优化的LR图像后,在边缘设备上进行图像放大时,时间成本与现有的IR方法完全相同。因此,该方法可在不增加重建高分辨率图像的延迟的情况下提高原模型的性能。
3.3 LR图像上生成扰动的可视化结果:
如图5,扰动主要分布在图像的轮廓和角点上。有趣的是,这些区域通常包含图像放大过程中难以捕获的高频信息,本文所提出的HCD方法的性能改进主要源于这些协同扰动。
四、结论
本文提出了一种层次化的协同降尺度(HCD)的图像重缩放方法。首先,该方法为降尺度模型的输入HR图像生成协同样本,以便将其下采样后生成更好的LR初始化图像。然后,为该LR图像生成协同样本,以进一步提高其重建性能。大量的实验表明,无论是定量还是定性比较,该方法在不同的图像缩放模型上都显著低提高了性能。
作者:徐冰娜 国雍
来源:公众号【PaperWeekly】