ACM MM 2023 | 「噪」不住你的美，美图&国科大联合提出人脸修复方法DiffBFR

盲人脸恢复（Blind Face Restoration, BFR）旨在从低质量的人脸图像中恢复高质量的人脸图像，是计算机视觉和图形学领域的一项重要任务，广泛应用于监控图像修复、老照片修复和人脸图像超分辨率等各种场景。

然而，这项任务非常具有挑战性，因为不确定性退化会损害图像质量以至于损失图像信息，例如模糊、噪声、下采样和压缩伪影等。以前的 BFR 方法通常依赖于生成对抗网络 (GAN)，通过设计各种特定于人脸的先验来解决问题，包括生成先验、参考先验和几何先验。尽管这些方法达到了最先进的水平，但仍然没有完全达到在恢复细粒度面部细节的同时获得逼真纹理这一目标。

因为在图像修复过程中，人脸图像的数据集通常分散在高维空间中，并且分布的特征维度呈现长尾分布形式。与图像分类任务的长尾分布不同，图像修复里的长尾区域特征指的是对身份影响较小，而对视觉效果影响很大的属性，比如痣、皱纹和色调等等。

如图 1 所示，简单的实验表明，过去基于 GAN 的方法不能很好地同时处理位于长尾分布头部和尾部的样本，导致修复图像会出现明显的过平滑和细节消失问题。而基于扩散概率模型 (Diffusion Probistic Models, DPM) 的方法能够较好地拟合长尾分布，在拟合真实数据分布的同时保留尾部特征。

来自美图影像研究院（MT Lab）与中国科学院大学的研究者共同提出一种基于 DPM 的盲人脸图像修复新方法 DiffBFR，实现了盲人脸图像恢复，将低质量（low-quality, LQ）的人脸图像修复成高质量（high-quality, HQ）的清晰图像。

该方法探索了两种生成式模型 GAN 和 DPM 对长尾问题的适应性，设计合适的人脸修复模块来得到更加准确的细节信息，进而降低生成式方法带来的脸部过平滑现象，从而提高修复精度和准确性。该论文已被 ACM MM 2023 接收。

DiffBFR：基于 DPM 的盲人脸图像修复方法

研究发现，扩散模型在避免训练模式崩溃和拟合生成长尾分布方面优于 GAN 方法，因此 DiffBFR 利用扩散概率模型来增强人脸先验信息的嵌入，基于它在任意分布范围内产生 HQ 图像的强大能力，选择 DPM 作为解决方案的基本框架。

针对论文中所发现的人脸数据集上的特征长尾分布，以及过去基于 GAN 方法的过平滑现象，该研究探索合理的设计来更好地拟合近似长尾分布，进而克服修复过程中的过平滑问题。通过相同参数大小的 GAN 和 DPM 在 MNIST 数据集上的简单实验（如图 1），该论文认为 DPM 方法能够合理地拟合长尾分布，而 GAN 会过度关注头部忽略尾部特征，导致尾部特征不再生成。因此，选择 DPM 作为 BFR 的一种解决方案。

通过引入两个中间变量，DiffBFR 中提出了两个具体的修复模块，采用两阶段设计，首先从 LQ 图像中恢复身份信息，再根据真实人脸的分布增强纹理细节。该设计由两个关键部分组成：

（1）身份恢复模块（Identity Restoration Module, IRM）：

该模块用于保留结果中的人脸细节。同时，提出了一种从 LQ 图像中加入部分噪声的截断采样方法，取代了在反向过程中以 LQ 图像为条件，从纯高斯随机分布去噪的方法。论文从理论上证明了这种变化缩小了 DPM 的理论证据下界（ELBO），从而恢复了更多的原始细节。在理论证明的基础上，引入两个不同输入大小的级联条件扩散模型来增强这种采样效果，降低直接生成高分辨率图像的训练难度。同时进一步证明，条件输入的质量越高，越接近真实数据分布，恢复的图像越准确，这也是 DiffBFR 在 IRM 中首先恢复低分辨率图像的原因。

（2）纹理增强模块 (Texture Enhancement Module, TEM)：

用于对图像进行纹理打磨。这里引入了一个无条件扩散模型，这是一个与 LQ 图像完全无关的模型，进一步使得恢复结果看起来更接近真实图像数据。论文从理论上证明了这种在纯 HQ 图像上训练的无条件扩散模型有助于 IRM 在像素级空间中输出图像的正确分布，即应用该模块后图像分布的 FID 低于使用前的 FID，得到的修复图像总体上和 HQ 图像的分布更相似。具体而言，就是利用时间步长截断采样，在保留身份信息的同时对像素级纹理进行打磨。

DiffBFR 的采样推理步骤如图 2 所示，采样推理过程示意图如图 3 所示。

实验结果

图 4 BFR 的 GAN-based 方法和 DPM-based 方法的可视化效果比较

总结

该论文提出了基于扩散模型的盲退化人脸图像恢复模型 DiffBFR，避免了过去基于 GAN 方法的训练模式崩溃和长尾消失问题。通过将先验嵌入到扩散模型中，从随机严重退化的人脸图像中生成高质量清晰的恢复图像。具体来说，提出了 IRM 和 TEM 两个模块，分别用于还原逼真度和还原真实细节。理论边界的推导和实验图像的演示表明了该模型的优越性，并与现有的 SOTA 方法进行了定性和定量比较。

研究团队

本论文由美图影像研究院（MT Lab）和中国科学院大学的研究者们共同提出。美图影像研究院（MT Lab）成立于 2010 年，是美图公司致力于计算机视觉、深度学习、增强现实等领域的算法研究、工程开发和产品化落地的团队，成立以来聚焦于计算机视觉领域的探索研究，2013 年开始布局深度学习，为美图旗下全系软硬件产品提供技术支持，同时面向影像行业内多个垂直赛道提供针对性 SaaS 服务，通过前沿影像技术推动美图 AI 产品生态发展，曾先后参与 CVPR、ICCV、ECCV 等国际顶级赛事并斩获十余项冠亚军，发表超 48 篇国际顶级学术会议论文。美图影像研究院（MT Lab）长期深耕影像领域研发，已经形成深厚的技术储备，在图片、视频、设计、数字人领域具有丰富的技术落地经验。