在黑暗中扩散，斯坦福大学团队提出用于低光照图像文本识别的扩散模型DiD

在最近的人工智能社区中，扩散模型（Diffusion Model）可谓是来势汹汹，有如前两年视觉Transformer风靡整个CV圈的感觉。扩散模型以其明确清晰的采样过程，同时满足概率模型的灵活性和易处理性，完全具有发展成为各种视觉任务基础backbone的潜力。尤其是对于低层视觉任务而言，扩散模型可以最大限度的保留原有图像的语义结构，并通过不断迭代的优化方式可以得到更好的图像生成或处理效果。

本文来自斯坦福大学的研究团队，尝试引入扩散模型来解决低光照条件下的图像文本识别难题。在低光照环境中，对于例如文字识别等下游任务来说，其所需的图像高频信息丢失严重，问题本身的难度较大。本文基于扩散模型提出了一种低光照图像重建模型DiD（Diffusion in the Dark），DiD可以在极度黑暗、嘈杂的环境中工作，实现较高质量的图像重建质量，同时兼顾下游任务的语义高频细节，目前DiD模型已在低光照图像文本识别任务上达到SOTA性能，下图展示了DiD与其他SOTA方法的图像重建和文字识别效果对比。

论文链接：https://arxiv.org/abs/2303.04291

项目主页：https://ccnguyen.github.io/diffusion-in-the-dark

一、介绍

图像文本识别任务应该是目前人工智能自动化落地任务中的基础步骤，它可以促成很多日常生活任务的自动化运行，无论是高速公路收费站的自动车牌读取还是售货机在自动结账队列中识别杂货，机器都需要先从RGB图像中获取基础的视觉线索。而在现实使用场景中，图像的成像会受到噪声条件、光学模糊和其他因素的影响，这使得下游应用程序更具有挑战性。

值得注意的是，现有的一些图像重建方法往往会关注于如何增强图像以满足人类的视觉感观，这其实存在一个误区。虽然这种做法可以满足人类的视觉观看需要，但是未必有助于机器对细节信息的获取，例如图像的一些高频细节会因为这种偏好而被抹掉，但这些信息对于下游的文字识别任务却至关重要。扩散模型为这种类型的图像重建任务提供了一种新的处理途径，其更加容易训练并且相比传统方法能够获得更好的生成或重建效果。

二、本文方法

虽然扩散模型能够生成质量更好的高分辨率图像，但其往往需要更大的计算资源，对训练GPU的要求也很高。为了在生成分辨率和训练运行时间之间进行权衡，本文作者提出了一种训练策略，称为多尺度图像块方法（multi-scale patch-based approach），其实这种方法在很多高分辨率图像处理领域中也比较常用。即先将输入图像分解成为多个不重叠的图像块，然后在这些图像块上执行扩散模型操作，然后将这些图像块再拼接到一起，但是这种方式会导致不同图像块在拼接处出现曝光和白平衡不一致的情况。因而本文的DiD在训练阶段引入了多个尺度的图像块进行训练，并且使用第一个尺度s=0 恢复的曝光参数作为调节的起点，同时利用之前几个尺度的历史曝光信息来进一步细化高频细节。下图展示了DiD的整体框架，包括模型的训练和推理阶段。

2.1 Training Phase

2.2 Inference Phase

在DiD的推理阶段，作者设计了一种级联方法对图像进行操作，详细的操作过程如下图所示。

2.3 Data Normalization

除了对不同尺度图像块中的曝光和白平衡情况进行处理，DiD还对低光照图像的数据归一化/标准化进行了考虑。在图像处理领域，Z-scoring是一种常用的数据标准化手段，它会将数据的分布转换为正态分布。但是考虑到低光照图像的长尾特性（右偏特性），如下图所示，直接使用Z-scoring这一类的标准化方法可能是不合适的。

三、实验效果

本文的实验在该领域比较常用的低光照图像数据集（LOw-Light，LOL）上进行，LOL包含485个训练样本对和15个测试低光照/光线充足的图像对，评价指标使用PSNR、SSIM和LPIPS。作者首先评估了DiD与一些传统低光照图像处理方法以及最近提出的一系列扩散模型方法的效果差异。详细数据对比如下表所示。

在这一实验中，作者对于以扩散模型为基础的方法，会对每张测试图像重复进行十次扩散操作，并选取其中效果最好的一个。可以看出，DiD在数值指标上并没有获得最好的效果，但是与现有的SOTA方法性能相当，这是因为像PSNR和SSIM这种数值指标并不一定能够反应图像的真实效果。作者随后也展示了一些DiD与其他方法的视觉对比效果，如下图所示，可以看到，DiD在某些情况下，相比SOTA方法可以恢复出更加精细的笔迹等高频细节。

在低光照文字识别下游任务中，作者在真实场景文本数据集：IIIT5k-Words (IIIT5k)、ICDAR 2013 (IC13-1015)、街景文本 (SVT)和 SVT-Perspective (SVTP)等数据集上进行了评估，DiD明显有更好的性能表现，如下图所示。

在没有针对任何文本进行特定优化的情况下，DiD可以在极端黑暗和嘈杂的条件下展示出非常良好的图像恢复和文字识别效果，文字识别率可以超过75%。而其他对比方法都会随着条件的恶化而出现识别不准确的情况。作者还进一步展示了DiD与这些方法的文字识别可视化对比，如下图所示。

四、总结

本文提出了一种在极端低光照环境中的扩散图像恢复模型DiD，DiD将原本复杂且困难的低光照图像与光照充足图像像素点的映射关系使用扩散模型进行建模。作者还为DiD设计了一种多尺度图像块训练方法，该方法使得DiD仅通过对较小的图像块进行处理就可以应对多种尺度分辨率的低光照图像。此外，DiD巧妙借助了扩散模型的特点，将当前尺度之前的历史扩散估计结果作为当前图像重建的输入，通过这种迭代的方式可以获得更好的图像恢复效果，同时这一过程所保留的图像高频细节也有助于提高下游图像文本识别任务的性能，经DiD处理后的低光照图像在图像文本识别任务上可以达到SOTA性能。同时这一工作也为我们提供了一种使用扩散模型处理底层图像任务的新范式。

参考文献

[1] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomedical image segmentation. In International Conference on Medical image computing and computer-assisted intervention, pages 234–241. Springer, 2015.

[2] Jooyoung Choi, Sungwon Kim, Yonghyun Jeong, Youngjune Gwon, and Sungroh Yoon. Ilvr: Conditioning method for denoising diffusion probabilistic models. arXiv preprint arXiv:2108.02938, 2021.

作者：seven_