终结扩散模型，IGN单步生成逼真图像！UC伯克利谷歌革新LLM，美剧成灵感来源

已经红遍半边天的扩散模型，将被淘汰了？

当前，生成式AI模型，比如GAN、扩散模型或一致性模型，通过将输入映射到对应目标数据分布的输出，来生成图像。

通常情况下，这种模型需要学习很多真实的图片，然后才能尽量保证生成图片的真实特征。

最近，来自UC伯克利和谷歌的研究人员提出了一种全新生成模型——幂等生成网络（IGN）。

IGNs可以从各种各样的输入，比如随机噪声、简单的图形等，通过单步生成逼真的图像，并且不需要多步迭代。

这一模型旨在成为一个「全局映射器」（global projector），可以把任何输入数据映射到目标数据分布。

简言之，通用图像生成模型未来一定是这样的。

有趣的是，《宋飞正传》中一个高效的场景竟成为作者的灵感来源。

这个场景很好地总结了「幂等运算符」（idempotent operator）这一概念，是指在运算过程中，对同一个输入重复进行运算，得到的结果总是一样的。

即

正如Jerry Seinfeld幽默地指出的那样，一些现实生活中的行为也可以被认为是幂等的。

幂等生成网络

IGN与GAN、扩散模型有两点重要的不同之处：

- 与GAN不同的是，IGN无需单独的生成器和判别器，它是一个「自对抗」的模型，同时完成生成和判别。

- 与执行增量步骤的扩散模型不同，IGN尝试在单个步中将输入映射到数据分布。

那么，幂等生成模型（IGN）怎么来的？

IGN训练例程PyTorch代码的一部分示例。

实验结果

得到IGN后，效果如何呢？

作者承认，现阶段，IGN的生成结果无法与最先进的模型相竞争。

在实验中，使用的较小的模型和较低分辨率的数据集，并在探索中主要关注简化方法。

当然了，基础生成建模技术，如GAN、扩散模型，也是花了相当长的时间才达到成熟、规模化的性能。

实验设置

研究人员在MNIST（灰度手写数字数据集）和 CelebA（人脸图像数据集）上评估IGN，分别使用28×28和64×64的图像分辨率。

作者采用了简单的自动编码器架构，其中编码器是来自DCGAN的简单五层鉴别器主干，解码器是生成器。训练和网络超参数如表1所示。

生成结果

图4显示了应用模型一次和连续两次后两个数据集的定性结果。

如图所示，应用IGN 一次 (f (z)) 会产生相干生成结果。然而，可能会出现伪影，例如MNIST数字中的孔洞，或者面部图像中头顶和头发的扭曲像素。

再次应用 f (f (f (z))) 可以纠正这些问题，填充孔洞，或减少面部噪声斑块周围的总变化。

图7显示了附加结果以及应用f三次的结果。

潜在空间操纵

作者通过执行操作证明IGN具有一致的潜在空间，与GAN所示的类似，图6显示了潜在空间算法。

分布外映射

作者还验证通过将来自各种分布的图像输入到模型中以生成其等效的「自然图像」，来验证IGN「全局映射」的潜力。

谷歌下一步？

通过以上结果可以看出，IGN在推理方面更加有效，在训练后只需单步即可生成结果。

它们还可以输出更一致的结果，这可能推广到更多的应用中，比如医学图像修复。

论文作者表示：

我们认为这项工作是迈向模型的第一步，该模型学习将任意输入映射到目标分布，这是生成建模的新范式。

接下来，研究团队计划用更多的数据来扩大IGN的规模，希望挖掘新的生成式AI模型的全部潜力。

最新研究的代码，未来将在GitHub上公开。

参考资料：https://assafshocher.github.io/IGN/https://the-decoder.com/inspired-by-seinfeld-google-unveils-new-ai-model-for-image-generation/