360°场景布局可控合成(360-degree Image Synthesis)目前已成为三维计算机视觉领域一个非常有趣的研究方向,在虚拟三维空间中沉浸式的调整和摆放场景对象,可以为用户带来身临其境的感觉,非常适合应用在3D家居模拟装饰领域。本文提出了一种拥有三维感知能力的对象布局生成器(object layout generator),其可以学习360全景照片中的对象隐藏向量,以便实现场景中各种布局的控制。为了实现精确且逼真的场景对象控制合成,作者使用生成对抗网络来实现该对象布局生成器。对于生成对抗网络的优化,作者巧妙设计了一个简单而高效的场景布局清空器(scene emptier),其可以移除场景中任意位置的对象来为模型生成对应拍摄角度的空场景来构成一致性循环约束。
该文目前已被计算机视觉顶级会议ICCV 2023录用,作者在Structure3D数据集上对本文方法进行训练和评估,并将模型扩展到真实环境拍摄的Zillow室内场景数据集上,通过一系列的实验表明,本文方法已达SOTA效果,同时能够在现实环境中实现非常逼真的生成和编辑效果,为用户提供较好的沉浸式体验。
文章链接:
https://arxiv.org/abs/2307.09621
一、 介绍
全景图(360°图像)可以实现一种身临其境的用户体验,目前已广泛应用于各种虚拟现实(VR)应用中,例如苹果在今年六月份发布的vision Pro眼镜就是全景技术的综合应用。目前已有研究者开始考虑将这一技术应用在建筑和室内设计行业,实现360°视图室内场景的自动生成和编辑。
这一领域目前主要面临两大挑战:
(1)所设计的生成方法在生成过程必须能够遵循全景图中的空间扭曲原则(如上图中画面接缝处的扭曲现象)。
(2)所构建的模型必须实现内容的可控性,例如需要实现空间中对象的编辑和移动等等。
本文方法灵感来源于神经场景装饰(neural scene decoration,NSD)方法[1],NSD方法旨在从给定的背景图像和用户定义的家具布置来生成三维场景装饰图像,但是NSD方法有一些明显的局限性。例如它需要用户对家具的布置进行详细地对象布局建模,这使得模型的生成过程不是自动化的。其次,它的对象布局(用矩形表示)不适用全景投影的3D视图。此外,NSD方法没有明确的家具属性控制机制,这限制了生成内容的可控性和多样性。相反,本文采用不同的场景表示方法,并提出了一种在三维场景设置下完全自动的条件场景装饰合成方法。并使用360°感知的对象布局生成器来提取场景中家具的向量表示,并使用生成对抗网络来不断调节生成的内容,通过对生成对抗网络施加条件控制,本文方法可以轻易实现多样化且可控的场景装饰效果。
二、 方法
2.1 360°条件布局生成器
2.2 条件场景装饰器
2.3 场景清空器
三、 实验效果
本文的实验主要在在Structured3D和Zillow Indoor数据集上进行,前者包含了大量成对的未装饰和已装饰的全景图像,共涵盖了3500个室内场景。本文作者仅在Structured3D数据集的卧室子集和客厅子集上进行实验验证,随后在Zillow室内数据集的测试集上测试了模型的性能。性能评估指标使用图像生成领域常用的FID分数和KID分数,FID和KID通过测量该方法生成的图像与真实图像之间的相似性(在特征空间中)来评估方法的生成质量,本文方法与其他基线方法的对比结果如下表所示,可以看到本文方法在FID和KID分数上均优于其他所有基线方法。
下图展示了本文方法与其他基线方法生成效果的定性对比,图中第一行为当前场景真实的全景图像,第二行为输入图像,最后一行为本文方法生成的效果。可以观察到,本文方法生成的室内场景渲染图不仅具有逼真的效果,与其他方法相比也拥有更加合理的家具布置。
为了综合评估本文方法的泛化能力,作者将其直接扩展到Zillow真实数据集上进行测试,如下图所示,左侧为模型的输入图像,右侧为输出,模型可以根据输入的真实全景图像生成合理的装饰版本,同时可以生成精美的物品来适应不同的卧室结构。
除了主观的视觉效果,作者还对模型的泛化性能进行了定量评估,在Zillow数据集上与其他所有baseline方法的对比结果如下图所示,由于在Zillow数据集中缺少真实的装饰场景对象标签,因此在该实验中去掉了基于布局方法的效果,可以看到本文方法在真实场景数据集上仍然能够达到SOTA性能。
四、总结
本文基于3D全景图像提出了一种条件图像生成方法,该方法可以为用户提供室内场景的沉浸式体验,同时保持了生成内容的合理性和可控性。通过在模拟数据集和真实场景数据集上的实验表明,本文方法具有强泛化的场景装饰自动渲染能力。由于360°全景图像为三维场景理解提供了相比2D图像更为丰富的上下文,作者也在未来工作中考虑将场景结构和场景语义引入布局设计和图像生成中,以此来改善家具布置和对象可控性,到那时,室内设计师就可以以一种极低成本的方式坐在办公室完成繁重的设计任务了。
参考
[1] Hong-Wing Pang, Yingshu Chen, Phuoc-Hieu Le, Binh-Son Hua, Duc Thanh Nguyen, and Sai-Kit Yeung. Neural scene decoration from a single photograph. In ECCV, 2022.
[2] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko ehtinen, and Timo Aila. Analyzing and improving the image quality of StyleGAN. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020.
作者:seven_