ICLR 2023 Spotlight | EVA3D：从二维图像集合中学习三维人体生成

在ICLR 2023上，南洋理工大学-商汤科技联合研究中心S-Lab团队提出了首个从二维图像集合中学习高分辨率三维人体生成的方法EVA3D。得益于NeRF提供的可微渲染，近期的三维生成模型已经在静止物体上达到了很惊艳的效果，但在人体这种更加复杂且可形变的类别上，三维生成依旧有很大的挑战。文中提出了一个高效的组合的人体NeRF表达，实现了高分辨率（512x256）的三维人体生成，并且没有使用超分模型。EVA3D在四个大型人体数据集上均大幅超越了已有方案，代码已开源。

论文地址:

https://arxiv.org/abs/2210.04888

项目主页:

https://hongfz16.github.io/projects/EVA3D.html

代码开源:

https://github.com/hongfz16/EVA3D

Colab Demo:

https://colab.research.google.com/github/hongfz16/EVA3D/blob/main/notebook/EVA3D_Demo.ipynb

Hugging Face Demo:

https://huggingface.co/spaces/hongfz16/EVA3D

一、背景

利用NeRF提供的可微渲染算法、三维生成算法，例如EG3D、StyleSDF，在静态物体类别的生成上已经有了非常好的效果。

但是人体相较于人脸或者CAD模型等类别，在外观和几何上有更大的复杂度，并且人体是可形变的，因此从二维图片中学习三维人体生成仍然是非常困难的任务。

研究人员在这个任务上已经有了一些尝试，例如ENARF-GAN、GNARF，但是受限于低效的人体表达，他们无法实现高分辨率的生成，因此生成质量也非常低。

为了解决这个问题，本文提出了高效的组合的三维人体NeRF表示，用以实现高分辨率的（512x256）三维人体GAN训练与生成。下面将介绍本文提出的人体NeRF表示，以及三维人体GAN训练框架。

二、高效的人体NeRF表示

本文提出的人体NeRF基于参数化人体模型SMPL，它提供了方便的人体姿势以及形状的控制。

进行NeRF建模时，如下图所示，本文将人体分为16个部分。每一个部分对应于一个小的NeRF网络进行局部的建模。在渲染每一个局部的时候，本文只需要推理局部NeRF。这种稀疏的渲染方式，在较低的计算资源下，也可以实现原生高分辨率的渲染。

例如，渲染体型动作参数分别为(β,θ)的人体时，首先根据相机参数采样光线；光线上的采样点根据与SMPL模型的相对关系进行反向蒙皮操作（inverse linear blend skinning），将posed空间中的采样点转化到canonical空间中。接着，计算Canonical空间的采样点属于某个或者某几个局部NeRF的bounding box中，再进行NeRF模型的推理，得到每个采样点对应的颜色与密度；当某个采样点落到多个局部NeRF的重叠区域，则会对每个NeRF模型进行推理，将多个结果用window function进行插值；最后这些信息被用于光线的积分，得到最终的渲染图。

三、三维人体GAN框架

基于本文提出的高效的人体NeRF表达，本文实现了三维人体GAN训练框架。在每一次训练迭代中，本文首先从数据集中采样一个SMPL的参数以及相机参数，并随机生成一个高斯噪声z。利用本文提出的人体NeRF，本文可以将采样出的参数渲染成一张二维人体图片，作为假样本。再利用数据集中的真实样本，本文进行GAN的对抗训练。

四、极度不平衡的数据集

二维人体数据集，例如DeepFashion，通常是为二维视觉任务准备，因此人体的姿态多样性非常受限。

为了量化不平衡的程度，本文统计了DeepFashion中模特脸部朝向的频率。如下图所示，橙色的线代表了DeepFashion中人脸朝向的分布，可见是极度不平衡，对学习三维人体表征造成了困难。

为了缓解这一问题，我们提出了由人体姿态指导的采样方式，将分布曲线拉平，如下图中其他颜色的线所示。这可以让训练过程中的模型见到更多样以及更大角度的人体图片，从而帮助三维人体几何的学习。

我们对采样参数进行了实验分析，从下面的表格中可见，加上人体姿态指导的采样方式后，虽然图像质量（FID）会有些微下降，但是学出的三维几何（Depth）显著变好。

五、高质量的生成结果

下图展示了一些EVA3D的生成结果，EVA3D可以随机采样人体样貌，并可控制渲染相机参数、人体姿势以及体型。

我们在四个大规模人体数据集上进行了实验，分别是DeepFashion、SHHQ、UBCFashion、AIST。

我们对比了最先进的静态三维物体生成算法EG3D与StyleSDF，同时比较了专门针对三维人生成的算法ENARF-GAN。

在指标的选择上，我们兼顾了渲染质量的评估（FID/KID）、人体控制的准确程度（PCK）以及几何生成的质量（Depth）。

如下图所示，我们在所有数据集、所有的指标上均大幅超越之前的方案。

六、应用潜力

最后，我们也展示了EVA3D的一些应用潜力。

首先，我们测试了在隐空间中进行差值。如下面左图所示，我们能够在两个三维人之间进行平滑的变化，且中间结果均保持较高的质量。我们也进行了GAN inversion的实验，使用二维GAN inversion中常用的算法Pivotal Tuning Inversion。如下面右图所示，我们可以较好地还原重建目标的外观，但是几何部分丢失了很多细节。

可见，三维GAN的inversion仍然是一个很有挑战性的任务。

七、结语

本文提出了首个高清三维人体NeRF生成算法EVA3D，并且仅需使用二维人体图像数据即可训练。EVA3D在多个大规模人体数据集上性能达到最佳，并且展现出了在下游任务上进行应用的潜力。

文章来源：公众号【商汤学术】

作者：洪方舟