几何纹理重建新SOTA！浙大提出SIFU：单图即可重建高质量3D人体模型

最近来自浙江大学ReLER实验室的研究人员提出SIFU模型，一种侧视图条件隐函数模型用于单张图片3D人体重建。模型通过引入人体侧视图作为先验条件，并结合扩散模型进行纹理增强，在几何与纹理重建测试中均达到SOTA，并且在真实世界中具有多种应用场景。

在AR、VR、3D打印、场景搭建以及电影制作等多个领域中，高质量的穿着衣服的人体3D模型非常重要。

传统的方法创建这些模型不仅需要大量时间，还需要能够捕捉多视角照片的专业设备，此外还依赖于技术熟练的专业人员。

与此相反，在日常生活中，我们最常见的是通过手机相机拍摄的或在各种网页上找到的人像照片。

因此，一种能从单张图像准确重建3D人体模型的方法可以显著降低成本，并简化独立创作的过程。

以往的深度学习模型用于3D人体重建，往往需要经过三个步骤：从图像中提取2D特征，将2D特征转到3D空间，以及3D特征用于人体重建。

然而这些方法在2D特征转换到3D空间的阶段，往往忽略了人体先验的引入，导致特征的提取不够充分，最终重建结果上会出现各种缺陷。

此外，在对纹理预测的阶段，以往模型仅仅依靠训练集中学得的知识，缺少真实世界的先验知识，也往往导致不可见区域的纹理预测较差。

对此，来自浙江大学ReLER实验室的研究人员提出SIFU模型，依靠侧视图条件隐函数从单张图片重建3D人体模型。

论文地址：https://arxiv.org/abs/2312.06704

项目地址：https://github.com/River-Zhang/SIFU

该模型通过在2D特征转换到3D空间引入人体侧视图作为先验条件，增强几何重建效果。并在纹理优化阶段引入预训练的扩散模型，来解决不可见区域纹理较差的问题。

模型结构

模型pipeline如下

该模型运行可分为两个阶段，第一阶段借助侧隐式函数重建人体的几何（mesh）与粗糙的纹理（coarse texture），第二阶段则借助预训练的扩散模型对纹理进行精细化。

在第一阶段中，作者设计了一种独特的Side-view Decoupling Transformer，通过global encoder提取2D特征后，在decoder中引入了人体先验模型SMPL-X的侧视图作为query，从而在图像2D特征中解耦出人体不同方向的3D特征（前后左右），最后用于重建。

该方法成功的在2D特征转换到3D空间时结合人体先验知识，从而使得模型有更好的重建效果。

在第二阶段，作者提出一种3D一致性纹理优化流程（3D Consistent Texture Refinement），首先将人体不可见的区域（侧面、背面）可微渲染成视角连续的图片集，再借助在海量数据中学习到先验知识的扩散模型，对粗糙纹理图片进行一致性编辑，得到更精细的结果。最后通过精细化前后的图片计算损失来优化3D模型的纹理贴图。