SIGGRAPH 2023｜文本生成可驱动3D超写实数字人

本文介绍了DreamFace，一种文本指导的渐进式3D生成框架，它结合了最新的视觉-语言模型、隐式扩散模型，以及基于物理的材质扩散技术。DreamFace的主要创新包括几何体生成、基于物理的材质扩散生成和动画能力生成。与传统的3D生成方法相比，DreamFace具有更高的准确性、更快的运行速度和较好的CG管线兼容性。

论文链接：
https://arxiv.org/abs/2304.03117
项目网站：
https://sites.google.com/view/dreamface
Web Demo：
https://hyperhuman.top
HuggingFace Space：
https://huggingface.co/spaces/DEEMOSTECH/ChatAvatar

随着大型语言模型（LLM）、扩散（Diffusion）等技术的发展，ChatGPT、Midjourney等产品的诞生掀起了新一波的AI热潮，生成式AI也成为备受关注的话题。

与文本和图像不同，3D生成仍处于技术探索阶段。2022年年底，Google、NVIDIA和微软相继推出了自己的3D生成工作，但大多基于先进的神经辐射场（NeRF）隐式表达，无法与工业界3D软件如Unity、Unreal Engine和Maya等的渲染管线不兼容。即使通过传统方案将其转换为Mesh表达的几何和颜色贴图，也会造成精度不足和视觉质量下降，不能直接应用于影视制作和游戏生产。

为了解决这些问题，来自影眸科技与上海科技大学的研发团队提出了一种文本指导的渐进式3D生成框架。该框架引入符合CG制作标准的外部数据集（包含几何和PBR材质），可以根据文本直接生成符合该标准的3D资产，是首个支持Production-Ready 3D资产生成的框架。

为了实现文本生成可驱动的3D超写实数字人，该团队将这个框架与产品级3D数字人数据集相结合。这项工作已经被计算机图形领域国际顶级期刊Transactions on Graphics接收，并将在国际计算机图形顶级会议SIGGRAPH 2023上展示。

DreamFace主要包括三个模块，几何体生成，基于物理的材质扩散和动画能力生成。相比先前的3D生成工作，这项工作的主要贡献包括：

提出了DreamFace这一新颖的生成方案，将最近的视觉-语言模型与可动画和物理材质的面部资产相结合，通过渐进式学习来分离几何、外观和动画能力。
引入了双通道外观生成的设计，将一种新颖的材质扩散模型与预训练模型相结合，同时在潜在空间和图像空间进行两阶段优化。
使用BlendShapes或生成的Personalized BlendShapes的面部资产具备动画能力，并进一步展示了DreamFace在自然人物设计方面的应用。

一、几何生成

几何体生成模块可以根据文本提示生成与之一致的几何模型。然而，在人脸生成方面，这可能难以监督和收敛。因此，DreamFace提出了一个基于CLIP（Contrastive Language-Image Pre-Training）的选择框架，首先从对人脸几何参数空间内随机采样的候选项中选择最佳的粗略几何模型，然后雕刻几何细节，使头部模型更符合文本提示。

根据输入提示，DreamFace利用CLIP模型选择匹配得分最高的粗略几何候选项。接下来，DreamFace使用隐式扩散模型（LDM）在随机视角和光照条件下对渲染图像进行得分蒸馏采样（SDS）处理。这使得DreamFace可以通过顶点位移和详细的法线贴图向粗略几何模型添加面部细节，从而得到高度精细的几何体。

与头部模型类似，DreamFace还基于该框架进行发型和颜色的选择。