在当前的生成式人工智能浪潮中,3D 生成一直是备受瞩目的话题。而要生成高质量、符合工业界标准的几何模型,一直是 3D 生成任务的重要难点。但对于 3D 里最为重要的品类之一 —— 人物头部几何的生成,却早就不再受困于这个问题。
由于人类面部拓扑的相似性,通过 PCA(主成分分析)等手段参数化建立人脸模型的手段已经被证明是一种非常有效的解决方案,可以高质量、快速、符合工业界标准地生成人物头部的几何模型。诸如 3DMM(3D Morphable Model)、FLAME(Face, LAndmark, MOrphology, and Expression model)等参数化人脸模型已经广泛应用于数字娱乐、虚拟现实、医学和安防等领域。
然而,当前开源的参数化人脸模型仍然面临着问题。首先,由于数据集以欧美面孔为主,缺少亚洲人数据,覆盖度不全,无法完全表现所有人种特征。其次,在拓扑结构和表情变形体(BlendShape)方面过于简化,达不到工业标准,无法精细还原各种结构(如面部肌肉、胸锁乳突肌等),也无法实现个性化(Personalized)控制运动。最后,在注重脸部的同时,缺少对颈部肌肉和喉结运动的建模,颈部旋转的表现也过于极简化,导致缺乏运动真实度。
由上海科技大学与影眸科技、华中科技大学联合提出的全新参数化人脸模型 HACK 解决了这些问题。HACK 是一个新的开源参数模型,用于构建数字人的头部和颈部区域。该模型旨在解耦颈部和喉部运动、面部表情和外观变化,实现对头部的全方位控制,特别是对于颈部区域的控制更加个性化和解剖学一致,实现了比现有头颈模型更准确和表现力更强的结果。HACK 已经被应用于影眸科技的 3D AIGC 数字角色生成平台 ChatAvatar 中,通过文本 / 图像直接生成并导出能够用于 Unity/UE/Maya 等主流 CG 软件中的模型文件。
这项工作已经被计算机图形领域国际顶级期刊 Transactions on Graphics 接收,并将在国际计算机图形顶级会议 SIGGRAPH 2023 上展示。值得一提的是,HACK 还入选了 ACM ToG 当期的扉页与 SIGGRAPH 2023 Technical Paper 预告片。
- 项目链接:https://sites.google.com/view/hack-model
- 论文链接:https://arxiv.org/abs/2305.04469
- GitHub:https://github.com/ZoneLikeWonderland/HACK-Model/
数据采集
该研究使用一种便携式实时 3D 超声成像系统,使用超声断层扫描技术捕捉颈椎相对于演员静止姿态的解剖正确位置。对于颈椎的扫描图像,射科医生被要求用 3D 标志标记颈椎的七个椎骨,然后根据头骨和颈部的外部形状提取解剖学上匹配的 3D 旋转信息。
此外,该研究建立了 PlenOptic Stage,捕捉各种外貌特征的静态扫描、FACS 表情和 PBR 纹理、头部和颈部的动态表现以及细致的喉部运动法线(Normal)序列。
通过对这些原始数据进行处理,该研究得到了一个全面的数据集,包括:1)颈椎关节和相应的面部网格,来自超声扫描;2)大规模静息 mesh(不包括喉部几何形状),由 PlenOptic Stage 和 ICT-FaceKit 获得;3)喉部几何形状;4)从静态扫描中制作表情的 mesh;5)动态 mesh 序列;6)外观纹理;7)说话的图像和计算的法线。然后该研究在这些数据上训练了整个 HACK 模型。
模型训练
为了训练 HACK 模型,该研究使用类似于人脸和身体建模的技术。具体来说,将头部和颈部分为形状、姿势、面部表情和喉部 BlendShape,并学习个体特征。
它还使用喉部 BlendShape 来控制喉部变形,以实现更符合解剖学的真实运动。例如,表达喉结大小的变化以及声带移动时的细微动作。
将头部和颈部视为一个整体,创造了更精确和更具表现力的动作。由于颈部的细节动作与面部表情和头部动作相关,因此观众会感受到比以往更高的真实感。
HACK 提供了多种可控制的参数,来更好的呈现头、颈、喉部形状的多样性,通过进一步添加表情、姿势、喉部位置参数,创建了具有高度表现力的模型,有广泛的运动范围。
通过结合与模型身份特征相关的颈椎关节位置、姿势和表情 BlendShape,HACK 能够生成更具个性化的动画效果。
模型应用
HACK 模型可以应用于各种场景中。首先,给定一个目标扫描或网格,我们可以通过拟合 HACK 参数来精确地重建它。与现有的参数化模型(如 FLAME)相比,HACK 在形状和姿势匹配方面具有更低的重建误差,并且可以操纵参数来创建不同的表情、姿势和外观。
此外,我们可以从输入的头部方向和表情序列中推断出姿势参数,以使喉部运动动画化。通过将 HACK 与现有的面部表演捕捉技术结合使用,它可以用于角色动画。HACK 的外貌特征相关的姿势和表情 BlendShape,实现了高保真度和表现力强的动画。
由于 HACK 的头部和颈部骨骼解剖学上一致,哺乳动物之间共享相同的颈部骨骼结构,HACK 甚至可以用于在不同主体之间转移颈部动画,包括从人类到长颈鹿。
结语
在构建逼真的数字人脸时,要考虑眼睛、鼻子、嘴巴等部位的运动、皮肤细节和光照条件等因素。针对这些方面,研究团队已经进行了大量研究。
颈部作为连接下巴、头部和肩部的重要部位,对头部和面部的自然运动至关重要。颈部以各种姿势和角度可见,直接影响数字人的整体外观。此外,通过设计颈部的运动,可以为面部动作增添精致和真实感,并增加非语言交流。因此,对解剖学知识的了解是非常重要的。
研究团队认为,数字角色制作不仅仅是数据和美学的结合,引入解剖学研究可以进一步提高数字角色的丰富度和真实性,为数字角色的应用场景拓展更广阔的空间。