CVPR 2023 | GFPose:在梯度场中编码三维人体姿态先验

2023-04-11 12:11 1088 阅读 ID:958
将门
将门

本文是 CVPR 2023入选论文 GFPose: Learning 3D Human Pose Prior with Gradient Fields 的解读。

该论文由北京通用人工智能研究院与北京大学王亦洲课题组、董豪课题组合作完成。该工作提出了一种基于分数扩散模型(score-based diffusion model)的三维人体姿态先验学习框架 GFPose,可在简洁统一的流程中完成多种生成式和判别式任务。实验结果表明,GFPose 在三维人体姿态估计、补全、生成和去噪等多种任务中展示出了优异的性能。代码已开源,具体地址见下方。

论文标题:GFPose: Learning 3D Human Pose Prior with Gradient Fields

论文链接:https://arxiv.org/abs/2212.08641
代码链接:https://github.com/Embracing/GFPose
项目主页:https://sites.google.com/view/gfpose/home  

一、引言

建模合理的三维人体姿态在虚拟现实和人机交互等应用中发挥着重要作用。考虑到肢体长度、关节灵活度等身体结构限制,人无法摆出任意的姿态,自然合理的人体姿态位于物理空间中的低维流形上。学习人体姿态的先验分布不仅有助于在姿态估计任务中区分不合理的人体姿态,而且还可用于采样生成丰富多样的人体姿态,在多种应用场景中具有广泛的用例。

                                                                          GFPose 训练过程

二、 方法

GFPose的训练采用了去噪分数匹配法(denoising score matching)[6],如上图所示。首先,它通过预定义的随机微分方程扰动人体姿态:

在推理时,GFPose 通过模拟逆向 SDE 将加噪扰动过程翻转,即可从随机采样的高斯噪声中获得合理的人体姿态:

                                                                        GFPose 采样过程

三、结果

实验数据表明,GFPose 在多假设三维人体姿态估计、遮挡场景下的三维人体姿态估计、三维人体姿态补全、生成和去噪等任务中均表现优异。

多假设三维人体姿态估计

遮挡场景下的三维人体姿态估计

残缺三维人体姿态补全

三维人体姿态去噪

可视化工具

本项目额外提供了交互式可视化工具,用于可视化扩散过程和生成结果。详情请见项目地址。

四、结论

本文介绍了一种通用的三维人体姿态先验学习框架 GFPose,通过分数扩散模型对合理的三维人体姿态进行建模,并进一步提出了一种条件掩码策略来增强该框架的通用性,使其可无缝应用于多种下游任务。实验展示了 GFPose 广阔的应用前景。

参考

1. Federica Bogo, Angjoo Kanazawa, Christoph Lassner, Peter Gehler, Javier Romero, and Michael J Black. Keep it smpl: Automatic estimation of 3d human pose and shape from a single image. In ECCV 2016.

2. Georgios Pavlakos, Vasileios Choutas, Nima Ghorbani, Timo Bolkart, Ahmed AA Osman, Dimitrios Tzionas, and Michael J Black. Expressive body capture: 3d hands, face, and body from a single image. In CVPR 2019.

3. Andrey Davydov, Anastasia Remizova, Victor Constantin, Sina Honari, Mathieu Salzmann, and Pascal Fua. Adversarial parametric pose prior. In CVPR 2022.

4。Garvita Tiwari, Dimitrije Anti ́c, Jan Eric Lenssen, Nikolaos Sarafianos, Tony Tung, and Gerard Pons-Moll. Pose-ndf: Modeling human pose manifolds with neural distance fields. In ECCV 2022.

5. Davis Rempe, Tolga Birdal, Aaron Hertzmann, Jimei Yang, Srinath Sridhar, and Leonidas J Guibas. Humor: 3d human motion model for robust pose estimation. In ICCV 2021.

6. Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-based generative modeling through stochastic differential equations. arXiv preprint arXiv:2011.13456, 2020.

来源:北京大学前沿计算研究中心

作者:PKU CVDA

免责声明:作者保留权利,不代表本站立场。如想了解更多和作者有关的信息可以查看页面右侧作者信息卡片。
反馈
to-top--btn