人的4D感知与建模是计算机视觉和图像学的基本任务,也有着广泛的应用。随着新传感器与算法的出现,对多样化的数据集的需求也日渐提升。在这个工作中,本文贡献了HuMMan:一个大规模多模态4D人体数据集。HuMMan包含1000个人物,40万段视频,6000万帧数据。
HuMMan有着多个优势:
- 多模态数据和标注包括彩色图片、点云、关键点、SMPL参数以及带纹理的网格模型;
- 数据采集方案中部署了移动端设备;
- 一个500个动作的集合,覆盖了人体基本的动作;
- HuMMan支持多种任务如动作识别、姿态估计、参数化人体估计以及带纹理的网格模型重建。
在HuMMan上的实验指出了细粒度的动作识别、动态人体网格模型重建、基于点云的参数化人体估计以及跨设备的域间隙(domain gap),都是非常值得深入研究的问题。
论文链接:
https://arxiv.org/pdf/2204.13686.pdf
项目主页:
https://caizhongang.github.io/projects/HuMMan/
一、硬件搭建
我们为获取高质量深度图专门设计了一个较为紧凑的数据采集设施,使用10部Kinect Azure相机来获取同步的RGB-D帧。另外,我们增加了一部手持扫描仪来获取高精度人体网格(精度可达0.1 mm)。更重要的是,我们额外包括了流行的移动端设备(内置激光雷达),采集了对现实应用非常相关的数据。
二、工具链
我们开发的工具链支持多种数据和标注模态,例如图片、点云、关键点、SMPL参数以及带纹理的网格模型。
其中,我们通过将SMPL配准到高清人体扫描上获取精确的人体形状参数。
对于带纹理的网格模型,我们主要的步骤包括点云去噪与利用深度的纹理重建,从而降低投影误差。
我们提供参数化模型与带纹理的网格模型的动态序列,更多的细节请见我们的论文。
三、动作集
我们从人体解剖学的角度设计了500个动作的动作集,其三个特点为层级式的设计、完备(包括了上半身动作、下半身动作和全身动作)、无歧义(我们的动作定义是依赖于驱动的肌肉,而不是抽象的描述)。
四、人物
五、实验
我们的动作集非常有挑战性。首先,相同的方法在著名的动作识别数据集NTU RGB-D系列上可以获得超过80% Top-1精度。其次,Top-1与Top-5的结果之间因为细粒度的动作类别有较大的差距。这可能是一个有趣的研究方向。
3D人体姿态估计也展示了HuMMan的难度,例如FCN在Human3.6M上能达到53.4mm MPJPE。另外,在HuMMan上训练的模型比在Human3.6M训练的模型可以更好地迁移到舞蹈数据集AIST++上。
对于3D人体姿态与体型估计,使用点云作为输入依然存在很大的问题,尤其当点云存在不全、噪音、稀疏的问题时。
最后,目前的方法也不太能够从一种设备迁移到另一种设备。当点云作为输入时,这个问题变得尤其严重,这可能归结于目前深度相机的性能有较大区别。
六、结语
HuMMan是一个大规模4D人体数据集,包括多模态的数据与标注、移动端数据、丰富的动作集以及多任务支持。目前HuMMan数据集发现的一些有趣的方向,包括但不限于细粒度的动作识别、基于点云的参数化人体估计、动态人体网格序列重建、跨设备迁移、多任务联合训练等。我们希望HuMMan能够助力更好的人体感知与建模的算法的研究。