让机器人感知你的「Here you are」，清华团队使用百万场景打造通用人机交接

来自清华大学交叉信息研究院的研究者提出了「GenH2R」框架，让机器人学习通用的基于视觉的人机交接策略（generalizable vision-based human-to-robot handover policies）。这种可泛化策略使得机器人能更可靠地从人们手中接住几何形状多样、运动轨迹复杂的物体，为人机交互提供了新的可能性。

随着具身智能（Embodied AI）时代的来临，我们期待智能体能主动与环境进行交互。在这个过程中，让机器人融入人类生活环境、与人类进行交互（Human Robot Interaction）变得至关重要。我们需要思考如何理解人类的行为和意图，以最符合人类期望的方式满足其需求，将人类放在具身智能的中心（Human-Centered Embodied AI）。其中一个关键的技能是可泛化的人机交接（Generalizable Human-to-Robot Handover），它使机器人能够更好地与人类合作，完成各种日常通用任务，如烹饪、居室整理和家具组装等。

大模型的火爆发展预示着海量高质量数据+大规模学习是走向通用智能的一种可能方式，那么能否通过海量机器人数据与大规模策略模仿获取通用人机交接技能？然而，若考虑在现实世界中让机器人与人类进行大规模交互学习是危险且昂贵的，机器很有可能会伤害到人类：

而在仿真环境中（Simulation）进行训练，用人物仿真和动态抓取运动规划来自动化提供海量多样的机器人学习数据，然后将其部署到真实机器人上（Sim-to-Real Transfer），是一种更可靠的基于学习的方法，可以大大拓展机器人与人协作交互的能力。

因此，「GenH2R」框架被提出，分别从仿真（Simulation），示例（Demonstration），模仿（Imitation）三个角度出发，让机器人第一次基于端到端的方式学习对任意抓取方式、任意交接轨迹、任意物体几何的通用交接：1）在「GenH2R-Sim」环境中提供了百万级别的易于生成的各种复杂仿真交接场景，2）引入一套自动化的基于视觉 - 动作协同的专家示例（Expert Demonstrations）生成流程，3）使用基于 4D 信息和预测辅助（点云 + 时间）的模仿学习（Imitation Learning）方法。

相比于 SOTA 方法（CVPR2023 Highlight），GenH2R 的方法在各种测试集上平均成功率提升 14%，时间上缩短 13%，并在真机实验中取得更加鲁棒的效果。

论文地址：https://arxiv.org/abs/2401.00929
论文主页：https://GenH2R.github.io
论文视频：https://youtu.be/BbphK5QlS1Y

方法介绍

A. 仿真环境（GenH2R-Sim）

为了生成高质量、大规模的人手 - 物体数据集，GenH2R-Sim 环境从抓取姿势和运动轨迹两方面对场景建模。

在抓取姿势方面，GenH2R-Sim 从 ShapeNet 中引入了丰富的 3D 物体模型，从中挑选出 3266 个适合交接的日常物体，使用灵巧抓取的生成方法（DexGraspNet），总共生成了 100 万个人手抓住物体的场景。在运动轨迹方面，GenH2R-Sim 使用若干控制点生成多段光滑的 Bézier 曲线，并引入人手和物体的旋转，模拟出手递物体的各种复杂运动轨迹。

GenH2R-Sim 的 100 万场景中，不仅在运动轨迹（1 千 vs 100 万）、物体数量（20 vs 3266）两方面远超之前最新工作，此外，还引入了接近真实情境的互动信息（如机械臂足够靠近物体时，人会配合停止运动，等待完成交接），而非简单的轨迹播放。尽管仿真生成的数据不能完全逼真，但实验结果表明，相比小规模的真实数据，大规模的仿真数据更有助于学习。

B. 大规模生成利于蒸馏的专家示例

基于大规模的人手和物体运动轨迹数据，GenH2R 自动化地生成了大量专家示例。GenH2R 寻求的 “专家” 是经过改进后的 Motion Planner（如 OMG Planner），这些方法是非学习、基于控制优化的，不依赖于视觉的点云，往往需要一些场景状态（比如物体的目标抓取位置）。为了确保后续的视觉策略网络能够蒸馏出有益于学习的信息，关键在于确保 “专家” 提供的示例具有视觉 - 动作相关性（Vision-action correlation）。规划时如果知道最后落点，那么机械臂可以忽略视觉而直接规划到最终位置 “守株待兔”，这样可能会导致机器人的相机无法看到物体，这种示例对于下游的视觉策略网络并没有任何帮助；而如果频繁地根据物体位置进行重新规划，可能会导致机械臂动作不连续，出现奇怪的形态，无法完成合理的抓取。

为了生成出利于蒸馏（Distillation-friendly）的专家示例，GenH2R 引入了 Landmark Planning。人手的运动轨迹会按照轨迹光滑程度和距离被分成多段，以 Landmark 作为分割标记。在每一段中，人手轨迹是光滑的，专家方法会朝着 Landmark 点进行规划。这种方法可以同时保证视觉 - 动作相关性和动作连续性。

C. 以预测为辅助的 4D 模仿学习网络

基于大规模专家示例，GenH2R 使用模仿学习的方法，构建 4D 策略网络，对观察到的时序点云信息进行几何和运动的分解。对于每一帧点云，通过迭代最近点算法（Iterative Closest Point）计算和上一帧点云之间的位姿变换，以估计出每个点的流（flow）信息，使得每一帧点云都具有运动特征。接着，使用 PointNet++ 对每一帧点云编码，最后不仅解码出最终需要的 6D egocentric 动作，还会额外输出一个物体未来位姿的预测，增强策略网络对未来手和物体运动的预测能力。

不同于更加复杂的 4D Backbone（例如 Transformer-based），这种网络架构的推理速度很快，更适用于交接物体这种需要低延时的人机交互场景，同时它也能有效地利用时序信息，做到了简单性和有效性的平衡。

实验

A. 仿真环境实验

GenH2R 和 SOTA 方法进行了各种设定下的比较，相比于使用小规模真实数据训练的方法，在 GenH2R-Sim 中使用大规模仿真数据进行训练的方法，可以取得显著的优势（在各种测试集上成功率平均提升 14%，时间上缩短 13%）。

在真实数据测试集 s0 中，GenH2R 的方法可以成功交接更复杂的物体，并且能够提前调整姿势，避免在夹爪靠近物体时再频繁进行姿势调整：

在仿真数据测试集 t0（GenH2R-sim 引入）中，GenH2R 的方法可以能够预测物体的未来姿势，以实现更加合理的接近轨迹：

在真实数据测试集 t1（GenH2R-sim 从 HOI4D 引入，比之前工作的 s0 测试集增大约 7 倍）中，GenH2R 的方法可以泛化到没有见过的、具有不同几何形状的真实世界物体。

B. 真机实验

GenH2R 同时将学到的策略部署到现实世界中的机械臂上，完成 “sim-to-real“的跳跃。

对于更复杂的运动轨迹（例如旋转），GenH2R 的策略展示出更强的适应能力；对于更复杂的几何，GenH2R 的方法更可以展现出更强的泛化性：

GenH2R 完成了对于各种交接物体的真机测试以及用户调研，展示出很强的鲁棒性。

了解更多实验、方法内容，请参考论文主页。

团队介绍

该论文来自清华大学 3DVICI Lab、上海人工智能实验室和上海期智研究院，论文的作者为清华大学学生汪子凡（共同一作）、陈峻宇（共同一作）、陈梓青和谢鹏威，指导老师是弋力和陈睿。

清华大学三维视觉计算与机器智能实验室（简称 3DVICI Lab），是清华大学交叉信息研究院下的人工智能实验室，由弋力教授组建和指导。3DVICI Lab 瞄准人工智能最前沿的通用三维视觉与智能机器人交互问题，研究方向涵盖具身感知、交互规划与生成、人机协作等，与机器人、虚拟现实、自动驾驶等应用领域密切联系。团队研究目标是使智能体具备理解并与三维世界交互的能力，成果发表于各大顶级计算机会议、期刊上。