物体目标导航 (Object Navigation) 是智能机器人的基本任务之一。在此任务中,智能机器人需要在新的环境中探索并移动到某类目标物体附近。物体目标导航任务面向未来家庭服务机器人的应用需求,当人们需要机器人完成某些任务时,例如拿一杯水,机器人需要先寻找并移动到水杯的位置,才能使用机械臂拿到水杯。
本文针对物体目标导航任务,字节跳动人工智能实验室的研究者提出了一种基于目标距离预测的方法,通过环境中的语义信息及物体关联,预测地图上每个位置到目标物体的最短路径长度,引导机器人高效寻找物体,该工作发表于最近的IROS 2022 (IEEE/RSJ International Conference on Intelligent Robots and Systems) 机器人顶级会议上。
论文地址:
https://arxiv.org/abs/2202.03735
一、研究背景
在传统机器人导航任务中,环境的地图一般是提前构建好的,同时机器人也知道目标的位置。然而在物体目标导航任务中,机器人在一个未知的环境中没有事先构建的环境地图,并且目标是以物体类别的方式给出。因此,机器人必须一边探索环境构建地图,一边寻找目标物体。
那么如何高效地寻找物体?在一个新的环境中,由于没有先验地图,机器人只能利用在其他相似环境中学到的知识,比如物体之间的空间关系。人类在新环境中寻找物体时,可能会优先在相关物体附近寻找目标物体。例如,如果目标是找一把椅子,当人们看到了一张桌子时,应该优先去桌子周围找椅子。这是因为人们知道椅子通常会放在桌子附近。如果可以将这种先验知识结合到机器人在传统导航任务使用的地图中,就可以将物体目标导航任务转化为传统导航问题。
基于上述想法,作者提出让机器人基于当前已探索区域的语义地图,利用学到的先验知识,预测一张距离地图,地图中的每个栅格保存从该点出发到目标物体的最短路径长度。通过预测的距离值选择合适的目标点,即可实现高效的物体目标导航。
二、方法介绍
算法由三个模块组成:语义建图模块、目标距离预测模块和局部策略 (Local Policy)。
算法的输入是第一视角的RGB-D图像和机器人位姿,以及需要寻找的目标物体类别,输出是下一步动作 (action)。首先对 RGB 图像进行语义分割,然后根据深度图和机器人位姿更新语义地图。之后基于语义地图,使用距离预测模型预测一个距离地图,该地图的每一个栅格存储了从该位置到目标物体的最短路径长度。根据距离图,局部策略选择一个中期目标,并使用传统路径规划方法获得下一步动作。
语义建图模块
作者采用了论文[1]中的方法,首先使用 Mask RCNN 获得 RGB 图像的语义分割结果,然后根据深度图和机器人位姿得到 3D 语义点云,再投影到水平面上即可得到 2D 语义地图。
目标距离预测模块
作者使用一个 CNN 预测目标的距离,网络的输入是当前已探索的局部语义地图,根据需要寻找的目标物体类别,输出对应的局部距离地图。作者没有直接训练网络预测准确的距离值,而是将距离分为几个范围,将回归问题转化为分类问题,从而降低学习难度。
采集训练数据时,只需要提前生成整个训练场景的距离地图的真值,机器人可以在训练环境中以任意策略探索,同时根据位姿从完整距离地图中获取局部距离地图,和构建的局部语义地图一起组成一组训练样本。
局部策略
局部策略首先通过一种目标选择策略获取一个中期目标 (mid-term goal),然后使用传统路径规划算法规划路径并得到下一步动作。
其中目标选择策略如图3所示,灰色格代表已探索区域,白色格表示未知区域,蓝色格为探索边界。由于机器人并不知道目标位置(红五角星),因此使用目标距离预测模块预测距离图(红色数字),结合已探索区域的距离值(黑色数字),即可在探索边界附近选择中期目标,使机器人到目标的路径长度(红色数字+黑色数字)最短。
作者还设计了另外两种策略,具体细节可参考原论文。
三、实验结果
算法在 Matterport3D (MP3D) 数据集上进行了测试,达到了业界先进水平。同时作者也将算法迁移到实体机器人上在真实家居环境中进行测试,平均成功率为84.7%。
四、总结
作者提出了一种基于距离预测的物体目标导航方法,该方法根据学到的先验知识预测目标距离地图,并在该地图上选择合适目标点,帮助机器人更快地找到目标物体。本工作达到了业界先进水平,并在实体机器人上进行了验证。此外,作者还提到了算法未来的改进方向,例如增加房间类别预测,利用房间和目标物体之间的关系更好地预测目标物体的距离。
参考文献
[1] D. S. Chaplot, D. Gandhi, A. Gupta, and R. Salakhutdinov. Object goal navigation using goal-oriented semantic exploration. In Neural Information Processing Systems (NeurIPS), 2020.
[2] Yiqing Liang, Boyuan Chen, Shuran Song. SSCNav: ConfidenceAware Semantic Scene Completion for Visual Semantic Navigation. In International Conference on Robotics and Automation(ICRA), 2021.
[3] Ye J, Batra D, Das A, et al. Auxiliary tasks and exploration enable objectnav[J]. arXiv preprint arXiv:2104.04112, 2021.
作者:Minzhao Zhu
Illustration by IconScout Store from IconScout