跑酷是一项极限运动,需要参与者以高度动态的方式跨越障碍,对于大多数时候「笨手笨脚」的机器人来说,这似乎是件遥不可及的事,不过最近在机器人控制领域里出现了一些技术突破的趋势。几周前,机器之心曾报道过一个使用强化学习方法让机器狗实现跑酷的研究,实现了不错的效果。
最近,卡内基梅隆大学(CMU)的一项新研究也针对机器狗跑酷的挑战提出了新方法,效果又上了一个台阶,以至于人们的评价一致是:amazing.
CMU 的这项研究让机器狗可以像狗狗障碍赛里的选手一样,自动越过不连续的箱子,在不同角度倾斜的坡面之间轻松地跑跳:
而且通过这些障碍的速度也很快。
轻松跳过 0.8 米(机器狗长度的 2 倍)的间距:
爬上 0.51 米高(机器狗高度的 2 倍)的障碍物:
这回没有一把站稳,它还用后腿进行了补救,动作像真的狗一样。
机器狗还可以做一些真实世界里动物难以完成的事,比如仅用两条前腿行走,相当于倒立行走:
还能仅用两条前腿下楼梯:
像在游戏里面卡了 bug,有点滑稽,又带有一点点恐怖谷效应。
该研究旨在让小型低成本机器狗能够完成跑酷任务。这类机器狗的驱动不精确,且仅有用于感知的单个前置深度摄像头,频率低、容易出现抖动和伪影。
基于此,该研究提出一种直接从原始深度和机载传感到关节角度命令的神经网络,并通过大规模强化学习进行模拟训练,以克服不精确的传感和驱动带来的问题,端到端地输出高度精确的控制行为。研究项目已开源。
- 论文地址:https://extreme-parkour.github.io/resources/parkour.pdf
- 项目地址:https://github.com/chengxuxin/extreme-parkour
方法简介
该研究通过端到端数据驱动的强化学习框架使机器狗具备「跑酷」的能力。为了让机器狗在部署时根据障碍物类型进行自我调整,该研究提出了一种新颖的双重蒸馏(dual distillation)方法。该策略不仅能输出灵活的运动命令,还可以根据输入深度图像快速调整方向。
为了让单个神经网络能够表征不同的跑酷技能行为,该研究提出了一种基于内积的简单而有效的通用奖励设计原则。
具体来说,该研究旨在训练一个直接从原始深度和机载传感到关节角度命令的神经网络。为了训练适应性运动策略,该研究采用了正则化在线适应(ROA)方法,并针对极限跑酷任务进行了关键修改。
实验结果
该研究主要让机器狗掌握 4 种技能,包括攀爬、跳过间距、在斜坡上跑跳、倒立,与其他几种方法的比较结果如下表 1 所示:
为了验证系统中各部分的作用,该研究提出了两组基线。该研究首先测试了奖励设计和整体 pipeline,结果如下表 2 所示:
第二组基线旨在测试蒸馏设置,其中涉及用于方向预测的 BC 和用于动作的 dagger,实验结果如下表 3 所示:
此外,该研究还进行了很多现实实验(记录成功率),并与 NoClear 和 NoDir 基线进行比较,实验结果如下图 7 所示:
感兴趣的读者可以阅读论文原文,了解更多研究内容。