李飞飞团队新作：脑控机器人做家务，让脑机接口具备少样本学习能力

未来也许只需动动念头，就能让机器人帮你做好家务。斯坦福大学的吴佳俊和李飞飞团队近日提出的 NOIR 系统能让用户通过非侵入式脑电图装置控制机器人完成日常任务。

NOIR 能将你的脑电图信号解码为机器人技能库。它现在已能完成例如烹饪寿喜烧、熨衣服、磨奶酪、玩井字游戏，甚至抚摸机器狗等任务。这个模块化的系统具备强大的学习能力，可以应对日常生活中复杂多变的任务。

大脑与机器人接口（BRI）堪称是人类艺术、科学和工程的集大成之作。我们已经在不胜枚举的科幻作品和创意艺术中见到它，比如《黑客帝国》和《阿凡达》；但真正实现 BRI 却非易事，需要突破性的科学研究，创造出能与人类完美协同运作的机器人系统。

对于这样的系统，一大关键组件是机器与人类通信的能力。在人机协作和机器人学习过程中，人类传达意图的方式包括动作、按按钮、注视、面部表情、语言等等。而通过神经信号直接与机器人通信则是最激动人心却也最具挑战性的前景。

近日，斯坦福大学吴佳俊和李飞飞领导的一个多学科联合团队提出了一种通用型的智能 BRI 系统 NOIR（Neural Signal Operated Intelligent Robots / 神经信号操控的智能机器人）。

论文地址：https://openreview.net/pdf?id=eyykI3UIHa

项目网站：https://noir-corl.github.io/

该系统基于非侵入式的脑电图（EEG）技术。据介绍，该系统依据的主要原理是分层式共享自治（hierarchical shared autonomy），即人类定义高层级目标，而机器人通过执行低层级运动指令来实现目标。该系统纳入了神经科学、机器人学和机器学习领域的新进展，取得了优于之前方法的进步。该团队总结了所做出的贡献。

首先，NOIR 是通用型的，可用于多样化的任务，也易于不同社区使用。研究表明，NOIR 可以完成多达 20 种日常活动；相较之下，之前的 BRI 系统通常是针对一项或少数几项任务设计的，或者就仅仅是模拟系统。此外，只需少量培训，普通人群也能使用 NOIR 系统。

其次，NOIR 中的 I 表示这个机器人系统是智能的（intelligent），具备自适应能力。该机器人配备了一个多样化的技能库，让其无需密集的人类监督也能执行低层级动作。使用参数化的技能原语，比如 Pick (obj-A) 或 MoveTo (x,y)，机器人可以很自然地取得、解读和执行人类的行为目标。

此外，NOIR 系统还有能力在协作过程中学习人类想达成的目标。研究表明，通过利用基础模型的最新进展，该系统甚至能适应很有限的数据。这能显著提升系统的效率。

NOIR 的关键技术贡献包括一个模块化的解码神经信号以获知人类意图的工作流程。要知道，从神经信号解码出人类意图目标是极具挑战性的。为此，该团队的做法是将人类意图分解为三大组分：要操控的物体（What）、与该物体交互的方式（How）、交互的位置（Where）。他们的研究表明可以从不同类型的神经数据中解码出这些信号。这些分解后的信号可以自然地对应于参数化的机器人技能，并且可以有效地传达给机器人。

在 20 项涉及桌面或移动操作的家庭活动（包括制作寿喜烧、熨烫衣物、玩井字棋、摸机器狗狗等）中，三名人类受试者成功地使用了 NOIR 系统，即通过他们的大脑信号完成了这些任务！

实验表明，通过以人类为师进行少样本机器人学习，可以显著提升 NOIR 系统的效率。这种使用人脑信号协作来构建智能机器人系统的方法潜力巨大，可用于为人们（尤其是残障人士）开发至关重要的辅助技术，提升他们的生活品质。

NOIR 系统

这项研究力图解决的挑战包括：1. 如何构建适用于各种任务的通用 BRI 系统？2. 如何解码来自人脑的相关通信信号？3. 如何提升机器人的智能和适应能力，从而实现更高效的协作？图 2 给出了该系统的概况。

在这个系统中，人类作为规划智能体，做的是感知、规划以及向机器人传达行为目标；而机器人则要使用预定义的原语技能实现这些目标。

为了实现打造通用 BRI 系统的总体目标，需要将这两种设计协同集成到一起。为此，该团队提出了一种全新的大脑信号解码工作流程，并为机器人配备了一套参数化的原始技能库。最后，该团队使用少样本模仿学习技术让机器人具备了更高效的学习能力。

大脑：模块化的解码工作流程

如图 3 所示，人类意图会被分解成三个组分：要操控的物体（What）、与该物体交互的方式（How）、交互的位置（Where）。

要从脑电图信号解码出具体的用户意图，难度可不小，但可以通过稳态视觉诱发电位（SSVEP）和运动意象（motor imagery）来完成。简单来说，这个过程包括：

选取具有稳态视觉诱发电位（SSVEP）的物体
通过运动意象（MI）选择技能和参数
通过肌肉收紧来选择确认或中断

机器人：参数化的原语技能

参数化的原语技能可以针对不同的任务进行组合和复用，从而实现复杂多样的操作。此外，对人类而言，这些技能非常直观。人类和智能体都无需了解这些技能的控制机制，因此人们可以通过任何方法实现这些技能，只要它们是稳健的且能适应多样化的任务。

该团队在实验中使用了两台机器人：一台是用于桌面操作任务的 Franka Emika Panda 机械臂，另一台是用于移动操作任务的 PAL Tiago 机器人。下表给出了这两台机器人的原语技能。

使用机器人学习实现高效的 BRI

上述的模块化解码工作流程和原语技能库为 NOIR 奠定了基础。但是，这种系统的效率还能进一步提升。机器人应当能在协作过程中学习用户的物品、技能和参数选择偏好，从而在未来能预测用户希望达成的目标，实现更好的自动化，也让解码更简单容易。由于每一次执行时，物品的位置、姿态、排列和实例可能会有所不同，因此就需要学习和泛化能力。另外，学习算法应当具有较高的样本效率，因为收集人类数据的成本很高。

该团队为此采用了两种方法：基于检索的少样本物品和技能选取、单样本技能参数学习。

基于检索的少样本物品和技能选取。该方法可以学习所观察状态的隐含表征。给定一个观察到的新状态，它会在隐藏空间中找到最相似的状态以及对应的动作。图 4 给出了该方法的概况。

在任务执行期间，由图像和人类选择的「物品 - 技能」对构成的数据点会被记录下来。这些图像首先会被一个预训练的 R3M 模型编码，以提取出对机器人操控任务有用的特征，然后再让它们通过一些可训练的全连接层。这些层的训练使用了带三元组损失的对比学习，这会鼓励带有同样「物品 - 技能」标签的图像在隐藏空间中处于更相近的位置。所学习到的图像嵌入和「物品 - 技能」标签会被存储到内存中。

在测试期间，模型会检索隐藏空间中最近的数据点，然后将与该数据点关联的「物品 - 技能」对建议给人类。

单样本技能参数学习。参数选取需要人类大量参与，因为这个过程需要通过运动意象（MI）进行精准的光标操作。为了减少人类的工作量，该团队提出了一种学习算法，可以根据给定的用作光标控制起始点的「物品 - 技能」对来预测参数。假设用户已经成功定位了拿起一个杯子把手的精确关键点，那么未来还需要再次指定这个参数吗？最近 DINOv2 等基础模型取得了不少进展，已经可以找到相应的语义关键点，从而无需再次指定参数。

相比于之前的工作，这里提出的新算法是单样本的并且预测的是具体的 2D 点，而非语义片段。如图 4 所示，给定一张训练图像（360 × 240）和参数选择 (x, y)，模型预测不同的测试图像中语义上对应的点。该团队具体使用的是预训练的 DINOv2 模型来获取语义特征。

实验和结果

任务。实验选取的任务来自 BEHAVIOR 和 Activities of Daily Living 基准，这两个基准能在一定程度上体现人类的日常需求。图 1 展示了实验任务，其中包含 16 个桌面任务和 4 个移动操作任务。

下面展示了制作三明治和护理新冠病人的实验过程示例。

实验流程。实验过程中，用户待在一个隔离房间中，保持静止，在屏幕上观看机器人，单纯依靠大脑信号与机器人沟通。

系统性能。表 1 总结了两个指标下的系统性能：成功之前的尝试次数和成功时完成任务的时间。

尽管这些任务跨度长，难度大，但 NOIR 还是得到了非常鼓舞人心的结果：平均而言，只需尝试 1.83 次就能完成任务。

解码准确度。解码大脑信号的准确度是 NOIR 系统成功的一大关键。表 2 总结了不同阶段的解码准确度。可以看到，基于 SSVEP 的 CCA（典型相关分析）能达到 81.2% 的高准确度，也就是说物品选取大体上是准确的。

物品和技能选取结果。那么，新提出的机器人学习算法能否提升 NOIR 的效率呢？研究者首先对物品和技能选取学习进行了评估。为此，他们为 MakePasta 任务收集了一个离线数据集，其中每一对「物品 - 技能」都有 15 个训练样本。给定一张图像，当同时预测出了正确的物品和技能时，就认为该预测是正确的。结果见表 3。

使用 ResNet 的简单图像分类模型能实现 0.31 的平均准确度，而基于预训练 ResNet 骨干网络使用新方法时却能达到显著更高的 0.73，这凸显出了对比学习和基于检索的学习的重要性。

单样本参数学习的结果。研究者基于预先收集的数据集将新算法与多个基准进行了比较。表 4 给出了预测结果的 MSE 值。

他们还在 SetTable 任务上展现了参数学习算法在实际任务执行中的有效性。图 5 给出了控制光标移动方面所节省的人类工作量。