扩散模型加持下，机器人模型DALL-E-Bot可以轻松完成自主重新排列任务

最近，图像扩散模型的发展可谓是风生水起，很多AI大厂纷纷在这一领域展开研究，例如OpenAI提出的大规模的图像扩散模型DALL-E2[1]，该模型通过在来自互联网上的数以亿计的图像-文本样本对进行训练，可以最大限度的拟合自然图像中的语言条件分布情况，在给定文本提示的情况下，模型可以从中生成很多新奇有趣的图像。鉴于文本图像扩散模型已取得的成功，来自伦敦帝国理工学院机器人学习实验室的研究者们思考如何将扩散模型引入到机器人领域中，尤其是对于经过大规模预训练的文本图像扩散模型，因此本文作者的重点研究对象是DALL-E2模型。

论文链接：

https://arxiv.org/abs/2210.02438
项目主页：

https://www.robot-learning.uk/dall-e-bot

目前在机器人领域中有一个非常典型的应用任务：对于机器人捕获到的画面进行对象解析，随后对对象进行自主重新排列（autonomous rearrangement）并且预测对象的目标状态。例如在厨房场景中，机器人需要识别出放在餐桌上的盘子、刀叉等等，然后将其进行重新排列。如果使用传统方法来解决这个任务，往往需要密集标注的数据来对机器人所做出来的目标状态预测进行对齐，这种对齐方式效率很低。作者因此考虑引入本文图像扩散模型以一种可扩展、无监督的方式来对现实场景中对象的自然分布进行隐式建模。

本文作者团队基于DALL-E模型提出了一种适用于机器人场景的DALL-E-Bot模型，该模型能够使机器人按照要求重新排列出现在场景中的多个对象。具体操作流程是，首先对画面中的对象进行解析，并且推理出有关于这些对象的文本描述，然后生成与这些对象相关的符合常识的、自然的排列图像，最后根据这个排列图像驱动机器人进行操作。重要的是，DALL-E-Bot实现了zero-shot功能，其无需任何进一步的数据收集和训练。下面我们来看一下DALL-E-Bot具体的操作效果。

比如给定一个水果篮的目标图像，其中包括两个苹果和一个橘子，机器人可以按照目标位置将水果进行摆放，这要是精度再高一点以后就可以直接来摆水果拼盘了。

除了上面的水果摆放，餐具摆放DALL-E-Bot更是一把好手，它可以精确识别出多种餐具（例如刀、叉、勺和盘子），然后按照要求摆放。

在办公场景中它也可以适用，可以立马将iPad、键盘鼠标摆放到工作模式，甚至还能给你来一杯咖啡。可以想象假如你在上班路上就发送给DALL-E-Bot今天要处理的工作和文件，当你到达工位时，就可以直接进入工作状态了。

一、本文方法

DALL-E-Bot方法的核心组件是大规模预训练的图像扩散模型DALL-E2，DALL-E-Bot使用模块化的方法像人类一样对目标进行排列。首先，将初始观察图像转换为由分割掩码、对象文本描述和CLIP[2]视觉特征向量组成的实例级的目标描述。接下来，DALL-E-Bot开始构建描述场景中对象的文本提示，并将其传递到DALL-E模型中以创建重新排列任务的目标图像。然后，使用CLIP视觉特征匹配初始图像和生成图像中的对象，并通过对齐它们的分割掩码来估计它们的姿态信息。最后，再由机器人根据估计的姿态信息重新排列场景中的目标。整体的操作流程如下图所示，下面将详细介绍每一部分操作的具体细节。

1.1 目标级别的表示

为了推断场景中各个对象的姿态信息，需要将初始的RGB场景图像转换为更实用、功能更强大的实例级表示。作者使用Detectron2库中提供的Mask R-CNN模型来检测图像中的对象并生成分割掩码。该模型在LVIS数据集上进行了预训练，该数据集具有1200个对象类，对于许多重排任务来说绰绰有余。对于每个对象，Mask R-CNN可以提供一个边界框、一个分割掩码和一个类标签。然而，作者发现，虽然边界框和分割掩码预测通常是高质量的并且可以用于姿势估计，但由于训练数据中存在大量类别，预测的类标签通常是不正确的。由于DALL-E-Bot是使用场景中对象的标签来构建图像扩散模型的提示，因此这些标签的准确性至关重要。

为此，作者没有直接使用预测的对象类标签，而是通过OFA图像文本字幕生成模型[3]对每个对象获取其文本描述。使用这种方法可以得到更加精确地的对象类别，甚至能够获得对象的颜色或形状等视觉特征。最后，作者还将每个对象使用CLIP模型生成一个512维的视觉语义特征向量。这些特征稍后将用于匹配初始场景图像和生成图像之间的对象信息。当这个阶段结束时，DALL-E-Bot已经将初始场景RGB图像转换为场景分割掩码、文本标题、和语义特征向量的对象级表示

1.2 目标图像生成

要使用DALL-E生成图像，首先需要构造描述所需场景的文本提示。作者使用目标级表示中的对象文本进行操作，具体操作时仅使用描述对象类别的名词。因此，需要首先从文本中提取出每个对象的类别信息，即从“木桌子上的红苹果”中提取“苹果”。作者使用Flair NLP模型[4]来完成这一操作，该模型可以将文本中的每个单词标记为名词、动词等。随后从这个类列表中构造一个对场景进行最小假设的提示符，以便DALL-E以最自然的方式进行排列。

1.3 图像选择和对象匹配

上文提到，在对目标提取特征描述时，还会对每个生成图像获取其中每个对象的分割掩码和CLIP语义特征向量，作者会基于此过滤出对象数量与初始场景中对象数量不同的生成图像。这些样本会对DALL-E-Bot的匹配学习造成困扰，因此需要使用DALL-E对另一批图像进行采样。然后，作者在生成的图像和初始图像之间匹配对象。这点很重要，因为生成的对象与真实对象往往是不同的实例，通常具有非常不同的外观。作者使用CLIP特征向量之间的余弦相似性来计算任意两个对象之间的相似性分数，使用匈牙利匹配算法计算初始图像中每个对象对生成图像中的匹配结果，从而使总相似性得分最大化。然后，DALL-E-Bot会选择与初始图像

相似性得分最高的生成的图像

进行操作。

1.4 目标姿势估计

在完成目标场景生成以及对象匹配之后，DALL-E-Bot需要得到场景中每个对象的姿态信息，这可以通过其在初始图像中的分割掩码和生成图像中相应的分割掩码中得到，通过对齐这些掩码，DALL-E-Bot可以计算出从初始姿态（在初始图像中）到目标姿态（在生成图像中）的转换。实际操作中，作者重新缩放了每个初始分割掩码，使其边界框的尺寸等于生成图像中的尺寸，然后使用迭代最近点算法对齐两个掩码，这为DALL-E-Bot提供了初始姿态和目标姿态之间像素空间中的

转换路径。

二、本文方法

实验效果

在本文的实验环节，作者主要评估了贴近日常生活的三项桌面重排任务，即用餐场景、办公室场景和水果篮场景。DALL-E-Bot需要在每个场景中以类似人类的方式排列物体。作者的目标是创造出非常吸引人的摆放效果，所以最合适的评估方式是直接征求人的意见。作者使用网络问卷调查的方式来进行评估，作者挑选了17名年龄在20至71岁之间的用户进行体验，分别设置了3个场景和5种方法，机器人在每个场景中创建了5中不同的重新排列方式，其中每个重新排列方式都有不同的随机初始化，整体的摆放效果如下图所示，随后由用户对每种方法摆放出来的结果进行打分，打分范围是1分（非常不满意）到10分（非常满意）。

作者展示了不同方法在三个场景中重新排列的用户评分，结果如下表所示。可以观察到，DALL-E-Bot获得了很高的分数，这表明DALL-E-Bot可以以zero-shot的方式在无需重新训练的情况下做出令人满意的排列方式。此外也反映出来场景排列任务其实具有很强的语义正确性，而不仅仅是简单的几何对齐。

三、总结

本文可以看做是扩散模型在机器人领域中的一次大胆的尝试，其展示了像DALL-E这样大规模的视觉扩散模型来作为机器人的“想象大脑”可以得到意想不到的效果。DALL-E的引入，允许机器人进行zero-shot模式下的自主重新排列（autonomous rearrangement），而无需收集特定场景的密集标注数据集，也无需任何额外的训练。从另外一个方面考虑，这也为扩散模型的应用提供了一种全新的方式，来充分发挥其具有丰富想象力的特点。作者也提到，使用扩散模型与机器人技术相结合是机器人学习领域中一个非常有趣的方向，希望能够给机器人社区带来启发。

参考

[1] A. Ramesh, P. Dhariwal, A. Nichol, C. Chu, and M. Chen, “Hierarchical text-conditional image generation with clip latents,” 2022.

[2] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, G. Krueger, and I. Sutskever, “Learning transferable visual models from natural language supervision,” in Proceedings of the 38th International Conference on Machine Learning, ICML 2021.

[3] P. Wang, A. Yang, R. Men, J. Lin, S. Bai, Z. Li, J. Ma, C. Zhou, J. Zhou, and H. Yang, “OFA: Unifying architectures, tasks, and modalities through a simple sequence-to-sequence learning framework,” in Proceedings of the 39th International Conference on Machine Learning, 2022.

[4] A. Akbik, T. Bergmann, D. Blythe, K. Rasul, S. Schweter, and R. Vollgraf, “FLAIR: An easy-to-use framework for state-of-the-art NLP,” in NAACL 2019, 2019 Annual Conference of the North American Chapter of the Association for Computational Linguistics (Demonstrations), 2019.

作者：seven_Illustration by Pixeltrue from IconScout

DALL-E-Bot方法的核心组件是大规模预训练的图像扩散模型DALL-E2，DALL-E-Bot使用模块化的方法像人类一样对目标进行排列。首先，将初始观察图像转换为由分割掩码、对象文本描述和CLIP[2]视觉特征向量组成的实例级的目标描述。接下来，DALL-E-Bot开始构建描述场景中对象的文本提示，并将其传递到DALL-E模型中以创建重新排列任务的目标图像。然后，使用CLIP视觉特征匹配初始图像和生成图像中的对象，并通过对齐它们的分割掩码来估计它们的姿态信息。最后，再由机器人根据估计的姿态信息重新排列场景中的目标。整体的操作流程如下图所示，下面将详细介绍每一部分操作的具体细节。