北大等发布最新AI智能体Jarvis-1，制霸「我的世界」

智能体研究又取得了新成绩！

最近，来自北大、北邮、UCLA和BIGAI的研究团队联合发表了一篇论文，介绍了一个叫做Jarvis-1的智能体。

论文地址：https://arxiv.org/pdf/2311.05997.pdf

从论文标题来看，Jarvis-1的Buff可谓拉满了。

它是个多模态+记忆增强+多任务处理的开放世界语言模型，玩儿「我的世界」游戏堪称一绝。

在论文摘要中，研究人员表示，在开放世界，通过多模态来观测并实现类人的规划能力以及控制能力，是功能更强的通用智能体的一个重要里程碑。

要知道，用现有的方法确实可以处理开放世界中的某些长线任务。然而，开放世界中的任务数量可能是无限的，这种情况下传统方法就会很吃力，而且还缺乏随着游戏时间的推移，逐步提高任务完成度的能力。

Jarvis-1则不一样。它能感知多模态输入（包括自我观察以及人类指令），生成复杂的计划并执行嵌入式控制。所有这些过程都可以在开放的「我的世界」游戏中实现。

下面咱们就来看一看，Jarvis-1和别的智能体究竟有什么不一样。

实现过程

具体来说，研究人员会在预先训练好的多模态语言模型基础上开发Jarvis-1，将观察和文本指令映射到计划中。

这些计划最终会分派给目标条件控制器。研究人员为Jarvis-1 配备了多模态的存储器，这样它就能利用预先训练好的知识和实际游戏的经验进行相应规划。

在研究人员的实验中，Jarvis-1在「我的世界」基准的200多个不同任务（初级到中级）中表现出了近乎完美的性能。

举例来说，Jarvis-1在合成钻石镐的长线任务中，完成率达到了惊人的12.5%。

这个数据表明，和之前的记录相比，Jarvis-1在钻石镐任务中的完成率大幅提高了5倍，远远超过之前SOTA级别的VPT处理这个任务的完成率。

此外，论文中还展示了Jarvis-1通过多模态记忆，能做到在终身学习范式下进行自我完善，从而激发出更广泛的智能并提高自主性。

在文章开头的那个解锁技能树图片里，Jarvis-1可以稳定获得「我的世界」主科技树上的大量高级物品，如钻石、红石和黄金等等。

要知道，想要获得这些物品需要收集10多种不同的中间物品才可以。

下图更加直观地展示了开放世界的环境中有哪些挑战，以及Jarvis-1是如何应对这些挑战。

最左侧，与不采用情境感知规划的GPT相比，采用该方法的Jarvis-1大幅提高了在获取钻石任务中的成功率，这个任务十分具有挑战性。蓝色的是人类的完成率，受实验条件所限，只统计了10分钟。

中间的图示是随着任务复杂度的增加（石头→铁矿→钻石），Jarvis-1通过交互式规划表现出了显著的优势。和GPT的表现相比好出太多。

右侧为Jarvis-1从多模态记忆中检索到的其它任务（y轴所示）的上下文经验，在选定任务（x轴所示）上的成功率提高了多少（用颜色的深浅来表示）。

可以看出，通过终身的学习和记忆，Jarvis-1可以利用先前在相关任务上的经验来改进对当前任务的规划。

说了这么多性能上的优势，Jarvis-1有如此好的表现以及超越GPT的性能，归功于以下三点：

- 从LLM到MLM

首先，我们知道，感知多模态感官输入的能力，对于在动态和开放世界中模型进行规划至关重要。

Jarvis-1通过将多模态基础模型与LLM相结合，实现了这一点。与盲目生成计划的LLM相比，MLM能够自然地理解当前情况并制定相应的计划。

此外，还可以通过多模态感知获得丰富的环境反馈，从而帮助规划者进行自我检查和自我解释，发现并修复计划中可能存在的错误，实现更强的交互式规划。

- 多模态记忆

过去的一些研究表明，记忆机制在通用智能体的运作中发挥着至关重要的作用。

研究人员通过为Jarvis-1配备多模态记忆，可以有效地让它利用预先训练的知识和实际经验进行规划，从而显著提高规划的正确性和一致性。

与典型的RL或具有探索能力的智能体相比，Jarvis-1中的多模态记忆使其能够以非文本的方式利用这些经验，因此无需额外的模型更新步骤。

- 自我指导和自我完善

通用智能体的一个标志，就是能够主动获取的新经验并不断进行自我完善。在多模态记忆与探索经验的配合下，研究人员观察到了Jarvis-1的持续进步，尤其是在完成更复杂的任务时更是如此。

Jarvis-1的自主学习能力标志着这项研究向通用智能体迈出了关键一步，这种智能体可以在极少的外部干预下不断学习、适应和改进。

主要挑战

当然，在实现开放世界游戏的过程中，肯定也会遇到很多困难。研究人员表示，困难主要有三个。

第一，开放世界就意味着，想要完成任务并不是只有一条通路。比方说，任务是做一张床，智能体既可以从羊身上收集羊毛来做，也可以收集蜘蛛网，甚至还可以直接和游戏里的村民NPC交换。

那么究竟在当下的情况下选择哪种途径，就需要智能体具有审时度势的能力。换言之，要对当下的情况有一个比较不错的把握，即情景感知（situation-aware planning）。

在实验过程中，智能体有些时候会出现判断有误，导致任务完成效率不高甚至失败的情况出现。

第二，在执行一些高复杂度的任务时，一个任务往往由大量小任务组合而成（20+个）。而每个小任务的达成也不是那么容易的事，条件往往比较苛刻。

比如上图中，做一个附魔台，就需要用钻石搞挖三个黑曜石。而怎么做钻石镐又是个麻烦事。

第三，就是终身学习（lifelong learning）的问题。

毕竟，开放世界中的任务数不胜数，让智能体预先全部习得显然不现实。这就需要智能体不断在规划的过程中进行学习，即终身学习。而Jarvis-1在这方面的表现已经在上一部分有所提及。

整体框架

Jarvis-1的整体框架如下图所示。

下图左侧包括一个记忆增强的多模态语言模型（MLM）和一个低级的行动控制器（controller），前者可以生成计划。

同时，Jarvis-1还能利用多模态存储器存储和获取经验，作为进一步规划的参考。

可以看到，下图中间部分就是Jarvis-1如何利用MLM生成计划的流程图，十分简洁易懂。

在收到任务后，MLM开始提供一些建议，发到planner，最终生成计划。而多模态记忆库可以被随时调用，新生成的计划也会被作为学习的内容储存进去。

最右侧即为Jarvis-1自我学习的流程图。

举个例子来看，现在输入一个获取钻石矿的任务。

MLM这就开始计划了——右侧最上部的绿框即为初始计划，自检后发现有物品的缺失，于是调整了计划，更正了要获取的物品的数量。

接着多模态模型进行反馈，执行的过程中发现任务失败，随机自检当下的状态，比如镐子坏了。再一看库存，还有能生成镐子的原料，开干。当然，这一步还有个自我解释的环节（self-explain）。

最终，生成新计划，任务终于完成。

下图展示了Jarvis-1是如何生成查询结果的。

首先会考察当下的观察结果和任务，Jarvis-1会首先进行逆向思维，找出所需的中间子目标。

当然，推理的深度是有限的。记忆中的子目标将与当前的观察结果结合起来，再形成最终的查询结果。

再将与文本查询相匹配的条目根据其状态与观察查询的感知距离进行排序，而后只有每个子目标中最靠前的条目才会被检索到。

在实验环节，研究人员选用的任务都出自最近推出的「我的世界」基准。

实验开始前，相关设置如下：

环境设置~为确保游戏逼真，智能体需要利用与人类类似的观察和行动空间。研究人员没有像以往的方法那样为模型与环境交互手动设计自定义界面，而是选择使用了「我的世界」提供的原生人类界面。

这既适用于智能体进行观察，也适用于行动。该模型以每秒20帧的速度运行，而且与人类图形用户界面交互时需要使用鼠标和键盘界面。

- 任务设置

在「我的世界」中，玩家可以获得数千种物品，每种物品都有特定的获取要求或配方。在生存模式中，玩家必须从环境中获取各类物品，或者用材料制作/熔炼物品。

研究人员从「我的世界」基准中选择了200多个任务进行评估。为便于统计，研究人员根据「我的世界」中的推荐类别将其分为 11 组，如下图所示。

由于这些任务的复杂程度不同，团队对每个任务采用了不同的最大游戏持续时间。

- 评估指标

在默认情况下，智能始终玩生存模式，初始库存为空。

如果在指定时间内获得目标对象，则视为任务成功。由于「我的世界」的开放性特点，智能体启动时所处的世界和初始位置可能会有很大不同。

因此，研究人员使用不同的种子（类似于一个地图生成码）对每个任务进行了至少 30次的测试，并反馈平均成功率，以确保进行更加全面的评估。

下图左侧展示了Jarvis-1的游戏成功率。还和VPT模型进行了比较。

右侧则展示了Jarvis-1在执行任务中，一些中间物品的获取成功率。可以看到，随着时间的推进，成功率还是非常高的。

参考资料：

https://arxiv.org/pdf/2311.05997.pdf