大模型竟然能玩手机了，还能用软件修图：「AppAgent」会成为2024年的新趋势吗？

近日，一项名为 AppAgent 的创新技术引起了广泛关注。

简单来说，AppAgent 的智能代理能力可以用于操作任何 App，它在 50 个复杂手机任务上展示了强大的能力。

AppAgent 幕后团队来自腾讯，相关技术论文也已经公布。

论文地址：https://arxiv.org/abs/2312.13771
主页地址：https://appagent-official.github.io/

据论文介绍，这项技术通过引入一种基于大型语言模型（LLMs）的多模态智能代理（Agent）框架，赋予了智能体操作智能手机应用的能力。与传统的智能助手如 Siri 不同，AppAgent 不依赖于系统后端访问，而是通过模拟人类的点击和滑动等操作，直接与手机应用的图形用户界面（GUI）互动。这种独特的方法不仅提高了安全性和隐私性，还确保了智能体能够适应应用界面的变化和更新。

AppAgent 的核心在于其创新的学习方式。智能体可以通过自主探索或观察人类演示来学习如何导航和使用新应用。在自主探索过程中，智能体通过一系列预定义的动作与应用互动，观察每个动作带来的界面变化，从而构建知识库。这个过程还可以通过观察少数几个人类演示来加速，使智能体能够更快地理解复杂功能。

为了验证其实用性，研究团队对 AppAgent 进行了广泛测试，覆盖了社交媒体、电子邮件、地图、购物以及复杂的图像编辑工具等 10 种不同的应用中的 50 个任务。测试结果证明，AppAgent 在处理各种高级任务方面表现出色，显示出其适应性、用户友好性以及高效的学习和操作能力。

推特大 V Andrew Torba 评价道：「一切都结束了，自 2017 年以来整个互联网都已经是 AI 的天下。互联网已死的理论是真实的。构建并推动尽可能多的基于 AI 的机器人来充斥网络空间，用红色药丸 (来自电影《黑客帝国》) 淹没它们是唯一的出路。」

推特用户 Ate-a-Pi 评价道：「它来了！苹果的创新者困境。如果代理完成所有工作，那么优秀的智能手机用户界面有什么意义呢？如果代理使得智能手机操作系统变得多余，苹果将怎么做？他们有多长时间来解决这个问题？」

推特用户 Morally Clear 评价道：「AI 代理将会成为 2024 年的 ChatGPT。」

也有很多用户表示了对此项技术的担心。

推特用户 Benjamin Cox 评价道：「这太疯狂了。我们所知的应用程序可能仅仅会变成集成。此外，机器人用户参与度指标将变得完全不可靠。」

推特用户 Karma 表示了这项技术可能被用来非法牟利：“建立一个拥有 500,000 台这样的服务器农场。点击你在 Instagram 或 Twitter 上看到的每个广告。短期投资你点击的广告公司并购买 Meta、X 和其他社交媒体应用的看涨期权？利润？谁在进行这项工作？”

推特用户 Logan Thorneloe 评价道：“这太酷了！但是我知道它会被用来制造水军机器人，这让我有些担心。”

方法概述

环境搭建

AppAgent 的实验环境是基于命令行界面（CLI），使得代理能与安卓系统上的智能手机应用进行交互。代理接收两种关键输入：一是展示应用界面的实时屏幕截图，二是详细描述交互元素的 XML 文件。为了提升代理识别和交互这些元素的能力，每个元素都被赋予了一个唯一标识符。这些标识符要么来源于 XML 文件中的资源 ID（如果提供），要么通过结合元素的类名、大小和内容来构建。这些以半透明数字形式覆盖在屏幕截图上的元素，帮助代理在不需指定精确位置的情况下准确互动，从而提升控制手机的精确度。

动作空间模拟了人类与智能手机的常见交互方式，包括点击和滑动。设计了四个基本功能：点击（Tap）、长按（Long_press）、滑动（Swipe）和文本输入（Text），以及两个系统级功能：返回（Back）和退出（Exit）。这些预定义动作旨在简化代理的交互流程，并减少对精确屏幕坐标的依赖，解决了语言模型在准确预测中可能遇到的挑战。

App 探索阶段

探索阶段是 AppAgent 框架的核心，代理通过自主交互或观察人类演示来学习应用程序的功能和特性。在自主交互模式下，代理被分配一个任务并开始与 UI 元素进行自主互动。它尝试不同的动作，并观察应用界面的变化以理解其工作原理。代理通过分析每个动作前后的屏幕截图，尝试弄清楚 UI 元素的功能和特定动作的效果，并将这些信息编译成文档，记录下不同元素所执行动作的效果。当一个 UI 元素被多次操作时，代理会根据之前的文档和当前的观察来更新信息，以提高认知质量。

为了提高探索效率，如果当前 UI 页面似乎与应用的主要任务无关（如广告页面），代理将停止进一步探索并使用 Android 系统的返回功能返回到前一个 UI 页面。这种目标导向的探索方法，相比随机探索（如深度优先搜索和广度优先搜索），确保代理专注于对应用有效操作至关重要的元素。此外，代理还利用语言模型的现有关于用户界面的知识来提高探索效率，直到完成分配的任务。

在通过观察人类演示进行探索的方式中，代理通过观察人类用户的操作来学习应用的复杂功能，这对于那些可能难以通过自主交互发现的功能尤其有效。在此方法中，代理记录人类使用的元素和动作，这种策略缩小了探索空间，并阻止代理与无关的应用页面进行交互，从而比自主交互更为高效和有条理。

AppAgent 通过观察 app 的操作响应来理解 UI 界面功能和操作逻辑，并整理成文档

部署阶段

经过探索阶段的训练，AppAgent 已准备好执行基于其累积经验的复杂任务。在部署阶段，代理遵循逐步方法，每一步都包括获取当前用户界面的屏幕截图和一个动态生成的文档，详细描述了用户界面元素的功能和当前用户界面页面上动作的效果。代理首先对当前用户界面进行观察，然后阐述其关于任务和当前观察的思考过程。随后，代理通过调用可用函数执行动作。每次动作后，代理总结交互历史和当前步骤中采取的动作。这些信息被整合进下一个提示中，为代理提供了一种记忆形式。这种细致的方法提高了代理动作的可靠性和可解释性，从而促进了更明智的决策。部署阶段持续进行，直到代理确定任务已经完成，此时它可以通过执行退出（Exit）动作结束过程。

实验结论

AppAgent 通过一系列的量化和定性实验，证明了其在操控多样化智能手机应用方面的显著能力。该评估涉及了 10 种广泛使用的应用，覆盖了从社交媒体、地图导航到音乐播放和图片编辑等多个领域。通过特别针对 Adobe Lightroom 这一图像编辑应用的深入案例研究，AppAgent 的视觉处理能力得到了详尽的考察。

AppAgent 采用了先进的多模态大型语言模型 GPT-4 来处理交错的图像和文本输入，这种独特的能力使其能够无缝地解释和互动应用中的视觉及文本信息。实验结果表明，通过简化动作空间的设计，AppAgent 在准确性和效率上大幅度超越了原始的 GPT-4 模型。这主要是因为简化动作空间消除了对生成精确 xy 坐标的需求，这是传统语言模型的一个挑战点。在成功率、奖励和平均步骤数三个关键性能指标上，AppAgent 表现优异。即便在任务步骤上遇到失败，它也能根据其最终状态获得一定的奖励分数，这反映出其在理解和执行任务方面的适应性和韧性。特别是在多样化的应用中，AppAgent 通过有效地完成任务，展现了其出色的操作能力。

通过自主探索和观察人类演示生成的文档，AppAgent 的性能显著优于仅依赖原始 GPT-4 模型的基线。这些文档的有效性与人工编写的文档相媲美，凸显了设计在增强代理跨多样化应用表现的有效性。定性结果进一步证明了 AppAgent 在准确感知、推理和响应任务要求方面的能力。

在 Adobe Lightroom 的案例研究中，AppAgent 对具有不同视觉问题的图片进行编辑，展现了其处理视觉任务的高级能力。用户研究的结果显示，相较于 GPT-4 基线，AppAgent 在图像编辑质量上有了明显提升。尤其是在使用观察演示生成的文档时，AppAgent 倾向于使用更多工具来提升图像质量，而 GPT-4 基线通常使用较少的工具。

总而言之，AppAgent 在多项任务中展示了出色的性能和适应性。其创新的多模态框架和有效的探索策略，不仅验证了 AppAgent 的实用性，还为智能代理在理解和操作多样化智能手机应用方面的研究提供了宝贵的见解和基准。

总结

腾讯的 AppAgent 技术标志着智能代理领域的一个重大进步，不仅提升了多模态大型语言模型在实际应用中的能力，而且开辟了未来智能手机应用操作和交互的新境界。这项技术的核心优势在于其创新性和灵活性：通过模拟人类的互动方式，AppAgent 能够直接与应用的图形用户界面进行交互，从而摆脱了对传统后端接口的依赖。这不仅提高了操作的安全性和隐私性，而且使得智能体能够更加灵活地适应应用界面的变化和更新。

AppAgent 的多模态学习框架，结合自主探索和观察人类演示的方式，使其能够快速适应和掌握新应用，无论是处理复杂的图像编辑任务，还是导航复杂的社交媒体平台。这种学习方法的高效性和适应性，证明了 AppAgent 在理解和执行多样化任务方面的高级能力，同时也突显了其在未来应用开发和用户体验改善中的巨大潜力。

随着技术的不断进步和优化，我们可以期待 AppAgent 在多个领域中的应用，如提高工作效率、改善用户体验、辅助残障人士等。AppAgent 的成功不仅为智能代理技术的发展树立了新的里程碑，而且为我们如何与智能手机和其他智能设备互动提供了全新的视角。它不仅有望改变个人用户的日常生活，还可能对商业、教育和互联网等行业产生深远影响。