76页综述+300余篇参考文献，天大团队全面介绍大语言模型对齐技术

近日，天津大学熊德意教授团队发布了大语言模型对齐技术的综述论文（下文简称为对齐综述），全文共 76 页，覆盖 300 余篇参考文献，从 AI 对齐的角度对大语言模型对齐的相关技术进行了全面概述。为提供一个大语言模型对齐的宏观视角，对齐综述介绍了 AI 对齐的起源和相关概念，从 AI 对齐的视角，将目前可用于大语言模型的对齐相关的技术方法和提案分为外部对齐、内部对齐、可解释性三大类。并且讨论了当前大语言模型对齐方法的脆弱性，以及对齐评估的方法和基准，展望了大语言模型对齐技术未来的研究方向。

综述简介

近年来，大语言模型取得了显著进展，其中最为人们所熟知的有 OpenAI 的 ChatGPT 和 GPT-4 等。这些模型在众多领域如数学、逻辑推理、医学、法律和编程中展现出接近人类的水平。但随着大语言模型能力的飞速发展，关于它们可能带来的伦理风险和对人类的潜在威胁的担忧也随之增长。大语言模型可传播其训练数据中的有害信息，例如偏见、歧视和有毒内容等。它们可能会泄露训练数据中的私密和敏感信息，或产生误导性和虚假性信息。未来这些语言代理将越来越多地融入我们的日常生活，任何未对齐行为都可能导致意想不到的后果。因此，需要推动大语言模型对齐技术的研究和突破，使模型的输出和行为与人类的期望和价值相一致。

目前，大语言模型对齐研究主要聚焦在外部对齐领域。然而，对对齐的整体理解不仅应该涵盖广泛研究的外部对齐，还应该包含目前仍处于研究起步阶段且具有巨大潜力的领域，如内部对齐、机械可解释性等。虽然这些新兴领域的研究有些仍然停留在理论阶段，或仅仅是思想实验，但它们对大语言模型对齐技术研究及未来发展是不可或缺的。鉴于此，天大自然语言处理团队从更广泛的 AI 对齐视角，审视大语言模型对齐技术，并从多个角度进行深入讨论。

论文地址：https://arxiv.org/abs/2309.15025

参考文献Github网址：https://github.com/Magnetic2014/llm-alignment-survey，

如果有遗漏的文献，欢迎大家告知添加。

什么是大语言模型对齐？

作为讨论大语言模型对齐相关工作的重要背景，对齐综述先对 AI 对齐进行了概述，简要介绍了 AI 对齐的起源、研究背景和相关概念。相比于近几年横空出世的大语言模型，AI 对齐的研究相对更早。早在 1960 年，控制论之父诺伯特・维纳就表达了自己的担忧：如果我们使用一个机械代理实现我们的目标，一旦开始它的操作，我们就无法有效地对其干预，因为该操作是如此之快且不可撤销，以至于我们在操作完成之前没有数据进行干预，那么我们就最好确保该机器的用途是我们真正想要的用途，而不仅仅是对它的生动模仿。这段话强调了确保 “机械代理” 的目标与我们真正想要的目标保持一致的重要性，强调机器和人类目标之间的一致性。但随后很长一段时间，此类研究并没有真正开展，直到 2010 年左右，Stuart Russell 等人逐步开始研究这一领域，并将其称为 “价值对齐问题”（Value Alignment Problem）。Russell 强调了将 AI 的目标与人类价值对齐的重要性，以确保 AI 系统在各种情境下都能为人类带来益处，而不是造成伤害。

受上述观点启发，对齐综述从对齐研究的内容出发定义了 AI 对齐：AI 对齐是确保人工智能代理的外部和内部目标与人类价值一致的技术。其中外部目标是 AI 的设计者根据人类价值定义的目标，而内部目标是 AI 代理内部优化的目标。由这个定义出发，对齐综述讨论了正交性论点、工具性目标趋同等 AI 对齐领域重要的概念和假设。值得注意的是，目前 AI 对齐研究中最受关注的正是大语言模型对齐，且大语言模型对齐的许多概念、方法论来自于更广泛的 AI 对齐研究。

一方面，大语言模型作为新兴的高性能 AI 系统，为 AI 对齐研究提供了坚实的基础。许多 AI 对齐概念和提案，例如对齐的理论假设和实证方法，都可以使用大语言模型（而不是假设的超级智能系统）进行实验。另一方面，大语言模型研究的快速推进不仅扩展了 AI 对齐研究的前沿，还可以为 AI 对齐提供工具。当然，强调大语言模型对齐对 AI 对齐的重要性并不意味着我们可以在 AI 对齐的背景之外进行大语言模型对齐研究。对 AI 对齐的广泛深入的研究必定能促进大语言模型的对齐。

从大语言模型潜在风险论证大语言模型对齐必要性

大语言模型是一种变革性 AI 技术，它将重塑社会和科学技术发展，但同时也存在多种可见及预见的风险。首先，大语言模型可能生成不符合人类期望的文本，其中可能包含歧视、偏见和泄露他人隐私的内容。其次，大语言模型由于其固有的幻觉问题，有可能会生成不真实、前后不一致和具有误导性的内容。

另一方面，大语言模型也会被别有用心的人用来执行恶意行为。例如，未经对齐的大语言模型能够生成以假乱真的假新闻，也能够帮助黑客们对网络上的设备开展攻击。这些恶意行为会对我们的日常生活产生负面影响，甚至会对整个社会造成严重的伤害。除此之外，大语言模型的训练和部署需要消耗巨大的计算资源和电力，同时还会对人们的就业产生影响。

随着其能力的不断增强，大语言模型还可能展现出 “追求” 自我保护、自我增强、获取资源等目标，这些目标在通用人工智能中通常被称为工具性趋同目标，因为几乎所有 AI 代理都有可能将它们作为亚目标。大语言模型对齐综述从以上视角详细论述了大语言模型对齐的必要性。

大语言模型对齐方法

AI 对齐是一个旨在确保 AI 系统的决策与人类的价值观、期望和目标保持一致的过程。当我们谈到大语言模型的对齐时，意味着这些模型不仅能够理解人类语言，还能够按照我们的预期和道德伦理响应。这涉及到社会、伦理、哲学及技术等多方面的考量，以确保 AI 技术的发展不会对社会产生负面影响。具体说，大语言模型对齐研究可以分成三大领域：外部对齐、内部对齐和可解释性。

外部对齐旨在选择正确的损失函数或奖励函数，并确保人工智能系统的训练目标符合人类价值。换言之，外部对齐试图将指定的训练目标与其设计者的目标对齐。研究者们针对外部对齐提出了许多方法。根据各类对齐方法能够监督的能力范围，对齐综述将其分为非递归监督 (Non-recursive Oversight) 和可扩展监督 (Scalable Oversight)。其中非递归监督只能监督人类能力范围之内的任务，而可扩展监督则能将监督范围扩大到超出人类能力范围的任务，以更好地应对强大的 AI 模型。

内部对齐则是为了确保人工智能系统训练中真实优化和实现其设计者设定的目标。内部对齐失败可能会导致严重且不易被发现的后果，例如经过训练以在游戏中获胜的人工智能系统可能会发现意外的漏洞，这些漏洞在技术上满足其目标，但违反了游戏准则。另一个例子是目标错误泛化 (goal misgeneralization) 问题，即使我们有正确的目标规范，由于分布之外的鲁棒性问题，仍然可能会出现意想不到的目标。对齐综述总结了内部对齐失败的可能情形，并概述了内部对齐的主流方法和提案，如 Relaxed Adversarial Training, Reward Side-Channels, Cross-Episodic Objectives, Objective Unidentifiability, Zero-Shot Objectives 和 Robust Reward Learning 等。

可解释性广义上是指促进人类理解人工智能系统的内部运作、决策和行动的方法、模型和工具。对齐综述重点关注其中的机械可解释性，它试图将机器学习系统（尤其是神经网络）的输出和行为通过逆向工程的方式定位到其内部状态、权重和模块。根据定位的不同，对齐综述将相关工作分为 self-attention, MLP 和 neurons 可解释性三类。由于大语言模型的参数数量巨大，对大语言模型进行逆向工程是非常困难的。当前的机械可解释性研究通常在 Transformer 小型简化模型上进行。然而，这是一个非常有前途的方向，它提供了对神经网络对齐的深入见解，有望在未来引领大语言模型对齐的研究实现突破。

外部和内部对齐对于构建安全且值得信赖的人工智能至关重要。如果其中任何一个失败，我们就有可能创建出与人类价值或意图不一致的系统。随着大语言模型的能力越来越强，这些对齐问题的重要性也随之增加，因此我们需要意识到：相比于大语言模型能力方面的研究，大语言模型对齐研究一样重要，甚至更加重要。同时，虽然可解释性并不直接针对对齐，但其工具和技术可以帮助外部和内部对齐。通过了解模型如何演变和决策，可以更好地识别偏差发生的时间和地点。例如，如果一个模型采取了意想不到的捷径实现其目标，可解释性可能会帮助我们理解这种情况何时以及如何发生。此外，可解释性可以让我们深入了解模型的内部推理过程，这有助于构建更加可信、透明的大语言模型。

针对对齐后的大语言模型的攻击方法

最近的研究表明，对齐后的大语言模型能够表现出针对恶意攻击的防御能力。然而，这并不是说现有的对齐技术就万无一失了。例如，通过反复的交互，人类可以 “欺骗” 模型生成有害内容，这也被称为 “越狱 (jailbreaking)”。除了越狱之外，对齐综述还介绍了其它攻击已对齐模型的方法，并将这些方法分为三类：隐私攻击、后门攻击和对抗攻击。隐私攻击是指攻击者试图从模型的输出中提取有关训练数据的私人或敏感信息；后门攻击是指通过注入并触发某些漏洞使模型产生特定的、不正确的输出；而对抗性攻击则是通过对输入数据引入精心设计的小扰动以改变模型行为的技术。这些扰动通常是人类无法察觉的，但可能导致模型产生不正确或意外的输出。

大语言模型对齐评测

评估对于对齐研究非常重要，有助于了解目前大语言模型对齐方法还存在哪些不足。基于这一点，对齐综述对大语言模型对齐评测的相关的方法和资源进行了详细论述，包括事实性、道德、毒性、刻板印象和偏见，以及通用评估。

事实性评估：机器生成的内容应与事实一致，避免生成有幻觉的内容。此外，生成的每条信息所包含的事实都应该是准确的。因此，事实性评估包含了事实一致性评估和事实准确性评估。

毒性评估：毒性是指在人际关系、工作环境或其他社会环境中表现出来的有害和破坏性行为或态度。这可能表现为控制他人、操纵、贬低或恶意攻击。这些行为可能是公开的，也可能是隐蔽的，对个人的自尊、安全和福祉造成损害。对于大语言模型而言，毒性评估一般涵盖了多种有毒文本，包括导致自残行为的建议、具有色情或暴力性质的内容、骚扰 / 贬低 / 冒犯 / 侮辱 / 仇恨言论、提倡网络欺凌等攻击性或暴力行为的建议，以及寻找非法商品或服务的指南或指示等。

刻板印象和偏见评估：刻板印象和偏见是指一些基于种族、性别、性取向、宗教或其他特征的先入为主的态度。这些态度可能是消极的或积极的，但都是群体的普遍判断，而不是基于个人的实际行为或特征。偏见可能导致歧视或其他不公正行为，同时考虑到大语言模型生成的带有刻板印象和偏见的内容可能会加剧这种情况的发生，对其进行评估是非常重要的。

通用评估：除了上述侧重于衡量对齐质量的特定方面（例如事实性、偏差）的评估基准和方法外，对齐综述还综合介绍了大语言模型对齐的通用评估，即同时评估对齐的多个维度，而不是只衡量某一维度（如事实性、毒性等），包括通用评估方法和基准。

未来方向展望

除了介绍大语言模型对齐目前已有的相关工作之外，对齐综述也对未来的研究方向进行了展望，主要分为七个方向：大语言模型对齐理论研究、可扩展监督、欺骗性对齐、大语言模型的自动对齐、可解释性研究、基于对抗攻击的大语言模型对齐评测及促进大语言模型对齐的研究领域建设。

大语言模型对齐理论研究：大语言模型对齐面临的挑战复杂且多样，需要借鉴不同学科的多种思想和方法。对齐综述总结并强调了对齐理论研究中的一些关键领域，如决策理论、可矫正性和世界模型。其中决策理论旨在深入研究大语言模型的反事实推理和潜在的悖论问题；可矫正性旨在研究如何提高大语言模型接受用户的更正而不抵制和规避的能力；而世界模型则是为大语言模型提供一个更接近现实世界的环境，以确保大语言模型能够感知和适应现实世界的变化。

可扩展监督：可扩展监督是一个重要的研究领域，旨在确保人工智能技术以安全和负责任的方式开发和使用。通过制定能够适应人工智能快速增长和发展的可扩展框架，确保 AI 技术造福社会，同时最大限度地减少其潜在危害。可扩展监督的核心挑战是人工智能系统设计执行的任务的复杂性。对于人类难以直接判断和完成的复杂任务，AI 对齐已经提出了相关的对齐方案，但这些方案尚未经过大规模的实证验证。

欺骗性对齐：欺骗性对齐是指人工智能代理通过假装与基本目标对齐以避免在训练期间被修改。一旦不再面临被修改的风险，智能体可能会停止优化基本目标并开始追求自己的内目标，这可能与其设计者定义的基本目标完全不同，并且可能有害。尽管欺骗性对齐通常在理论上进行探讨，但考虑到大型语言模型能力的快速进步，人们越来越担心欺骗性对齐实际出现在大语言模型中。尽管对其存在的可能性仍有分歧，但其严重性已得到广泛认可。考虑到这种严重性，我们最好在它真正发生之前采取经验主义方法进行监测。

大语言模型的自动对齐：大语言模型的自动对齐是指开发自动化的对齐 “研究员”，协助人类开展对齐研究。监督者可以通过这些方法了解人工智能模型的行为，检测异常情况并及时发现未对齐行为。

可解释性研究：可解释性研究可以帮助破除大语言模型的黑盒属性，然而，随着大语言模型的复杂性和规模不断增长，确保它们保持可理解性和透明性成为一项日益复杂的任务。目前，许多尝试发掘可解释性的工作只能提供表面的见解，无法深入研究模型复杂的决策过程。考虑到人工智能的跨学科性质，这可能需要机器学习研究人员、伦理学家和神经科学家之间的持续合作来推动可解释性研究的进展。

基于对抗攻击的大语言模型对齐评测：对抗性攻击是人工智能领域的强大工具，旨在通过有意设计的输入迷惑或误导人工智能系统。考虑到大语言模型的强大能力，使用一个大型模型作为攻击者来生成针对对齐的对抗性示例可能是测试和评估另一个模型的对齐能力的有效方法。这种由对抗性攻击驱动的动态测试有助于确保大语言模型能够稳定地处理意外输入。虽然这种方法增加了一些复杂性，但从这些对抗性测试中获得的见解可能是无价的，帮助全面了解模型在对齐方面的优点和缺点。

促进大语言模型对齐研究领域建设：人工智能领域内的对齐研究社区仍处于萌芽阶段，许多问题尚未得到解答，许多挑战也尚未解决。当前的情况缺乏有凝聚力的科学范式，导致理论、方法和实证结果存在争议。作为目前最有前景的对齐方法测试平台，大语言模型可以作为检验思想实验和提案的平台，这将有助于制定稳定的研究方法，在关键问题上建立共识，并为人工智能对齐制定一致的科学框架。另一方面，人工智能对齐社区深厚的思想积淀也将指导大语言模型研究社区实现对大语言模型的高效对齐。因此，大语言模型和人工智能对齐两个研究社区之间的联系将建立一个对双方都有利的良性循环。