ChatGPT破圈的「秘密武器」：详解RLHF如何影响人类社会！

1950 年，Alan Turing 提出，我们应该「以教育孩子的方式来教育机器」「为机器提供金钱可以买到的最好的感觉器官，然后再教育它……」；1959 年，John McCarthy 提出了一个如此系统的最早迭代，描述了一个「建议接受者」，它可以通过常识推理进行学习，从任何一组作为命令性语句发布给系统的前提中得出逻辑性的结论。
20 世纪 80 年代，Hayes-Roth 等人扩展了这项工作，开发了一个机器从外部（人类）建议中学习的通用框架，包括接收、解释和整合建议到机器学习等步骤。从那时起，人工智能和机器学习的快速发展在赋予人工智能与人类互动的能力以及以自然的方式从人类反馈中学习方面取得了重大进展。
在过去几年中，尤其是 ChatGPT 火爆全球后，基于人类反馈的强化学习（RLHF）成为了一项可能让机器像人一样思考的重要技术。OpenAI 联合创始人、研究科学家 John Schulman 将 RLHF 看作是 ChatGPT 成功的秘密武器。
那么，RLHF 为什么如此强大？它又会给人类社会带来哪些深刻影响？3 月 6 日，麻省理工学院大四本科生 Gabrielle Kaili-May Liu 在预印本网站 arXiv 上发表的一篇文章中，探讨了 RLHF 在改变人类对人工智能体验的七个方面，包括：

RLHF 如何影响人们所能获得的信息的完整性？
RLHF 如何反映目标人群的价值观和偏好？
RLHF 如何缓和或加剧不同的社会不平等？
RLHF 如何改变不同社会群体对人工智能技术的获取？
RLHF 如何影响文化和国际关系？
RLHF 如何加强产业？
RLHF 如何改变劳动力和劳动组织？

RLHF 是强化学习（RL）的一个扩展，它将人类的反馈纳入训练过程，为机器提供了一种自然的、人性化的互动学习过程。除了奖励信号外，RLHF 代理从人类得到反馈，以更广泛的视角和更高的效率学习，与人类从另一个人的专业知识中学习的方式相似。通过在代理和人类之间架起一座桥梁，RLHF 允许人类直接指导机器，并允许机器掌握明显嵌入人类经验中的决策要素。

与传统的 RL 方法相比，RLHF 的关键优势在于能更好地与人类的意图保持一致，以及以未来的反馈为条件进行规划，从各种类型的反馈中进行流畅的学习，并根据需要对反馈进行整理，所有这些都是创建真正的智能代理所不可缺少的。它还允许机器通过抽象人类的价值来学习，而不是简单地模仿人类的行为，从而使代理具有更强的适应性，更强的可解释性，以及更可靠的决策。

然而，基于 RLHF 的人工智能模型有可能做出不准确或有害的行为。而且，收集人类偏好数据作为反馈的成本很高，而且人类标注者之间的分歧会给训练数据带来差异，在基本事实模糊的情况下会造成混乱（如道德困境）。另外，人类在 RLHF 中的反馈往往被限制在提供有限信息的偏好排序的形式中，从而限制了适用性。

目前，RLHF 在商业、教育、医疗和娱乐等领域都得到了广泛的应用，包括 OpenAI 的 ChatGPT、DeepMind 的 Sparrow 和 Anthropic 的 Claude 等。

那么，在未来，让ChatGPT成功的「秘密武器」，将会怎样影响人类社会呢？

减轻有害内容，但仍需提防滥用

作为一种有效的对齐技术，RLHF 能够一定程度上帮助减轻大型语言模型（LLM）产生的有害内容并提高信息完整性。当前调整 LLM 的方法或是需要更多数据，或过于复杂。然而，RLHF 可以在不影响性能或产生问题的前提下，提高 LLM 生成内容的真实性，并降低毒性。

例如，与 GPT-3 相比，使用 RLHF 训练的 InstructGPT 在减轻毒性与虚假陈述、生成真实适当内容方面表现出了更强的能力，以生成真实和信息丰富的响应并遵循不熟悉的指令。RLHF 在为辅助技术、信息共享和推荐/建议系统产生积极内容方面具有巨大潜力。

即便如此，同样基于 RLHF 技术的 ChatGPT 仍然可能在用户请求时输出不适当和有害的内容。ChatGPT 和 InstructGPT 的创建者曾公开描述这些技术可能不服从用户指令，被滥用于输出错误或不实信息、延续社会偏见等。因此，仍需进一步提高基于 RLHF 模型的可靠性。

有很多方法可以用于应对 RLHF 的滥用。首先，除了内容生成，虚假信息的泛滥在很大程度上取决于管理。内容的传播需要资金和技术基础设施。因此，或许解决此类基础设施的管理问题能够有效缓解 RLHF 的滥用；其次，政府和行业各方之间的合作和情报共享，可以实现快速响应虚假信息，实现威胁信息的共享和跨平台防御；最后，必须通过提高媒体素养和提高人工智能公共概念的准确性来增强公众对机器学习支持的虚假信息的抵制。

目前，对不可控人工智能的恐惧和担忧正在公开讨论中，这导致了对自主性和人类在整个人工智能开发和部署过程中的关键作用的困惑。研究人员必须在其工作如何与公众沟通方面保持透明和可理解，媒体观点必须避免误导或过度耸人听闻的人工智能新闻报道。同时，通过提高数字素养来提高公众的个人自主性和意识，可以解决人工智能的风险。

强化价值和偏好

人工智能研究的一个核心目标是产生行为方式与人类价值观和意图一致的系统。RLHF 比传统的机器学习和强化学习提供了更多的指导，能够捕捉到人类偏好的全部内容，从而驱使人工智能系统与人类价值观相一致。具体来说，即使 RLHF 不能完全解决对内部调整的担忧，它所识别的失败以及它赋予奖励和政策模型的知识也适用于提高社会和合作环境中人工智能的安全性、可靠性和可信度。

影响 RLHF 模型的一个重要因素在于模型与谁对齐。设计一个公平、无偏见、透明，同时又有适当的问责机制的调整过程中存在很多挑战。建议采用基于原则的方法，即尽管道德信仰有差异，但可以建立一个模型以反映所有人认可的公平原则；还可以训练符合一般原则和偏好的模型，并利用后续的微调来优化模型，使其符合特定群体的偏好。

另外，开发者的选择会无意中影响 RLHF 方法的行为。在道德不确定性的假设下开发 RLHF 也许更有用，它假设任何决策的动机都是由几种可信的道德理论驱动的。此外，我们也必须进一步考虑这个问题：人工智能代理是否应该能够表现出人类所拥护的各种道德和伦理信念？

弥合偏见，缓和不平等

人工智能在多个发展层面上存在偏差：影响数据生成的历史偏见、影响抽样和人口研究的表征偏见、由于数据来源不准确导致的测量偏差以及对群体的结构性歧视，过度依赖一刀切模型导致的聚合偏差，模型训练期间的学习和评估偏差，以及预期应用和观察应用之间的差异导致的部署偏差。

通过适当的部署，RLHF 可以减少人工智能生产流中多个层面的偏见。RLHF 通过平衡人类反馈与不同人类标注者标注的代表性和专业性，可以缓解历史、代表性和测量偏差的长期影响。它利用人类反馈直接有效地对抗算法偏见，有助于解决算法开发带来的系统不平等问题。

改善公平访问和隐私

通过降低计算成本，RLHF 可以为人工智能的民主化打开大门，让社会各阶层的人都能享受到人工智能技术。特别是，RLHF 产生了更小的模型，能以更少的计算量实现先进的性能，这对于建立可在世界各地，特别是低收入地区和发展中国家部署的实用人工智能技术至关重要。

减少对培训数据的需求可以减轻对数据收集、隐私、安全和监控的担忧，这些都是传统机器学习中涉及的问题。数据收集往往以消极的方式对弱势群体产生不成比例的影响：数据可能被技术公司和政府用来追踪移民，而监视被用来巩固对亚人群的系统性歧视。因此，RLHF 使得在不严重损害隐私的情况下更容易实现更好的结果。

协调跨文化

RLHF 有潜力帮助协调跨文化观点和实现和平对话。跨文化反馈对于确保技术能够在国内生产之外的环境中部署至关重要。通过征求包含多种观点和文化规范的人类反馈，RLHF 技术可以在狭隘的文化特定环境之外具有文化意识和可用性。即使是轻微的文化意识也可以促进在许多环境中的交流。

教育就是一个很好的例子。减轻与学习反馈互动相关的压力对于支持学生教育至关重要。然而，研究表明，教师和学生之间的跨文化反馈转换会加剧压力，导致学习能力下降，恶化长期教育成果，甚至增加教师的认知负荷。RLHF 可以通过缓和对话或建议适当的跨文化交流方式帮助克服这些困难。

驱动行业发展

RLHF 可以促进开发更多的适应性强的人工智能系统，用于各个行业。RLHF 的潜在应用包括加强资源管理、客户服务、在线教育、老年护理和临床决策支持。RLHF 可以很好地增强与用户之间的信任，以促进各行业的商业成果，并加速技术的采用，以提高效率和经济产出。

同时，RLHF 可能会提高大型技术的优势，并加速实现巨大的人工智能能力。资金充足的研究实验室和大型科技公司取得了显著进展，这些公司可以花费大量资金为 RLHF 算法创建大型数据集。较小的组织无法获得此类资源。一个相关的问题是谁应该有机会使用各组织制作的强大的 RLHF 模型。如果 RLHF 模型是开源的，那么可能很难检查有害应用程序并执行监管。然而，通过闭源模型来限制访问可能会排除对特定群体的访问，从而降低公平性。

同样令人担忧的是将 RLHF 用于武器开发——例如，更好的导弹系统和更致命的无人机。这是大多数人工智能技术的关注点，必须采取全球监管行动来减轻可能的危害。必须指出的是，RLHF 方法仍然容易受到通用机器学习漏洞的影响，如对抗性攻击，这可能会影响其加强行业应用的能力。

转变工作模式

RLHF 将影响不同工作对自动化的敏感程度。尽管 RLHF 的许多应用仍处于起步阶段，但随着更好的模型被有效地使用，RLHF 推动了强化学习技术迅速缩小自动化和低工资工作所需灵活性和移动性之间差距的可能性。这尤其适用于机器人操纵和导航正变得越来越普遍的领域。

即便如此，RLHF 不可能导致工作的完全自动化。重要的是，RLHF 方法可以将繁琐或高风险的体力劳动部分自动化，特别是对于那些危险或人类难以完成的任务。人类可以在这种情况下指导人工智能系统，就如何最好地完成这些任务提供反馈。这可以提高劳动力的安全和动力，但并不完全将人类中移除，而是将人类的专业知识转移到生产的不同领域。

在这种情况下，工作岗位的转移不一定受到地域的限制，如涉及自动化操作离岸的技术，虽然具有成本效益，但可能会带来监管挑战，减少国内工作岗位，并影响透明度。未来更多关于人工智能技术的法规可能会限制这些影响的实现程度。

AI应该在日常生活中扮演什么角色？

「人工智能是在增强人类的决策，为其提供信息，还是取代它？」

RLHF 直接将人类的反馈作为信息来源，从而使人类控制的位置更加清晰，同时增强功能结果。RLHF 使我们能够充分享受到人工智能的能力，并为人类决策提供信息，而不是破坏人类决策。RLHF 的许多积极影响都取决于达成精心设计的人类反馈系统的能力。人类将不可避免地发明新的方法来向机器人和人工智能代理提供有意义的反馈，以及关于人类行为在任何给定点上如何内在地微妙地揭示信息信号的新见解。

人工智能如何提取和理解各种信息来源？在多种形式（如比较、示范、纠正、改进、代理奖赏、惩罚、信用分配、语言指示）的反馈中进行选择？区分有目的和无意义的反馈？随着 RLHF 的发展，这些考虑将变得越来越重要。

归根结底，RLHF 对社会产生积极影响的潜力不容忽视，它的好处依赖于精心设计的反馈系统，我们有必要对 RLHF 的未来进行投资。

参考资料：https://arxiv.org/abs/2303.02891