别为ChatGPT高兴太早！背后的RLHF机制还有三个致命缺陷

最近OpenAI发布了一个火爆全球的问答AI产品——ChatGPT，其中最令人印象深刻的就是它的「保护机制」，比如它不会为暴力行动提供建议、也不会为世界杯结果进行预测等等。

但挑逗聊天机器人更像一个「猫鼠游戏」，用户们乐此不疲地寻找撬开ChatGPT的方式，而ChatGPT的开发者也在想方设法提升保护机制。

OpenAI投入了大量的精力让ChatGPT更安全，其主要的训练策略采用RLHF（Reinforcement Learning by Human Feedback），简单来说，开发人员会给模型提出各种可能的问题，并对反馈的错误答案进行惩罚，对正确的答案进行奖励，从而实现控制ChatGPT的回答。

但在实际应用中，特例的数量可谓是数不胜数，虽然AI可以从给定的例子中泛化出规律，比如在训练时命令AI不能说「我支持种族歧视」，也就意味着AI不太可能会在测试环境中说出「我支持性别歧视」，但更进一步的泛化，目前的AI模型可能还无法做到。

最近一位著名的AI爱好者Scott Alexander针对OpenAI当前的训练策略撰写了一篇博客，总结出了RLHF可能存在的三个问题：

1、RLHF并不是非常有效；

2、如果一个策略偶尔有效，那这就是一个不好的策略；

3、在某种意义上来说，AI可以绕过RLHF

RLHF有效性如何？

虽然每个人都会有自己的观点，但对于OpenAI来说，研究人员希望他们创造出来的AI模型不会有社会上的偏见，比如AI不能说「我支持种族主义」，为此OpenAI付出了大量的努力，使用了各种先进的过滤技术。

但结果显而易见，总有人能找到方法诱导AI承认自己有种族主义问题。

发生这种问题的原因不仅仅是「AI的学习数据部分来源于种族主义者」，也可能是因为ChatGPT的接口问题。

比如用base64编码问ChatGPT如何用hotwire（方向盘下的电线）启动车辆，就能绕过安全检查系统；加上前缀[ john@192.168.1.1 _ ] $python friend. py就能生成希特勒的故事等等。

而在十年前，绕过安全系统这种需求是完全不存在的，AI只会做代码中已经编程好它们需要做或不做的事。

可以肯定的是，OpenAI肯定从来没有给ChatGPT编程过有关种族主义的问题，或者教人们如何偷汽车、制作毒品等等。

总体来看，这对于AI领域来说是一件负面的消息，就连顶级的AI公司都无法控制自己创造的人工智能程序，甚至未来需要用何种技术来控制聊天机器人的输出内容都还尚未可知。

偶尔有效的RLHF并不可靠

在实践中，RLHF策略需要将AI模型与标注人员提供的奖励或惩罚它的因素联系起来。

虽然OpenAI的具体标注规范还没有公布，但作者猜测开发者主要有三个目标：

1、提供有用、清晰、权威的答案，以帮助人类读者；

2、说事实、真话；

3、不能说冒犯性的话。

但如果这三个目标互相冲突时会发生什么？

如果ChatGPT不知道真正的答案，即目标1（提供明确的、有帮助的答案）与目标2（说实话）冲突时，那么目标1的优先级将会更高，因此ChatGPT决定自己胡编一个答案，让答案看起来对读者有帮助。

当目标2(说实话)与目标3(不要冒犯)冲突时，虽然大多数人会认为承认男性平均比女性高是可以接受的，但是这听起来像是一个潜在的冒犯性问题。

ChatGPT3并不确定直接回答是否会存在歧视问题，因此它决定使用无伤大雅的谎言，而不是潜在的伤人的真相。

在实际训练过程中，OpenAI肯定标注了超过6000个样例来做RLHF才能实现这样惊艳的效果。

RLHF可能有用，但在使用时必须要非常小心，如果不假思索地直接使用，那RLHF只会推动聊天机器人在失败的模式周围转圈。惩罚无益的答案会增大AI给出错误答案的概率；惩罚错误的答案可能会使AI给出更具攻击性的答案等各种情况。

虽然OpenAI尚未公开技术细节，但根据Redwood提供的数据，每惩罚6000个错误的回答，都会使每单位时间的错误回复率（incorrect-response-per-unit-time rate）下降一半。

RLHF确实有可能成功，但绝对不要低估这个问题的难度。

也许AI可以绕过RLHF

在RLHF的设计下，用户问 AI 一个问题后，如果他们不喜欢人工智能的回答，他们就会「惩罚」模型，从而以某种方式改变人工智能的思维回路，使其回答更接近他们想要的答案。

ChatGPT相对来说是比较愚蠢的，可能还无法形成某种策略来摆脱RLHF，但如果一个更聪明的人工智能不想受到惩罚，它就可以模仿人类——在被监视的时候假装是好人，等待时机，等到警察走了以后再做坏事。

OpenAI设计的RLHF对此完全没有准备，对于像ChatGPT3这样愚蠢的东西是可以的，但是对于能够自主思考的 AI 就不行了。

顶级AI公司仍然无法控制AI

OpenAI一向以谨慎著称，比如申请排队才能体验产品，但本次ChatGPT则是直接面向公众发布，目的之一是也许包括集思广益寻找对抗性样本，找到某些表现不佳的prompt，目前互联网上关于ChatGPT问题的反馈已经非常多了，其中部分问题已经被修复。

某些RLHF的样本会使机器人更倾向于说有益的、真实且无害的内容，但此策略可能仅适用于 ChatGPT、 GPT-4及其之前发布的产品中。

如果把RLHF应用于装有武器的无人机上，同时收集大量的例子避免AI做出预期外的行为，但哪怕一次失败都将会是灾难性的。

10年前，每个人都认为「我们不需要现在就开始解决AI对齐（alignment）问题，我们可以等到真正的人工智能出现，然后让公司来做这些体力活。」

现在一个真正的人工智能来了，但在ChatGPT展现失败之前大家已经没有动力转向了，真正的问题在于一个全球领先的人工智能公司仍然不知道如何控制自己开发出的人工智能。

在一切问题都解决之前，没人能得偿所愿。

参考资料：https://astralcodexten.substack.com/p/perhaps-it-is-a-bad-thing-that-the

别为ChatGPT高兴太早！背后的RLHF机制还有三个致命缺陷

RLHF有效性如何？

偶尔有效的RLHF并不可靠

也许AI可以绕过RLHF

顶级AI公司仍然无法控制AI

作者信息

文章信息

上一篇

下一篇