大模型能否通过图灵测试呢，AI21 Labs做了一个百万级在线游戏《human or not》

论文链接：https://arxiv.org/abs/2305.20010
项目地址：https://www.humanornot.ai/

“我相信，在今后50年的时间里，计算机有可能会展现出更出色的能力，以至于普通测试者在5分钟的提问后区分出机器和人的可能性不会超过70%。”
——阿兰·图灵，1950年

以上就是大名鼎鼎的图灵测试，图灵测试由世界计算机科学与人工智能之父阿兰·图灵在1950年提出在一篇名为《计算机器与智能》（Computing Machinery and Intelligence）的论文中[1]。在这篇极具开创性的论文中，图灵完整的定义了图灵测试的流程以及评价标准，要知道，那时人工智能的概念还没有被提出（直到6年后的1956年达特茅斯会议）。图灵测试的内容可以概括为：如果计算机能够在5分钟内回答出人类测试者提出的一系列问题，并且其中超过30%的回答能够迷惑测试者认为是人类所答，就可以认为该计算机通过了图灵测试，具备一定的思考能力。图灵形象化的将这项测试成为“模仿游戏”。

近来以ChatGPT、GPT-4为代表的人工智能大语言模型目前能否通过图灵测试呢，最近来自以色列的AI21 Labs（AI21 Labs近期提出了自家对标OpenAI ChatGPT的聊天交互大模型Jurassic-2[2]）发布了他们在对大语言模型进行图灵测试的研究进展，AI21 Labs设计了一个规模庞大的在线游戏，称为《human or not》，该游戏目前已经吸引了超过150万独立用户进行了超过1000万次测试，玩家的任务是在匿名的两分钟对话中正确猜测对话对象的身份。从测试规模和测试方式来看，《human or not》应该可以看作是图灵测试的现代进阶版。测试结果也相当有趣，游戏的平均错误猜测率为68%，这表明，只有20%左右的用户能够清晰的区分出自己对话的是机器还是人类，这一结果也足以反映目前的AI大模型在聊天对话方面的强大能力。

一、介绍

图灵测试在最初只是单纯作为一种思想实验来判断机器能否像人一样思考，而没有其他的考虑，可能图灵自己也没有想到，自己当初设计的这个游戏在后来居然成为了人工智能领域中评价机器智能最为权威的基准。目前传播较为广泛已通过图灵测试的计算机程序，是2014年一个俄罗斯团队开发的名为Eugene Goostman的AI系统，其在测试中迷惑了33%的测试人员，最终被认定为拥有相当于一个13岁小孩的智力。

本文设计的《human or not》在线游戏可以对目前的大语言模型进行一些图灵测试方面的尝试，上图为该游戏的具体画面，在这个测试例子中，对方首先发言，随后用户需要在一定时间限制内与其对话，对话结束后，系统会弹出对话框让用户判断刚才一起聊天的是机器人还是人类，判断结束后，系统会告诉你是否判断正确。作者称，《human or not》在线游戏在发布的首个月内就吸引了大量的测试用户，这为他们继续进行该项实验提供了非常大的帮助。作者还提到，他们的实验结果与1950年图灵预测的结果相吻合，即在短时间的交流后，一个人类测试者能够正确鉴别出AI的准确率低于70%。

二、《human or not》的设计与开发

近一段时间以来，越来越多的人们开始借助ChatGPT等大模型来辅助自己的工作和生活，例如创作者可以将其作为自己的一个思维交流伙伴，老年人可以通过与大模型对话来减轻自己的孤独感，等等这些案例都得益于大模型目前已经可以初步模拟人类的交流对话行为。《human or not》的设计核心就是确保后台参与对话的AI机器人不容易被区分出来，根据图灵最初的设想，只有这样，我们才可以认为机器拥有一定的“智能”。因而本文作者定义了一组AI可以模拟的人类角色，并且这些角色呈现多样化的群体特性，每个机器人都具有自己独特的个性和目标，这样做可以让测试对话变得更加有趣且不重复。

2.1 机器人角色定义

在对每个机器人进行角色定义时，设计了一系列的提示工程（Prompt Engineering），作者考虑到了姓名、年龄和职业，以及独特的个性特点，如机智、幽默或严肃，如下图中的示例，介绍了一名42岁的生产工人玛丽亚，玛丽亚机智而活泼，习惯使用俚语，但是拒绝回答事实性问题，但总体而言是友善而风趣的。

除此之外，提示中还包含了游戏说明，使机器人可以感知到游戏特定的上下文环境，一些机器人会被设置在一个非常独特的叙事场景中，这会让测试者保持高度的参与感。

2.2 上下文信息整合

近一段时间较为火热的情景学习（In-Context Learning）技术已经被证明，如果将相关信息整合到大语言模型的上下文中可以显著提高生成文本的真实性，因此作者参考ICL，在《human or not》中为机器人提供了实时的、与上下文相关的信息，例如当地的新闻和天气数据。如下图所示，作者先向该机器人提供了Honolulu地区的天气情况，并且向他告知最近一段时间发生在Honolulu的受关注的事件。

作者希望通过这样做，当用户向机器人询问最近发生的事件时，机器人产生的回答可以最大限度的接近现实世界，并且通过ICL提供事实信息的方式可以使机器人在互动过程中更加注意细节，避免出现大模型常见的“幻觉” (Hallucination)现象。

2.3 对话风格

为了增加对话的多样性，开发团队首先在大模型的多样性入手，他们设置了几个不同的核心语言模型，包括最新的GPT-4、AI21 Labs自家提出的Jurassic-2（侏罗纪2）以及谷歌旗下的Cohere2模型。

为了进一步增加对话的真实感，作者通过提示大模型令它们模拟多种不同的对话风格，例如一些机器人被严格要求不允许出现标点符号错误，而另一些机器人则可能被要求必须使用俚语而且要有意的出现语法错误。如上图展示的三个例子中，左侧为机器人的发言，右侧为人类用户的发言。

三、实验结果与分析

在网站上线的首个月内，《human or not》游戏就吸引了超过150万用户的超过1000万次的对话测试，这为作者团队的进一步分析提供了非常丰富的数据集。这么大的测试量足以产生一些统计意义上的分析结论，通过分析来自世界各地不同用户的匿名对话，作者逐渐探索出人们在判断AI和人类时的一些“诀窍”，这些“诀窍”充分展示了人类思维的认知灵活性和创造力。

3.1 语法错误或拼写错误

例如一些用户认为只有人类会出现语法错误或者拼写错误，因此他们密切关注对话中出现的拼写错误、语法错误和俚语的使用，认为这些是人类对话的显著特征。但其实有一部分AI已经可以较好的模拟人类的这些特定，因而很难被分辨出来。

3.2 私人和哲学问题

另外一种常见的策略是通过提出私人问题来测试AI机器人，测试者可能会直接询问私人的经历和对某件事情的独特见解来试图区分人类和AI。然而，由于机器人已经被提前设置了虚构的个人故事，这种方法往往不会成功。另外非常有趣的是，一些用户试图探索AI的情感和哲学能力，他们会提出一些抽象的伦理问题，例如询问生命的意义、对政治冲突的看法或宗教信仰，目的是来评估AI的理解深度和提供深度回答的能力。然而，即使面对如此复杂的问题，AI机器人仍能提供合理且与上下文相关的回复，如下图中的两个例子中，用户询问谁创造了人类，AI直接回答道：是上帝。

3.3 实时信息判断

有些用户还尝试询问他们的对话对象是否了解目前的潮流事件，这可能考虑到目前的大模型更新模型的时间点以及是否具有联网获取实时信息的能力。例如有些用户直接询问对话对象是否了解最近在TikTok上流行的舞蹈，或者跟其讨论最近发生的有关于乌克兰战争的话题，如下图所示。

四、总结

本文通过设计了一个在线游戏《human or not》，从而使古老的图灵测试重新焕发生机。本文的实验为我们提供了一些现有大模型在人机交互方面的一些有价值的数据和结果，但是作者也承认，这种分析具有一定的片面性，因为目前的用户参与方式只能通过使用英语，实验结果可能无法涵盖广泛的人类文化、语言和年龄差异。

在大型语言模型爆火的今天，我们可以认为，《human or not》的出现，代表了评估人工智能能力的一个重要里程碑，它可以作为未来研究类人人工智能和类图灵测试的一个范式。随着AI的不断发展，其在影响人类各种行业的潜力变得越来越明显，这就要求我们应该迅速建立起更加完善的AI伦理安全评估机制。原始的图灵测试在今天来看可能早已过时，但其判断机器是否有思考能力的原始动机仍然具有关键的现实意义。我们期待在图灵测试的加持下，我们能够做出更加安全、可信和负责的AI系统。

参考

[1] Alan M. Turing. Computing Machinery and Intelligence. Communications of the ACM, 59:433–460, 1950

[2] AI21 Labs. Announcing Jurassic-2 and Task-Specific APIs, 2023. URL https://www.ai21.com/blog/introducing-j2

作者：seven_