在上周刚刚结束的 2023 全球人工智能开发者先锋大会(GAIDC)上,作者有幸亲身参与大模型技术与应用分论坛,并在现场聆听了来自业界和学界一众大佬的精彩讲座。
在会上,毫无疑问地大家所聚焦的核心还是 ChatGPT 相关的技术和应用,在这里我借用当时发表讲座的邱锡鹏教授的一个观点,来引出本文的主题。
邱老师认为,当前 ChatGPT 拥有了三大能力,分别是强大的情景学习能力(In-Context Learning)、思维链能力(Chain-of-Thought,CoT)和自然指令学习能力(Instructions)。
对于业界较为关心的“ ChatGPT 输出结果中的事实性错误”的问题,邱老师将模型随机生成的结果比作人类的随口一说。
对于随口一说的回答,要么作为提问者无需太过在意,要么提问者可以要求回答者用心再答一遍。
可以说在现阶段,人们表现出对模型生成内容中错误的极大包容,大家更关心的是人机交互方式的改变。
过去刻板印象中傻大笨粗的机器人一夜之间被一个常常为我们带来惊喜(或惊吓)的 Chat 所取代,对于剩下的那些小问题当然就算是“瑕不掩瑜”嘛!
可是总有人并不完全这么看。“瑕疵”真的可以被随意放过吗?
概率论难以支撑通用人工智能技术的诞生。—— Yann LeCun
作为 META 首席人工智能科学家、图灵奖获得者、“人工智能三教父之一”,杨立昆(Yann LeCun)对人工智能技术的前期极度乐观,但是对于当前 AI 的能力表示非常悲观。
当前 AI 的“智能”甚至比不上一只猫的思维。
虽然 ChatGPT 在这段时间里带来了巨大的社会效应,但其实它背后的技术并不算是革命性地,甚至都不算是一种创新。
在这篇论文 Augmented Language Models: a Survey [1](后简称为“调查”)中,杨立昆教授团队提出了他设想中的迈向通用人工智能的一个优质解——增强语言模型(Augmented Language Models,ALM)。
作者个人认为,增强语言模型 ALM 的提出旨在兼顾当前 ChatGPT 强于意图理解、强于文本生成优点的同时,也解决了它最大的产品落地痛点:事实性错误通过外部信息进行补全。
在这里我们首先先定义一下什么是增强语言模型 ALM:
- ALM 作为一个语言模型,具备和外部数据交互和多轮推理的能力,模型所需要的所有信息不再是完全存在于模型参数中;
- 推理:ALM 在推理过程中将复杂任务分解为多个简单任务,然后通过模型或工具进行解决;
- 工具:ALM 的输出中会包含特定的 token,通过它激活调用规则和接口的行为;
- 行为:ALM 的工具会对世界进行影响,包含虚拟空间和现实空间。
也就是说,咱和那个靠不住的 ChatGPT 不一样,ALM 设计出来可是为了更好地改造世界的!
学界已经意识到了当前的大语言模型(LLM)的一些基本缺陷:
例如常看到有人在社交媒体上吐槽,当年期望 AI 能够帮我们工作、处理家务,而人类只需要从事创作类职业,而现在的事实上是反了过来;
例如只有一个参数模型进行处理势必会导致在任务细节上无法兼顾过多;
又例如纵使训练数据已经到达海量级别,相对于几乎是无限的应用场景来说,要么大模型的复用成本太高,要么无法获得较好的效果。
因此一个自然而然的想法就是,我们需要一个模型能够随时补充请求相关的外部数据,或是能够自动调用一些已有的可靠接口进行推理服务。
LaMDA 模型[2]就是一个成功的 ALM 样例。作为一个基于 transformer 结构的对话大模型,拥有 137B 个参数的它不但在 1.56T 的公共对话数据上进行了微调,同时还能够自己调用计算器、翻译和信息检索工具,并且引入了一套严格的评价指标,在一定程度上彻底杜绝错误和似是而非的生成结果。
如下图,你可以试图向它询问当前的股票价格,它会帮你进行检索并返回。
但是与此同时他也不是全能百分百完全正确的一个机器助手,例如在下图的对话中 LaMDA 顺利回答了前四个问题,在第五轮中依旧回答错误。
此外 WebGPT[3] 也是一个非常典型的 ALM 样例。早在 2022 年 1 月,这篇论文就使用了人类反馈训练奖励模型优化模型质量的强化学习技术,同时允许了模型进行上网搜索。
通过预先设定文本命令的方式,WebGPT 模型可以执行包括但不限于搜索网页、引用文献、返回并输出文本等操作。(命令详情和demo展示请 见下图)
也许有的同学会觉得,当一个模型的输出不完全是自然语言,而是参杂了一些特殊字符之后,那么这还算是一个标准的语言模型吗?杨立昆教授的团队在最后的结论部分提到,ALM 的输入即使包含了一些特殊 token,但是它仍旧算是一个语言模型。虽然我们希望所有信息都能存储在模型的参数中,减少系统的复杂性,但是目前我们认为这样的模式顶多只是在概率论意义上拟合了一个分布,并非具备了真正的智能。为了体现模型输出的准确性,我们需要一个非参数的架构来存储更多的信息。或许 ALM 就是一条通往通用人工智能的道路,因为它具有以下的特点:
- 真实性(Truthfulness)
- 减少不确定性(Reducing uncertainty)
- 可解释性(Interpretability)
- 增强能力(Enhance capabilities)
其实对于通用人工智能的要求可能不同人也有各自不同的看法。有的人觉得还是必须将 AI 看作工具(AI as agent),它必须代表更先进的生产力,为此标准化、精细化和智能化就是最优先的需求。还有的人随着 ChatGPT 的成功觉得应该允许 AI 在一些产品中像人类一样天马行空(AI as human),因此意图理解和内容生成的能力反倒成了重点。这其中其实伴随着非常多的人工智能伦理问题,但是受限于本文篇幅原因暂时按下不表。无论如何,最终我们总归希望通用人工智能能够真正具备一般意义上的认知能力、推理能力和创作能力。而作为语言模型来说,输出的文本就是模型隐含思想的一种直观体现。
我们在这篇调查中可以看到,这些我们熟悉的 ChatGPT 所使用的“尖端技术”早在 2022 年之前就有许多团队提出并使用了,甚至同样是采用了对话的形式进行演示。因此我们确实应该承认,ChatGPT 的技术的确并不算是最创新的,但作为一个 AI 产品这绝对是最炒作 HYPE 最大的一波。
但是不论是 ALM 还是 ChatGPT,作为语言模型我们最终的目的都是生成一个优质的内容。
参考文献
[1] Augmented Language Models: a Survey, https://arxiv.org/abs/2302.07842
[2] LaMDA: Language Models for Dialog Applications, https://arxiv.org/abs/2201.08239
[3] WebGPT: Browser-assisted question-answering with human feedback, https://arxiv.org/abs/2112.09332