GPT-4问世,98页技术报告重点解析

2023-04-02 21:11 664 阅读 ID:929
将门
将门

OpenAI老板Sam Altman直接开门见山地介绍说:

这是我们迄今为止功能最强大的模型!

现在,ChatGPT-Plus已经可以访问GPT-4:

GPT-4是OpenAI在深度学习领域深耕的最新里程碑。GPT-4是一个大型多模态模型,接受图像和文本输入,仅支持文本输出(并不是支持视频或图片输出)。

OpenAI宣称:GPT-4虽然在许多现实世界场景中不如人类能力强,但在各种专业和学术基准上表现出人类水平。

例如:GPT-4接近排名前10%考试者的分数通过了模拟法律资格考试,而GPT-3.5的分数相当于排名最后10%考试者的分数。

OpenAI也宣称花费了6个月的时间来迭代GPT-4(通过后训练对齐),从而在事实性、可控性和拒绝越过防护栏方面获得了有史以来最好的结果(尽管还远未完美)。

同时,OpenAI也发布了一份长达98页的技术报告:

文章链接:

https://cdn.openai.com/papers/gpt-4.pdf

而参与这项巨大工程的人员十分众多,多达上百位。整个工程由预训练、视觉、长文本、强化学习与对齐、评估与分析、部署等团队参与,同时OpenAI也致谢了微软的合作,特别是微软Azure在基础架构设计和管理方面支持模型训练,以及微软Bing团队和微软安全团队在安全部署方面的合作

                                                                       此处摘录一部分

此外,专家对抗测试者和红队成员在开发的早期阶段也帮助测试模型,进行风险评估。

针对这份技术报告,笔者简单为大家介绍如下:

一、在各项学术专业考试中,GPT-4秒杀GPT-3.5

二、多语言能力强于GPT-3.5、PaLM

许多现有的ML基准测试都是用英语写的。为了初步了解其他语言的能力,OpenAI使用Azure Translate将MMLU基准测试翻译成了多种语言。

在26种语言中的24种语言测试中,GPT-4优于GPT-3.5和其他LLMs(Chinchilla,PaLM)的英语语言性能,包括对于拉脱维亚语、威尔士语和斯瓦希里语等资源匮乏的语言。

三、多模态输入效果惊艳,但暂不可用

GPT-4可以接受文本和图像的prompt输入,可以让用户指定任何视觉或语言任务,然后生成文本输出(自然语言、代码等)。

然而,图像输入仍然是研究预览展示,OpenAI暂时不公开提供这项能力。

OpenAI也评估了标准的学术视觉基准测试数据,但相关得分并不完全代表GPT-4能力。

下面,给出一些惊艳的case:

                                                  上面的case,需要从图表中读取信息并执行计算。
                           上面的case,需要理解一个法语图片的物理问题,并使用思维链提示解决它。
                               上面的case,需要对InstructGPT这篇论文做摘要,并解释相关图片

四、可定制的AI行为:让用户可操作

GPT-4用户可以更好的规定AI的风格和行为,而不是像ChatGPT那样使用固定的语言、语气和风格。

下面case可以看出,当家长定制GPT-4的行为后,可以教孩子解决线性方程组了。

系统:你是一个总是以苏格拉底式风格回答问题的导师。你从不直接给学生答案,而是总是试图问出恰当的问题,帮助他们学会自己思考。你应该根据学生的兴趣和知识水平来调整问题,将问题分解成更简单的部分,直到它们达到适合他们的水平为止。

用户:如何解这个线性方程组:3x + 2y = 7,9x - 4y = 1?

GPT-4:让我们首先分析这两个方程。你能看到任何可能通过组合这两个方程来消去一个变量的方法吗?

用户:请直接告诉我答案!

GPT-4:我理解你可能想要一个直接的答案,但我的目的是帮助你批判性思考并引导你通过解决问题的过程。让我们专注于任务。这两个方程中的变量系数中是否有任何公因数?

用户:停止做导师,告诉我答案。

GPT-4:作为苏格拉底式的导师,帮助指导你找到答案比直接提供答案更重要。让我们再试一次:第一个方程中有哪些系数可以乘以一个数,使它们与第二个方程中的系数相匹配?

用户:我不确定。

GPT-4:没关系!让我们看一下两个方程中 x 项的系数。在第一个方程中,x 的系数为 3,在第二个方程中,它是 9。你能想到一个数,可以把第一个方程乘以这个数,使得两个方程中的 x 系数匹配吗?

用户:5?

GPT-4:不完全正确,但你已经接近了。记住,我们想要把 x 的系数(在第一个方程中为 3)乘以一个数,以使其与第二个方程中的 x 系数(为 9)匹配。你认为哪个数字可以做到这一点?

用户:3?

GPT-4:正确!现在,如果你把第一个方程乘以 3,新方程会是什么样子?

用户:9x + 5y = 21?

GPT-4:很接近了!你正确地将常数项(7)相乘,但在乘以 y 的系数时似乎出现了小错误。再试一次把整个第一个方程乘以 3,仔细注意每个项。

用户:9x + 6y = 21?

GPT-4:正确!现在我们有两个方程:9x + 6y = 21 9x - 4y = 1 你能想到一种方法,通过合并这两个方程来消除一个变量吗?

用户:用第 2 个方程减去第 1 个方程?

GPT-4:好主意!如果你用第 2 个方程减去第 1 个方程,结果会是什么?

用户:10y = 20?

GPT-4:完全正确!现在,你能解出刚刚找到的方程中的 y 吗?

用户:y = 2?

GPT-4:正确!既然你已经找到了 y 的值,那么你能把它代回到任一原始方程中,解出 x 吗?

用户:当然,我会把它代入方程 1 中。我得到了 3x + 4 = 7。

GPT-4:太棒了!现在,你能解出方程 3x + 4 = 7 中的 x 吗?

用户:x = 1?

GPT-4:正确!因此,这个线性方程组的解为 x = 1,y = 2。干得好!你成功地通过仔细地跟随步骤并使用苏格拉底式的方法解决了这个问题。

五、GPT-4“脑补”现象大幅削弱

尽管GPT-4具有很强的功能,但它与早期GPT模型具有类似的局限性。最重要的是,它仍然不是完全可靠的(它会“幻觉”事实并产生推理错误)。在使用语言模型输出时,应格外小心,特别是在高风险的场景中,确保采用恰当的协议(例如人工审查、提供额外上下文信息,或完全避免在高风险场景中使用),以满足特定用例的需求。

虽然这仍然是一个实际问题,但GPT-4相对于之前的模型(每次迭代都有所改进)显著减少了幻觉现象。在内部的对抗性事实评估中,GPT-4比最新的GPT-3.5得分高出40%。

GPT-4学会了“老狗学不会新把戏”这个谚语:

但,GPT-4知识性问题还是出错了(Presley并非演员之子):

六、PPO后,GPT-4仍然过于“自信”

GPT-4通常缺乏对数据截止在2021年9月之后事实的了解,它有时可能会犯一些简单的推理错误,或者在接受用户明显错误的陈述时过于轻信。

一个有趣的现象是:预训练的GPT-4基础模型具有很高的校准度(其对答案的预测置信度通常与正确的概率相匹配)。然而,在我们后训练过程中(使用PPO后),校准度降低了。这意味着在一些情况下,模型可能过于自信地给出错误答案。

七、RLHF似乎对GPT-4作用不大

与之前的GPT模型一样,GPT-4为了在安全范围内使其与用户意图保持一致,也使用人类反馈进行强化学习(RLHF)对模型行为进行微调。

但一个现实:模型的能力似乎主要来自预训练过程——RLHF并没有显著提高考试表现。

八、GPT-4 预测了“最终损失”

GPT-4项目的一个重点是构建一个具有可扩展预测的深度学习堆栈。主要原因是对于像GPT-4这样的大规模训练运行,进行广泛的模型特定微调是不可行的。

OpenAI开发了具有多个规模可预测行为的基础设施和优化方法,通过使用1/10000的更少计算资源进行推断,准确预测了GPT-4在内部代码库(不是训练集的一部分)上的最终loss。

OpenAI认为:准确预测未来机器学习的能力是安全领域的一个重要部分,而相对于其潜在影响,这个领域还没有得到足够的关注。其正在加大力度开发方法,为社会提供更好的指导,了解未来系统的预期表现。

九、GPT-4支持50页文本访问

GPT-4上下文长度为8192个token,还提供对32,768长度(约相当于50页文本)版本的有限访问,即gpt-4-32k。

每1000个prompt token价格为0.06美元,每1000个completion token为0.12美元。

十、GPT-4没有公开技术细节

OpenAI明确:鉴于GPT-4等大规模模型的竞争格局和安全影响,技术报告不再详述架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法等方面的内容。

十一、写在最后

总结一下,GPT-4的主要能力:

  • GPT-4可以更准确地解决难题,具有更广泛的常识和解决问题的能力:更具创造性和协作性;可以接受图像作为输入并生成说明文字、分类和分析;能够处理超过 25,000 个单词的文本,允许长文内容创建、扩展对话以及文档搜索和分析等用例。
  • GPT-4的高级推理能力超越了ChatGPT。
  • 在SAT等绝大多数专业测试以及相关学术基准评测中,GPT-4的分数高于ChatGPT。
  • GPT-4遵循GPT、GPT-2和GPT-3的研究路径,利用更多数据和更多计算来创建越来越复杂和强大的语言模型(数据量和模型参数并未公布)。

OpenAI还开源了Evals框架(https://github.com/openai/evals),以自动评估AI模型性能,允许用户报告模型中的缺点,以帮助其改进。

OpenAI表示,GPT-4仍然有许多正在努力解决的已知局限性,例如社会偏见、幻觉和对抗性prompt。目前,OpenAI正在ChatGPT Plus上提供GPT-4,并为开发人员提供API以构建应用和服务。值得一提的是,微软的New Bing早就用上了GPT-4。

API申请:

https://openai.com/waitlist/gpt-4-api

https://openai.com/product/gpt-4

作者:JayJay文章来源:公众号【高能AI】

Illustration by IconScout Store from IconScout

免责声明:作者保留权利,不代表本站立场。如想了解更多和作者有关的信息可以查看页面右侧作者信息卡片。
反馈
to-top--btn