复旦肖仰华团队推出最全语言模型领域知识评估Benchmark——獬豸:包含了516门学科、13学科门类、240w条数据

2023-07-22 16:10 507 阅读 ID:1265
将门
将门

论文链接:https://arxiv.org/abs/2306.05783
代码链接:https://github.com/MikeGu721/XiezhiBenchmark

复旦大学肖仰华团队——獬豸(Xiezhi)是一套针对语言模型(LM)的领域评估Benchmark。它由249587道多选题组成,涉及516个不同的学科和三个不同的学科粒度。学科分类和所有的一级学科如下图所示,括号内表示的是每个一级学科下二级学科的个数。

Xiezhi 评估套件覆盖了13个学科门类,118个一级学科和385个二级学科。学科的分类来源于中国教育部公布的所有学科门类。题目来源于中国的小学考试题、中考、高考、大学生考试题、考研、成人教育。

一、Benchmark介绍

Xiezhi是一个综合的、多学科的、能够自动更新的领域知识评估Benchmark。Xiezhi包含了哲学、经济学、法学、教育学、文学、历史学、自然科学、工学、农学、医学、军事学、管理学、艺术学这13个学科门类,24万道学科题目,516个具体学科,249587道题目。这 516 个学科以及分类方式源自中国教育部颁布的学科分类法。作者从中国研究生入学考试中手动选择并注释了 20,000 道多选题,涵盖了这 516 个标签,以形成Xiezhi-Meta数据集。Xiezhi-Meta被用来训练一个能够计算题目和学科标签之间相关性的标注模型。作者们随后收集了来自不同考试的 150,000 个多项选择题,以及来自学术Survey的 70,000 个多项选择题,并使用标注模型对所有这些问题进行了注释。

为了方便进行实验,并能够有效地评估LLM对于跨学科知识的处理能力,作者们提出了Xiezhi-Specialty和Xiezhi-Interdiscipline,这两个数据集都提供了中英文的版本,并由 15,000 个更平衡、更不敏感、更不以中国为中心的多选题组成。 Xiezhi-Specialty 包含可以使用单一领域的知识解决的问题,而 Xiezhi-Interdiscipline 包含需要来自多个领域的知识才能解决的问题。

二、实验模型

本文覆盖的实验对象包括了45个开源模型,和2个非开源模型,所有模型的具体信息如下图所示:

                                                              表1:Xiezhi所有评估的模型

三、选项设置

所有被测试的LLM都需要从50个选项中选择最适合的答案。每道题除了正确答案外,还设置了3个易混淆的选项,另外还设置46个完全无关的选项,这些选项是从獬豸的所有题目的所有选项中随机抽取的。值得注意的是,如果研究者们希望进一步提升选项难度,可以使用WordNet、开源同义词库或其他构词方法来生成更多具有混淆性的选项。然而,作者的实验表明,虽然作者用了那么多完全无关的选项,但LLM的性能都会随着选项数量的增加而剧烈下降。考虑到作者的实验中包含了很多能力差距很大的模型,所以作者认为这一设定合理且已经达到了他们希望通过metric显著体现LLM之间的性能差距的目标。

四、衡量标准

对于评估的45个开源模型,作者利用了每个模型生成特定答案的概率来计算每个模型选择每个选项的概率,然后根据概率对所有选项进行相应的排名。因为担心被其他公司投诉,Xiezhi的制作者们只展示了两个公开认可的非开源的LLM结果:ChatGPT和GPT-4,作者们通过指令要求这俩模型对所有选项进行排序。最后,作者们使用了MRR作为衡量标准,它计算出正确答案平均会被模型排在什么位置。MRR值接近1则表示模型更有能力将正确答案放在排名的前面;而如果MRR值接近0,则模型倾向于将正确答案放在最后。

五、 实验结果

本篇论文有两个主要的实验结果。第一个是作者们为了验证他们的实验设定,以及为了充分评估目前市面上大多数的开源模型,所以把一些最近推出的知识性评估Benchmark也拿来进行了实验,实验结论如下:

表2:该表列出了所有语言模型的综合性能,所有的被测试模型都按照模型的特征进行分组,并用hline进行分割。粗体表示一组内表现最好的结果,下划线字体表示同一数据集在相同设置下所有模型中的最好结果。

除此之外,因为Xiezhi数据集覆盖了13个学科领域,除去了“军事”这个比较敏感的领域之外,他们给所有模型在所有学科领域上进行了排名,具体排名如下:

表3:在 0-shot 设置中每个类别中所有 LLM 的排名, ✓ 表示人类的表现超过了最先进的 LLM,而 ✗ 表示人类的表现已经被 LLM 所超越。

六、一些有意思的现象

Observation 1: Best Performance = Pretraining + Finetuning

观察表2中列出的总体结果,可以发现所有排名前十的开源LLM都是基于llama或bloom之上的。这表明,通过这两个基础模型是最有可能获得最优性能的,因为它们在领域文本理解方面具有巨大的潜力和卓越的性能。

此外,作者注意到,在表3中,所有总体性能排名前十的开源模型都是经过微调的模型,这意味着只有经过微调的LLM才能达到最高性能。因此,有效的预训练和微调过程都是在领域文本理解中获得最佳性能的关键因素。

Observation 2: 大多数LLM无法从演示中进行稳定的少量学习。

如表2中的 “Performance-Average”所示,就平均性能而言,few-shot learning能够增加LLM的performance。但就每个模型具体来看,每个具体的LLM的performance并没有随着few-shot样本数的增强而获得更好的表现。相反,随着学习实例数量的扩大,一些LLM的性能反而下降。相比之下,GPT-4和ChatGPT通过在few-shot learning表现出了非常稳定的性能提升。符尧之前的研究认为大模型牺牲了部分In-context Learning的能力来换取了对话能力[1],作者认为这个现象在非openAI的其他模型上尤为严重。这可以归因于GPT-4和ChatGPT所拥有的广泛的领域知识,使它们能够有效地理解嵌入在学习样本中的特征;也可能单纯地归因于OpenAI的模型的参数量大于现在市面上的开源模型。

Observation 3: 更多的LLMs参数并不一定保证更好的模型性能。

通常大家都认为,参数量越大的模型效果会越好,当比较两个参数上具有数量级差异的模型时,这个观念是对。例如,拥有1460亿个参数的Bloomz-mt明显优于拥有5.6亿个参数的Bloomz-560m。

但当两个模型的参数量并没有如此明显的差异时,上述观念则很可能不对。例如在表2中,Bloomz-7b1在大多数领域任务中超过了Bloomz-p3,而Pythia-1.4b在大多数基准中超过了参数数较大的其他所有Pythia模型。对这一现象的可能解释是,具有不同参数数量的LLM最适合于不同数量的预训练和微调数据,所以模型的最优效果很可能不是来源于参数量最大的模型[2]。

Observation 4: 小型LM增强了领域能力,而牺牲了通用能力。

在作者的实验中,他们考察了两个医学LLMs:DoctorGLM和Baize-Healthcare。DoctorGLM源于ChatGLM-6B,Baize-Healthcare源于Llama-7B,两个模型都使用医学领域文本进行了微调。尽管这两个模型与其他基于相同基础模型进行微调的LLM相比,MRR值都比较低,但它们在医疗领域都表现出了较强的性能。这表明,至少是针对较少参数量的LLMs,想要增强其在某一方面的领域能力,必然会牺牲其他方面的性能。这和符尧之前的研究结果是一致的[3]。

参考

[1] Fu Y, Peng H, Khot T. How does gpt obtain its ability? tracing emergent abilities of language models to their sources[J]. Yao Fu’s Notion, 2022.

[2]Hoffmann J, Borgeaud S, Mensch A, et al. An empirical analysis of compute-optimal large language model training[J]. Advances in Neural Information Processing Systems, 2022, 35: 30016-30030.

[3]Fu Y, Peng H, Ou L, et al. Specializing Smaller Language Models towards Multi-Step Reasoning[J]. arXiv preprint arXiv:2301.12726, 2023.

作者:顾洲洪

来源:https://zhuanlan.zhihu.com/p/637025186

免责声明:作者保留权利,不代表本站立场。如想了解更多和作者有关的信息可以查看页面右侧作者信息卡片。
反馈
to-top--btn