ACL 2023 | LLM难以理解时间变迁?达摩院联合NUS提出时间推理数据集以及时间强化的训练范式

2023-08-26 12:28 775 阅读 ID:1369
将门
将门

本文中, 作者发现了 LLM 在时间理解上存在严重的偏差,于是提出了一个全面的时间问答的评测数据集 TempReason,该数据集包含三个层级的时间推理和广泛的时间跨度。此外,作者还提出了一个提高 LLM 时间推理能力的训练框架TempT5并做了大量实验。实验结果表明,在时间推理方面TempT5 模型相对于 T5-SFT 有明显的提升。

论文链接:

https://aclanthology.org/2023.acl-long.828.pdf

代码链接:

https://github.com/DAMO-NLP-SG/TempReason

一、任务背景

时间敏感问答任务(Time-sensitive QA)是针对于事实变化的一种复杂问答形式。在真实场景下,大部分的事实都限定于其对应的时间范围。例如,运动员可以效力于不同的球队,各国的首脑有相应的任期等等。鉴于此,时间是事实正确性的重要维度。

然而在 NLP 领域中,对于时间敏感问答的研究以及数据集还相对较少。其中 UCSB 提出了 TSQA 数据集 [1],DeepMind 提出了 StreamingQA 数据集 [2],Google 提出了 TempLAMA 数据集 [3]。然而这些数据集往往局限于相对较短的时间(约 2007-2020),或者局限于”时间-事件”类型的推理,后文中会详细讨论之前工作的局限性。

                                                               图1 三种基于时间推理的类别

人类对于时间的理解可以简单区分为三个层级,第一个层级(L1)为“时间-时间”类型的推理,这一类理解可以表示为判断时间 t1 与 t2 的关系,间隔等。人类可以仅从一个时间轴来推导这一类型的问题。

第二个层级(L2)为“时间-事件”的推理,在本文中事件概念包含了具有时效性的知识。这一个层级的问题例如“梅西在 2020 年效力于哪一支球队?”。

第三个层级(L3)为“事件-事件”的时间推理,例如“在离开巴塞罗那后,梅西效力于哪一支球队?”,这一类型的问题需要将多个时间以及其对应的时间进行比较推理才能得出答案。

我们首先进行了一个初步的探索实验,我们首先构造了一个最简单基于年粒度的 L1 问题集,其问题的形式为“x 年之后(或之前)y 年是哪一年?”,其中 x 为 1900-2020 年中的任意一年,y 为 1-10 之间的整数,正确的年份答案均为数字形式表示。

我们在这个任务上测试了 3 个语言模型的 zero-shot 表现。1.T5-L-NQ,这一模型是由 T5-L 在 NaturalQuestion 数据集上微调过后所得。2. FLAN-T5-L,这一模型是由 Google 推出的进行过指令微调的模型。3. ChatGPT。

                                表1 年粒度时间推理的表现(左T5-L-NQ, 中FLAN-T5-L, 右ChatGPT)

我们发现 ChatGPT 在年粒度的运算上已经表现得很好了,在各个时间段都取得了接近 100 的准确度。而 T5-L-NQ 和 FLAN-T5-L 均表现出了对于时间推理上的严重偏差。在相同数量级的计算下,这两个模型在 2000-2020 的表现要明显优于其他的所有时间段。而由于之前的工作 [2,3] 中的问题主要集中在这一时间段,它们对于语言模型的时间推理能力的评估作用相对有限。鉴于此,我们首先提出 TempReason 数据集,其包含三个层级的时间推理,并且包含广泛的时间跨度。

二、TempReason数据介绍

我们首先基于 Wikidata 知识库构造了 TempReason 数据集。该数据集包含三个层级的时间推理和广泛的时间跨度,以便于我们全面地评测语言模型的时间推理能力(具体的数据构造过程请见原文)。与前文不同,L1 的问题主要侧重于月粒度的时间推理能力,例如“2000 年后 1 年 3 个月是什么时间?”。L2 及 L3 的例子在前文中已经给出。

                                                               表2 TempReason数据集数据分布
                                                      图2 TempReason QA的不同任务设定

在任务设定上,我们使用了三种不同的任务设定,每一种任务设定给语言模型的上下文均有不同。第一种为闭卷考试(Close-book QA),对于同一个问题,例如“梅西在 2020 年效力于哪一支球队?”,仅问题会被提供给 LLM,而不包含任何上下文。第二种设定为开卷考试(Open-book QA):除了问题外,题干中主语的维基百科文章也会作为上下文输入 LLM,LLM 需要对相应的文章进行阅读理解。

在此之外我们针对时间推理新提出了第三种设定 ReasonQA,这种设定专门为了检测 LLM 基于时间的推理能力,我们将题干中主语相对的所有事实一一罗列作为上下文输入给 LLM,对于刚才梅西效力球队的问题,我们将他所效力过的球队以及相应时间一一罗列,像‘梅西于 2005-2021 效力于巴塞罗那,2021 至今效力于巴黎圣日耳曼…’,这些事实中一定包含正确答案,而 LLM 需要基于这些事实推理出答案。理想状态下 LLM 应该具备较强的时间推理能力,并且该能力不应随着问题中的时间而改变。

三、 方法介绍

为了提高 LLM 对时间的推理能力,我们也提出了一个训练框架。它由两个部分组成,第一个部分是时间跨度抽取(Temporal Span Extraction, TSE)。我们首先将时间相关的表达式,以及相关的实体进行抽取预训练。这一任务中的语料来自于维基百科中的文章。

我们利用公开的命名体识别器 Spacy 将预训练语料中的时间的表达式和命名的实体进行抽取,将它们抽取出来后,我们随机替换 50% 的时间表达式和命名实体为 [Mask]。利用这些随机替换后的语料,我们对基础的语言模型 T5 进行了掩码语言模型预训练(Masked Language Modeling),这一预训练步骤的目的是增加语言模型对于时间表达式以及命名体的注意力,使得语言模型对于时间的概念更为敏感。

框架的第二个部分由时间敏感的强化学习(Time-sensitive Reinforcement Learning,TSRL)组成。强化学习(Reinforcement Learning)在对话系统,问答系统中取得了显著的进步 [1]。

我们创新性地针对时间敏感的问答任务设计了强化学习的奖励函数(Reward Function),对于关于同一个实体的问题,我们首先将答案利用函数 F 进行打分,其中 F 指的是 Exact Match 分数,我们奖励回答正确的答案(如图 1 中的绿色答案,对应公式 1),给予正确答案 + EM 的奖励(如图 1 中的黄色答案,对应公式 2)。

与此同时,如果模型输出了关于该问题在其他时间段的答案,奖励函数将会惩罚该答案(-EM),这样一来,模型不但从标准答案中学习,也会从自己在时间问答中的错误回答进行学习(负反馈)。我们将自己最终的模型命名为 TempT5。

                                                                            图3 TSRL示例

四、实验分析

我们在 TempReason 上进行了大量的实验,其中比较的方法有:1.FLAN-T5-L 的 zero-shot 表现,2. ChatGPT 的 zero-shot 表现。3. T5-SFT 微调过后的 T5-base 模型,4. 我们的 TempT5 模型。

                                                                    表3 TempReason实验结果

实验结果由表 所示,我们发现在 L1 的时间推理任务上,FLAN-T5-L 以及 ChatGPT 的表现要显著低于表 1 中的表现,尽管 ChatGPT 在年粒度的时间推理上已经取得较好的成绩,在月粒度的计算下他的表现只有 30.5 EM 分数,而经过 TempReason L1 数据训练后的 T5-SFT 和 TempT5 可以在这个任务上达到满分的效果,说明数据在时间推理中起到非常重要的作用。

在 L2 和 L3 问题上,通过纵向对比我们可以发现三种任务设定下, 其难度从高到低为:CBQA,OBQA 和 ReasonQA。我们发现指令微调的 LLM 已经具备一定的时间推理能力(ReasonQA),在 L2 ReasonQA 中 FLAN-T5-L 的表现甚至超过了 ChatGPT。

考虑到 FLAN-T5-L 仅包含 770M 参数,远小于 ChatGPT,我们发现 ChatGPT 虽然能够在年份推理上表现出较高水准,但其 L1 的时间推理能力并不能很好地转化到 L2 以及 L3。而经过 TempReason 训练后基于 T5-Base 底座的模型在所有设定下都要显著优于大模型的 zero-shot 能力,说明了我们的数据可以作为一个高质量的指令训练的数据集来提高 LLM 对于时间的推理能力,并且我们的 TempT5 模型相对于 T5-SFT 也有明显的提升。

                                                                                表4 消融实验

在消融实验对比中,我们的模型 TempT5 要显著好于基线模型 T5-SFT 和 FLAN-T5-L。在消融实验中,我们发现 TSE 对于 OBQA 任务作用更大,而 TSRL 在 ReasonQA 任务下作用更大。

                                                            表5 L2 Reasoning 在不同年代的表现

我们最后将 L2 ReasonQA 的表现基于问题的时间来分别评估,我们发现尽管 TempT5 在这个任务下表现不错,它仍然会在训练数据较少的年份(1900 以前或 2020 以后)表现出低于平均的水平。值得注意的是 ChatGPT 的推理能力根据时间差别非常大,其 2020 后的表现以及 1920 年之前的表现要显著优于其他的年份。由于 ChatGPT 是基于 GPT-3(发布于 2020)的底座模型继续训练得到,这部分训练可能带来了对时间知识的遗忘。

五、 小结

在这篇工作我们首先发现了 LLM 在时间理解上存在严重的偏差,然后我们提出了一个全面的时间问答的评测数据集 TempReason,最后我们提出了一个提高 LLM 时间推理能力的训练框架,并且进行了详实的实验验证。

参考文献

[1] Chen, Wenhu, Xinyi Wang, and William Yang Wang. “A dataset for answering time-sensitive questions.” Proceedings of NIPS, 2021.

[2] Liska, Adam, et al. “Streamingqa: A benchmark for adaptation to new knowledge over time in question answering models.” Proceedings of ICML, 2022.

[3] Dhingra, Bhuwan, et al. “Time-aware language models as temporal knowledge bases.” Transactions of the Association for Computational Linguistics 10 (2022): 257-273.

作者:谭清宇,Hwee Tou Ng等

来源:公众号【PaperWeekly】

免责声明:作者保留权利,不代表本站立场。如想了解更多和作者有关的信息可以查看页面右侧作者信息卡片。
反馈
to-top--btn