论文领读｜基于 VQVAE 的长文本生成

本期分享者：杨二光

北京交通大学自然语言处理实验室四年级博士生，导师为张玉洁教授，研究方向为可控文本生成、复述生成、故事生成。在澜舟科技实习期间主要从事长文本生成、营销文案生成等课题。

0.『写在前面』

近年来，多个大规模预训练语言模型 GPT、BART、T5 等被提出，这些预训练模型在自动文摘等多个文本生成任务上显著优于非预训练语言模型。但对于开放式生成任务，如故事生成、新闻生成等，其输入信息有限，而要求输出内容丰富，经常需要生成多个句子或段落，在这些任务上预训练语言模型依然存在连贯性较差、缺乏常识等问题。本次与大家分享一篇建模长文本篇章结构的工作，用以提升生成文本的连贯性。

论文题目：《DISCODVT: Generating Long Text with Discourse-Aware Discrete Variational Transformer》

论文作者：Haozhe Ji, Minlie Huang

论文单位：清华大学

论文链接：https://github.com/cdjhz/DiscoDVT，EMNP2021/

1.『动机（Motivation）』

文本的全局连贯性一般表现为：

内容表达的流畅度；
内容之间的自然过渡。

如下图示例文本中的话语关系词（after, then, and, but 等），这些篇章关系词将连续的文本片段（text span）进行合理安排，从而形成结构、逻辑较好的文本。虽然预训练语言模型在关联与主题相关的内容时表现较好，但用好的篇章结构来安排内容仍然存在很多挑战。针对此问题，研究者提出建模文本内部片段与片段之间的篇章关系，利用篇章结构指导生成，以期能够改进生成文本的连贯性。

2.『方法（Method）』

任务定义

学习离散隐变量

训练阶段通过 gumbel-softmax 方法采样得到 soft categorical distributionω：

篇章关系建模

正则化隐变量

此外，作者在前期的实验中发现模型倾向于仅利用这个 code vocabulary 中少量的离散 code，这种现象会损害离散 code 的表达能力。为了鼓励模型尽可能等概率的利用离散 code，作者还引入基于熵的正则方法。

训练目标

在第一阶段中，联合上述的几个优化目标来训练后验网络和生成器，总的优化目标为：

3.『实验』

数据集

作者在公开的故事生成数据集 WritingPrompts 和 Wikiplots 数据集上评测所提方法，数据统计信息如下表所示。

baseline 模型对比

对比的 baseline 模型如下：

Seq2Seq：它是采用与 Bart 相同框架的编码-解码模型，没有经过预训练；
Bart：采用预训练 Bart 模型，并在下游数据集上对其微调；
Bart-LM：同样采用预训练 Bart 模型，先使用 bookcorpus 数据对其继续训练，随后在下游数据集进行微调；
BART-CVAE：基于 CVAE 的框架，引入连续隐变量到 Bart 模型，将隐变量加到解码器的 embedding 层指导生成文本；
Aristotelian Rescoring：它采用内容规划的方法，给定输入，它首先生成一个基于SRL 的情节，然后根据情节打分模型修改情节，最后基于修改的情节生成文本。

结果分析

下表展示了所有模型在两个数据集的自动评测结果。

可以看到，在两个数据集上，在基于参考的指标上，DiscoDVT 生成的文本获得最高的n-gram 重叠度（BLEU）和相似度（MSJ）。多样性方面，DiscoDVT 在 distinct 指标上略微低于 BART-CVAE，这里作者进一步检查了 BART-CVAE 的生成文本，发现BART-CVAE 会生成不出现在参考文本中的虚假单词，从而提高了多样性。在重复度方面，由于 DiscoDVT 使用了 step-wise 的控制，因此 rep-n有较大幅度领先。

基于规划的方法 AR 可以获得较高的多样性，但在基于参考的指标上 BLEU、MSJ、rB 上的结果较低，这可能是多阶段方法中的暴露偏差，对生成质量有负面影响。

人工评测结果显示，在生成文本的连贯性和信息度方面，大多数 DiscoDVT 生成文本的质量要优于 BART, BART-LM 和 BART-CAVE baseline。

如上图所示，作者进一步对学习的 code 进行分析，可以发现离散的 code 确实能够学习到篇章关系，比如 and, so, when, however 等。

作者利用 discourse marker classifification 任务评测生成的篇章关系词是否正确，如上图所示。在让步、因果、时序和连接 4 种篇章关系上，DiscoDVT 生成文本中的篇章关系准确率最高，说明 DiscoDVT 生成的文本在篇章关系上质量更好。当去掉篇章关系建模的优化目标，生成的篇章关系准确率有明显下降，从而证明了篇章关系建模方法的有效性。

4.『结语』

本次分享展示了一种利用离散 code 来建模文本篇章结构的方法。该方法引入一个离散 code 序列学习文本的篇章结构，随后采用 step-wise 解码指导生成文本。为了建模显式的篇章关系，作者进一步提出了篇章关系建模优化目标。自动评测和人工评测结果证明了该方法的有效性。对于 code 的分析实验验证了离散 code 确实能够保留篇章关系的信息。

文本连贯性是自然语言生成的重要课题，目前改进的方法包括基于规划、建模高层次结构等方面，主要流程是首先生成文本大纲，再根据大纲生成完整的文本，其中大纲可以由关键词序列或者事件序列构成。整体来看，长文本生成中的篇章结构建模还仍不够成熟，存在诸多问题，期待未来有更多的工作取得改进。