本文主要介绍了解决长文档摘要问题的几种方法。文章也同步发布在AI Box知乎专栏(知乎搜索 AI Box专栏),欢迎大家在知乎专栏的文章下方评论留言,交流探讨!
引言:目前,基于Transformer的预训练语言模型在各种下游任务上取得了极好的结果,甚至在部分数据上达到了人类的水平。然而,长文本摘要依旧是一个具有挑战性的问题:文本长度过长,通常超过了预训练语言模型的长度限制;内容广度大,信息压缩比大;文本数据通常是特定领域文章。本文主要介绍了解决长文档摘要问题的几种机制。
1.『背景』
近年来,Transformer以及基于Transformer的预训练语言模型在自然语言理解和生成领域取得了巨大进展。在短文本摘要领域,无论是抽取式摘要(BERT,RoBERTa),还是生成式摘要(BART,T5),文本摘要模型都取得了卓越的表现。然而,长文本摘要长度长,内容广,压缩程度高,并且通常是特殊领域文章(如arxiv论文),一直以来是一个难以处理的问题。[1]
目前,解决长文本摘要主要有基于图/GNN的模型,基于RNN的模型和基于Transformer的模型。图模型首先将一篇文章映射为一个图,并使用无监督的中心性打分抽取top-K句子或者使用GNN进行训练。RNN方法对整个序列文本进行建模,并抽取或者生成摘要。目前,Transformer和PLM逐步取代RNN,成为NLP领域的焦点。但是,受到位置编码长度影响,预训练语言模型通常对输入文本的最大长度存在一定限制,例如,BERT仅仅可以处理512位字符。同时,Transformer的平方级别复杂度进一步限制了输入文本的长度,而对文本进行截断造成了文本信息的丢失。因此,直接应用预训练语言模型是行不通的,需要添加额外机制。
本文关注于应用于三种模型中的不同机制,更好的对长文本进行建模和摘要。接下来,本文将围绕高效注意力机制,信号引导,分治,内容选择等机制,以及与GNN,Transformer等模型的结合进行介绍。值得注意的是,这些机制之间并不是独立存在的,不同的机制之间可以相互结合,在降低内存需求的同时提高模型性能。
2.『高效注意力』
原始的Transformer模型的自注意力机制难以处理过长的文本,其与输入文本的长度呈平方级别复杂度 O(L^2)。为此,一些研究关注于修改注意力机制,以降低内存消耗和复杂度,这些方法被称为高效注意力机制。
目前,应用在长文本摘要中的高效注意力机制主要包括encoder和encoder-decoder之间的注意力机制。对于长文本摘要,一种最普遍的方法就是对encoder端的注意力进行简化。Longformer结合了滑窗注意力,空洞滑窗注意力和全局注意力,将复杂度降低到了O(N) ,可以有效总结最大长度为16384个token的长文档 [2]。BigBird使用和Longformer相同的注意力机制,并添加了额外的随机注意力,实现了匹配的性能 [3]。LongT5在局部注意力的基础上,引入了Transient Global Attention (TGlobal),避免了选择token或者添加额外token赋予全局注意力,而是每次在进行自注意力前动态构建全局的token [4]。Global-Local使用交错的Block-Local注意力模块,每个block中的注意力仅仅能关注block中的token,block层与层之间相互交错 [5]。
上述方法更多关注的是encoder中的注意力机制,由于输出长度M相对于输入长度N较小,因此,使用完整的复杂度为O(MN) 的encoder-decoder之间的attention。近年来,一些研究也在关注encoder-decoder之间的注意力。Hepos发现Transformer encoder和decoder至今的多头注意力是冗余的,大部分头仅仅关注于少数几个token。因此,Hepos(Head-wise Positional Strides)在每一层中,每个注意力头仅仅关注固定间隔的不同token子集,复杂度降低到了O(MN/s_h) ,s_h 是注意力头数 [6]。Potsawee等人将注意力进一步修改为sentence-leval和token-level,动态结合内容选择机制,decoder中每个token通过和句子之间的注意力动态选择前r个句子进行token级别的注意力 [7]。
与全注意力机制相比,高效注意力机制极大减少计算复杂度和内存消耗。但是,高效注意力不可避免的带来了性能损失。同时,当前预训练语言模型大多使用全注意力机制,将PLM适应高效注意力机制造成了一定的差异,可能需要进一步进行预训练。
3.『信号引导』
利用文章中的层次和篇章结构信息,可以捕获不同级别的信息。一篇文章可以自底向上分为词,句,段落,文章的层次。而长文本摘要的源文档很多都包含篇章结构信息,例如章节结构,章节标题等。层次信息和篇章结构信息相互关联,共同引导模型更好的理解文章内容。无论是早期的基于图的摘要,RNN模型,还是近年来的GNN,Transformer模型都关注了层次结构信息。
3.1 层次信息
一个文档天然可以划分为多个层级,不同层级之间存在不同级别的信息,例如一个段落中的句子的主题通常比较相近。使用层次化模型,毫无疑问有利于捕获多个级别的信息。
利用词,句子,段落之间的层次化信息,可以将文档表示为G=(V,E) ,并应用GNN进行建模。MTGNN-SUM利用词句之间的关系搭建了异构图 [8]。HeterGraphLongSum以词,句,段落为节点,建立了词与句子以及句子与段落之间的四种有向边 [9]。上述两种模型均在此基础上使用GAT捕获层级关系,抽取关键句子。
近年来,层次化的Transformer也模型取得了进展。Lodoss在longformer基础上通过句子间的Transformer建模高阶信息 [10]。HAT-BART对Transformer层进行拓展,每层中加入只有各句的BOS表示参与的自注意力模块 [11]。Top Down Transformer通过BOTTOM-UP INFERENCE和TOP-DOWN INFERENCE两个阶段,在token级别使用稀疏注意力捕获邻居信息,之后聚合成句子后通过注意力层捕获全局上下文,再对先前的token进行增强 [12]。
3.2 篇章结构信息
长文档摘要的数据集通常为专业领域文章,如arxiv论文,它们通常被划分为不同的章节。利用这些篇章结构,可以引入先验知识,更好对文档进行建模。
对于基于图的模型,篇章结构信息同样重要。HIPORANK认为同一个章节的句子内容信息比较相似,通过Intra-sectional和Inter-sectional的连接建图,进行无监督抽取 [13]。HEGEL利用相似的思想,在同一章节的句子之间建立超边,结合GNN进行摘要 [14]。
此外,篇章结构信息也常常作为先验知识,融入序列模型中。PageSum [15],DANCER [16]对科学论文按章节进行独立的摘要生成,其中,DANCER仅仅选择对应于introduction, methods, results和conclusion的章节。HiStruct+对结构信息进行编码,获得了Hierarchical position embedding和 (Classified) section title embedding增强每个章节中句子的表示 [17]。HIBRIDS建立文档的结构树,利用两个章节之间路径的长度和深度的差异引入bias [18]。与此同时,篇章结构信息还与层次信息相结合,构建层次模型。Discourse-Aware使用词和章节级别的两种RNN对文章进行编码,并使用Discourse-aware decoder在词和章节上使用注意力机制 [19]。
信号引导机制充分利用了文章的篇章结构信息和层级信息,作为先验知识辅助摘要任务。但是,这些方法本质上并没有带来复杂度和内存消耗的下降,同时,篇章结构方法大多专注于某一类文档,具有一定的局限性,不能拓展到所有长文本中。
4.『内容选择方法』
内容选择方法在摘要领域又称为混合式(hybrid)摘要,模型先从文章中检索出重要的句子,并再次基础上进行进一步的生成。它综合了抽取式和生成式的优点,可以生成既翔实又简洁的总结。此外,内容选择方法在文本分类,阅读理解等领域也存在应用,如CogLTX。
早期的内容选择方法多是两阶段的流水线工作,一个模型进行句子抽取,另一个模型进一步生成摘要。LongSumm [29]对每个章节抽取句子,而TLM+Ext [20]和LoBART [21]在字符级和句子级使用RNN进行编码,抽取出重要的句子。上述方法将抽取的所有句子连接后送入Transformer模型生成摘要。
最近的一些研究将抽取和生成融合到一个模型中,并根据解码的token动态选择句子。Potsawee等人在token级别上建立句子表示,并根据解码的表示与所有句子表示的注意力选择靠前的r个句子的token [7]。SEAL将输入文档分解成片段序列,使用片段内的注意力机制编码,并使用attention-pooling获得片段表示,将片段表示和之前decoder之前的输出通过打分器得到每个输出片段的得分,选择重要的片段 [22]。
抽取句子的有效性对整个模型的性能至关重要,因此,需要对提取器进行额外的训练。LoBART使用ROUGE-2 [21],TLM-Ext使用ROUGE-1创建目标抽取句子,最小化抽取句子与目标提取摘要中的句子相关的交叉熵损失进行训练 [20]。SEAL最小化每个解码步骤下每个片段的预测和真实样本之间的损失 [22]。另有一些模型使用基于强化学习的方法选择进行内容选择。
内容选择方法模仿了人类的处理方式,内存占用和复杂度比相对较低,理论上可以处理任意长度的文本。但是,这种方法严重依赖于检索单元的独立性,同时,从文章中检索句子的同时不可避免的存在信息的损失。
5.『分治方法』
PLM存在位置编码,通常可以编码512或者1024个token,而超过长度的文本无法直接处理,需要对文本进行截断。为了对整个文档进行编码,一种简单的方法就是对文本划分为彼此之间或重叠或不重叠的片段,对每个片段进行单独的建模。这种分而治之的方法可以直接应用预训练语言模型,不需要对模型架构进行修改,同时保存了整个文档中的信息。然而,这种窗口方法破坏了token间长距离的依赖关系,造成了性能的下降。
诸多研究关注于如何融合各个片段的信息更好的进行摘要生成和抽取。SSN-DM利用动态的记忆网络保存先前片段的信息,并与当前的片段表示进行交互和更新 [23]。SUMMN通过多阶段的生成,对每个片段生成粗略的摘要,对粗略摘要连接后送入下一阶段重复上述生成,在最终的生成阶段保留了全局的感受野,并且相比于混合摘要保留了信息损失更小 [24]。PageSum结合局部全局的信息,对每个章节分开进行编码并进行解码,对各个章节解码得到的表示计算置信度,并加权求和预测输出 [25]。
6.『其他方法』
除了之前提到的四种机制之外,其他一些机制也被应用在长文本摘要中。Topic-GraphSum [26],GRETEL [27]和HEGEL [14]使用主题模型捕获语义信息和句间关系,建图进行交互。CONDASUM对评论进行压缩成一个向量,之后在所有的压缩向量基础上进行多文档摘要生成 [28],Yao等人将这个方法在长文本摘要中实现,作为SEAL模型的比较 [22]。
最后,对上述提到的模型方法进行汇总成表格如下:
参考文献
[1] An Empirical Survey on Long Document Summarization: Datasets, Models and Metrics
[2] Longformer: The Long-Document Transformer
[3] Big Bird: Transformers for Longer Sequences
[4] LongT5: Efficient Text-To-Text Transformer for Long Sequences
[5] Investigating Efficiently Extending Transformers for Long Input Summarization
[6] Efficient Attentions for Long Document Summarization
[7] Sparsity and Sentence Structure in Encoder-Decoder Attention of Summarization Systems
[8] Multi Graph Neural Network for Extractive Long Document Summarization
[9] HeterGraphLongSum: Heterogeneous Graph Neural Network with Passage Aggregation for Extractive Long Document Summarization
[10] Toward Unifying Text Segmentation and Long Document Summarization
[11] Hierarchical Learning for Generation with Long Source Sequences.
[12] Long Document Summarization with Top-down and Bottom-up Inference
[13] Discourse-Aware Unsupervised Summarization of Long Scientific Documents
[14] HEGEL: Hypergraph Transformer for Long Document Summarization
[15] Leveraging Locality in Abstractive Text Summarization
[16] A Divide-and-Conquer Approach to the Summarization of Long Documents
[17] HiStruct+: Improving Extractive Text Summarization with Hierarchical Structure Information[
18] HIBRIDS: Attention with Hierarchical Biases for Structure-aware Long Document Summarization
[19] A Discourse-Aware Attention Model for Abstractive Summarization of Long Documents
[20] On Extractive and Abstractive Neural Document Summarization with Transformer Language Models
[21] Long-Span Summarization via Local Attention and Content Selection
[22] SEAL: Segment-wise Extractive-Abstractive Long-form Text Summarization
[23] Sliding Selector Network with Dynamic Memory for Extractive Summarization of Long Documents
[24] SUMMN : A Multi-Stage Summarization Framework for Long Input Dialogues and Documents
[25] Leveraging Locality in Abstractive Text Summarization
[26] Enhancing Extractive Text Summarization with Topic-Aware Graph Neural Networks
[27] GRETEL: Graph Contrastive Topic Enhanced Language Model for Long Document Extractive Summarization
[28] Informative and Controllable Opinion Summarization
[29] Summaformers @ LaySumm 20, LongSumm 20