ACL 2023 |信息减加法：基于特征去噪和主题增强的多模态关系抽取

题目：Information Screening whilst Exploiting! Multimodal Relation Extraction with Feature Denoising and Multimodal Topic Modeling

作者：吴胜琼，费豪，曹艺馨，邴立东，Chua Tat-Seng

单位: 新加坡国立大学，新加坡管理大学，阿里巴巴达摩院

会议：ACL 2023

论文：https://arxiv.org/abs/2305.11719

代码：https://chocowu.github.io/mmre-page/

工作概括：现有的多模态关系抽取（Multimodal Relation Extraction, MRE）工作面临着两个共存的关键挑战，分别是内部信息过度利用和外部信息利用不足。为解决这些问题，我们提出了一种新颖的方法，同时实现了内部信息细筛选和外部信息强化利用，从而在MRE人物上取得广泛的性能提升。

一、动机介绍

1. 任务背景

关系抽取（Relation Extraction, RE）旨在确定给定文本中一对实体之间的语义关系，该任务对许多下游自然语言处理（NLP）应用如如知识图谱构建、问答系统具有至关重要的作用。然而，在实际场景中（例如社交媒体），数据通常呈现多种形式和模态（例如文本、图像），而非仅限于纯文本。因此，Zhang等人最近提出了多模态关系抽取任务（Multimodal Relation Extraction, MRE）。该任务将额外的视觉信息引入到文本关系抽取中，以缓解关系推理的难度。

2. 现存问题

现有MRE工作关注于如何设计精细的交互和融合机制来编码多模态特征，目前已经取得了显著的进展。然而，经研究发现，当前的方法仍未能充分利用来自两个信息视角的特征源，这可能阻碍了进一步的任务发展：

Internal-information over-utilization. 一方面，大多数现有的MRE方法假设所有输入信息对任务都起到积极作用，因此将全部的文本和视觉信息纳入学习过程中。实际上，先前的文本关系抽取研究已经广泛表明，输入中只有部分文本对最终的关系推理有用。同样地，并非所有的视觉信息都能帮助文本关系推理，特别是在社交媒体数据中。正如VemPala等等指出大约33.8%的推文是图文无关的，同时图片也没有增加额外内容来补充文本信息。因此，Xu等人提出了选择性地从图像-文本对中移除图像的方法。然而，这种粗粒度的、实例级别的过滤很大程度上损害了视觉信息的效用。因此，我们认为需要对内部图像和文本特征进行细粒度的特征筛选。以图1中的示例1为例，文本表达式“Congratulations to Angela and Mark Salmons”和视觉对象“gift”和“roses”是推断“couple”关系的有效线索，而其余的文本和视觉信息本质上是与任务无关的噪音。
External-information under-exploitation. 尽管MRE中可以通过利用视觉信息来弥补文本信息的不足，但仍然可能存在信息不足的情况，特别是当视觉特征的效用较低（甚至为负）时。如图1中的示例2所示，由于缺乏必要的上下文信息，仅仅依靠图像和文本来推断实体 “Hot summer”（专辑名称）与 “Migos“（歌手名称）之间的关系是 “present in“ 是棘手的。在这种情况下，应考虑并利用更多的外部信息来帮助MRE。幸运的是，主题建模技术已经证明被证实可以丰富原始数据的语义，从而广泛地促进了各类NLP应用，为MRE提供了一个有希望的解决方案。对于上述相同的示例，如果将额外的“music”主题特征纳入上下文中，关系推断将会得到极大的简化。

二、方法

为了解决上述的两个问题，我们提出了一个同时实现信息减加法的模型框架，如图2所示，所提出的模型主要包含以下5个步骤：

首先，我们利用预训练的场景图解析器，分别对输入文本和图片构建文本场景图（Textual Scene Graph，TSG）以及视觉场景图（Visual Scene Graph， VSG）。
其次，我们考虑集成TSG和VSG，构建一个跨模态图（Cross-modal Graph， CMG）。CMG中的节点集合是TSG和VSG中节点集合的并集，边包含1）模态内边（intra-modal edges）, 即TSG和VSG图中原有的边，和2）跨模态边（intel-modal edges），即来自不同场景图中的两个相似节点之间构成的边。
然后，我们提出一个图信息瓶颈（Graph Information-bottleneck， GIB）引导特征筛选（GIB-guided feature refinement，GENE）模块对初始的CMG进行优化，从而实现对输入图像和文本特征进行细粒度修剪。具体地，我们1）过滤掉那些与任务无关的节点，2）根据与任务推理的相关性调整剩下节点之间的连接情况， 3）利用GIB优化上述调整过程。
进一步，我们利用多模态主题特征丰富压缩后特征。如图2所示，通过多模态主题模块（latent multimodal topic，LAMO）产生与输入内容语义相关的视觉和文本主题关键词。然后应用注意力机制将多模态主题词的嵌入集成到压缩后的特征表示中。
最后，解码器基于丰富化后的特征来预测两个实体之间的语义关系标签。

三、实验分析

1. 主实验

为了验证模型的性能，我们在一个标准的多模态关系抽取数据集上进行了实验。如表1所示，所提的方法实现了显著的关系识别性能提升。通过消解实验分析，我们发现所提的内部信息减法（GENE）和外部信息加法（LAMO）对模型效果的提升都有一定的贡献。

1）所提的内部信息筛查模块（GENE）是否真的能够帮助减少噪声信息？

通过可视化训练过程中，CMG中节点和边的变化趋势，模型的任务性能，以及初始CMG和经过信息筛查后的CMG之间的互信息。如图6所示，随着训练的进行，节点和边的数量逐渐减少，但是任务的性能却在稳步攀升，同时互信息的减少意味着两个图之间的相关性在减少，都说明了所提出的GENE模块可以实现帮助减少噪声信息，从而提升任务效果。

2）所提出的多模态主题模型（LAMO）是否真的可以归纳出任务相关的主题特征？

通过T-SNE可视化模型中融合主题特征的前后的contextualized feature，如图4所示，我们发现，在融合主题特征后，不同关系类别之间的差距更加明显，同时被错误分类的实例数目明显变少。进一步，通过可视化LAMO学习到的文本主题词和视觉主题词，发现LAMO能够精准地捕获潜在主题信息。

四、结论

在这项工作中，我们发现并解决了多模态关系抽取中的两个主要问题：内部信息过度利用和外部信息利用不足。具体地，通过利用视觉和文本场景图结构来表示输入的图像和文本，并将它们融合成跨模态图。这一步骤有助于优化信息的交互和融合。接着，我们基于图信息瓶颈原理对特征进行细粒度的筛查，以消除噪音和保留关键特征。这种特征细化的方式有效地提高了关系推理的准确性。此外，我们引入了潜在的多模态主题特征，进一步丰富了上下文信息。在基准数据上，与现有最佳模型相比，我们的方法实现了显著的性能提升。这一成果证明了我们方法的有效性和优越性。进一步的深入分析为我们的方法如何推动该任务提供了深刻的理解。