ISWC 2023 最佳论文提名 | 反思多模态知识图谱对齐中的模态缺失

多模态知识图谱实体对齐（MMEA）过程中广泛存在视觉模态的缺失或者对齐的实体中图像的不一致/模糊现象，面对这些情况，已有的一些模型会屈服于模态噪声并产生过拟合，同时我们观察到，在模态缺失率降低的过程中，模型性能表现出反直觉的波动甚至下降。这表明包含额外的多模态数据有时会对MMEA产生不利影响。为了应对这些挑战，我们引入了UMAEA，这是一种强大的多模态实体对齐方法，旨在缓解不确定的视觉模态缺失和模糊现象。同时，我们提出了UMVM数据集，其中包含针对不同程度模态缺失率的97个子数据集划分，在目前最新的MMEA模型和方法上进行了大规模基准测试。

论文题目：

Rethinking Uncertainly Missing and Ambiguous Visual Modality in Multi-Modal Entity Alignment

论文链接：

https://arxiv.org/pdf/2307.16210

代码链接：

https://github.com/zjukg/UMAEA

一、动机

我们注意到目前的多模态实体对齐方法都基于两个理想的假设：

（i）实体和图像具有一一对应的关系，这意味着单个图像足以封装和传达有关实体的所有信息。

（ii）图像总是可用的，这意味着一个实体始终拥有相应的图像。

在现实世界知识图谱中，噪声是一个固有的问题。即使对于标准的多模态实体对齐数据集，也很难满足上述两个理想条件。因此，我们关注两个更实际的问题：（i）在 MMKG 中，实体图像可能会不确定地丢失，这意味着不同程度的图像缺失。例如，在 EA 的 DBP15K 数据集中，只有一部分实体附加了图像（例如，DBP15K_JA-EN 中的 67.58%）。这种不完整性是 DBpedia KG 固有的，并非每个实体都拥有关联的图像。

（ii）在 MMKG 中，实体的图像可能不确定地存在模糊，这表明单个实体可能具有异构的视觉表示，即多个Aspect。为了应对这些挑战，我们提出了一个由七个子数据集组成的基准，并在其上进行了实验，并针对这些问题设计了我们的模型 UMAEA。如图所示，电影《雷神》可以用电影（明星）海报的快照或电影标题本身的图像来表示。虽然熟悉漫威宇宙的人可以毫不费力地将这些模态关联起来，但如果没有 OCR 等外部技术和链接知识库的帮助，机器就很难辨别重要的视觉特征关联，这给对齐任务带来了挑战。这个例子展示了模态异质性的挑战，例如与国家相关的图像可以是国旗、地标或地图，这种现象主要源于单模态内容的抽象。

二、贡献

在本文中，我们对 MMEA 潜在缺失的视觉模态进行了深入分析。为了实现这一目标，首先我们提出了 MMEA-UMVM 数据集，其包含七个独立的数据集，总共97个分割，每个数据集都有不同程度的视觉模态不完整性，并且我们对几个最新的 MMEA 模型进行了基准测试。为了确保全面的比较，我们的数据集覆盖了双语/单语以及正常/高密度KG直接的实体对齐模式，并使用标准（非迭代）和迭代训练范式来评估不同情况下模型性能。在此过程中通过比较模型在完整视觉模态下的性能，讨论了模型对模糊图像的鲁棒性。

在我们的分析中，我们发现了两个关键现象：

（i）模型可能会在训练过程中过度拟合噪声，影响整体性能。

（ii）高模态缺失率下，模型性能产生波动甚至下降，这表明额外的多模态数据有时会对实体对齐产生负面影响，并导致比不使用视觉模态信息时更糟糕的结果。

这些发现为该领域的进一步探索提供了新的见解。基于这些观察，我们提出了我们的模型 UMAEA，它通过引入多尺度模态混合和循环缺失模态想象来减轻其他模型的缺点。实验证明，我们的模型可以在参数和运行时间有限的情况下在所有基准测试中一致地实现 SOTA 结果，支撑了我们的观点。

三、方法

在这项工作中，我们探索了一种新型MMEA范式 UMAEA，它通过引入多尺度模态混合和循环缺失模态想象来缓解其他模型的缺点。

具体来说，多尺度模态混合架构包括三个在不同尺度上运行的模态对齐模块，每个模块都与一个训练目标相关联，这些模块分别为:

全局模态整合（Global Modality Integration）
实体级模态对齐（Entity-level Modality Alignment）
后置模态细化（Late Modality Refinement）

其中全局模态整合（GMI）强调每个多模态实体对的全局对齐，其中实体的多模态嵌入首先被连接，然后使用可学习的全局权重进行对齐，从而使模型能够自适应地学习跨越两个 MMKG的每种模态的相对质量。

实体级模态对齐旨在执行实例级模态加权和对齐，利用对齐种子（seed alignment）的最小跨知识图谱置信度度量来约束模态对齐目标。这允许模型动态地给模态丢失或模糊的实体分配较低的训练权重，从而降低编码器因不确定性而被误导的风险。

后置模态细化利用Transformer层输出通过隐式级联细化（IIR）目标进一步增强实体级自适应模态对齐，

我们第一阶段的主要目标是减轻模态噪声和不完整性对整个训练过程中对齐过程的影响。与之相反的，第二阶段从 VAE 和 CycleGAN 中汲取灵感，强调生成建模和无监督领域迁移。在此基础上我们开发了循环缺失模态想象（CMMI）模块，旨在使模型能够主动补全缺失的模态信息。

四、实验

我们还在标准多模态 DBP15K 数据集上评估我们的模型，在有或没有视觉模态（w/o IMG）的情况下都获得了令人满意的结果，值得注意的是 DBP15K 数据集（上表）仅具有附加图像的部分实体（例如，DBP15K ZH-EN 中为 78.29%，DBP15K F R-EN 中为 70.32%，DBP15K JA-EN 中为 67.58%），这是 DBPedia 数据库固有的。为了进一步展示我们的方法的适应性，在右表中，我们在附加了 100% 图像数据的标准 Multi-OpenEA 数据集上对其进行了评估，证明我们的方法在 (MM)EA 任务中针对潜在的模态信息模糊时表现出色。

为了进一步评估我们方法的稳健性，我们分析了模型在不同实体视觉模态分布下的预测性能。具体来说，我们在不使用 CMMI 模块的情况下比较了五个测试集。我们观察到 EVA 的性能总体稳定，但当视觉模态完整时（TS 1）表现不佳，这表明它在训练阶段对模态噪声过度拟合。相比之下，MCLEA 表现出更极端的性能波动，当实体对内存在不完整的视觉信息时（TS 2、3、4、5），MCLEA 的性能比 EVA 更差。

我们良好性能反映了这样的直觉：最佳性能发生在 TS 1 中，而其他场景中的波动是可以容忍且合理的。

五、数据集细节

Illustration From IconScout By Delesign Graphics