​ICLR 2023 | 基于知识图谱的多模态类比推理

2023-03-09 10:25 783 阅读 ID:858
机器学习算法与自然语言处理
机器学习算法与自然语言处理

多模态类比推理是一种使用类比和模拟的方法,用于帮助人们理解抽象的概念、解决问题和形成新的知识。在多模态类比推理中,人们通过将一个概念或情境与另一个相似的概念或情境进行比较,来理解和解决问题。这种方法可以帮助人们通过熟悉的概念来理解抽象的概念,并使用自己在这些概念中获得的经验来解决问题。

多模态类比推理在许多领域,如教育、工程、计算机科学和心理学等,都有广泛的应用。它是一种有效的思维工具,可以帮助人们在理解、解决问题和形成新知识时产生创造性的思维。

——From ChatGPT

论文标题:

Multimodal Analogical Reasoning over Knowledge Graphs

论文链接:

http://arxiv.org/abs/2210.00312

代码链接:

https://github.com/zjunlp/MKG_Analogy

Huggingface Demo:

https://huggingface.co/spaces/zjunlp/MKG_Analogy

Motivation

类比推理是一种感知和利用两种情况或事件之间的关系相似性的能力,在人类认知中占有重要地位,并且在众多领域例如教育、创造发挥着重要作用。一些学者考虑将类比推理与人工智能进行结合,在计算机视觉和自然语言处理领域都进行了广泛应用。其中,CV 领域将视觉与关系、结构和类比推理相结合,测试模型对于基本图形的的理解和推理能力;NLP 领域通过词语的线性类比来验证模型的文本类比推理能力。

Task Definition

                                    ▲ 图1 基于知识图谱的多模态类比推理任务设定示意图

Dataset Collection

                                                           ▲ 图2 数据构建流程示意图

多模态类比推理数据集 MARS 和背后的多模态知识图谱 MarKG 的构建过程如上图所示。首先,从两个文本类比推理数据集 E-KAR 和 BATs 中收集种子实体和种子关系;其次,将这些实体和关系映射到大型知识库 Wikidata 中并进行实体和关系的统一规范化;之后,从 Google 图片引擎以及多模态数据 Laion-5B 中检索实体图片并使用一系列的措施去过滤低质量图片;最后,从中检索高质量的类比数据来构建 MARS 数据集。

                                                                 ▲ 图3 数据统计示意图

数据的统计情况如上表所示,本文所提出的 MARS 数据集不仅包含了图片和文本等多模态的数据,并且在数据规模上也超过了以往的一些数据集。

Method

                                                                      ▲ 图4 方法示意图

本文在一些基线模型上进行了测试,包括三个多模态知识图谱嵌入模型(IKRL, TransAE, RSME)和五个基于 transformer 的多模态预训练模型(VisualBERT, ViLT, ViLBERT, FLAVA 和 MKGformer)。

4.1 多模态知识图谱嵌入模型

对于多模态知识图谱嵌入模型,本文采用 Pipeline 的方式来求解类比推理问题。包括 Abduction - Mapping - Induction 等三个步骤。其中,Abduction 用来预测类比示例的潜在关系,Mapping 将预测出的潜在关系映射到类比问题实体上,最后,Induction 步骤用来预测最终的类比答案实体。

4.2 多模态预训练模型

本文将每个实体和关系视为特殊 token 添加到预训练模型的词表中,并使用可学习的向量来进行表示。受[2]和[3]启发,本文设计了类似于掩码语言建模的掩码实体和关系建模任务来学习这些向量,使其包含实体和关系的信息。如图 4(b) 所示,首先在 MarKG 数据集上预训练多模态 Transformer 模型。MarKG 数据集中包含了实体的文本描述信息、图片信息以及实体之间的关系信息,这里期望模型可以从这些多源信息中学习到实体和关系的表示。为此,本文设计了一个提示模板,以完形填空的形式让模型预测 [MASK] 对应的实体或关系。此外,本文还为模型提供了实体的不同模态信息,包括文本描述和图片等。在预训练结束后,采用带有显示结构映射的提示学习类比推理技术,来将预训练 Transformer 模型应用到下游数据集 MARS 上。如图 4(c) 所示,输入分为两部分,|| 左边的部分对应于 Pipeline方式中 Abduction 的步骤,|| 右边的部分对应于Induction 步骤,而 Mapping 步骤在模型内部完成。

4.3 MarT框架

                                                                     ▲ 图5 MarT框架

尽管上述方法可以使得预训练 Transformer 模型可以建模多模态类比推理任务,但只是浅层的考虑了 Abduction 和 Induction 步骤,忽略了类比示例与类比问题-答案对之间的细粒度关联。因此,本文进一步提出了用于 Transformer 模型的 MarT 框架,它包含了自适应类比交互和面向关系的结构映射等两个模块。

1. 自适应类比交互

之前通过设计类比提示模板讲类比示例与类比问题-答案对拼接送入的 Transformer 模型,在 Attention 计算时两部分会进行一定程度交互。然而,类比示例对于类比答案的预测至关重要,但反过来类比问题-答案对对于类比示例的建模可能帮助甚微。此外,不同样例中类比示例提供的帮助不同。因此,本文使用自适应关联门来调节 Attention 计算中两部分的交互程度,将 Attention 计算拆解过程进行了拆解:

2. 面向关系的结构映射

Experiment

5.1 主要结果

如下表所示,MKGE 的方法和 MPT 的方法在 MARS 数据集上取得了可比的性能;在模型中加入类比模块后,性能都有了大幅的提升,具体表现为 MKGE 方法使用 ANALOGY 作为 Backbone 时 Hit 指标和 MRR 指标都有了明显提升,MPT 方法加入了 MarT 框架后提升也十分显著;MarT_MKGformer 表现出了最优越的性能,原因可能是 MKGformer 是针对多模态知识图谱任务设计的,对此类任务更为敏感。

本文提供了一个排行榜:

https://zjunlp.github.io/project/MKG_Analogy/

                                                                 ▲ 表1 MARS实验结果

5.2 消融实验

本文对不同模块进行了消融分析,以验证不同模块的有效性:MarKG 可以为模型提供实体和关系的先验知识;类比模块以及类比示例对于类比答案实体的推理至关重要。

                                                                   ▲ 表2 消融实验结果

5.3 样例分析

样例分析进一步说明原生的模型在多模态类比推理任务中表现是偏弱的,加入类比相关组件可以提高模型性能。

                                                                ▲ 图6 样例分析示意图

5.4 ChatGPT效果

小编出于好奇在阅读本文的时候拿 ChatGPT 去测试了一下,发现经过指导的大模型具备一定程度的多模态类比推理能力,但当类比的对象比较抽象时也会犯错误。

教 ChatGPT 多模态类比推理任务:

ChatGPT 多模态类比推理的错误:

类比示例是地球对应银河系,正确答案是伦敦对应英国和水对应海洋,ChatGPT 直接回答图片的内容。

Conclusion

在人类智能中,类比是一个很基本的能力,在某种程度上,可以认为是人类智能的源头之一。人们通过将一个概念或情境与另一个相似的概念或情境进行比较,来理解和解决问题。这种方法可以帮助人们通过熟悉的概念来理解抽象的概念,并使用自己在这些概念中获得的经验来解决问题。

本文提出了基于知识图谱的多模态类比推理任务,对此任务进行了形式化的定义并提供了一个多模态类比推理数据集 MARS 和多模态知识图谱数据集 MarKG。在多个知识图谱嵌入模型和预训练 Transformer 模型上的实验表明了这个任务的困难性和可挖掘性。

参考文献

[1] Multimedia learning. In Psychology of learning and motivation, volume 41, pp. 85–139. Elsevier, 2002.


[2] MEM-KGC: Masked Entity Model for Knowledge Graph Completion With Pre-Trained Language Model. IEEE Access 2021.

[3] Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge Graph Completion. SIGIR 2022.

[4] Structure-mapping: A theoretical framework for analogy. Cogn. Sci. 1983  

免责声明:作者保留权利,不代表本站立场。如想了解更多和作者有关的信息可以查看页面右侧作者信息卡片。
反馈
to-top--btn