在这项研究中,我们深入探讨了异构图上的少样本提示学习的挑战。我们引入了HGPrompt,旨在统一同质和异构图之间。具体而言,我们提出了双模板技术,以统一下游任务与预训练。接着我们提出了双提示技术,以缩小由特征和任务间异质性差异所造成的差距。在三个基准数据集上的全面评估进一步展示了HGPrompt的优势,它在性能上一致超越了现有的基线模型。
论文题目:
HGPROMPT: Bridging Homogeneous and Heterogeneous Graphs for Few-shot Prompt Learning
论文链接:
https://arxiv.org/pdf/2312.01878.pdf
代码链接:
https://github.com/Starlien95/HGPrompt
作者主页:
https://xingtongyu.netlify.app/
一、摘要
图神经网络和异质图神经网络是图学习的重要技术,然而它们基于端到端监督框架,其性能极大地依赖于特定任务的监督信息的可用性。为了降低对有标记数据的依赖,基于无监督的预训练已成为一种流行的范式,但预训练和下游任务之间往往存在差距,这源于它们训练目标的不同。为了弥合这一差距,提示学习已成为一个有前景的方向,特别是在少量样本的场景下中,无需微调预训练模型。
尽管已经有一些图上的提示学习工作,但它们只处理同质图,忽视了下游应用中普遍存在的异质图。在本文中,我们提出HGPROMPT,一种新颖的预训练和提示学习框架,不仅统一了预训练和下游任务,还通过双模板设计统一了同质和异质图。
此外,我们在HGPROMPT中提出双提示,以帮助下游任务获取最相关的预训练知识,以弥合不仅由特征变化,还有任务间异质性差异引起的差距。最后,我们通过在三个公共数据集上的广泛实验,全面评估和分析了HGPROMPT的性能。
二、方法
2.1 双模板统一图形式和任务形式
首先我们介绍统一预训练和下游任务的基础:双模板设计——图模板和任务模板。
2.1.1 图模板
总结来说,图模板统一了下游异质图和预训练中的同质图统一为了同样的形式。同样的,当在预训练中使用异质图时,相同的图模板也可以应用于它们。
2.1.2 任务模板
接下来,为了统一不同任务,我们主要遵循GraphPrompt的方法,通过将不同的任务实例转换为子图,并使用子图相似性计算作为通用的任务模板。然而,在我们的双模板设计中,我们还需要考虑图模板在子图及其相似性计算的形成中的作用。
2.2 预训练
我们采用链接预测任务进行预训练,利用大规模图数据中链接的丰富性作为自监督信息。如图2(b)所示,考虑一个三元组 (0, 1, 2),其中 (0, 1) 是一条边,而 (0, 2) 不是。它可以用来指导子图相似性的计算,使得
2.3 双提示学习引导下游任务
我们利用基于链接预测的预训练模型来解决下游的节点分类和图分类任务。由于预训练和下游任务的目标不同,我们使用提示学习的范式来弥合差距。不同的下游任务会关注输入图的不同特征,或者不同的异质性信息。因此,我们提出了如图2(c,d)所示的双提示,包括一个特征提示来处理特征变化,以及一个异质性提示来处理不同任务之间的异质性差异。
2.3.1 特征提示
在自然语言领域中,提示基于特定的下游任务,重新构造下游任务的输入,以更好地将下游任务与预训练模型对齐。同样,在图上,一种策略是使用提示修改输入到预训练模型的节点特征,或者是预训练模型的隐藏层或者输出层。
2.3.2 异质性提示
2.3.3 提示微调
三、实验结果
在实验部分中,我们命名了两个我们的模型分别为HGPrompt和HGPrompt+:其中HGPrompt用于处理预训练是同质图,但下游任务是异质图的场景;HGPrompt+则用于处理预训练和下游任务都在异质图上进行的场景。
3.1 少样本节点分类及图分类任务
我们沿用GraphPrompt的实验设置,在3个公开异质图数据集(ACM,DBLP,Freebase)上进行了节点分类和图分类任务,并与多个常用的基线模型进行了比较。
实验结果证明,HGPrompt的表现优于所有基线模型,证明HGPrompt能有效统一预训练中的同质图和下游任务中的异质图,从而将预训练知识释放到下游任务上。同时,HGPrompt+取得了比HGPrompt更好的效果,进一步说明了使用图模板来统一异质性信息的有效性。
3.2 样本数目改变时的表现
HGPrompt在我们所关注的少样本场景下,始终表现出优于所有基线模型的性能。随着样本数的增加,一些微调模型的性能超过了HGPrompt,这与提示学习和微调学习各自的优势一致。而HGPrompt+因为在预训练阶段利用了异质性信息,则始终表现出优于所有基线模型的性能。
3.3 消融实验
我们进一步进行了消融实验来分析是否我们的设计是有效的。实验结果证明,我们的双模板和双提示设计都起到了重要作用。
四、结论
在这项研究中,我们深入探讨了异构图上的少样本提示学习的挑战。我们引入了HGPrompt,旨在统一同质和异构图之间。具体而言,我们提出了双模板技术,以统一下游任务与预训练。接着我们提出了双提示技术,以缩小由特征和任务间异质性差异所造成的差距。在三个基准数据集上的全面评估进一步展示了HGPrompt的优势,它在性能上一致超越了现有的基线模型。
Illustration From IconScout By Pixel True