「对齐」太强是坏事?人大最新研究:完美正样本反而会损害「图对比学习」

2023-11-28 12:51 435 阅读 ID:1656
新智元
新智元

近年来,由于数据规模的增大以及标签信息的缺失,自监督方法的使用逐渐广泛。

由于在图结构数据中可以轻松的利用边以及节点的drop进行增强,对比学习成为了天然的自监督范式。图对比学习在数据增强后,得到两个视图,两视图中的对应节点作为正样本,其余节点作为负样本。过去的研究者一般认为最优的对比学习需要进行完美的正样本对齐(正样本的表征一致),以及负样本表征在特征空间的均匀分布。

                                                论文地址:https://arxiv.org/abs/2310.03977v1

研究者认为一个较强的数据增强会减弱对比学习的上游性能,但会提升其泛化能力以获取更好的下游任务表现。

随后,利用理论分析得出采用一个更强的数据增强,对比学习的下游表现可能变好,但同类样本之间不一定会逐渐聚合,而不同类的样本会逐渐分散,并进行实验验证了这一点。

为了进一步探究这一现象背后的原因以及数据增强如何影响对比学习,研究者给出了数据增强与泛化性能之间的关系,发现一个较强的数据增强虽然会损害对齐性能,但也会提升其泛化能力,加强其在下游任务上的表现。

背景与动机

一般来说,随着数据增强幅度的变化,对比学习在下游任务的表现也会出现明显的改变。由此可见数据增强在对比学习中起到了至关重要的作用,但如今对其的理解仍然存在偏差。

过去的研究往往认为通过augmentation overlap以及正样本对齐、负样本均匀分布就可以得到一个优异的对比学习模型。但实际上,随着数据增强变强,augmentation overlap会变得更多但正样本的对齐也会变得更难。因此augmentation overlap与正样本对齐很难同时达到最优。与此同时,也有其他研究者指出对比学习中的augmentation overlap实际上非常稀少,因此数据增强可能并不是通过augmentation overlap帮助下游任务。为此需要进一步探究数据增强在对比学习中起到什么样的作用。

数据增强如何影响下游任务?

研究者假设经过数据增强后节点的标签信息不变,即原始节点与增强节点仍属于同一个类别。

则公式(1)的右侧值的变化趋势难以预测,而公式(2)右侧会持续变小。因此采用更强的数据增强时,节点与其类内中心的相似度不一定会变大,而其与不同类中心的相似度会逐渐变小。则对比学习的性能更多依赖将节点与其余类别中心拉远而非将其与自身的类别中心拉近。

为了验证这一点,研究者在几个图数据集上进行实验,发现在提升drop比例时,节点与其类别中心的相似度(PCS)可能会下降,但由于其与其他类别中心相似度(NCS)下降的更为剧烈,因此其下游性能仍然会提升。

数据增强与泛化

为了进一步分析数据增强在对比学习中的作用,研究者尝试分析其对泛化性能的影响。

寻求更优的数据增强

信息论角度

谱角度

过去已经有学者研究了对比学习InfoNCE损失与图邻接矩阵特征值之间的关系,对其进行简单的拓展即可得到如下公式:

实验部分

实验利用三种基础的图对比学习方法GRACE、GCA以及AD GCL进行实验,GRACE+I代表GRACE与提出的信息论方法耦合,GRACE+S代表GRACE与提出的谱增强方法耦合。可以看到两种优化方法在3种不同的对比学习方法以及6个数据集上都取得了性能提升。

参考资料:

https://arxiv.org/abs/2310.03977v1

免责声明:作者保留权利,不代表本站立场。如想了解更多和作者有关的信息可以查看页面右侧作者信息卡片。
反馈
to-top--btn