「对齐」太强是坏事？人大最新研究：完美正样本反而会损害「图对比学习」

近年来，由于数据规模的增大以及标签信息的缺失，自监督方法的使用逐渐广泛。

由于在图结构数据中可以轻松的利用边以及节点的drop进行增强，对比学习成为了天然的自监督范式。图对比学习在数据增强后，得到两个视图，两视图中的对应节点作为正样本，其余节点作为负样本。过去的研究者一般认为最优的对比学习需要进行完美的正样本对齐（正样本的表征一致），以及负样本表征在特征空间的均匀分布。

研究者认为一个较强的数据增强会减弱对比学习的上游性能，但会提升其泛化能力以获取更好的下游任务表现。

随后，利用理论分析得出采用一个更强的数据增强，对比学习的下游表现可能变好，但同类样本之间不一定会逐渐聚合，而不同类的样本会逐渐分散，并进行实验验证了这一点。

为了进一步探究这一现象背后的原因以及数据增强如何影响对比学习，研究者给出了数据增强与泛化性能之间的关系，发现一个较强的数据增强虽然会损害对齐性能，但也会提升其泛化能力，加强其在下游任务上的表现。

背景与动机

一般来说，随着数据增强幅度的变化，对比学习在下游任务的表现也会出现明显的改变。由此可见数据增强在对比学习中起到了至关重要的作用，但如今对其的理解仍然存在偏差。

过去的研究往往认为通过augmentation overlap以及正样本对齐、负样本均匀分布就可以得到一个优异的对比学习模型。但实际上，随着数据增强变强，augmentation overlap会变得更多但正样本的对齐也会变得更难。因此augmentation overlap与正样本对齐很难同时达到最优。与此同时，也有其他研究者指出对比学习中的augmentation overlap实际上非常稀少，因此数据增强可能并不是通过augmentation overlap帮助下游任务。为此需要进一步探究数据增强在对比学习中起到什么样的作用。