0.『前言』
作为刚入门自监督学习的小白,在阅读其中 Contrastive Based 方法的自监督论文时,经常会看到 InfoNCE 这个 loss(在 CPC 的论文中提出),之前只知道它的思想来自于 NCE 以及代表什么含义,但是对其背后的理论推导、以及如何从 NCE 迁移到 InfoNCE 的不太清楚,因此这篇文章就是通过理论推导和自己的理解来对 NCE 和 InfoNCE 的来龙去脉有个了解。(这篇文章着重于原理,因此公式和推导较多)
1.『从 NLP 入手』
1.1 背景
NCE,也就是 Noise Contrastive Estimation(噪声对比估计), 在 [2] 这篇论文中被提出,但是这篇论文的阐述的不太便于理解,并且论文中估计的是概率密度函数(pdf, probability density function)。而 NLP 中的 word 或 vision 中的 pixel 都是离散的,且我们感兴趣的是的概率质量函数(pmf, probability mass function),因此我主要参考了 [4] 这篇论文,它就是在使用 NCE 时假设了离散分布,并用 pmf 代替其中 pdf,然后将 NCE 应用到 NLP 领域。(我对 NLP 领域不是很了解,所以部分阐述方式可能会不严谨)。
1.2 n-gram
1.3 最大似然估计
在机器学习领域有一个方法是:对所要考虑的问题建模后为其构造一个目标函数,然后对这个目标函数进行优化,从而求得一组最优的参数,最后利用这组最优参数对应的模型进行预测,也就是最大似然估计。
在建模统计语言模型时,利用最大似然估计,根据 (1) 式目标函数,我们可以写出其对数似然函数如下:
1.4 神经概率语言模型
上面的方法似然看起来很美好,但其中有两个问题:
- 如何构造一个好的函数 F。
- 最大似然估计虽然理论上简单可行,但对于某些模型,在实际计算时可能需要很大的计算量,因此未必容易。
首先来看第一个问题,这也就是我们为什么引入神经网络,因为神经网络理论上可以表示任何函数,那么通过训练,肯定能找到这个合适的F ,因此 Bengio 等人在 2003 年 A Neural Probabilistic Language Model [8] 中提出了神经概率语言模型(NPLM)。其不在受限于 gram 的大小,可以在包含任意大小上下文的情况下建模 www 的条件概率。
将 (8)式结果带回 (7) 式中得:
最大似然好像很容易,但是实际上还是绕不开对“归一化常数”的计算,所以就需要 NCE 登场了。
2.『什么是 NCE』
而 NCE 不同于上面两种方法,它是通过最大化同一个目标函数来估计模型参数θ和归一化常数,NCE 的核心思想就是通过学习数据分布样本和噪声分布样本之间的区别,从而发现数据中的一些特性,因为这个方法需要依靠与噪声数据进行对比,所以称为“噪声对比估计(Noise Contrastive Estimation)”。更具体来说,NCE 将问题转换成了一个二分类问题,分类器能够对数据样本和噪声样本进行二分类,而这个分类器的参数θ就等价于1.4中我们想要得到θ。(见附录3)
我们得到下面这些概率:
所以可以计算后验概率:
我们令负样本和正样本的比例为:
,则有:
而 NCE 的目标函数还需要在 (14)(14)(14) 式的基础上除以正样本的数量
即
当数据数量很大时,根据大数定律,上式也可以写成:
要最大化上述对数似然函数,也就是最大化如下目标函数:
NCE 目标函数中的k实际上就是在设置“二分类问题”时,选取的负样本与正样本的比例,通常的做法会默认正样本数量为 1 ,然后将负样本的数量k作为一个手动输入的参数,从而确定这个比例k 。在 TensorFlow 的相关源码 中,正样本的数量 num_true 默认值为1,如果设置大于 1,那么会进行一个 1/num_ture 的归一化。
可以看到实际上这个比例k对我们的 NCE 优化是有影响的,所以 NCE 的作者也考虑了什么样的比例k是最好的,我这里就直接说结论了,有兴趣的可以看详细看下这篇论文 Gutmann and Hyvrinen (2012) [3]。
结论是:对于设置的噪声分布
我们实际上是希望它尽量接近数据分布
,否则这个二分类任务就过于简单了,也就无法很好的学到数据特性。而作者通过实验和推导证明(我在第三节中也会简单的证明),当负样本和正样本数量之比k越大,那么我们的 NCE 对于噪声分布好坏的依赖程度也就越小。换句话说,作者建议我们在计算能力运行的条件下,尽可能的增大比值k。也许这也就是大家都默认将正样本数量设置为 1 的原因:正样本至少取要 1 个,所以最大化比值k,也就是尽可能取更多负样本的同时,将正样本数量取最小值 1。
另外,如果我们希望目标函数不是只针对一个特定的上下文c ,而是使不同的上下文可以共享参数,也就是设置一批上下文的全局目标函数:
到这,NCE 的构建就完成了,总结一下就是:从上下文 c 中取出单词作为正样本,从噪声分布中取出单词作为负样本,正负样本数量比为 1:k ,然后训练一个二分类器,通过一个类似于交叉熵损失函数的目标函数进行训练(如果取正样本数量为 1,那么 (14) 式与 (15) 式等价,NCE 目标函数就等价于交叉熵损失函数)。
3.『NCE 的原理』
上面虽然推导了那么多公式,但实际只是按照 NCE 的思想进行问题的转换,那么这样做究竟是否正确呢?根据附录 3 的描述,直觉上看好像是没有问题的。
我们再看回 (17) 式,我们对它关于θ 进行求导:
分布对上面的两项进行求导:
可以看到,当k趋于无穷时, (24) 式中 NCE 目标函数的梯度和 (9)式中 MLE 对数似然函数梯度是等价的,也就是说我们通过 NCE 转换后的优化目标,本质上就是对极大似然估计方法的一种近似,并且随着负样本和正样本数量比k的增大,这种近似越精确,这也解释了为什么作者建议我们将k设置的越大越好。
4.『从 NCE 到 InfoNCE』
到目前为止,应该对 NCE 的来龙去脉比较清楚了(公式太多,不知道多少人有耐心看到这里了...)。
InfoNCE 是在 Representation Learning with Contrastive Predictive Coding 这篇论文中提出的,这里不会具体介绍 CPC ,而是着重说明如何借鉴 NCE 的思想提出 InfoNCE 并用于 CPC 中的,如果还不太了解的可以看我的这篇文章 ”对 CPC (对比预测编码) 的理解“。
简单来说,CPC(对比预测编码) 就是一种通过无监督任务来学习(编码)高维数据的特征表示(representation),而通常采取的无监督策略就是根据上下文预测未来或者缺失的信息,NLP 中已经利用这种思想来学习 word 的 representation [1]。
到底为止,如何从由 NCE 结合互信息的思想构建 (29) 式中的 InfoNCE 也清楚了,现在 InfoNCE 主要用在自监督学习中作为一个对比损失函数,实际上 InfoNCE 的这个思想也是可以作为互信息的一个估计器,在论文中也有证明它和另一个互信息估计器 MINE 之间的关系,这里就不再详细说明了。
在使用 InfoNCE 时把它当作一个对比损失, 那么分子上的
表示正样本对, 分母上的
示负样本对, 我们只要构建好正负样本对, 然后利用 InfoNCE 的优化过程, 就可以做到 使正样本对之间的互信息最大, 使负样本对之间的互信息最小这件事情了:
5.『后记』
最初目的只是因为看到很多地方直接使用了 InfoNCE(实际上就是 CPC),但没有说明详细的原理,网上除了磊 爷的文章[6]之外,很多都是浮于表面的解释,远不能解答我的疑惑 ,所以作为一个刚入门的小白,我还是想亲自推导一下 InfoNCE 的以及它的来源 NCE 的原理,没想到这个坑越挖越深,最后花的时间远远超出我的预期,主要是网上没有什么相关信息,只能去翻论文导致一堆其他事情没有做....好在最终还是按照我的理解基本弄清楚了(如果有哪里理解错的地方,请告诉我),也不知道这样做有没有意义。
6.『附录 1——NCE 要解决的问题』
实际上NCE 要解决的是归一化参数密度估计问题。
7.『附录 2——将归一化常数作为参数』
这里解释一下为什么可以将归一化常数作为一个附加的参数。
8.『附录 3——用噪声进行对比的直觉』
这里解释一下用噪声的分布进行对比的直觉。
参考文献
[1] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781, 2013.
[2] Michael Gutmann and Aapo Hyvärinen. 2010. Noise-contrastive estimation: A new estimation principle for unnormalized statistical models. In Proc. AISTATS.
[3] Gutmann, M.U. and Hyv¨ arinen, A. Noise-contrastive estimation of unnormalized statistical models, with applications to natural image statistics. Journal of Machine Learning Research, 13:307–361, 2012.
[4] Andriy Mnih and Y ee Whye Teh. 2012. A fast and simple algorithm for training neural probabilistic language models. In Proc. ICML.
[5] Aaron van den Oord, Yazhe Li, and Oriol Vinyals. Representation learning with contrastive predictive coding. arXiv preprint arXiv:1807.03748, 2018.
[6] Leo Mao. 2019. "Noise-Contrastive-Estimation". [online]. https://leimao.github.io/article/Noise-Contrastive-Estimation/
[7] Dyer, C. (2014). Notes on Noise Contrastive Estimation and Negative Sampling. arXiv:1410.8251 [cs].
[8] Y. Bengio, R. Ducharme, P. Vincent, and C. Jauvin, “A Neural Probabilistic Language Model,” p. 19.