论文题目:
Revisiting Discriminative vs. Generative Classifiers: Theory and Implications
论文链接:
https://arxiv.org/abs/2302.02334
代码链接:
https://github.com/ML-GSAI/Revisiting-Dis-vs-Gen-Classifiers
一、概述
近年来,深度表征学习(deep representation learning)已经在计算机视觉、自然语言处理、多模态任务等众多领域取得了长足的进展。一个基本的范式是先在大量(有标注或无标注)数据上预训练一个模型,然后在具体的下游任务迁移上对模型进行微调。在迁移过程中,一个常用的方法是线性评估(linear evaluation/ linear prediction),即将网络除最后一层外的预训练参数全部冻结,仅对最后一个线性层进行微调。线性评估由于其轻量简便,在模型日益增大的时代显得越发重要。
重新审视线性评估的训练过程,我们可以将网络倒数第二层之前看成一个固定的特征提取器,基于在下游任务上提取到的特征,我们对最后一个线性层进行微调。这完全等价于给定特征的情况下,训练一个多分类逻辑斯特回归(multiclass logistic regression)。一个问题自然地涌现了出来:这是最佳的选择吗?
于是,在本文中,我们挑战了线性评估中默认采用多分类逻辑斯特回归的设定,探索其他线性分类器在迁移中的潜在优势。具体地,我们考虑了一个极其简单的生成式线性分类器,即朴素贝叶斯(naive Bayes),并将其与默认的逻辑斯特回归进行对比。
这样的idea重新回顾了一个经典的机器学习课题,即生成式学习与判别式学习的对比。事实上,逻辑斯特回归与朴素贝叶斯间的对比已经在2002年的NIPS被吴恩达等人研究过[1],他们发现朴素贝叶斯需要更少的样本来训练至收敛,并在很多数据集上观察到了 "two regimes"现象,即由于朴素贝叶斯能够更快的收敛,当样本量较少时,朴素贝叶斯总能在性能上击败逻辑斯特回归。如下图所示,其中m为样本量,error为分类错误率,虚线为逻辑斯特回归,实线为朴素贝叶斯:
但是,受时代影响,他们的论文存在如下限制:
- 理论上,他们仅考虑了二分类的情况,这与多分类的实际应用不同。
- 理论上,讨论逻辑斯特回归时,他们假设经验风险最小化(Empirical risk minimization)能够被用在0-1 loss上。 而优化0-1 loss实际上是一个N-P hard的问题。
- 实验上,受于时代限制,他们只能在低维手工特征上观察实验现象。"two regimes"现象在深度表征时代仍否成立,仍不清楚。
- 弱弱提一句,作者搜遍全网也没搜到他们的具体证明。
对应地,我们充分考虑了这些问题,重新探讨了逻辑斯特回归与朴素贝叶斯间的对比。我们的亮点如下:
二、主要的理论结果
2.1 一些符号与定义(避免乱码,还是贴图)
2.2 我们的目标
我们最终关心的是朴素贝叶斯和逻辑斯特回归关于0-1 loss的样本复杂度,即需要多少样本,训练得到的分类器和最优分类器(无穷样本下)的差距能够被控制在一个小范围内。具体地,我们需要分别bound以下两个估计误差(estimation error):
2.3 朴素贝叶斯
朴素贝叶斯部分,我们的假设与论文[1]保持一致。事实上,如果能把之前论文[^1]二分类的证明自己补全,多分类的证明其实就是将其中定义的一些关键量做多分类的推广,具体的证明思路是较为类似的。我们在此只对证明思路做一个high level的介绍,具体细节可见我们的论文。
2.4 逻辑斯特回归
逻辑斯特回归部分,我们去除了论文[1]中直接对0-1 loss做经验风险最小化的假设。我们基于实际深度表征学习的情况,引入了一个更弱的假设,即,对于logistic loss,最优逻辑斯特回归的泛化误差是接近贝叶斯误差(即任意可测函数能达到的最小损失)的。预训练模型抽取的特征是接近线性可分是这个假设的一个充分条件,而这已经在理论[2]和实验[3]中都得到一定印证。
为了bound逻辑斯特回归关于0-1 loss的估计误差
我们的推导分为两步。
2.4.1 关于logistic loss的估计误差
我们先考虑 logistic loss,利用经典的推导技术(如Rademacher complexity),我们可以很容易推得关于它的估计误差。
值得一提的是,在ICML 2023中,我们发现该创始团队的新文章[6]也分析了广义的multiclass logistic loss (orz,好险),对于狭义的multiclass logistic loss,他们的结果与我们完全一致,故也享受着紧的保证。
2.6 理论结果总结
三、实验
3.1 模拟实验
3.2 深度表征实验
我们在多个预训练的视觉模型上进行了训练,囊括了有监督预训练和自监督预训练(对比学习,基于重建式的)。值得注意的是,在所有情况下,朴素贝叶斯比逻辑回归更快地接近其渐近误差,这与我们的理论结果一致。在多数的模型下(主要是监督式训练的模型),我们也观察到了“two regimes”现象,这表明了当下游任务训练数据有限时朴素贝叶斯的前景。如下图所示,在样本量较少的情况下,及其简单的朴素贝叶斯也有机会取得更好的性能。
参考文献
[1]: Ng, A. Y. and Jordan, M. I. On discriminative vs. generative classifiers: A comparison of logistic regression and naive bayes. In NIPS 2002.
[2]: HaoChen, J. Z., Wei, C., Gaidon, A., and Ma, T. Provable guarantees for self-supervised deep learning with spectral contrastive loss. In NeurIPS 2021.
[3]: Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., and Sutskever, I. Learning transferable visual models from natural language supervision. In ICML 2021.
[4]: Awasthi, P., Mao, A., Mohri, M., and Zhong, Y. H-consistency bounds for surrogate loss minimizers. In ICML 2022.
[5]: Awasthi, P., Mao, A., Mohri, M., and Zhong, Y. Multi-class H-consistency bounds. In NeurIPS 2022.
[6]: Mao, A., Mohri, M., and Zhong, Y. Cross-entropy loss functions: Theoretical analysis and applications.
文章来源:知乎
文章链接:https://zhuanlan.zhihu.com/p/641042101
Illustration From IconScout By nanoagency