NeurIPS 2022 | 带噪多标签学习：基于标签相关性的噪声转移矩阵估计

论文题目：

Estimating Noise Transition Matrix with Label Correlations for Noisy Multi-Label Learning

论文链接：

https://openreview.net/forum?id=GwXrGy_vc8m

代码链接：

https://github.com/ShikunLi/Estimating_T_For_Noisy_Mutli-Labels

一、背景及动机

在现实生活中，一个实例样本自然与多个类别的标签相关联，这些标签具有复杂相关性，这自然而然引出了多标签学习的场景。最近，多标签学习场景下的标签噪声学习问题受到越来越多的关注[1,2,3]，因为收集大规模准确标签很耗时且成本很高，而通过众包、检索等方式可以更廉价、更容易地获取大量带噪标签。

在通用的带噪分类学习中，噪声转移矩阵可以用于表示从干净标签到带噪标签的转移关系[4,5]。而在带噪多标签学习的场景中，分配给实例的多个类别标签可能同时被破坏（如图1）。也就是说，实例的每个类别的真实标签和带噪标签的关系可以用一个噪声转移矩阵来表示。

噪声转移矩阵已被用于建立一系列具有统计一致性的噪声鲁棒算法[4,5,6]。这些算法的主要优点是它们可以保证随着带噪样本数量的增加消除从带噪数据中学习到的分类器与从干净数据中学习到的最优分类器之间的差异。但是这些算法的有效性严重依赖于转移矩阵的准确性。为此，一系列转移矩阵的估计方法在带噪分类学习中被提出[4,5,7]，而在带噪多标签学习中转移矩阵的估计仍然具有挑战性。

具体来说，已有的大多数估计方法都假设锚点的存在，即完全属于某一类别的样本存在。然而，当只有带噪数据时，这种假设很强，且很难被验证。此外，这些方法需要精确地拟合带噪的类别后验概率，而由于严重的正负不平衡，这在多标签学习中相当困难。因此，如何避免已有估计方法中所需要的锚点或精确拟合带噪类后验, 从而有效地估计噪声转移矩阵是应用这些算法到带噪多标签场景的关键所在。

为了解决上述问题，我们考虑利用带噪多标签之间的标签相关性进行转移矩阵估计。具体来说，如图2，一些在现实中不存在的标签相关性被包括在带噪多标签中。例如，实际中“鱼”和“水”总是同时出现，而“鸟”和“天”总是同时出现。但是，由于标签错误，在带噪数据集中，“鱼”和“天空”之间存在一定的标签相关性，这显然是不切实际的。因此，直觉上来说，我们可以利用标签相关性的失配来识别和估计噪声转移矩阵，从而避免已有估计方法中所需要的锚点或精确拟合带噪类后验。

二、问题设置

三、方法介绍

在本节中，我们首先研究了在带噪多标签学习中实例无关的转移矩阵的可识别性问题。然后，受这些可识别性结果的启发，我们提出了一个新的方法通过利用标签相关性来估计转移矩阵。值得指出的是，所提出的估计方法既不要求锚点的存在，也不需要带噪后验的精确拟合。

3.1 噪声转移矩阵的可识别性

最近，Liu等人[8]基于Kruskal的可识别性结果在带噪分类场景中得到了一些关于标签噪声转移矩阵的可识别性的定理。受此启发，我们在带噪多标签场景中也得到一些利用标签相关性的实例无关的转移矩阵的可识别性结果。

其中，与所提出方法最相关的是下列定理：

3.3 阶段二：概率估计和转移矩阵求解

四、实验结果

4.1 实验设置

4.2 噪声转移矩阵的估计性能

由于在带噪多标签学习中很难准确拟合带噪类的后验概率，因此已有的估计方法T-estimator[5]和DualT-estimator[7]需要在不同的噪声率下仔细调整超参数以获得较好的结果，并且在某些情况下非常敏感，例如MS-COCO数据集上。

相比之下，我们的方法在一个数据集上使用相同的超参数。在所有情况下都得到了相当或更好的结果，这反映了其对各种噪声率的鲁棒性。此外，为了研究采样偏差的影响，我们还利用真实标签得到无偏样本来进行估计（方法命名为“Our estimator gold”）。比较有偏和无偏样本得到的结果，可以看到，采样偏差是我们方法误差的主要因素，但其并不会导致过大的估计误差。

4.3 带噪多标签学习的分类性能

我们采用均值平均精度（mAP）、总体F1度量（OF1）和类别平均F1度量（CF1）作为分类性能的评估度量。为了利用估计得到的转移矩阵进行鲁棒的带噪多标签学习，我们将转移矩阵的估计方法与具有统计一致性的Reweight算法[6]相结合。参与比较的基线算法有以下三种：

1. 用于干净数据的多标签学习算法：Standard，AGCN和CSRA

2. 通用的带噪分类学习算法：GCE和CDR

3. 鲁棒的带噪多标签学习算法：WSIC、Reweight-T-max、Rewight-T-97%、Reweight-DualT-max、Rewight-DualT-97%

从下表我们可以知道，经过在不同数据集和带噪场景下的多次实验，我们的方法（Reweight-Ours）在OF1和CF1的评估度量上显著优于其他基线。这也侧面验证了，更准确的转移矩阵可以帮助具有统计一致性的噪声鲁棒算法取得更好的分类性能。

此外，由于网络结构和具有统计一致性的损失校正算法是兼容的，因此如下表所示，我们的方法也可以帮助具有复杂网络结构的先进多标签方法（如AGCN和CSRA）在所有的三种分类评估度量上对标签噪声都更鲁棒。更多具体的实验结果和分析欢迎阅读原论文。

五、结论

在本文中，我们研究了带噪多标签学习中噪声转移矩阵的估计问题。我们证明了带噪声多标签场景下实例无关的转移矩阵的一些可识别性结果。受这些结果启发，我们提出了一种新的方法利用标签相关性信息来估计噪声转移矩阵。所提出的方法既不需要锚点也不需要精确拟合带噪后验概率。在三个流行的多标签数据集上的实验表明了该方法估计转移矩阵的有效性，以及所估计得到的转移矩阵能很好地帮助具有统计一致性的噪声鲁棒算法实现更好的分类性能。

参考文献

[1] Cosmin Octavian Pene, Amirmasoud Ghiassi, Taraneh Younesian, Robert Birke, and Lydia Yiyu Chen. Multi-label gold asymmetric loss correction with single-label regulators. ArXiv, 2021.

[2] Weiwei Liu, Xiaobo Shen, Haobo Wang, and Ivor W. Tsang. The emerging trends of multi-label learning. TPAMI, 2021.

[3] Ming-Kun Xie and Sheng-Jun Huang. CCMN: A general framework for learning with class-conditional multi-label noise. TPAMI, 2022.

[4] Xiaobo Xia, Tongliang Liu, Nannan Wang, Bo Han, Chen Gong, Gang Niu, and Masashi Sugiyama. Are anchor points really indispensable in label-noise learning? In NeurIPS, 2019.

[5] Giorgio Patrini, Alessandro Rozza, Aditya Krishna Menon, Richard Nock, and Lizhen Qu. Making deep neural networks robust to label noise: A loss correction approach. In CVPR, pages, 2233–2241, 2017.

[6] Tongliang Liu and Dacheng Tao. Classification with noisy labels by importance reweighting. TPAMI, 2016.

[7] Yu Yao, Tongliang Liu, Bo Han, Mingming Gong, Jiankang Deng, Gang Niu, and Masashi Sugiyama. Dual T: reducing estimation error for transition matrix in label-noise learning. In NeurIPS, 2020.

[8] Yang Liu, Hao Cheng, and Kun Zhang. Identifiability of label noise transition matrix. ArXiv, 2022.

[9] Stéphane Boucheron, Gábor Lugosi, and Pascal Massart. Concentration inequalities - a nonasymptotic theory of independence. In Concentration Inequalities, 2013.

[10] Devansh Arpit, Stanisław Jastrz˛ebski, Nicolas Ballas, David Krueger, Emmanuel Bengio, Maxinder S Kanwal, Tegan Maharaj, Asja Fischer, Aaron Courville, Yoshua Bengio, et al. A closer look at memorization in deep networks. In ICML, 2017.

[11] Eric Arazo, Diego Ortego, Paul Albert, Noel E. O’Connor, and Kevin McGuinness. Unsupervised label noise modeling and loss correction. In ICML, 2019.

[12] Junnan Li, Richard Socher, and Steven C. H. Hoi. DivideMix: learning with noisy labels as semi-supervised learning. In ICLR, 2020.

作者：李世鲲

文章来源：公众号【PaperWeekly】