CVPR 2023 | 数据驱动的解释对分布外数据具有鲁棒性吗？

本文提出了一个端到端的、与模型无关的学习框架——分布鲁棒解释（DRE），它充分利用了分布间的信息，为解释学习提供了监督信号，而无需人工注释。在包括图像和科学数据上的分类和回归等广泛任务中的实证结果显示，我们的模型在面对分布外（OOD）数据时，其解释和预测的鲁棒性都优于其他模型。

论文链接：

https://arxiv.org/abs/2303.16390

代码链接：

https://github.com/tangli-udel/DRE

一、研究背景：数据驱动的解释对分布外数据具有鲁棒性吗？

近年来，将黑盒机器学习（ML）模型用于高风险应用的趋势日益明显。模型可解释性的缺乏可能会在医疗健康、刑事司法以及其他领域造成严重后果。与此同时，机器学习模型不可避免地会遭遇到超出其训练分布范围的未知数据分布。一个平均水平上表现出色的模型可能因为自然因素、子集群偏移、伪相关性和对抗攻击而在分布外（OOD）数据上发生灾难性的失败。例如，一个肿瘤检测模型可能会错误地预测来自使用不同数据获取协议或设备制造商的医院的样本。因此，跨数据分布的可靠解释对于机器学习模型的安全部署至关重要。然而，现有的研究主要集中在可解释方法在分布内的可靠性，而忽视了解释对于分布变化的鲁棒性。

我们针对不同的可解释方法对此问题进行了实证研究。图1中定性地展示了Grad-CAM[1]方法的解释结果。我们观察到，由于机器学习模型的黑盒属性，分布的偏移会进一步掩盖其决策过程。如图所示，现有方法训练出的模型即使预测正确，其在进行解释时不仅会突出目标对象，也会突出不相关元素（如树枝）。这些伪相关性会导致不同数据分布上的解释不一致，并最终产生在分布外数据上不可靠的解释。这种现象与人们的先验知识相悖，即最具区分性的特征应该是不变的（invariant）。

图1Terra Incognita[2]数据集分布内和分布外数据的Grad-CAM解释。与现有方法不同，我们的模型（DRE）的解释在不同的分布下始终突出最具区分性的特征。需要指出的是，GroupDRO[3]和IRM[4]是为能够跨分布准确预测而特别设计的方法。

二、方法介绍：如何开发对分布外数据鲁棒的解释？

获得对分布外数据鲁棒的解释并不容易。

一方面，现有关于分布外泛化的研究主要局限于数据增强、分布对齐、元学习以及不变学习。然而，在没有对解释施加约束的情况下，模型仍会不加选择地吸收训练数据中发现的所有关联，包括伪相关[4]。

另一方面，为了约束模型的解释，现有方法依赖于人工标注或数据增强之间的一对一映射[5]。然而，它们通常不存在于自然发生的分布偏移中。此外，由于标注者的主观性，获得真实解释标注的成本极高，甚至是不可能的。

2.1 问题表述

2.2 分布解释一致性

三、实验结果：分布鲁棒解释能否提升模型的泛化能力？

我们在广泛的任务中对DRE进行了评估，包括图像和科学数据的分类与回归任务。我们将DRE与最先进的基准模型进行了分布外解释鲁棒性与泛化性能的比较，并对DRE的关键组成部分进行了消融研究。

3.1 图像分类

图3对VLCS数据集中的Bird类（左）和Chair类（右）图片的Grad-CAM解释。使用现有方法训练的模型，不仅关注于对象，还关注伪相关性，特别是在分布外数据上这种情况更为严重。相反，我们的模型减少了对伪相关性（例如，背景像素）的依赖，并在分布外数据上做出了一致的解释。

Terra Incognita[2]数据集（约11K图像，10个类别）包含四个子数据集：Location 100、38、43和46。每个子数据集表示野外的一个相机陷阱位置，并可以被视为一个不同的分布。这些数据集中的每个图像都包含一个单一的动物类别（例如，土狼），但具有不同的照明、背景、视角等。

VLCS[7]数据集（约25K图像，5个类别）由四个子数据集组成：Caltech101、LabelMe、SUN09和VOC2007。每个子数据集可以被视为一个不同的分布。这些数据集中的每个图像都包含一个单一的图像类别（例如，汽车），并具有不同的风格和背景。

对于每一个数据集，我们逐个地把每一个分布设置为测试集，其他分布作为训练集。从每个训练集中，我们按照80%与20%的划分来分割数据，其中80%的数据用于训练，而20%的数据用于验证及模型的选择。

表1 在Terra Incognita和VLCS数据集上对出分布外数据解释和预测性能进行比较。我们突出显示了最好的结果和次优的结果，体现了我们方法的优越性。

图3中定性地展示了我们的解释的优越性。我们在表1中定量地展示了两个数据集所有分布上的结果。结果表明，我们的DRE方法能在分布外数据上取得最佳的解释一致性与保真度。同时，分布鲁棒的解释也提升了模型的分布外泛化性能。

3.2 科学数据回归

城市土地数据集（Global National Total Amounts of Urban Land v1，以下简称Urban Land）[8]将全球的土地分为997,022个方格区域。每个方格中都有九种地形、人口和历史城市化率的属性数据。该任务是使用过去40年的数据来预测2010年的城市化率。全球被分为九个大陆区域，每个区域可以看作是一个独特的分布。同样的，我们逐个地把每一个分布设置为测试集。

表2 在Urban Land数据集上对短期城市化预测（2000-2010）的分布外解释和预测性能进行比较。0.01的残差表示估计和观测到的建成土地比例之间的一百分点差异。

我们在表2中展示了在Urban Land数据集所有分布上的结果。结果表明，我们的DRE方法能在分布外数据上取得最佳的科学一致性（Scientific Consistency），即与领域专家的判断真值一致。同样的，分布鲁棒的解释也提升了模型的分布外泛化性能。

四、结语

我们的贡献包括：

我们对在自然出现的分布偏移下，数据驱动的解释的鲁棒性进行了全方位的研究。
我们提出了一个端到端的、与模型无关的学习框架——分布鲁棒解释（DRE）。它充分利用了分布间的信息，为解释学习提供了监督信号，而无需人工注释。
在包括图像和科学数据上的分类和回归等广泛任务中的实证结果显示，我们的模型在面对分布外（OOD）数据时，其解释和预测的鲁棒性都优于其他模型。

参考文献

[1] Selvaraju et al. Grad-cam: Visual explanations from deep networks via gradient-based localization. ICCV 2017.

[2] Beery et al. Recognition in terra incognita. ECCV, 2018.

[3] Sagawa et al. Distributionally robust neural networks. ICLR, 2019.

[4] Arjovsky et al. Invariant risk minimization. ArXiv, 2019.

[5] Rieger et al. Interpretations are useful: penalizing explanations to align neural networks with prior knowledge. ICML, 2020.

[6] Zhang et al. mixup: Beyond empirical risk minimization. ICLR, 2018.

[7] Fang et al. Unbiased metric learning: On the utilization of multiple datasets and web images for softening bias. ICCV, 2013.

[8] Gao et al. Mapping global urban land for the 21st century with data-driven simulations and shared socioeconomic pathways. Nature communications, 2020.