EMNLP 2022 | 普林斯顿陈丹琦组：使用文本蕴含数据减轻性别偏差

论文标题：

MABEL: Attenuating Gender Bias using Textual Entailment Data

收录会议：

EMNLP 2022

论文链接：

https://arxiv.org/abs/2210.14975

代码链接：

https://github.com/princeton-nlp/mabel

1.『摘要』

预训练过程中编码引进的社会偏差，会进一步在下游任务中放大。本文提出使用真专用标签的性别偏差减轻方法 MABEL，其关键技术：

基于反事实增强的对比学习目标：具体为构造 NLI 数据集中的性别平衡蕴含对，通过蕴含对的监督对比学习方式，能够学习更均匀的表征空间（即最好是各向同性），这就使得句子之间的相似性度量更好地去对应语义的相似性（言外之意，不受性别偏差的影响）。
对齐正则化：作用是使不同性别方向的蕴含对拉近他们的一致性，来更好地学习更加公平的语义空间。

实验通过内在和外部指标来评测模型表现，验证了 MAEBL 作为模型无关的方法，能够在下游任务的微调之后仍然保持很好的表现；使用 NLI 数据的蕴含对非常适合减轻偏差。

2.『引言』

常见语言模型消除偏差方法：

任务相关：在下游微调时进行偏差减轻，这种方法要求敏感属性标注。
任务无关：与训练过程中直接提升预训练表征，又分为投影和中间预训练两个方法（本文提出的 MABEL 属于后者）。

MABEL 是第一个利用监督句子对（本文具体为 NLI 数据的隐含对）来学习更公平的上下文表征，此外还提出了对其正则化，和可选的掩码任务以适应 token 下游任务。实验在生成语言模型、文本分类、NLI 和指代消解等 NLP 任务上，都体现了公平性和下游任务的良好表现，说明了利用 NLI 数据减轻偏差的有效性和 MABEL 作为公平编码器的潜力。

3.『背景知识』

任务相关去偏是指要求在下游任务中敏感属性影响应该被忽视，常用技术有投影变换、对抗学习、对比学习；而任务无关去偏是指利用通用预料的文本信息减轻偏差，这类方法大多是要让表征与敏感属性关联尽可能小。论文也整理了近年来两种任务对应的方法：

内在指标：直接在上游语言模型检测，常用如 SEAT 指标。（计算简单、快速、开销小）

这里贴出 SEAT 指标的解释：

外部指标：通过具体在下游任务上不同群组的预测效用差异。（时间和计算复杂度高，但可解释性好）

但是本文任务之前也有研究发现即使 SEAT 表现好的模型，其下游外部指标很差，即二者可能并无关联，因此本文弃用 SEAT。

此外，偏差评估使用某个指标往往是不充分的，因此本文对内在和外部指标均进行评测。

4.『方法』

4.1 训练数据

从 NLI 数据集提取所有包含性别项的蕴含对（不论是前提或者假设），如下图左边两组句子，下面就是对上面蕴含对的增强。

4.2 训练目标

基于蕴含对的对比损失 + 对齐损失 + [MLM损失]

4.3 对比损失

先说为什么，再说怎么做。为什么我们要用对比损失？本文认为对比学习和减轻偏差的目的其实不谋而合，也希望性别反转之后，蕴含对的含义仍然是相近的。

4.4 对齐损失

从语义空间上，反转性别词后的蕴含对，他们之间的相似度应该和原蕴含对相近，毕竟只是性别反转而已，句子本身的蕴含关系并不发生变化，因此自然而然得到对齐损失式子如下：

这个对齐损失其实就是在鼓励原蕴含对和增强蕴含对之间的本质相关性。

4.5 掩码语言模型损失

这个已经在语言模型里用烂了的损失目的是为了使编码器保留 token 级的知识。

最后给出总的损失函数

5.『评测指标』

5.1 内在指标

1. StereoSet：任务构建为句子填空，其中空白部分是 stereotypical、anti-stereotypical 和 irrelevant 词，LM 分数是 # 有效词（即 stereotypical 和 anti-stereotypical）/#irrelevant 词，SS 分数是 #stereotypical/#anti-stereotypical，最终的 ICAT 是二者的组合 LM*·(min(SS,* 100−SS))*/*50。SS 结果越接近 50 越公平，LM 和 ICAT 都是越大越好。

2. CrowS-Pairs：每个句子将 stereotypical 或者 anti-stereotypical 作为空白，然后看模型预测优势组和劣势组的 token 概率之比作为分数 SS。

5.2 外部指标

2. Bias-NLI：给定句子模板，构造具有强烈性别关联的性别词和职业词（如 The woman ate a bagel；The nurse ate a bagel）。这个任务的偏差解释为偏离中立词的程度，指标为 Net Neutral（NN），Fraction Neutral（FN）Threshold：（T:）。论文并没有对这几个指标做出详细解释，只说了三个指标如果值为 1，那么就是无偏差的。

3. WinoBias：任务是给定 pro-stereotypical 和 anti-stereotypical 上下文中，链接性别代词和职业。指标是对于两组的 F1 average 和 Type 1，Type 2，average F1 的差值。（这里 Type 1 和 Type2 是说统计检验的第一类错误和第二类错误吗？原文没说）

5.3 语言理解

GLUE 作为评测指标。

6.『实验』

除了常规的实验外，论文还进行了可视化和消融，都验证了 MABEL 确实减轻了偏差，而且保持了较好的下游任务。

6.1 定性比较

比如，MABEL 能将不同性别词拉近，而 BERT 则出现了 science，technology 和 male 更近的问题，SimCSE 将男性词和女性词拉的很远。

6.2 消融实验

数据消融：分别利用中立对、矛盾对、随机 dropout 构造正例（与 SimCSE 一样）

6.3 目标消融

6.4 batch size影响

虽然对比学习一般要求较大的 batch size，但是对于 MABEL，128 的 batch size 足以，所以 MABEL 是一个轻量级模型（在单 GPU 上训练不到8h）

7.『总结』

MABEL 在性能-公平之间做了更好的权衡
系统的消融实验证明了蕴含对增强数据和损失函数各个项对 MABEL 都至关重要
上游偏差的消除对于下游场景是具有可迁移能力的