基于模型的对抗生成器用于性别偏见缓解
研究使用计数因果数据增强(CDA)方法来消除单词嵌入中的性别偏见,使用了 CDA 改进方法和名字干预技术,发现 CDA 变种在消除直接性别偏见和绘制非偏性别类比任务上比传统的基于投影方法表现更好。CDA/S 是唯一一个能够减轻间接性别偏差:在去偏后,以前有偏见的单词根据性别聚集的情况显着减少,从而改善去偏的最新技术水平。
Sep, 2019
本文提出一种利用对抗生成模型自动生成对抗样本并用成对分类器对其自动标注的框架,通过对仅 10% 人工标注的对抗样本数据进行生成,能有效提高情感分类和问题重述任务等自然语言分类器的 18-20% 稳健性和 14-21% 误差缩减。
May, 2023
最近的神经方法在神经机器翻译(NMT)系统质量方面取得了重大进展。然而,这些系统经常会产生具有不准确性别的翻译,这可以追溯到训练数据中的偏见。Saunders 和 Byrne 通过使用一个包含平衡性别职业词的手工制作数据集来解决这个问题。通过使用这个数据来微调现有的 NMT 模型,他们证明了性别偏见可以显著减轻,尽管这会导致由于灾难性遗忘而降低翻译质量。然而,我们发现,简单地补充手工制作的数据集与基础模型训练语料库的随机样本就足以显著减少灾难性遗忘。我们还提出了一种新颖的领域自适应技术,利用 Zmigrod 等人提出的反事实数据生成技术创建的领域内数据,在不显著降低翻译质量的情况下进一步提高 WinoMT 挑战测试集的准确性。我们展示了它在从英语到三种形态丰富的语言(法语、西班牙语和意大利语)的 NMT 系统中的有效性。相关数据集和代码将在 Github 上提供。
Nov, 2023
本文调查了五种最近提出的消除算法:CDA、Dropout、Iterative Nullspace Projection、Self-Debias 和 SentenceDebias 的有效性。实验结果显示,Self-Debias 是最有效的去偏置技术。但是现有去偏置技术在减轻非性别偏差方面表现不一致,同时算法会降低模型的语言建模能力,难以确定去偏置的效果。
Oct, 2021
本研究评估了性别偏见的 NLP 模型的统计和因果去偏方法,发现这些方法在目标度量上有效减少了偏见,但不一定改善了其他偏见度量的结果。同时,我们展示了统计和因果去偏技术的组合能够减少通过两种类型的度量来衡量的偏见。
Mar, 2024
本文提出了一种新的方法通过反事实生成来收集多样性,自然性和最小距离的文本对,并构建了一个由 4008 个实例分成 1002 个四重组成的 Counter-GAP 注释数据集,以评估语言模型在固指消解中的性别偏见问题。作者使用四重组级别指标解决了以前的偏差取消问题,并发现四个预训练的语言模型在不同性别组之间的不一致性显着大于在每个组内部的不一致性,姓名为基础的反事实数据增强方法比匿名化方法对减少这种偏见更有效。
Feb, 2023
NLP 模型在社交计算的各种重要任务中被使用,例如检测性别歧视、种族歧视或其他憎恨内容。因此,这些模型对于虚假特征的稳健性至关重要。过去的研究尝试使用训练数据增强来解决这些虚假特征问题,包括 Counterfactually Augmented Data (CADs)。CADs 在现有训练数据点上引入最小的更改并翻转其标签;使用它们进行训练可能减少模型对虚假特征的依赖性。然而,手动生成 CADs 可能是耗时且昂贵的。因此,在本研究中,我们评估了使用生成性 NLP 模型是否可以自动化这一任务。我们使用 Polyjuice、ChatGPT 和 Flan-T5 自动生成 CADs,并与手动生成的 CADs 进行比较,评估其提高模型稳健性的效用。通过测试模型在多个域外测试集上的性能和单个数据点的有效性,我们的结果显示,手动 CADs 仍然是最有效的,ChatGPT 生成的 CADs 排名第二。自动化方法性能较低的一个关键原因是它们引入的更改通常不足以翻转原始标签。
Nov, 2023
通过使用无监督生成模型进行反事实数据增强,降低 MMI 方法在挑选文本方面的性能,从而更好地捕捉感兴趣的信号,并提高基于解释性自然语言处理(NLP)的合理性模型的性能。
Jan, 2022
本文提出了 NeuroCounterfactuals 方法,通过松散的对比事实产生更大规模的编辑,从而使得生成的文本包含语言多样性,同时与原始文档相似,使得训练数据增强在情感分类方面取得了良好的效果。
Oct, 2022