基于模型的对抗生成器用于性别偏见缓解

Nov, 2023

基于模型的对抗生成器用于性别偏见缓解

Model-based Counterfactual Generator for Gender Bias Mitigation

Ewoenam Kwaku Tokpo, Toon Calders

TL;DR通过使用数据处理技术和双目标训练方案，我们提出了一个基于模型的解决方案来生成对抗性样本以减轻性别偏见，并通过实证评估表明我们的模型减轻了基于词典的解决方案的缺点。

Abstract

counterfactual data augmentation (CDA) has been one of the preferred techniques for mitigating gender bias in natural language models. CDA techniques have mostly employed word substitution based on dictionaries. Although such dictionary-based CDA techniques have been shown to significa

counterfactual data augmentation gender bias mitigation dictionary-based techniques model-based solution empirical evaluation

发现论文，激发创造

姓名决定性别：利用姓名为基础进行反事实数据替代以减轻性别偏见

研究使用计数因果数据增强（CDA）方法来消除单词嵌入中的性别偏见，使用了 CDA 改进方法和名字干预技术，发现 CDA 变种在消除直接性别偏见和绘制非偏性别类比任务上比传统的基于投影方法表现更好。CDA/S 是唯一一个能够减轻间接性别偏差：在去偏后，以前有偏见的单词根据性别聚集的情况显着减少，从而改善去偏的最新技术水平。

Sep, 2019

通过主动生成成对的反事实，提高分类器的健壮性

本文提出一种利用对抗生成模型自动生成对抗样本并用成对分类器对其自动标注的框架，通过对仅 10% 人工标注的对抗样本数据进行生成，能有效提高情感分类和问题重述任务等自然语言分类器的 18-20% 稳健性和 14-21% 误差缩减。

May, 2023

探究自动生成的反事实数据在情感分析中的有效性

提出了一种自动产生对立数据的方法，基于此数据增广训练集可以有效提高 NLP 模型的性能。

Jun, 2021

使用反事实数据生成减少机器翻译中的性别偏见

最近的神经方法在神经机器翻译（NMT）系统质量方面取得了重大进展。然而，这些系统经常会产生具有不准确性别的翻译，这可以追溯到训练数据中的偏见。Saunders 和 Byrne 通过使用一个包含平衡性别职业词的手工制作数据集来解决这个问题。通过使用这个数据来微调现有的 NMT 模型，他们证明了性别偏见可以显著减轻，尽管这会导致由于灾难性遗忘而降低翻译质量。然而，我们发现，简单地补充手工制作的数据集与基础模型训练语料库的随机样本就足以显著减少灾难性遗忘。我们还提出了一种新颖的领域自适应技术，利用 Zmigrod 等人提出的反事实数据生成技术创建的领域内数据，在不显著降低翻译质量的情况下进一步提高 WinoMT 挑战测试集的准确性。我们展示了它在从英语到三种形态丰富的语言（法语、西班牙语和意大利语）的 NMT 系统中的有效性。相关数据集和代码将在 Github 上提供。

Nov, 2023

预训练语言模型去偏差技术有效性的实证研究

本文调查了五种最近提出的消除算法：CDA、Dropout、Iterative Nullspace Projection、Self-Debias 和 SentenceDebias 的有效性。实验结果显示，Self-Debias 是最有效的去偏置技术。但是现有去偏置技术在减轻非性别偏差方面表现不一致，同时算法会降低模型的语言建模能力，难以确定去偏置的效果。

Oct, 2021

在 NLP 模型中同时解决统计性别公平性和因果性别公平性

本研究评估了性别偏见的 NLP 模型的统计和因果去偏方法，发现这些方法在目标度量上有效减少了偏见，但不一定改善了其他偏见度量的结果。同时，我们展示了统计和因果去偏技术的组合能够减少通过两种类型的度量来衡量的偏见。

Mar, 2024

通过性别不明确的代词进行反事实偏见评估的计数器

本文提出了一种新的方法通过反事实生成来收集多样性，自然性和最小距离的文本对，并构建了一个由 4008 个实例分成 1002 个四重组成的 Counter-GAP 注释数据集，以评估语言模型在固指消解中的性别偏见问题。作者使用四重组级别指标解决了以前的偏差取消问题，并发现四个预训练的语言模型在不同性别组之间的不一致性显着大于在每个组内部的不一致性，姓名为基础的反事实数据增强方法比匿名化方法对减少这种偏见更有效。

Feb, 2023

人类的编辑更好：评估 LLM 生成的反事实扩充数据对有害语言检测的有效性

NLP 模型在社交计算的各种重要任务中被使用，例如检测性别歧视、种族歧视或其他憎恨内容。因此，这些模型对于虚假特征的稳健性至关重要。过去的研究尝试使用训练数据增强来解决这些虚假特征问题，包括 Counterfactually Augmented Data (CADs)。CADs 在现有训练数据点上引入最小的更改并翻转其标签；使用它们进行训练可能减少模型对虚假特征的依赖性。然而，手动生成 CADs 可能是耗时且昂贵的。因此，在本研究中，我们评估了使用生成性 NLP 模型是否可以自动化这一任务。我们使用 Polyjuice、ChatGPT 和 Flan-T5 自动生成 CADs，并与手动生成的 CADs 进行比较，评估其提高模型稳健性的效用。通过测试模型在多个域外测试集上的性能和单个数据点的有效性，我们的结果显示，手动 CADs 仍然是最有效的，ChatGPT 生成的 CADs 排名第二。自动化方法性能较低的一个关键原因是它们引入的更改通常不足以翻转原始标签。

Nov, 2023

通过逐个解释得出 (反事实的) 差异

通过使用无监督生成模型进行反事实数据增强，降低 MMI 方法在挑选文本方面的性能，从而更好地捕捉感兴趣的信号，并提高基于解释性自然语言处理（NLP）的合理性模型的性能。

Jan, 2022

神经逆向生成：更为丰富的数据增强方法

本文提出了 NeuroCounterfactuals 方法，通过松散的对比事实产生更大规模的编辑，从而使得生成的文本包含语言多样性，同时与原始文档相似，使得训练数据增强在情感分类方面取得了良好的效果。

Oct, 2022