女王也很有力量：缓解对话生成中的性别偏见

Nov, 2019

女王也很有力量：缓解对话生成中的性别偏见

Queens are Powerful too: Mitigating Gender Bias in Dialogue Generation

Emily Dinan, Angela Fan, Adina Williams, Jack Urbanek, Douwe Kiela...

TL;DR研究分析了对话数据中存在的性别偏见及其在生成模型中的放大问题，并提出了三种消除性别偏见的技术：因果数据增广、有针对性的数据收集和偏见控制训练。通过各种评估方法，验证了这些技术可以使生成的对话回应中性别不平衡的问题得到缓解。

Abstract

Models often easily learn biases present in the training data, and their predictions directly reflect this bias. We analyze gender bias in dialogue data, and examine how this bias is actually amplified in subsequent generative chit-chat dialogue models. We measure →

gender bias dialogue data generative models bias mitigation counterfactual data augmentation

发现论文，激发创造

基于对抗学习减轻神经对话生成中的性别偏见

本文提出了基于对抗学习的、旨在降低对话系统中性别歧视的新框架 Debiased-Chat，并在两个真实的对话数据集上进行了广泛的实验，结果表明该框架明显降低了对话模型的性别偏见，同时保持了响应质量。

Sep, 2020

大型语言模型中的性别偏见煽动与缓解之学习

自动检测大型语言模型（如 ChatGPT 和 GPT-4）潜在性别偏见的研究，提出了一种自动生成测试用例的方法，并通过这些测试用例来减轻模型偏见，从而实现更公正的回复。

Oct, 2023

AI 系统公平性：缓解语言视觉模型中的性别偏见

本研究尝试减轻语言视觉模型中的性别偏见问题，通过研究现有数据集中性别偏见的影响程度，并提出一种缓解方法。

May, 2023

通过反事实角色反转缓解精简语言模型中的性别偏见

本文介绍了一种基于对抗模型的知识蒸馏方法，用于减少语言模型中存在的性别差异，并通过实验证明了其有效性。

Mar, 2022

使用反事实数据生成减少机器翻译中的性别偏见

最近的神经方法在神经机器翻译（NMT）系统质量方面取得了重大进展。然而，这些系统经常会产生具有不准确性别的翻译，这可以追溯到训练数据中的偏见。Saunders 和 Byrne 通过使用一个包含平衡性别职业词的手工制作数据集来解决这个问题。通过使用这个数据来微调现有的 NMT 模型，他们证明了性别偏见可以显著减轻，尽管这会导致由于灾难性遗忘而降低翻译质量。然而，我们发现，简单地补充手工制作的数据集与基础模型训练语料库的随机样本就足以显著减少灾难性遗忘。我们还提出了一种新颖的领域自适应技术，利用 Zmigrod 等人提出的反事实数据生成技术创建的领域内数据，在不显著降低翻译质量的情况下进一步提高 WinoMT 挑战测试集的准确性。我们展示了它在从英语到三种形态丰富的语言（法语、西班牙语和意大利语）的 NMT 系统中的有效性。相关数据集和代码将在 Github 上提供。

Nov, 2023

探索并缓解语言模型中的社会偏见

为了提高语言模型的公正性，本文提出了多项定义并给出了新的测试和度量方式，旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明，该方法能够在文本生成中减少偏见同时保留重要的上下文信息。

Jun, 2021

通过对抗学习缓解机器翻译中的性别偏见

本文介绍了一种基于对抗学习的机器翻译性别偏见缓解框架，该框架通过在预训练的大型语言模型上微调网络目标，以及从数据自身推断保护变量的任务中开发措施，实现了对机器翻译中的性别偏见的缓解，提高了男女实体翻译质量的差异。

Mar, 2022

基于模型的对抗生成器用于性别偏见缓解

通过使用数据处理技术和双目标训练方案，我们提出了一个基于模型的解决方案来生成对抗性样本以减轻性别偏见，并通过实证评估表明我们的模型减轻了基于词典的解决方案的缺点。

Nov, 2023

缓解文本到图像生成系统中的刻板偏见

本研究提出了一种总结生成文本到图像模型中的社会偏见并确保结果在不同人群之间公平的方法。我们通过在多样的文本提示下，用由各种民族、性别、职业、年龄组等组合构建的感知肤色和性别差异的合成数据对文本到图像模型进行微调，从而减轻了这种偏见。相较于基准模型，我们的多样性微调模型在感知肤色和性别方面将群体公平指标分别提高了 150% 和 97.7%。该模型生成具有感知肤色较暗和更多女性的生成图像。为推动开放研究，我们将公开发布所有文本提示和生成训练图像的代码。

Oct, 2023

在大型语言模型中定位和缓解性别偏见

本研究提出了一种基于因果中介分析的方法来追踪大型语言模型中不同组件激活的因果效应，并在此基础上提出了最小二乘去偏（LSDM）方法，用于减少职业代词中的性别偏见，实验结果表明 LSDM 方法比其他基线方法更有效地减少模型中的性别偏见，同时在其他方面完全保留了模型的能力。

Mar, 2024