女王也很有力量:缓解对话生成中的性别偏见
本文提出了基于对抗学习的、旨在降低对话系统中性别歧视的新框架 Debiased-Chat,并在两个真实的对话数据集上进行了广泛的实验,结果表明该框架明显降低了对话模型的性别偏见,同时保持了响应质量。
Sep, 2020
自动检测大型语言模型(如 ChatGPT 和 GPT-4)潜在性别偏见的研究,提出了一种自动生成测试用例的方法,并通过这些测试用例来减轻模型偏见,从而实现更公正的回复。
Oct, 2023
最近的神经方法在神经机器翻译(NMT)系统质量方面取得了重大进展。然而,这些系统经常会产生具有不准确性别的翻译,这可以追溯到训练数据中的偏见。Saunders 和 Byrne 通过使用一个包含平衡性别职业词的手工制作数据集来解决这个问题。通过使用这个数据来微调现有的 NMT 模型,他们证明了性别偏见可以显著减轻,尽管这会导致由于灾难性遗忘而降低翻译质量。然而,我们发现,简单地补充手工制作的数据集与基础模型训练语料库的随机样本就足以显著减少灾难性遗忘。我们还提出了一种新颖的领域自适应技术,利用 Zmigrod 等人提出的反事实数据生成技术创建的领域内数据,在不显著降低翻译质量的情况下进一步提高 WinoMT 挑战测试集的准确性。我们展示了它在从英语到三种形态丰富的语言(法语、西班牙语和意大利语)的 NMT 系统中的有效性。相关数据集和代码将在 Github 上提供。
Nov, 2023
为了提高语言模型的公正性,本文提出了多项定义并给出了新的测试和度量方式,旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明,该方法能够在文本生成中减少偏见同时保留重要的上下文信息。
Jun, 2021
本文介绍了一种基于对抗学习的机器翻译性别偏见缓解框架,该框架通过在预训练的大型语言模型上微调网络目标,以及从数据自身推断保护变量的任务中开发措施,实现了对机器翻译中的性别偏见的缓解,提高了男女实体翻译质量的差异。
Mar, 2022
通过使用数据处理技术和双目标训练方案,我们提出了一个基于模型的解决方案来生成对抗性样本以减轻性别偏见,并通过实证评估表明我们的模型减轻了基于词典的解决方案的缺点。
Nov, 2023
本研究提出了一种总结生成文本到图像模型中的社会偏见并确保结果在不同人群之间公平的方法。我们通过在多样的文本提示下,用由各种民族、性别、职业、年龄组等组合构建的感知肤色和性别差异的合成数据对文本到图像模型进行微调,从而减轻了这种偏见。相较于基准模型,我们的多样性微调模型在感知肤色和性别方面将群体公平指标分别提高了 150% 和 97.7%。该模型生成具有感知肤色较暗和更多女性的生成图像。为推动开放研究,我们将公开发布所有文本提示和生成训练图像的代码。
Oct, 2023
本研究提出了一种基于因果中介分析的方法来追踪大型语言模型中不同组件激活的因果效应,并在此基础上提出了最小二乘去偏(LSDM)方法,用于减少职业代词中的性别偏见,实验结果表明 LSDM 方法比其他基线方法更有效地减少模型中的性别偏见,同时在其他方面完全保留了模型的能力。
Mar, 2024