平衡偏差：通过平衡训练实现公平

Sep, 2021

平衡偏差：通过平衡训练实现公平

Balancing out Bias: Achieving Fairness Through Balanced Training

Xudong Han, Timothy Baldwin, Trevor Cohn

TL;DR该研究旨在解决自然语言处理中与作者人口统计信息相关的系统偏差问题，提出了一种基于数据集平衡和带保护属性的门控模型来实现公正性，证明了该方法在减少偏差方面优于其他技术。

Abstract

group bias in natural language processing tasks manifests as disparities in system error rates across texts authorized by different demographic groups, typically disadvantaging minority groups. →

group bias natural language processing dataset balancing equal opportunity fairness protected attributes

发现论文，激发创造

模型训练中优化平等机会公平性

本研究提出了两种新的训练目标，直接优化了广泛使用的平等机会标准，并证明它们在两个分类任务中减少偏见的同时保持高性能。

May, 2022

预测公平性的系统评估

研究偏见数据训练中的偏差的缓解方法，分析多种方法在不同数据条件下的性能表现，发现仅基于标准数据集进行评估的公平性研究实践存在局限性。

Oct, 2022

健康数据饮食上的深度学习：发现对公平性重要的示例

本文提出使用数据增强方法减少自然语言处理中的性别偏见，并通过削减数据集中的例子提高模型的公平性，实验证明该方法在三个文本分类数据集上所实现的公平性优于数据增强方法。

Nov, 2022

语言生成中的可控偏见

我们提出了一种通用方法来控制自然语言生成中的社会偏见。通过对特定人口群体进行输入提示的提及，我们开发了一种诱发社会偏见的方法，并对两种情况进行了分析：在一种人口群体中诱发负面偏见，同时在另一种人口群体中诱发正面偏见，并使偏见在不同人口群体之间相等。该方法被证明在减轻偏见过程中是有效的。

May, 2020

公平自然语言处理的扰动增强

本研究探讨了在人口统计方面出现的偏差对自然语言处理中的模型和数据集的影响，通过对大量的人工标注文本扰动数据的训练，得出采用人口统计扰动数据进行预训练和调优可以使语言模型更加公平，并且能在不牺牲下游任务性能的前提下减少模型的偏差。

May, 2022

缓解语音模型中的偏见的对比学习方法

使用对比学习技术来减轻语音模型中的偏差，改善性能不佳的子群体的内部表示，从而降低模型偏差并提升性能。

Jun, 2024

InterFair: 具有自然语言反馈的去偏见公平可解释预测

该研究论文提出，自然语言处理模型中的去偏置方法应当使用敏感信息来实现公平去偏置，而不是盲目地消除它，为了实现公平平衡，研究人员建议采用能够与用户互动并提供反馈的交互式方法，从而在任务表现和偏置缓解之间实现更好和公正的平衡，并支持详尽的解释。

Oct, 2022

使用性别平等的损失函数减少单词级语言模型中的性别偏见

本研究提出一种基于损失函数修改的去偏见方法，旨在平衡输出中男性和女性单词的概率；通过使用一系列偏差评估指标，我们提供实证证据表明我们的方法成功地减轻了语言模型中的性别偏见。与现有的去偏见策略，数据扩充和单词嵌入去偏见相比，我们的方法在多个方面，特别是在减少职业单词中的性别偏见方面表现更好。最后，我们介绍了一种数据扩充和我们方法的组合，并展示它在所有偏差评估指标中表现出优于现有策略的效果。

May, 2019

视觉和语言研究中实现更公平的神经模型的去偏置方法：一份调查报告

在电脑视觉和自然语言处理领域中，神经网络虽然能够取得最新成果，但是其存在数据内的建模偏见，导致人工智能领域出现了公平性的研究方向，其目的为了纠正算法偏见，提出了几种基于公平性的神经网络去偏置的方法。

Nov, 2022

通过对抗学习实现平等机会公平性

本文提出了一种用于对抗训练的增强鉴别器，以更丰富的特征和更明确的方式建模平等机会，实验证明相比标准的针对偏见的对抗性去偏见方法，我们的方法在性能 - 公平性平衡方面有很大的改进。

Mar, 2022