平衡偏差:通过平衡训练实现公平
本文提出使用数据增强方法减少自然语言处理中的性别偏见,并通过削减数据集中的例子提高模型的公平性,实验证明该方法在三个文本分类数据集上所实现的公平性优于数据增强方法。
Nov, 2022
我们提出了一种通用方法来控制自然语言生成中的社会偏见。通过对特定人口群体进行输入提示的提及,我们开发了一种诱发社会偏见的方法,并对两种情况进行了分析:在一种人口群体中诱发负面偏见,同时在另一种人口群体中诱发正面偏见,并使偏见在不同人口群体之间相等。该方法被证明在减轻偏见过程中是有效的。
May, 2020
本研究探讨了在人口统计方面出现的偏差对自然语言处理中的模型和数据集的影响,通过对大量的人工标注文本扰动数据的训练,得出采用人口统计扰动数据进行预训练和调优可以使语言模型更加公平,并且能在不牺牲下游任务性能的前提下减少模型的偏差。
May, 2022
该研究论文提出,自然语言处理模型中的去偏置方法应当使用敏感信息来实现公平去偏置,而不是盲目地消除它,为了实现公平平衡,研究人员建议采用能够与用户互动并提供反馈的交互式方法,从而在任务表现和偏置缓解之间实现更好和公正的平衡,并支持详尽的解释。
Oct, 2022
本研究提出一种基于损失函数修改的去偏见方法,旨在平衡输出中男性和女性单词的概率;通过使用一系列偏差评估指标,我们提供实证证据表明我们的方法成功地减轻了语言模型中的性别偏见。与现有的去偏见策略,数据扩充和单词嵌入去偏见相比,我们的方法在多个方面,特别是在减少职业单词中的性别偏见方面表现更好。最后,我们介绍了一种数据扩充和我们方法的组合,并展示它在所有偏差评估指标中表现出优于现有策略的效果。
May, 2019
在电脑视觉和自然语言处理领域中,神经网络虽然能够取得最新成果,但是其存在数据内的建模偏见,导致人工智能领域出现了公平性的研究方向,其目的为了纠正算法偏见,提出了几种基于公平性的神经网络去偏置的方法。
Nov, 2022
本文提出了一种用于对抗训练的增强鉴别器,以更丰富的特征和更明确的方式建模平等机会,实验证明相比标准的针对偏见的对抗性去偏见方法,我们的方法在性能 - 公平性平衡方面有很大的改进。
Mar, 2022