通过类别低方差正则化实现下游任务中的无标签去偏倚

Sep, 2024

通过类别低方差正则化实现下游任务中的无标签去偏倚

Unlabeled Debiasing in Downstream Tasks via Class-wise Low Variance Regularization

Shahed Masoudian, Markus Frohmann, Navid Rekabsaz, Markus Schedl

TL;DR本研究解决语言模型在下游任务中重新引入偏见的问题，现有的方法需依赖受保护属性标签或偏见指示词。我们提出了一种新颖的去偏倚正则化技术，基于嵌入的类别方差，不需要属性标签，并能够针对任意属性。实验结果表明，该方法在保持目标任务性能的同时，优于依赖目标属性标签的现有去偏倚基线。

Abstract

Language Models frequently inherit societal biases from their training data. Numerous techniques have been proposed to mitigate these biases during both the pre-training and fine-tuning stages. However, fine-tuning a pre-trained debiased language model on a downstream task can reintrod

发现论文，激发创造

使用性别平等的损失函数减少单词级语言模型中的性别偏见

本研究提出一种基于损失函数修改的去偏见方法，旨在平衡输出中男性和女性单词的概率；通过使用一系列偏差评估指标，我们提供实证证据表明我们的方法成功地减轻了语言模型中的性别偏见。与现有的去偏见策略，数据扩充和单词嵌入去偏见相比，我们的方法在多个方面，特别是在减少职业单词中的性别偏见方面表现更好。最后，我们介绍了一种数据扩充和我们方法的组合，并展示它在所有偏差评估指标中表现出优于现有策略的效果。

May, 2019

预训练词嵌入的性别保持去偏置

该研究提出了一种针对word embeddings中性别偏见问题的去偏方法，通过保留与性别相关、非歧视性别信息的同时，去除预先训练好的word embeddings中的刻板性别歧视偏差，实验结果表明该方法在保留性别相关但非歧视性别信息的同时，能够更好地去偏，适用于一系列benchmark数据集和NLP应用。

Jun, 2019

分布式词向量空间中隐式和显式去偏见的一般框架

本论文提出了一个通用的去除词向量中性别、种族等偏见的方法，并通过新的评估指标验证了该框架的有效性，同时在跨语言文本中成功实现了去偏。

Sep, 2019

可持续模块化去偏语言模型

本文通过提出使用专用去偏置适配器的可持续模块化去偏置方法ADELE，解决当前使用预训练语言模型存在的去偏置方法计算代价高和可能导致遗忘的问题，在性别去偏置任务上展示了ADELE的有效性，并证明其模块化特性使其在大规模下游训练后仍能保持公平，并成功将其运用到六种目标语种。

Sep, 2021

预训练语言模型去偏差技术有效性的实证研究

本文调查了五种最近提出的消除算法：CDA、Dropout、Iterative Nullspace Projection、Self-Debias和SentenceDebias的有效性。实验结果显示，Self-Debias是最有效的去偏置技术。但是现有去偏置技术在减轻非性别偏差方面表现不一致，同时算法会降低模型的语言建模能力，难以确定去偏置的效果。

Oct, 2021

FineDeb: 为语言模型提供去偏置的框架

提出了一种两阶段的去偏置框架FineDeb，用于语言模型中的人口统计子集偏差问题，在先前的语言模型学习嵌入之后开始，然后对语言建模目标进行微调，与其他方法相比，它提供了更强的去偏置效果。

Feb, 2023

去偏对于语言模型在下游任务中的影响被低估

通过使用包含女性、男性和刻板印象的单词的各种基准数据集，我们比较了去偏见对多个下游任务性能的影响，实验证明去偏见的影响在所有任务中都被一致地低估。此外，通过单独考虑包含女性、男性和刻板印象单词的实例，而不是所有实例，可以可靠地评估去偏见的影响。

Sep, 2023

应用内在去偏方法于下游任务：机器翻译的挑战与考虑

通过测量内在消除偏见的方法对神经机器翻译模型的外在偏见的影响，我们发现选择消除偏见的嵌入、词和子词符号的不匹配以及对不同目标语言的影响是影响下游性能和消除偏见成功的三个挑战和不匹配。

Jun, 2024

通过内在偏见和遗忘的视角理解面向任务无关的去偏差技术

研究任务不可知偏差减轻对语言建模能力和重新学习社会偏见的影响所面临的挑战，提出了一种新的框架ProSocialTuning，用于在下游微调中推动模型接近偏见下限，通过已成功去偏的注意力模块的正则化来克服忘记问题。

Jun, 2024

通过类别低方差正则化实现下游任务的无标签去偏见

本研究针对预训练去偏见语言模型在下游任务中重新引入偏见的问题，提出了一种基于类别嵌入方差的新颖去偏见正则化技术。该方法不依赖于属性标签，能够针对任意属性进行去偏见，实验结果显示其在性能上超越了现有依赖目标属性标签的去偏见基线，同时保持了下游任务的表现。

Sep, 2024