FineDeb: 为语言模型提供去偏置的框架

AAAIFeb, 2023

FineDeb: 为语言模型提供去偏置的框架

FineDeb: A Debiasing Framework for Language Models

Akash Saravanan, Dhruv Mullick, Habibur Rahman, Nidhi Hegde

TL;DR提出了一种两阶段的去偏置框架 FineDeb，用于语言模型中的人口统计子集偏差问题，在先前的语言模型学习嵌入之后开始，然后对语言建模目标进行微调，与其他方法相比，它提供了更强的去偏置效果。

Abstract

As language models are increasingly included in human-facing machine learning tools, bias against demographic subgroups has gained attention. We propose FineDeb, a two-phase →

language models debiasing framework contextual debiasing fine-tuning machine learning

发现论文，激发创造

从偏见到平等：消除大型语言模型词向量偏差的新方法

我们提出了 DeepSoftDebias 算法，该算法使用神经网络执行 “软去偏见”，并在各种 SOTA 数据集、准确度指标和复杂的 NLP 任务中进行了全面评估。我们发现 DeepSoftDebias 在减少性别、种族和宗教偏见方面优于当前最先进的方法。

Feb, 2024

去偏差化是否必然导致模型性能下降

本文提出了一个理论框架，解释了语言模型性别偏差的三个候选机制，发现大部分现有的去偏见方法会导致性能下降，但提出了一种不会降低模型性能的方法，即因果检测微调方法。通过数值实验证明，该方法能够在部分缓解性别偏差的同时避免性能下降。

Nov, 2022

大型语言模型中的公平性偏差和去偏差之旅

这篇研究使用变换器语言模型研究了其训练数据所带来的偏见问题，并提出了一种去偏方法，得到的去偏模型在下游任务上保持了良好的表现。

May, 2023

快速模型去偏置与机器遗忘

最近的研究发现，深度神经网络在许多实际场景中可能表现出偏见。本研究提出了一种快速模型去偏方法（FMD），该方法通过显式的反事实概念识别偏见属性，并使用影响函数量化数据样本的影响，进而设计了一种基于机器遗忘的策略来高效有效地消除模型中的偏见。实验证明，与现有先进方法相比，我们的方法在达到更高或相当的准确性的同时，具有更少的偏见和更低的去偏成本要求。

Oct, 2023

InterFair: 具有自然语言反馈的去偏见公平可解释预测

该研究论文提出，自然语言处理模型中的去偏置方法应当使用敏感信息来实现公平去偏置，而不是盲目地消除它，为了实现公平平衡，研究人员建议采用能够与用户互动并提供反馈的交互式方法，从而在任务表现和偏置缓解之间实现更好和公正的平衡，并支持详尽的解释。

Oct, 2022

性别调整：强化预训练语言模型去偏见的微调

通过使用下游任务数据对预训练语言模型（PLMs）进行微调， Gender-tuning 方法能够消除 PLMs 中的性别偏见，同时提高 PLMs 在下游任务上的性能。

Jul, 2023

端到端自校准框架用于稳健的 NLU 训练

通过引入一种简单而有效的去偏置框架，利用主模型的浅层表示来推导一个偏置模型，并同时训练两个模型，我们在三个广泛研究的自然语言理解任务中演示了该方法的有效性，尽管其简单性，但其在越界测试集上表现不俗，明显优于其他去偏执方法，并且仍然能够提供高性能的内分布结果。

Sep, 2021

DiFair: 评估性别知识和偏见的可分解基准

使用 DiFair 数据集作为基准，通过设计统一评估指标，研究了许多广泛使用的预训练语言模型和去偏技术，发现存在的性别偏见得到了证实，同时也证明了去偏技术虽然改善了性别偏见问题，但通常会降低模型的有用性别知识。

Oct, 2023

社会偏见探测：语言模型的公平性基准测试

本研究提出了一种新的框架，用于探索语言模型中的社会偏见，通过采集探索数据集和利用一种新的公平性评分方法，发现语言模型中的偏见更加复杂，并揭示不同宗教身份导致各种模型中最明显的不平等处理。

Nov, 2023

去偏对于语言模型在下游任务中的影响被低估

通过使用包含女性、男性和刻板印象的单词的各种基准数据集，我们比较了去偏见对多个下游任务性能的影响，实验证明去偏见的影响在所有任务中都被一致地低估。此外，通过单独考虑包含女性、男性和刻板印象单词的实例，而不是所有实例，可以可靠地评估去偏见的影响。

Sep, 2023