去偏置化预训练上下文嵌入

ACLJan, 2021

Debiasing Pre-trained Contextualised Embeddings

Masahiro Kaneko, Danushka Bollegala

TL;DR提出一种 fine-tuning 方法，可在令牌或句子级别上应用于去偏置预训练上下文嵌入。使用性别偏见为例，我们使用多个 SoTA 上下文表示在多个基准数据集上进行系统研究，并发现对于上下文嵌入模型的所有令牌和所有层应用令牌级去偏置会产生最佳性能。

Abstract

In comparison to the numerous debiasing methods proposed for the static non-contextualised word embeddings, the discriminative biases in contextualised embeddings have received relatively little attention. We propose a

debiasing contextualised embeddings fine-tuning gender bias benchmark datasets

发现论文，激发创造

从偏见到平等：消除大型语言模型词向量偏差的新方法

我们提出了 DeepSoftDebias 算法，该算法使用神经网络执行 “软去偏见”，并在各种 SOTA 数据集、准确度指标和复杂的 NLP 任务中进行了全面评估。我们发现 DeepSoftDebias 在减少性别、种族和宗教偏见方面优于当前最先进的方法。

Feb, 2024

推进句子表示的去偏见化

调查了句子级别表达中社会偏见存在的情况，提出了另一种更有效减弱偏差的方法 Sent-Debias，并在保持性能的同时，用于情感分析，语言可接受性和自然语言理解等句子级下游任务。

Jul, 2020

预训练词嵌入的性别保持去偏置

该研究提出了一种针对 word embeddings 中性别偏见问题的去偏方法，通过保留与性别相关、非歧视性别信息的同时，去除预先训练好的 word embeddings 中的刻板性别歧视偏差，实验结果表明该方法在保留性别相关但非歧视性别信息的同时，能够更好地去偏，适用于一系列 benchmark 数据集和 NLP 应用。

Jun, 2019

评估上下文词嵌入中的潜在性别偏见

在研究中，我们发现标准词嵌入即使经过去偏差处理，其性别偏差仍然很高，而上下文词嵌入则能够减少这种性别偏差，从而为自然语言处理应用提供更公正的结果。

Apr, 2019

语义嵌入也存在偏差 -- 评估静态和上下文化语义嵌入中的社会偏见

本文提出一种评估感觉嵌入社会偏见的基准数据集和新的感知特定偏见评估指标，并对多个静态和上下文感知嵌入进行广泛评估，发现即使在单词级别没有发现偏见的情况下，仍存在令人担忧的感知级别的社会偏见，这通常被单词级别偏见评估措施所忽略。

Mar, 2022

评估情境化单词表征中的社会和交叉偏见

本文分析了最先进的语境词表示模型，如 BERT 和 GPT-2，对于性别，种族和交叉身份认同的偏差情况，并提出了一种新颖的方法对词语级别上的偏差进行评估。

Nov, 2019

测量上下文化词表示中的偏见

本研究基于模板方法提出了一种量化 BERT 中偏见的方法，并且通过性别代词解析的案例研究证明了该方法在捕捉社会偏见方面的优越性，同时也指出了该方法的普遍适用性，包括在多类别设置中使用的种族和宗教偏见。

Jun, 2019

通过对比词对来消除句子嵌入器的偏见

去除自然语言处理中句子嵌入中的线性和非线性偏见信息，以不影响下游性能。通过比较常见去偏方法和考虑非线性信息的去偏指标，探索了这种方法。

Mar, 2024

预训练语言模型去偏差技术有效性的实证研究

本文调查了五种最近提出的消除算法：CDA、Dropout、Iterative Nullspace Projection、Self-Debias 和 SentenceDebias 的有效性。实验结果显示，Self-Debias 是最有效的去偏置技术。但是现有去偏置技术在减轻非性别偏差方面表现不一致，同时算法会降低模型的语言建模能力，难以确定去偏置的效果。

Oct, 2021

基于词典的预训练词嵌入去偏差化

本研究提出了一种使用字典对预先训练的词嵌入进行去偏置的方法，该方法不需要访问原始的训练资源或了解所使用的词嵌入算法，并可以自动从字典定义中学习无偏置词嵌入所需满足的约束条件。实验结果表明，该方法可以准确消除预先训练的词嵌入中编码的不公平偏见，同时保留有用的语义信息。

Jan, 2021