双重强化去偏见：定制化词向量以降低性别偏见

ACLMay, 2020

双重强化去偏见：定制化词向量以降低性别偏见

Double-Hard Debias: Tailoring Word Embeddings for Gender Bias Mitigation

Tianlu Wang, Xi Victoria Lin, Nazneen Fatema Rajani, Bryan McCann, Vicente Ordonez...

TL;DR本文研究了人类生成语料库（human-generated corpora）中由来的单词嵌入（word embeddings）存在着的性别偏见问题，以及已有的性别去偏置（debiasing）方法的局限性；在此基础上，提出了一种新的技术，Double Hard Debias，该技术能够在推断并去除性别子空间之前，首先过滤掉语料库中存储的单词使用频率等无关因素。实验证明，与之前的方法相比，本文提出的技术不仅保留了预训练好的单词嵌入的分布语义（distributional semantics），而且能够更有效地降低性别偏见。

Abstract

word embeddings derived from human-generated corpora inherit strong gender bias which can be further amplified by downstream models. Some commonly adopted debiasing approaches, including the seminal Hard Debias a

word embeddings gender bias debiasing approaches double hard debias corpus regularities

发现论文，激发创造

预训练词嵌入的性别保持去偏置

该研究提出了一种针对 word embeddings 中性别偏见问题的去偏方法，通过保留与性别相关、非歧视性别信息的同时，去除预先训练好的 word embeddings 中的刻板性别歧视偏差，实验结果表明该方法在保留性别相关但非歧视性别信息的同时，能够更好地去偏，适用于一系列 benchmark 数据集和 NLP 应用。

Jun, 2019

从偏见到平等：消除大型语言模型词向量偏差的新方法

我们提出了 DeepSoftDebias 算法，该算法使用神经网络执行 “软去偏见”，并在各种 SOTA 数据集、准确度指标和复杂的 NLP 任务中进行了全面评估。我们发现 DeepSoftDebias 在减少性别、种族和宗教偏见方面优于当前最先进的方法。

Feb, 2024

消除嵌入偏见以减少文本分类中的性别偏见

研究表明，预训练词嵌入可能会的继承训练数据的性别偏见，并探究这种偏见如何影响职业分类任务。该文案例研究发现，传统的去偏方法可能会导致下游分类器的偏见恶化，但我们提出了一种相对较小的调整方法来同时减少偏见并保持高分类精度。

Aug, 2019

通过因果推断实现词嵌入：减少性别偏见并保留语义信息

通过提出一种基于因果推断框架的新方法来有效消除性别偏见，该方法可以在保留嵌入式语义信息的同时构建和分析性别信息流的复杂因果机制，从而在性别去偏任务中取得最新的技术结果。

Dec, 2021

词嵌入联合多类别去偏置

本文提出了一种联合多类去偏差方法 SoftWEAT，它可以在减少多个偏差方面取得良好的结果，并通过在三个不同的公开数据集上进行实验，在三个偏差分类（宗教、性别和种族）中去偏差 Word Embeddings，显示出其可行性，同时维持着词嵌入中向量的有意义关系，从而加强了更具代表性的文本数据的基础。

Mar, 2020

猪涂口红：去偏置方法虽然掩盖了词嵌入中系统性的性别偏差，但并未消除它们

本研究探讨了文本话语中的性别偏见现象，评估了现有去偏置模型的实际效果，认为现有去偏置方法虽然在表面上达到了降低偏见的效果，但实际上却只是掩盖了偏见，并认为现有技术不足以构建性别中性的计算模型。

Mar, 2019

使用潜在解缠和反事实生成消除词嵌入中的性别偏见

通过 siamese auto-encoder 和 adapted gradient reversal layer 的方法，我们提出了一种注意 semantic latent 信息和 gender latent 信息的词向量去偏见化的方法，同时减小语义信息损失，显著优于现有的去偏见化方法，并适用于人工语料库的下游 NLP 任务。

Apr, 2020

基于词典的预训练词嵌入去偏差化

本研究提出了一种使用字典对预先训练的词嵌入进行去偏置的方法，该方法不需要访问原始的训练资源或了解所使用的词嵌入算法，并可以自动从字典定义中学习无偏置词嵌入所需满足的约束条件。实验结果表明，该方法可以准确消除预先训练的词嵌入中编码的不公平偏见，同时保留有用的语义信息。

Jan, 2021

评估上下文词嵌入中的潜在性别偏见

在研究中，我们发现标准词嵌入即使经过去偏差处理，其性别偏差仍然很高，而上下文词嵌入则能够减少这种性别偏差，从而为自然语言处理应用提供更公正的结果。

Apr, 2019

荷兰语词嵌入的偏差评估

本研究使用 Word Embeddings Association Test (WEAT)、Clustering 和 Sentence Embeddings Association Test (SEAT) 等方法，衡量荷兰语词嵌入中的性别偏见，并使用 Hard-Debias 和 Sent-Debias 调控方法，探索性别偏见对下游任务的影响。结果表明，传统和上下文嵌入中存在性别偏见，研究人员提供了翻译荷兰语数据集和减轻偏误的嵌入。

Oct, 2020