使用概念辅助的去偏置化上下文嵌入

Nov, 2022

使用概念辅助的去偏置化上下文嵌入

Conceptor-Aided Debiasing of Contextualized Embeddings

Yifei Li, Lyle Ungar, João Sedoc

TL;DR使用 conceptors 方法去除 BERT 和 GPT 中上下文词嵌入的偏见子空间，提出用后处理和新的架构 CI-BERT 两种实现方法，实验证明 CI-BERT 虽然可以优于后处理版本在消除偏见方面的性能，但它降低了语言模型的准确性。

Abstract

pre-trained language models reflect the inherent social biases of their training corpus. Many methods have been proposed to mitigate this issue, but they often fail to debias or they sacrifice model accuracy. We

pre-trained language models social biases debiasing contextual embeddings conceptors

发现论文，激发创造

使用 WEAT 评估的概念消除词表示偏见

通过使用概念器去偏置来后处理传统和上下文的单词嵌入，该方法可以同时消除种族和性别偏见，并且可以有效地利用偏见单词的异构列表。该方法可以减少单词嵌入所表示的种族和性别偏见，其中通过 Caliskan 等人的单词嵌入关联测试（WEAT）来衡量。

Jun, 2019

通过概念否定实现单词向量的无监督后处理

本文介绍了一种基于矩阵嵌入器的新型词向量后处理技术，能够抑制词向量中高方差的潜在特征，该方法是纯无监督学习的，不依赖于任何语料库或外部语言数据库，研究结果表明，这种词向量后处理方法在内在词汇评估任务中表现比现有的前沿方法更好，并且后处理后的词向量可用于对话状态跟踪的下游自然语言处理任务，在不同的对话领域中都能取得更好的结果。

Nov, 2018

测量上下文化词表示中的偏见

本研究基于模板方法提出了一种量化 BERT 中偏见的方法，并且通过性别代词解析的案例研究证明了该方法在捕捉社会偏见方面的优越性，同时也指出了该方法的普遍适用性，包括在多类别设置中使用的种族和宗教偏见。

Jun, 2019

评估情境化单词表征中的社会和交叉偏见

本文分析了最先进的语境词表示模型，如 BERT 和 GPT-2，对于性别，种族和交叉身份认同的偏差情况，并提出了一种新颖的方法对词语级别上的偏差进行评估。

Nov, 2019

去偏置化预训练上下文嵌入

提出一种 fine-tuning 方法，可在令牌或句子级别上应用于去偏置预训练上下文嵌入。使用性别偏见为例，我们使用多个 SoTA 上下文表示在多个基准数据集上进行系统研究，并发现对于上下文嵌入模型的所有令牌和所有层应用令牌级去偏置会产生最佳性能。

Jan, 2021

揭示背景刻板印象：测量和减轻 BERT 的性别偏见

研究比较了英语和德语中职业名称和性别指示目标词之间的关联性，并使用 Bert 模型来检测性别偏见，结果表明非常适合英语，但不适合具有丰富的形态和性别标记的德语等语言，本文强调探究偏见和减轻技术的重要性，特别是在大规模，多语言的语言模型中。

Oct, 2020

探究 BERT 中的性别偏见

本文以 BERT 为例，分析了上下游情感和情绪强度预测任务中的性别偏见，并提出了一种算法来去除嵌入向量中特定于性别的特征，以减少 BERT 诱发的偏见。

Sep, 2020

医疗背景下词嵌入的偏见量化

本论文研究了嵌入方法在编码社会边缘群体时的偏见问题，以及这种偏见可能导致的临床任务性能下降。通过使用 MIMIC-III 医院数据集中的医学记录对深度嵌入模型 (BERT) 进行预训练并使用两种方法量化潜在不公正性，作者发现 BERT 表征训练出的分类器在性别、语言、族裔和保险等方面表现出明显的性能差异，以及通过对抗去偏差的不足。最后提出了这些问题的最佳实践。

Mar, 2020

评估上下文词嵌入中的潜在性别偏见

在研究中，我们发现标准词嵌入即使经过去偏差处理，其性别偏差仍然很高，而上下文词嵌入则能够减少这种性别偏差，从而为自然语言处理应用提供更公正的结果。

Apr, 2019

双重强化去偏见：定制化词向量以降低性别偏见

本文研究了人类生成语料库（human-generated corpora）中由来的单词嵌入（word embeddings）存在着的性别偏见问题，以及已有的性别去偏置（debiasing）方法的局限性；在此基础上，提出了一种新的技术，Double Hard Debias，该技术能够在推断并去除性别子空间之前，首先过滤掉语料库中存储的单词使用频率等无关因素。实验证明，与之前的方法相比，本文提出的技术不仅保留了预训练好的单词嵌入的分布语义（distributional semantics），而且能够更有效地降低性别偏见。

May, 2020