通过使用概念器去偏置来后处理传统和上下文的单词嵌入,该方法可以同时消除种族和性别偏见,并且可以有效地利用偏见单词的异构列表。该方法可以减少单词嵌入所表示的种族和性别偏见,其中通过 Caliskan 等人的单词嵌入关联测试(WEAT)来衡量。
Jun, 2019
本文介绍了一种基于矩阵嵌入器的新型词向量后处理技术,能够抑制词向量中高方差的潜在特征,该方法是纯无监督学习的,不依赖于任何语料库或外部语言数据库,研究结果表明,这种词向量后处理方法在内在词汇评估任务中表现比现有的前沿方法更好,并且后处理后的词向量可用于对话状态跟踪的下游自然语言处理任务,在不同的对话领域中都能取得更好的结果。
Nov, 2018
本研究基于模板方法提出了一种量化 BERT 中偏见的方法,并且通过性别代词解析的案例研究证明了该方法在捕捉社会偏见方面的优越性,同时也指出了该方法的普遍适用性,包括在多类别设置中使用的种族和宗教偏见。
本文分析了最先进的语境词表示模型,如 BERT 和 GPT-2,对于性别,种族和交叉身份认同的偏差情况,并提出了一种新颖的方法对词语级别上的偏差进行评估。
Nov, 2019
提出一种 fine-tuning 方法,可在令牌或句子级别上应用于去偏置预训练上下文嵌入。使用性别偏见为例,我们使用多个 SoTA 上下文表示在多个基准数据集上进行系统研究,并发现对于上下文嵌入模型的所有令牌和所有层应用令牌级去偏置会产生最佳性能。
Jan, 2021
研究比较了英语和德语中职业名称和性别指示目标词之间的关联性,并使用 Bert 模型来检测性别偏见,结果表明非常适合英语,但不适合具有丰富的形态和性别标记的德语等语言,本文强调探究偏见和减轻技术的重要性,特别是在大规模,多语言的语言模型中。
Oct, 2020
本文以 BERT 为例,分析了上下游情感和情绪强度预测任务中的性别偏见,并提出了一种算法来去除嵌入向量中特定于性别的特征,以减少 BERT 诱发的偏见。
Sep, 2020
本论文研究了嵌入方法在编码社会边缘群体时的偏见问题,以及这种偏见可能导致的临床任务性能下降。通过使用 MIMIC-III 医院数据集中的医学记录对深度嵌入模型 (BERT) 进行预训练并使用两种方法量化潜在不公正性,作者发现 BERT 表征训练出的分类器在性别、语言、族裔和保险等方面表现出明显的性能差异,以及通过对抗去偏差的不足。最后提出了这些问题的最佳实践。
Mar, 2020
在研究中,我们发现标准词嵌入即使经过去偏差处理,其性别偏差仍然很高,而上下文词嵌入则能够减少这种性别偏差,从而为自然语言处理应用提供更公正的结果。
Apr, 2019
本文研究了人类生成语料库(human-generated corpora)中由来的单词嵌入(word embeddings)存在着的性别偏见问题,以及已有的性别去偏置(debiasing)方法的局限性;在此基础上,提出了一种新的技术,Double Hard Debias,该技术能够在推断并去除性别子空间之前,首先过滤掉语料库中存储的单词使用频率等无关因素。实验证明,与之前的方法相比,本文提出的技术不仅保留了预训练好的单词嵌入的分布语义(distributional semantics),而且能够更有效地降低性别偏见。
May, 2020