测量上下文化词表示中的偏见
本文分析了最先进的语境词表示模型,如 BERT 和 GPT-2,对于性别,种族和交叉身份认同的偏差情况,并提出了一种新颖的方法对词语级别上的偏差进行评估。
Nov, 2019
研究比较了英语和德语中职业名称和性别指示目标词之间的关联性,并使用 Bert 模型来检测性别偏见,结果表明非常适合英语,但不适合具有丰富的形态和性别标记的德语等语言,本文强调探究偏见和减轻技术的重要性,特别是在大规模,多语言的语言模型中。
Oct, 2020
通过自然语言推理任务设计机制,测量陈旧的语义观念对词向量嵌入产生的影响。通过静态和动态嵌入中的偏见消除策略,减少了对其下游模型的无效推断,特别是对性别偏见的消除策略能够扩展到上下文嵌入中静态组件的有选择性应用(ELMo、BERT)。
Aug, 2019
本论文研究了嵌入方法在编码社会边缘群体时的偏见问题,以及这种偏见可能导致的临床任务性能下降。通过使用 MIMIC-III 医院数据集中的医学记录对深度嵌入模型 (BERT) 进行预训练并使用两种方法量化潜在不公正性,作者发现 BERT 表征训练出的分类器在性别、语言、族裔和保险等方面表现出明显的性能差异,以及通过对抗去偏差的不足。最后提出了这些问题的最佳实践。
Mar, 2020
本研究探讨了预训练语言模型在不同语言中所存在的偏见,提出了一种基于句子假设度量的模板方法来检测偏见,通过该方法分析了每个单语模型。研究发现,检测偏见的方法高度依赖于语言和文化,需要对每种语言和文化的独特表达方式进行深入了解。而与此相关的,我们假设非英语 BERT 模型中更高的社会偏见指数与其训练的用户生成内容有关。
Nov, 2022
本研究使用基于 BERT 模型的集成模型在 Wiki 中性语料库上进行了全面实验,从而检测到了主观偏见,并提出了比 BERT large 更具先进性的方法,F1 得分上升了 5.6%。
Feb, 2020
本文分析 Bert 模型的性别偏见,并引入一种新的偏见度量,通过在训练管道中系统地改变元素来综合分析 BERT 的偏见,发现几乎所有条件下都存在重大的性别偏见,结果表明这些偏见源于公共 BERT 模型而非任务特定数据,强调了负责任的使用的重要性。
Jun, 2023
本文中,我们量化、分析和减轻了 ELMo 上表现的性别偏见。通过内在分析和实验,我们发现 ELMo 的训练数据中包含男性实体比女性实体多,其编码的词向量中存在性别信息,且男性和女性实体所包含的性别信息不平等。同时,我们发现最前沿的指代消解系统很大程度上依赖 ELMo,继承了 ELMo 的性别偏见,表现出显著的偏见,我们探索了两种减轻这种性别偏见的方法,并展示了这种在 WinoBias 数据集上表现出的偏见可以被消除。
Apr, 2019
本研究探索检测嵌入式中最具有性别刻板印象的词语并消除偏见的新方法,揭示名字作为性别偏见的携带者的属性,扩展名字的属性来检测嵌入式中其他类型的偏见,如基于种族、年龄的偏见。
Jan, 2019