使用 WEAT 评估的概念消除词表示偏见
本文提出了一种联合多类去偏差方法 SoftWEAT,它可以在减少多个偏差方面取得良好的结果,并通过在三个不同的公开数据集上进行实验,在三个偏差分类(宗教、性别和种族)中去偏差 Word Embeddings,显示出其可行性,同时维持着词嵌入中向量的有意义关系,从而加强了更具代表性的文本数据的基础。
Mar, 2020
使用 conceptors 方法去除 BERT 和 GPT 中上下文词嵌入的偏见子空间,提出用后处理和新的架构 CI-BERT 两种实现方法,实验证明 CI-BERT 虽然可以优于后处理版本在消除偏见方面的性能,但它降低了语言模型的准确性。
Nov, 2022
本研究使用 Word Embeddings Association Test (WEAT)、Clustering 和 Sentence Embeddings Association Test (SEAT) 等方法,衡量荷兰语词嵌入中的性别偏见,并使用 Hard-Debias 和 Sent-Debias 调控方法,探索性别偏见对下游任务的影响。结果表明,传统和上下文嵌入中存在性别偏见,研究人员提供了翻译荷兰语数据集和减轻偏误的嵌入。
Oct, 2020
本文介绍了一种用于枚举词嵌入中偏差的算法。该算法利用几何模式在公共可用的嵌入中暴露了大量与敏感特征(如种族和性别)相关的冒犯性联想,以及所谓 “消除偏见” 的嵌入。该算法高度不受监督,可用于识别基于社会建构的许多形式的歧视,如种族歧视,这些歧视可能会因上下文而异。同时,我们还展示了如何移除名字可能无法消除潜在的代理偏差。
Dec, 2018
本研究探索检测嵌入式中最具有性别刻板印象的词语并消除偏见的新方法,揭示名字作为性别偏见的携带者的属性,扩展名字的属性来检测嵌入式中其他类型的偏见,如基于种族、年龄的偏见。
Jan, 2019
本研究提出了一种使用字典对预先训练的词嵌入进行去偏置的方法,该方法不需要访问原始的训练资源或了解所使用的词嵌入算法,并可以自动从字典定义中学习无偏置词嵌入所需满足的约束条件。实验结果表明,该方法可以准确消除预先训练的词嵌入中编码的不公平偏见,同时保留有用的语义信息。
Jan, 2021
通过自然语言推理任务设计机制,测量陈旧的语义观念对词向量嵌入产生的影响。通过静态和动态嵌入中的偏见消除策略,减少了对其下游模型的无效推断,特别是对性别偏见的消除策略能够扩展到上下文嵌入中静态组件的有选择性应用(ELMo、BERT)。
Aug, 2019
本文分析了最先进的语境词表示模型,如 BERT 和 GPT-2,对于性别,种族和交叉身份认同的偏差情况,并提出了一种新颖的方法对词语级别上的偏差进行评估。
Nov, 2019