使用非线性几何修正词向量偏置
本文提出了一种联合多类去偏差方法 SoftWEAT,它可以在减少多个偏差方面取得良好的结果,并通过在三个不同的公开数据集上进行实验,在三个偏差分类(宗教、性别和种族)中去偏差 Word Embeddings,显示出其可行性,同时维持着词嵌入中向量的有意义关系,从而加强了更具代表性的文本数据的基础。
Mar, 2020
通过引入 Contextualized Embedding Association Test (CEAT) 来度量神经语言模型中的整体偏见及其方差,并开发了自动识别交叉偏见和新现出的交叉偏见的方法 (IBD 和 EIBD),结果表明交叉偏见与种族和性别相关的次数最高。
Jun, 2020
该研究针对词嵌入中的性别偏见进行了研究,通过构建线性子空间的方法来消除偏见,而我们则提出了基于核函数的非线性方法,并分析了线性子空间偏见消除的合理性。
Sep, 2020
这篇论文探讨了在自然语言处理模型中的偏差对模型的影响,提出了针对多个保护属性进行评估的自动去偏差技术,并研究了一个新的有偏约束模型及其扩展版本的迭代零空间投影技术。
Sep, 2021
本文分析了最先进的语境词表示模型,如 BERT 和 GPT-2,对于性别,种族和交叉身份认同的偏差情况,并提出了一种新颖的方法对词语级别上的偏差进行评估。
Nov, 2019
该研究对分布式词向量空间中的偏见效应进行了系统性分析,研究表明:偏见效应在不同的词向量模型、文本类型和语言之间是不一致的,同时,双语词向量空间中的跨语言偏见也是存在的。该研究以期促进自然语言处理中的偏见研究,为偏见缓解技术的发展提供帮助。
Apr, 2019
利用上下文词嵌入的概念投射方法,量化了英语语言模型中社会群体的情感倾向,发现语言模型对性别认同、社会阶级和性取向的信号表现出最有偏见的态度,此方法旨在研究语言模型中的历史偏见,并对设计正义做出贡献,探讨了在语言中被边缘化的群体的相关关系。
Jul, 2023
本文介绍了一种用于枚举词嵌入中偏差的算法。该算法利用几何模式在公共可用的嵌入中暴露了大量与敏感特征(如种族和性别)相关的冒犯性联想,以及所谓 “消除偏见” 的嵌入。该算法高度不受监督,可用于识别基于社会建构的许多形式的歧视,如种族歧视,这些歧视可能会因上下文而异。同时,我们还展示了如何移除名字可能无法消除潜在的代理偏差。
Dec, 2018
本文通过研究 NLP 模型中三个社会身份(种族、性别和宗教)之间的偏见相关性,提出在对偏见进行改善时需要综合考虑相关的偏见,而不是各自分开处理,以引导更多相关研究
May, 2022
本文研究了人类生成语料库(human-generated corpora)中由来的单词嵌入(word embeddings)存在着的性别偏见问题,以及已有的性别去偏置(debiasing)方法的局限性;在此基础上,提出了一种新的技术,Double Hard Debias,该技术能够在推断并去除性别子空间之前,首先过滤掉语料库中存储的单词使用频率等无关因素。实验证明,与之前的方法相比,本文提出的技术不仅保留了预训练好的单词嵌入的分布语义(distributional semantics),而且能够更有效地降低性别偏见。
May, 2020