词嵌入联合多类别去偏置
通过使用概念器去偏置来后处理传统和上下文的单词嵌入,该方法可以同时消除种族和性别偏见,并且可以有效地利用偏见单词的异构列表。该方法可以减少单词嵌入所表示的种族和性别偏见,其中通过 Caliskan 等人的单词嵌入关联测试(WEAT)来衡量。
Jun, 2019
本文介绍了一种用于枚举词嵌入中偏差的算法。该算法利用几何模式在公共可用的嵌入中暴露了大量与敏感特征(如种族和性别)相关的冒犯性联想,以及所谓 “消除偏见” 的嵌入。该算法高度不受监督,可用于识别基于社会建构的许多形式的歧视,如种族歧视,这些歧视可能会因上下文而异。同时,我们还展示了如何移除名字可能无法消除潜在的代理偏差。
Dec, 2018
本文研究了人类生成语料库(human-generated corpora)中由来的单词嵌入(word embeddings)存在着的性别偏见问题,以及已有的性别去偏置(debiasing)方法的局限性;在此基础上,提出了一种新的技术,Double Hard Debias,该技术能够在推断并去除性别子空间之前,首先过滤掉语料库中存储的单词使用频率等无关因素。实验证明,与之前的方法相比,本文提出的技术不仅保留了预训练好的单词嵌入的分布语义(distributional semantics),而且能够更有效地降低性别偏见。
May, 2020
该研究提出了一种基于贝叶斯建模的方法,以更准确地检测词向量中的偏见,并在 Religion、Gender 和 Race 词表上进行了展示,验证了它的有效性。
Jun, 2023
本研究使用 Word Embeddings Association Test (WEAT)、Clustering 和 Sentence Embeddings Association Test (SEAT) 等方法,衡量荷兰语词嵌入中的性别偏见,并使用 Hard-Debias 和 Sent-Debias 调控方法,探索性别偏见对下游任务的影响。结果表明,传统和上下文嵌入中存在性别偏见,研究人员提供了翻译荷兰语数据集和减轻偏误的嵌入。
Oct, 2020
我们提出了 DeepSoftDebias 算法,该算法使用神经网络执行 “软去偏见”,并在各种 SOTA 数据集、准确度指标和复杂的 NLP 任务中进行了全面评估。我们发现 DeepSoftDebias 在减少性别、种族和宗教偏见方面优于当前最先进的方法。
Feb, 2024
该研究对分布式词向量空间中的偏见效应进行了系统性分析,研究表明:偏见效应在不同的词向量模型、文本类型和语言之间是不一致的,同时,双语词向量空间中的跨语言偏见也是存在的。该研究以期促进自然语言处理中的偏见研究,为偏见缓解技术的发展提供帮助。
Apr, 2019
这项研究通过对 24 种语言进行 Word Embedding Association Test (WEAT) 的扩展,以更广阔的研究视角揭示了语言模型的偏见,并通过在全球范围内捕捉有关每种语言的文化相关信息,进一步提高了数据的质量。文章还展示了对毒性、庸能主义等方面的新偏见维度的研究,并通过对印度六种常用语言进行了全面的地区偏见分析,最后通过对嵌入方法的广泛比较强调了这些社会偏见和新维度的重要性,同时强调了解决这些问题对建立更公平的语言模型的必要性。
Oct, 2023