理解词嵌入中偏见的起源
对Google News文章上的Word Embedding进行的实证研究表明,即使是这种非人工制作的大型文本数据,在机器学习和自然语言处理应用中也存在着性别偏见的问题。为了消除这些偏见,我们提出了一种方法进行Word Embedding去偏见化,从而减少性别偏见的扩大和助推。
Jul, 2016
本文介绍了一种用于枚举词嵌入中偏差的算法。该算法利用几何模式在公共可用的嵌入中暴露了大量与敏感特征(如种族和性别)相关的冒犯性联想,以及所谓“消除偏见”的嵌入。该算法高度不受监督,可用于识别基于社会建构的许多形式的歧视,如种族歧视,这些歧视可能会因上下文而异。同时,我们还展示了如何移除名字可能无法消除潜在的代理偏差。
Dec, 2018
本研究探讨了文本话语中的性别偏见现象,评估了现有去偏置模型的实际效果,认为现有去偏置方法虽然在表面上达到了降低偏见的效果,但实际上却只是掩盖了偏见,并认为现有技术不足以构建性别中性的计算模型。
Mar, 2019
该研究对分布式词向量空间中的偏见效应进行了系统性分析,研究表明:偏见效应在不同的词向量模型、文本类型和语言之间是不一致的,同时,双语词向量空间中的跨语言偏见也是存在的。该研究以期促进自然语言处理中的偏见研究,为偏见缓解技术的发展提供帮助。
Apr, 2019
本文分析了最先进的语境词表示模型,如BERT和GPT-2,对于性别,种族和交叉身份认同的偏差情况,并提出了一种新颖的方法对词语级别上的偏差进行评估。
Nov, 2019
本研究使用 Word Embeddings Association Test (WEAT)、Clustering 和 Sentence Embeddings Association Test (SEAT) 等方法,衡量荷兰语词嵌入中的性别偏见,并使用 Hard-Debias 和 Sent-Debias 调控方法,探索性别偏见对下游任务的影响。结果表明,传统和上下文嵌入中存在性别偏见,研究人员提供了翻译荷兰语数据集和减轻偏误的嵌入。
Oct, 2020
本文研究了使用基于词嵌入的偏差度量方法在衡量女性和男性性别偏差时词频对结果的影响,并发现 Skip-gram with negative sampling 和 GloVe 往往会在高频词中检测到男性偏见,而 GloVe 往往会在低频词中检测到女性偏见,并进一步通过与基于点互信息的替代度量方法进行比较,证明了频率对度量结果的影响来自度量本身而非词汇相关性,这种影响是虚假和有问题的,因为偏见度量应该专门依赖于词共现而不是个体词频,尽管基于点互信息的度量略微偏向男性,但它并不表现出清晰的频率依赖关系。
Jan, 2023
本文提出了一种名为BIRM(Biased Indirect Relationship Modification)的新方法,该方法考虑到偏见因子对词对出现概率的影响,并在学习嵌入之前修改词之间的偏见关系,以缓解分布式词嵌入中的间接偏见现象。我们还扩展了词嵌入关联测试(WEAT),提出了新的测试集来测试间接的二元性别刻板印象,并展示了这些新颖测试集下的更深层次、更微妙的刻板印象存在。结果表明,该方法能够降低词嵌入中偏见程度,虽然降低了语义嵌入质量,但对更为平等的非刻板嵌入是迈向关键的一步。
May, 2023