自然语言语料库所自动生成的语义带有类似人类的偏见
使用我们的方法,可以了解到 word embedding 偏差的起源,并找出删除哪些文档可以最大程度地降低偏差。我们在《纽约时报》和 Wikipedia 语料库上演示了我们的技术,并发现我们的影响函数近似非常精确。
Oct, 2018
本文研究了当前用于检测和缓解词嵌入偏差的工具和技术,发现它们对非技术人员存在很高的技术门槛,因此提出开发一种旨在降低技术门槛、提供专业探索力量以应对专家、科学家和普通人日益增长的审核需求的工具。
Jul, 2022
研究发现,英语语料库中的统计规律将社会中已知的性别偏见编码为词嵌入中的群体偏见。使用单类别词嵌入关联测试,作者发现广泛存在性别偏差,这些偏差在词频、词性标记、语义类别和情绪情感方面均有所不同。男性更倾向于与技术、工程、宗教、体育和暴力等概念相关联,而女性则偏向于涉及外观和厨房等领域。同时,男性相关的词汇具有更强的情绪唤起和主导性,而女性相关的词汇则更加温馨。
Jun, 2022
通过提出一种基于因果推断框架的新方法来有效消除性别偏见,该方法可以在保留嵌入式语义信息的同时构建和分析性别信息流的复杂因果机制,从而在性别去偏任务中取得最新的技术结果。
Dec, 2021
该论文提出了一种基于 WEAT 和 SEAT 的方法来量化评价指标中的社会偏见,发现在一些基于模型的自动评价指标中也存在广泛的社会偏见,并构建了性别交换的元评价数据集来研究在图像标题和文本摘要任务中性别偏见的潜在影响。结果表明,基于模型的评价指标在评估中给予男性假设更多的偏好,并且在性别交换后评估指标与人类判断之间的相关性通常具有更大的变化。
Oct, 2022
通过自然语言推理任务设计机制,测量陈旧的语义观念对词向量嵌入产生的影响。通过静态和动态嵌入中的偏见消除策略,减少了对其下游模型的无效推断,特别是对性别偏见的消除策略能够扩展到上下文嵌入中静态组件的有选择性应用(ELMo、BERT)。
Aug, 2019
这项研究通过对 24 种语言进行 Word Embedding Association Test (WEAT) 的扩展,以更广阔的研究视角揭示了语言模型的偏见,并通过在全球范围内捕捉有关每种语言的文化相关信息,进一步提高了数据的质量。文章还展示了对毒性、庸能主义等方面的新偏见维度的研究,并通过对印度六种常用语言进行了全面的地区偏见分析,最后通过对嵌入方法的广泛比较强调了这些社会偏见和新维度的重要性,同时强调了解决这些问题对建立更公平的语言模型的必要性。
Oct, 2023
本文介绍了一种用于枚举词嵌入中偏差的算法。该算法利用几何模式在公共可用的嵌入中暴露了大量与敏感特征(如种族和性别)相关的冒犯性联想,以及所谓 “消除偏见” 的嵌入。该算法高度不受监督,可用于识别基于社会建构的许多形式的歧视,如种族歧视,这些歧视可能会因上下文而异。同时,我们还展示了如何移除名字可能无法消除潜在的代理偏差。
Dec, 2018
本研究在 Word Embedding Association Test 的基础上,对句子编码进行了偏差测量,实验包括了包括 ELMo 和 BERT 在内的多种方法,并提议了未来的研究方向。
Mar, 2019
对 Google News 文章上的 Word Embedding 进行的实证研究表明,即使是这种非人工制作的大型文本数据,在机器学习和自然语言处理应用中也存在着性别偏见的问题。为了消除这些偏见,我们提出了一种方法进行 Word Embedding 去偏见化,从而减少性别偏见的扩大和助推。
Jul, 2016