本文提出了一个统一动态嵌入模型,它能学习属性特定的单词嵌入,在历史语料库中调查了性别、种族和难民等方面的偏见。结果发现,动态嵌入模型与独立向量空间模型相比,在表示语言偏见方面更具优越性或更劣。
Apr, 2019
这篇研究是对知识 graph embeddings 中社会偏见的首次研究,提出新的度量方法,并证明像性别、宗教、民族和国籍这些方面的社会偏见已经编码在嵌入向量中,因此在利用 graph embeddings 时需要谨慎处理。
Dec, 2019
通过分析 500k 篇美国在线新闻文章中存在的社会偏见类型,使用考虑了嵌入表示问题的多种算法以及 WEAT,比较了这些算法在新闻文章中训练的模型所表示的期望社会偏见,结果发现标准偏差检测方法与心理学知识并不一致,而新提出的算法虽然减轻了这种差距,但仍然无法完全匹配这些文献。
Nov, 2022
该研究对分布式词向量空间中的偏见效应进行了系统性分析,研究表明:偏见效应在不同的词向量模型、文本类型和语言之间是不一致的,同时,双语词向量空间中的跨语言偏见也是存在的。该研究以期促进自然语言处理中的偏见研究,为偏见缓解技术的发展提供帮助。
本研究在 Word Embedding Association Test 的基础上,对句子编码进行了偏差测量,实验包括了包括 ELMo 和 BERT 在内的多种方法,并提议了未来的研究方向。
Mar, 2019
使用我们的方法,可以了解到 word embedding 偏差的起源,并找出删除哪些文档可以最大程度地降低偏差。我们在《纽约时报》和 Wikipedia 语料库上演示了我们的技术,并发现我们的影响函数近似非常精确。
Oct, 2018
本文提出一种评估感觉嵌入社会偏见的基准数据集和新的感知特定偏见评估指标,并对多个静态和上下文感知嵌入进行广泛评估,发现即使在单词级别没有发现偏见的情况下,仍存在令人担忧的感知级别的社会偏见,这通常被单词级别偏见评估措施所忽略。
Mar, 2022
本文介绍了一种用于枚举词嵌入中偏差的算法。该算法利用几何模式在公共可用的嵌入中暴露了大量与敏感特征(如种族和性别)相关的冒犯性联想,以及所谓 “消除偏见” 的嵌入。该算法高度不受监督,可用于识别基于社会建构的许多形式的歧视,如种族歧视,这些歧视可能会因上下文而异。同时,我们还展示了如何移除名字可能无法消除潜在的代理偏差。
Dec, 2018
本文通过将语义学关系嵌入向量,展示词嵌入的时间动态如何被利用来量化美国 20 世纪至 21 世纪对女性和少数民族的刻板印象和态度变化,通过与美国人口普查融合,表明嵌入的变化与时间内的人口和职业转变密切相关,该框架的时间分析为机器学习和数量社会科学之间的新交叉打开了强大的可能性。
Nov, 2017
通过自然语言推理任务设计机制,测量陈旧的语义观念对词向量嵌入产生的影响。通过静态和动态嵌入中的偏见消除策略,减少了对其下游模型的无效推断,特别是对性别偏见的消除策略能够扩展到上下文嵌入中静态组件的有选择性应用(ELMo、BERT)。
Aug, 2019