我的词嵌入中有哪些偏见？

Dec, 2018

What are the biases in my word embedding?

Nathaniel Swinger, Maria De-Arteaga, Neil Thomas Heffernan IV, Mark DM Leiserson, Adam Tauman Kalai

TL;DR本文介绍了一种用于枚举词嵌入中偏差的算法。该算法利用几何模式在公共可用的嵌入中暴露了大量与敏感特征（如种族和性别）相关的冒犯性联想，以及所谓“消除偏见”的嵌入。该算法高度不受监督，可用于识别基于社会建构的许多形式的歧视，如种族歧视，这些歧视可能会因上下文而异。同时，我们还展示了如何移除名字可能无法消除潜在的代理偏差。

Abstract

This paper presents an algorithm for enumerating biases in word embeddings. The →

发现论文，激发创造

去偏见：消除词嵌入中的“人类是程序员，女性是家庭主妇”偏见

对Google News文章上的Word Embedding进行的实证研究表明，即使是这种非人工制作的大型文本数据，在机器学习和自然语言处理应用中也存在着性别偏见的问题。为了消除这些偏见，我们提出了一种方法进行Word Embedding去偏见化，从而减少性别偏见的扩大和助推。

Jul, 2016

理解词嵌入中偏见的起源

使用我们的方法，可以了解到word embedding偏差的起源，并找出删除哪些文档可以最大程度地降低偏差。我们在《纽约时报》和Wikipedia语料库上演示了我们的技术，并发现我们的影响函数近似非常精确。

Oct, 2018

降低词向量中的偏见

本研究探索检测嵌入式中最具有性别刻板印象的词语并消除偏见的新方法，揭示名字作为性别偏见的携带者的属性，扩展名字的属性来检测嵌入式中其他类型的偏见，如基于种族、年龄的偏见。

Jan, 2019

理解不良词嵌入关联

通过子空间投影去除word embeddings文本中性别刻板印象，提出了一种新的关联度量RIPA，发现skipgram with negative sampling (SGNS)在训练语料库中并未增加文本准确性别聚类，但对性别刻板印象词汇却增强其性别关联。

Aug, 2019

分布式词向量空间中隐式和显式去偏见的一般框架

本论文提出了一个通用的去除词向量中性别、种族等偏见的方法，并通过新的评估指标验证了该框架的有效性，同时在跨语言文本中成功实现了去偏。

Sep, 2019

评估情境化单词表征中的社会和交叉偏见

本文分析了最先进的语境词表示模型，如BERT和GPT-2，对于性别，种族和交叉身份认同的偏差情况，并提出了一种新颖的方法对词语级别上的偏差进行评估。

Nov, 2019

检测新兴交叉偏见：上下文化词嵌入包含类人偏见的分布

通过引入Contextualized Embedding Association Test (CEAT)来度量神经语言模型中的整体偏见及其方差，并开发了自动识别交叉偏见和新现出的交叉偏见的方法(IBD和EIBD），结果表明交叉偏见与种族和性别相关的次数最高。

Jun, 2020

荷兰语词嵌入的偏差评估

本研究使用 Word Embeddings Association Test (WEAT)、Clustering 和 Sentence Embeddings Association Test (SEAT) 等方法，衡量荷兰语词嵌入中的性别偏见，并使用 Hard-Debias 和 Sent-Debias 调控方法，探索性别偏见对下游任务的影响。结果表明，传统和上下文嵌入中存在性别偏见，研究人员提供了翻译荷兰语数据集和减轻偏误的嵌入。

Oct, 2020

使用非线性几何修正词向量偏置

本文研究了多个社会类别上的偏差问题，并构建了交叉子空间来去除这些交叉偏差，实验证明这种方法的有效性。

Aug, 2022

检测和减轻词嵌入中的间接刻板印象

本文提出了一种名为BIRM(Biased Indirect Relationship Modification)的新方法，该方法考虑到偏见因子对词对出现概率的影响，并在学习嵌入之前修改词之间的偏见关系，以缓解分布式词嵌入中的间接偏见现象。我们还扩展了词嵌入关联测试（WEAT），提出了新的测试集来测试间接的二元性别刻板印象，并展示了这些新颖测试集下的更深层次、更微妙的刻板印象存在。结果表明，该方法能够降低词嵌入中偏见程度，虽然降低了语义嵌入质量，但对更为平等的非刻板嵌入是迈向关键的一步。

May, 2023