词嵌入联合多类别去偏置

Mar, 2020

Joint Multiclass Debiasing of Word Embeddings

Radomir Popović, Florian Lemmerich, Markus Strohmaier

TL;DR本文提出了一种联合多类去偏差方法 SoftWEAT，它可以在减少多个偏差方面取得良好的结果，并通过在三个不同的公开数据集上进行实验，在三个偏差分类（宗教、性别和种族）中去偏差 Word Embeddings，显示出其可行性，同时维持着词嵌入中向量的有意义关系，从而加强了更具代表性的文本数据的基础。

Abstract

Bias in word embeddings has been a subject of recent interest, along with efforts for its reduction. Current approaches show promising progress towards debiasing single bias dimensions such as →

word embeddings debiasing weat gender race

发现论文，激发创造

使用 WEAT 评估的概念消除词表示偏见

通过使用概念器去偏置来后处理传统和上下文的单词嵌入，该方法可以同时消除种族和性别偏见，并且可以有效地利用偏见单词的异构列表。该方法可以减少单词嵌入所表示的种族和性别偏见，其中通过 Caliskan 等人的单词嵌入关联测试（WEAT）来衡量。

Jun, 2019

我的词嵌入中有哪些偏见？

本文介绍了一种用于枚举词嵌入中偏差的算法。该算法利用几何模式在公共可用的嵌入中暴露了大量与敏感特征（如种族和性别）相关的冒犯性联想，以及所谓 “消除偏见” 的嵌入。该算法高度不受监督，可用于识别基于社会建构的许多形式的歧视，如种族歧视，这些歧视可能会因上下文而异。同时，我们还展示了如何移除名字可能无法消除潜在的代理偏差。

Dec, 2018

双重强化去偏见：定制化词向量以降低性别偏见

本文研究了人类生成语料库（human-generated corpora）中由来的单词嵌入（word embeddings）存在着的性别偏见问题，以及已有的性别去偏置（debiasing）方法的局限性；在此基础上，提出了一种新的技术，Double Hard Debias，该技术能够在推断并去除性别子空间之前，首先过滤掉语料库中存储的单词使用频率等无关因素。实验证明，与之前的方法相比，本文提出的技术不仅保留了预训练好的单词嵌入的分布语义（distributional semantics），而且能够更有效地降低性别偏见。

May, 2020

基于贝叶斯方法的词向量偏差估计不确定性

该研究提出了一种基于贝叶斯建模的方法，以更准确地检测词向量中的偏见，并在 Religion、Gender 和 Race 词表上进行了展示，验证了它的有效性。

Jun, 2023

荷兰语词嵌入的偏差评估

本研究使用 Word Embeddings Association Test (WEAT)、Clustering 和 Sentence Embeddings Association Test (SEAT) 等方法，衡量荷兰语词嵌入中的性别偏见，并使用 Hard-Debias 和 Sent-Debias 调控方法，探索性别偏见对下游任务的影响。结果表明，传统和上下文嵌入中存在性别偏见，研究人员提供了翻译荷兰语数据集和减轻偏误的嵌入。

Oct, 2020

从偏见到平等：消除大型语言模型词向量偏差的新方法

我们提出了 DeepSoftDebias 算法，该算法使用神经网络执行 “软去偏见”，并在各种 SOTA 数据集、准确度指标和复杂的 NLP 任务中进行了全面评估。我们发现 DeepSoftDebias 在减少性别、种族和宗教偏见方面优于当前最先进的方法。

Feb, 2024

使用非线性几何修正词向量偏置

本文研究了多个社会类别上的偏差问题，并构建了交叉子空间来去除这些交叉偏差，实验证明这种方法的有效性。

Aug, 2022

我们是否存在一致偏差？对分布式词向量偏差的多维分析

该研究对分布式词向量空间中的偏见效应进行了系统性分析，研究表明：偏见效应在不同的词向量模型、文本类型和语言之间是不一致的，同时，双语词向量空间中的跨语言偏见也是存在的。该研究以期促进自然语言处理中的偏见研究，为偏见缓解技术的发展提供帮助。

Apr, 2019

分布式词向量空间中隐式和显式去偏见的一般框架

本论文提出了一个通用的去除词向量中性别、种族等偏见的方法，并通过新的评估指标验证了该框架的有效性，同时在跨语言文本中成功实现了去偏。

Sep, 2019

全球之音、地方偏见：跨语言的社会文化偏见

这项研究通过对 24 种语言进行 Word Embedding Association Test (WEAT) 的扩展，以更广阔的研究视角揭示了语言模型的偏见，并通过在全球范围内捕捉有关每种语言的文化相关信息，进一步提高了数据的质量。文章还展示了对毒性、庸能主义等方面的新偏见维度的研究，并通过对印度六种常用语言进行了全面的地区偏见分析，最后通过对嵌入方法的广泛比较强调了这些社会偏见和新维度的重要性，同时强调了解决这些问题对建立更公平的语言模型的必要性。

Oct, 2023