从偏见到平等：消除大型语言模型词向量偏差的新方法

Feb, 2024

从偏见到平等：消除大型语言模型词向量偏差的新方法

From Prejudice to Parity: A New Approach to Debiasing Large Language Model Word Embeddings

Aishik Rakshit, Smriti Singh, Shuvam Keshari, Arijit Ghosh Chowdhury, Vinija Jain...

TL;DR我们提出了 DeepSoftDebias 算法，该算法使用神经网络执行 “软去偏见”，并在各种 SOTA 数据集、准确度指标和复杂的 NLP 任务中进行了全面评估。我们发现 DeepSoftDebias 在减少性别、种族和宗教偏见方面优于当前最先进的方法。

Abstract

embeddings play a pivotal role in the efficacy of large language models. They are the bedrock on which these models grasp contextual relationships and foster a more nuanced understanding of language and consequen

embeddings large language models bias deepsoftdebias nlp tasks

发现论文，激发创造

推进句子表示的去偏见化

调查了句子级别表达中社会偏见存在的情况，提出了另一种更有效减弱偏差的方法 Sent-Debias，并在保持性能的同时，用于情感分析，语言可接受性和自然语言理解等句子级下游任务。

Jul, 2020

双重强化去偏见：定制化词向量以降低性别偏见

本文研究了人类生成语料库（human-generated corpora）中由来的单词嵌入（word embeddings）存在着的性别偏见问题，以及已有的性别去偏置（debiasing）方法的局限性；在此基础上，提出了一种新的技术，Double Hard Debias，该技术能够在推断并去除性别子空间之前，首先过滤掉语料库中存储的单词使用频率等无关因素。实验证明，与之前的方法相比，本文提出的技术不仅保留了预训练好的单词嵌入的分布语义（distributional semantics），而且能够更有效地降低性别偏见。

May, 2020

大型语言模型中的公平性偏差和去偏差之旅

这篇研究使用变换器语言模型研究了其训练数据所带来的偏见问题，并提出了一种去偏方法，得到的去偏模型在下游任务上保持了良好的表现。

May, 2023

基于词典的预训练词嵌入去偏差化

本研究提出了一种使用字典对预先训练的词嵌入进行去偏置的方法，该方法不需要访问原始的训练资源或了解所使用的词嵌入算法，并可以自动从字典定义中学习无偏置词嵌入所需满足的约束条件。实验结果表明，该方法可以准确消除预先训练的词嵌入中编码的不公平偏见，同时保留有用的语义信息。

Jan, 2021

消除词嵌入中的偏见改善多模式机器翻译

本研究探讨了预训练词嵌入及其在多模式神经机器翻译模型中的应用，引入两种去偏差技术，并在英德翻译和英法翻译两种语言对上获得了最多 + 1.93 BLEU 和 + 2.02 METEOR 的性能提升。

May, 2019

利用词嵌入技术消除神经机器翻译中的性别偏差

本文提出使用词向量以减少神经机器翻译中性别偏见的方法并应用于 Transformer 翻译结构中，通过评估在 WMT 英西标准测试上的结果，展示出一定的性能提高和在职业测试集上消除基线系统已存在的偏见。

Jan, 2019

FineDeb: 为语言模型提供去偏置的框架

提出了一种两阶段的去偏置框架 FineDeb，用于语言模型中的人口统计子集偏差问题，在先前的语言模型学习嵌入之后开始，然后对语言建模目标进行微调，与其他方法相比，它提供了更强的去偏置效果。

Feb, 2023

通过对比词对来消除句子嵌入器的偏见

去除自然语言处理中句子嵌入中的线性和非线性偏见信息，以不影响下游性能。通过比较常见去偏方法和考虑非线性信息的去偏指标，探索了这种方法。

Mar, 2024

荷兰语词嵌入的偏差评估

本研究使用 Word Embeddings Association Test (WEAT)、Clustering 和 Sentence Embeddings Association Test (SEAT) 等方法，衡量荷兰语词嵌入中的性别偏见，并使用 Hard-Debias 和 Sent-Debias 调控方法，探索性别偏见对下游任务的影响。结果表明，传统和上下文嵌入中存在性别偏见，研究人员提供了翻译荷兰语数据集和减轻偏误的嵌入。

Oct, 2020

词嵌入联合多类别去偏置

本文提出了一种联合多类去偏差方法 SoftWEAT，它可以在减少多个偏差方面取得良好的结果，并通过在三个不同的公开数据集上进行实验，在三个偏差分类（宗教、性别和种族）中去偏差 Word Embeddings，显示出其可行性，同时维持着词嵌入中向量的有意义关系，从而加强了更具代表性的文本数据的基础。

Mar, 2020