在去偏语言表征模型中不伤害受保护群体

Oct, 2023

在去偏语言表征模型中不伤害受保护群体

Do Not Harm Protected Groups in Debiasing Language Representation Models

Chloe Qinyu Zhu, Rickard Stureborg, Brandon Fain

TL;DR使用实际数据训练的语言表示模型可能会捕捉和加剧不希望的偏见，导致对不同人口群体的不公平待遇。我们探讨了四种去偏见技术在实际文本分类任务上的应用，并表明减少偏见是以降低所有人口群体性能为代价的，包括那些去偏见技术旨在保护的群体。我们主张去偏见技术应在确保对被保护群体没有伤害的约束条件下具有良好的下游性能。

Abstract

language representation models (LRMs) trained with real-world data may capture and exacerbate undesired bias and cause unfair treatment of people in various demographic groups. Several techniques have been invest

发现论文，激发创造

猪涂口红：去偏置方法虽然掩盖了词嵌入中系统性的性别偏差，但并未消除它们

本研究探讨了文本话语中的性别偏见现象，评估了现有去偏置模型的实际效果，认为现有去偏置方法虽然在表面上达到了降低偏见的效果，但实际上却只是掩盖了偏见，并认为现有技术不足以构建性别中性的计算模型。

Mar, 2019

预训练词嵌入的性别保持去偏置

该研究提出了一种针对word embeddings中性别偏见问题的去偏方法，通过保留与性别相关、非歧视性别信息的同时，去除预先训练好的word embeddings中的刻板性别歧视偏差，实验结果表明该方法在保留性别相关但非歧视性别信息的同时，能够更好地去偏，适用于一系列benchmark数据集和NLP应用。

Jun, 2019

分布式词向量空间中隐式和显式去偏见的一般框架

本论文提出了一个通用的去除词向量中性别、种族等偏见的方法，并通过新的评估指标验证了该框架的有效性，同时在跨语言文本中成功实现了去偏。

Sep, 2019

推进句子表示的去偏见化

调查了句子级别表达中社会偏见存在的情况，提出了另一种更有效减弱偏差的方法Sent-Debias，并在保持性能的同时，用于情感分析，语言可接受性和自然语言理解等句子级下游任务。

Jul, 2020

DebIE: 词嵌入空间隐式和显式去偏差平台

DebIE是第一个集成化平台，用于测量和减轻词嵌入中的偏见。它可以通过执行两个(相互可组合的)去偏置模型来计算多种隐含和显式偏见的度量，并且可以通过四个不同接口进行访问：(a) Web应用程序，(b) 桌面应用程序，(c) REST-ful API，(d) 命令行应用程序。

Mar, 2021

评估化解交叉偏见技术

这篇论文探讨了在自然语言处理模型中的偏差对模型的影响，提出了针对多个保护属性进行评估的自动去偏差技术，并研究了一个新的有偏约束模型及其扩展版本的迭代零空间投影技术。

Sep, 2021

预训练语言模型去偏差技术有效性的实证研究

本文调查了五种最近提出的消除算法：CDA、Dropout、Iterative Nullspace Projection、Self-Debias和SentenceDebias的有效性。实验结果显示，Self-Debias是最有效的去偏置技术。但是现有去偏置技术在减轻非性别偏差方面表现不一致，同时算法会降低模型的语言建模能力，难以确定去偏置的效果。

Oct, 2021

从偏见到平等：消除大型语言模型词向量偏差的新方法

我们提出了DeepSoftDebias算法，该算法使用神经网络执行“软去偏见”，并在各种SOTA数据集、准确度指标和复杂的NLP任务中进行了全面评估。我们发现DeepSoftDebias在减少性别、种族和宗教偏见方面优于当前最先进的方法。

Feb, 2024

通过类别低方差正则化实现下游任务的无标签去偏见

本研究针对预训练去偏见语言模型在下游任务中重新引入偏见的问题，提出了一种基于类别嵌入方差的新颖去偏见正则化技术。该方法不依赖于属性标签，能够针对任意属性进行去偏见，实验结果显示其在性能上超越了现有依赖目标属性标签的去偏见基线，同时保持了下游任务的表现。

Sep, 2024

通过类别低方差正则化实现下游任务中的无标签去偏倚

本研究解决语言模型在下游任务中重新引入偏见的问题，现有的方法需依赖受保护属性标签或偏见指示词。我们提出了一种新颖的去偏倚正则化技术，基于嵌入的类别方差，不需要属性标签，并能够针对任意属性。实验结果表明，该方法在保持目标任务性能的同时，优于依赖目标属性标签的现有去偏倚基线。

Sep, 2024