性别去偏见对内部模型表示的影响及其重要性

ACLApr, 2022

性别去偏见对内部模型表示的影响及其重要性

How Gender Debiasing Affects Internal Model Representations, and Why It Matters

Hadas Orgad, Seraphina Goldfarb-Tarrant, Yonatan Belinkov

TL;DR本文研究证明了在下游任务中模型性能和模型内部表示中的内在偏差之间的关系，并通过外部微调去除偏差，同时测量内在偏差，以评估其消除效果。通过两个任务和多种偏差度量的实验证明了内在偏差指标是评估去偏差效果的更佳指标，可以暴露浅表去偏差的情况，提供了一种更全面的 NLP 模型偏差研究框架和相关常用工具和资源。

Abstract

Common studies of gender bias in nlp focus either on extrinsic bias measured by model performance on a downstream task or on →

gender bias nlp extrinsic bias intrinsic bias debiasing

发现论文，激发创造

应用内在去偏方法于下游任务：机器翻译的挑战与考虑

通过测量内在消除偏见的方法对神经机器翻译模型的外在偏见的影响，我们发现选择消除偏见的嵌入、词和子词符号的不匹配以及对不同目标语言的影响是影响下游性能和消除偏见成功的三个挑战和不匹配。

Jun, 2024

内在偏见度量与应用偏见无关

本文比较了不同任务和实验条件下数百个已训练模型的内在和外在偏差度量标准之间的关系，发现这些度量标准在所有情况下都没有可靠的相关性。作者呼吁重点关注外在的偏差度量标准，并通过创建新的挑战集和注释测试数据使使用这些度量标准更加可行。在此基础上，作者发布了一份基于性别偏见的仇恨言论的代码、新的内部度量标准和一个注释的测试集。

Dec, 2020

文本分类的内在性别偏见缓解能力究竟有多强？

本文探讨了内在的性别偏见缓解策略如何应用于下游的文本分类任务，发现单独使用这些内在策略并不能有效地缓解外在的偏见，建议采用其他公平性干预措施。

Jan, 2023

去偏差化是否必然导致模型性能下降

本文提出了一个理论框架，解释了语言模型性别偏差的三个候选机制，发现大部分现有的去偏见方法会导致性能下降，但提出了一种不会降低模型性能的方法，即因果检测微调方法。通过数值实验证明，该方法能够在部分缓解性别偏差的同时避免性能下降。

Nov, 2022

选择你的视角：性别偏见评估中的缺陷

通过评估当前性别偏见评估范式并识别其中的一些缺陷，我们提出了一些更可靠的性别偏见评估指南，强调了衡量模型性别影响的外在偏差度量的重要性，并发现数据集和度量往往是相互耦合的，这是导致获取可靠结论能力受到阻碍的原因之一。

Oct, 2022

预训练语言模型中减轻性别偏见的投影方法

研究了将最简单的投影去偏方法应用于 BERT 内部表示时，对于缓解 BERT 在内部表示中的性别偏见和精调任务中的观察到的偏见至关重要，结果发现投影方法在内部偏差和下游偏差缓解方面都有效果，但两者并不一定相关。

Mar, 2024

除偏不足！—— 浅谈消除 MLM 和社会偏见在下游任务中的有效性

本研究探讨了遮盖语言模型的任务非特定内在社会偏见和任务特定外在社会偏见评估指标之间的关系，并发现两种评估指标之间存在着很弱的相关性。此外，我们发现使用不同方法去除偏见的 MLM 在下游任务的精调期间仍会重新学习社会偏见。我们发现训练实例及其分配的标签中的社会偏见是内在和外在偏见评估测量之间差异的原因。总之，我们的研究结果强调了现有 MLM 偏见评估措施的局限性，并令人担忧地提出了使用这些措施在下游应用中部署 MLM 的问题。

Oct, 2022

关于上下文语言表示的内在公正性和外在公正性评估指标

本文对 19 个语境化语言模型进行了广泛的相关性研究，并发现即使在校正度量不准确、评估数据集中有噪声以及实验配置方式等混淆因素的情况下，内在度量和外在度量不一定在其原始设置中相关。

Mar, 2022

去偏对于语言模型在下游任务中的影响被低估

通过使用包含女性、男性和刻板印象的单词的各种基准数据集，我们比较了去偏见对多个下游任务性能的影响，实验证明去偏见的影响在所有任务中都被一致地低估。此外，通过单独考虑包含女性、男性和刻板印象单词的实例，而不是所有实例，可以可靠地评估去偏见的影响。

Sep, 2023

通过内在偏见和遗忘的视角理解面向任务无关的去偏差技术

研究任务不可知偏差减轻对语言建模能力和重新学习社会偏见的影响所面临的挑战，提出了一种新的框架 ProSocialTuning，用于在下游微调中推动模型接近偏见下限，通过已成功去偏的注意力模块的正则化来克服忘记问题。

Jun, 2024