通过因果中介分析研究去偏置方法带来的影响

Jun, 2022

通过因果中介分析研究去偏置方法带来的影响

What Changed? Investigating Debiasing Methods using Causal Mediation Analysis

Sullam Jeoung, Jana Diesner

TL;DR本文以因果中介分析的方法来研究消除语言模型偏见的内部机制对下游任务毒性检测的影响，结果表明需要测试不同的偏见度量方法和关注模型中特定组件的行为变化，如语言模型的前两层和注意力头。

Abstract

Previous work has examined how debiasing language models affect downstream tasks, specifically, how debiasing techniques influence task performance and whether debiased models also make impartial predictions in downstre

debiasing language models downstream tasks causal mediation analysis toxicity detection bias metrics

发现论文，激发创造

去偏差化是否必然导致模型性能下降

本文提出了一个理论框架，解释了语言模型性别偏差的三个候选机制，发现大部分现有的去偏见方法会导致性能下降，但提出了一种不会降低模型性能的方法，即因果检测微调方法。通过数值实验证明，该方法能够在部分缓解性别偏差的同时避免性能下降。

Nov, 2022

解读神经自然语言处理的因果中介分析：性别偏见案例

通过因果中介分析理论，我们提出了一种方法来解释神经模型语言处理中行为的成因，并使用此方法研究了预先训练的 Transformer 语言模型中性别偏差的机制。通过对个体神经元和注意力节点的分析，我们发现性别偏差效应分布稀疏，集中在网络的小部分，并且能被不同的中介子部件放大或抑制，同时也可以通过中介子的直接和间接影响进行分解。

Apr, 2020

去偏对于语言模型在下游任务中的影响被低估

通过使用包含女性、男性和刻板印象的单词的各种基准数据集，我们比较了去偏见对多个下游任务性能的影响，实验证明去偏见的影响在所有任务中都被一致地低估。此外，通过单独考虑包含女性、男性和刻板印象单词的实例，而不是所有实例，可以可靠地评估去偏见的影响。

Sep, 2023

应用内在去偏方法于下游任务：机器翻译的挑战与考虑

通过测量内在消除偏见的方法对神经机器翻译模型的外在偏见的影响，我们发现选择消除偏见的嵌入、词和子词符号的不匹配以及对不同目标语言的影响是影响下游性能和消除偏见成功的三个挑战和不匹配。

Jun, 2024

预训练语言模型去偏差技术有效性的实证研究

本文调查了五种最近提出的消除算法：CDA、Dropout、Iterative Nullspace Projection、Self-Debias 和 SentenceDebias 的有效性。实验结果显示，Self-Debias 是最有效的去偏置技术。但是现有去偏置技术在减轻非性别偏差方面表现不一致，同时算法会降低模型的语言建模能力，难以确定去偏置的效果。

Oct, 2021

模型适应的去偏算法

提出了一种用于检测和减轻语言模型中性别偏见的新方法，通过因果分析确定了问题模型组件，发现中上部前馈层最容易传递偏见，根据分析结果通过线性投影来改进模型，该方法（DAMA）显著减少了偏见，并保持了模型在下游任务上的性能。

Oct, 2023

通过内在偏见和遗忘的视角理解面向任务无关的去偏差技术

研究任务不可知偏差减轻对语言建模能力和重新学习社会偏见的影响所面临的挑战，提出了一种新的框架 ProSocialTuning，用于在下游微调中推动模型接近偏见下限，通过已成功去偏的注意力模块的正则化来克服忘记问题。

Jun, 2024

消除偏见的好与坏：测量语言模型中消除偏见技术的一致性

该文提出了一种标准化协议来区分那些不仅产生了可取的结果，而且与它们的机制和规格一致的去偏差方法，并通过提供 essential insights 来展示了该协议对于去偏差方法的普适性和可解释性的重要性。

May, 2023

性别去偏见对内部模型表示的影响及其重要性

本文研究证明了在下游任务中模型性能和模型内部表示中的内在偏差之间的关系，并通过外部微调去除偏差，同时测量内在偏差，以评估其消除效果。通过两个任务和多种偏差度量的实验证明了内在偏差指标是评估去偏差效果的更佳指标，可以暴露浅表去偏差的情况，提供了一种更全面的 NLP 模型偏差研究框架和相关常用工具和资源。

Apr, 2022

除偏不足！—— 浅谈消除 MLM 和社会偏见在下游任务中的有效性

本研究探讨了遮盖语言模型的任务非特定内在社会偏见和任务特定外在社会偏见评估指标之间的关系，并发现两种评估指标之间存在着很弱的相关性。此外，我们发现使用不同方法去除偏见的 MLM 在下游任务的精调期间仍会重新学习社会偏见。我们发现训练实例及其分配的标签中的社会偏见是内在和外在偏见评估测量之间差异的原因。总之，我们的研究结果强调了现有 MLM 偏见评估措施的局限性，并令人担忧地提出了使用这些措施在下游应用中部署 MLM 的问题。

Oct, 2022