去偏对于语言模型在下游任务中的影响被低估

ACLSep, 2023

去偏对于语言模型在下游任务中的影响被低估

The Impact of Debiasing on the Performance of Language Models in Downstream Tasks is Underestimated

Masahiro Kaneko, Danushka Bollegala, Naoaki Okazaki

TL;DR通过使用包含女性、男性和刻板印象的单词的各种基准数据集，我们比较了去偏见对多个下游任务性能的影响，实验证明去偏见的影响在所有任务中都被一致地低估。此外，通过单独考虑包含女性、男性和刻板印象单词的实例，而不是所有实例，可以可靠地评估去偏见的影响。

Abstract

pre-trained language models trained on large-scale data have learned serious levels of social biases. Consequently, various methods have been proposed to debias pre-trained models. →

pre-trained language models social biases debiasing downstream tasks benchmark datasets

发现论文，激发创造

去偏差化是否必然导致模型性能下降

本文提出了一个理论框架，解释了语言模型性别偏差的三个候选机制，发现大部分现有的去偏见方法会导致性能下降，但提出了一种不会降低模型性能的方法，即因果检测微调方法。通过数值实验证明，该方法能够在部分缓解性别偏差的同时避免性能下降。

Nov, 2022

应用内在去偏方法于下游任务：机器翻译的挑战与考虑

通过测量内在消除偏见的方法对神经机器翻译模型的外在偏见的影响，我们发现选择消除偏见的嵌入、词和子词符号的不匹配以及对不同目标语言的影响是影响下游性能和消除偏见成功的三个挑战和不匹配。

Jun, 2024

通过内在偏见和遗忘的视角理解面向任务无关的去偏差技术

研究任务不可知偏差减轻对语言建模能力和重新学习社会偏见的影响所面临的挑战，提出了一种新的框架 ProSocialTuning，用于在下游微调中推动模型接近偏见下限，通过已成功去偏的注意力模块的正则化来克服忘记问题。

Jun, 2024

预训练词嵌入的性别保持去偏置

该研究提出了一种针对 word embeddings 中性别偏见问题的去偏方法，通过保留与性别相关、非歧视性别信息的同时，去除预先训练好的 word embeddings 中的刻板性别歧视偏差，实验结果表明该方法在保留性别相关但非歧视性别信息的同时，能够更好地去偏，适用于一系列 benchmark 数据集和 NLP 应用。

Jun, 2019

通过因果中介分析研究去偏置方法带来的影响

本文以因果中介分析的方法来研究消除语言模型偏见的内部机制对下游任务毒性检测的影响，结果表明需要测试不同的偏见度量方法和关注模型中特定组件的行为变化，如语言模型的前两层和注意力头。

Jun, 2022

利用少量数据干预减轻性别偏见的语言模型性别改造

本文提出了一种数据干预策略，通过在仅使用 10 个去偏见（干预）的训练样例上微调预训练模型，可显著降低优先考虑任何性别的趋势，从而减少预训练大型语言模型中的性别偏见，而且此方法的使用成本低，是一种高度可行且实用的少量训练样例去偏见方法。

Jun, 2023

消除信息检索模型中的性别偏见

研究通过引入性别缓解技术、使用预训练模型以及适配器网络，成功地减轻了性别偏见问题，并提高了信息检索的敏感性。

Aug, 2022

消除嵌入偏见以减少文本分类中的性别偏见

研究表明，预训练词嵌入可能会的继承训练数据的性别偏见，并探究这种偏见如何影响职业分类任务。该文案例研究发现，传统的去偏方法可能会导致下游分类器的偏见恶化，但我们提出了一种相对较小的调整方法来同时减少偏见并保持高分类精度。

Aug, 2019

预训练语言模型去偏差技术有效性的实证研究

本文调查了五种最近提出的消除算法：CDA、Dropout、Iterative Nullspace Projection、Self-Debias 和 SentenceDebias 的有效性。实验结果显示，Self-Debias 是最有效的去偏置技术。但是现有去偏置技术在减轻非性别偏差方面表现不一致，同时算法会降低模型的语言建模能力，难以确定去偏置的效果。

Oct, 2021

评估最近大型预训练模型中的社会偏见

研究旨在探讨最新的预训练模型中是否比旧模型更负责任地发展，以便降低固有的社会偏见以及探究三个最近的模型（ELECTRA，DeBERTa 和 DistilBERT）在减少偏见方面的总体趋势。实验比较这些模型与基准 BERT 的关联指标，并发现所有研究对象都存在有偏差，但完整指标相对于 BERT 有所提高。

Apr, 2023