除偏不足！—— 浅谈消除 MLM 和社会偏见在下游任务中的有效性

COLINGOct, 2022

除偏不足！—— 浅谈消除 MLM 和社会偏见在下游任务中的有效性

Debiasing isn't enough! -- On the Effectiveness of Debiasing MLMs and their Social Biases in Downstream Tasks

Masahiro Kaneko, Danushka Bollegala, Naoaki Okazaki

TL;DR本研究探讨了遮盖语言模型的任务非特定内在社会偏见和任务特定外在社会偏见评估指标之间的关系，并发现两种评估指标之间存在着很弱的相关性。此外，我们发现使用不同方法去除偏见的 MLM 在下游任务的精调期间仍会重新学习社会偏见。我们发现训练实例及其分配的标签中的社会偏见是内在和外在偏见评估测量之间差异的原因。总之，我们的研究结果强调了现有 MLM 偏见评估措施的局限性，并令人担忧地提出了使用这些措施在下游应用中部署 MLM 的问题。

Abstract

We study the relationship between task-agnostic intrinsic and task-specific extrinsic social bias evaluation measures for masked language models (MLMs), and find that there exists only a weak correlation between

masked language models social bias evaluation intrinsic evaluation extrinsic evaluation debiasing

发现论文，激发创造

应用内在去偏方法于下游任务：机器翻译的挑战与考虑

通过测量内在消除偏见的方法对神经机器翻译模型的外在偏见的影响，我们发现选择消除偏见的嵌入、词和子词符号的不匹配以及对不同目标语言的影响是影响下游性能和消除偏见成功的三个挑战和不匹配。

Jun, 2024

通过内在偏见和遗忘的视角理解面向任务无关的去偏差技术

研究任务不可知偏差减轻对语言建模能力和重新学习社会偏见的影响所面临的挑战，提出了一种新的框架 ProSocialTuning，用于在下游微调中推动模型接近偏见下限，通过已成功去偏的注意力模块的正则化来克服忘记问题。

Jun, 2024

预训练遮蔽语言模型中社会偏见和任务表现的预测因素分析

为了研究预训练遮蔽语言模型 (Masked Language Models) 的模型因素与所学习的社会偏见之间的关系，以及模型的下游任务性能，我们对 39 个不同模型大小、训练目标、分词方法、训练数据领域和语言进行了全面的研究。结果揭示了一些在先前文献中常被忽视的重要因素，如分词或模型目标。

Oct, 2023

性别去偏见对内部模型表示的影响及其重要性

本文研究证明了在下游任务中模型性能和模型内部表示中的内在偏差之间的关系，并通过外部微调去除偏差，同时测量内在偏差，以评估其消除效果。通过两个任务和多种偏差度量的实验证明了内在偏差指标是评估去偏差效果的更佳指标，可以暴露浅表去偏差的情况，提供了一种更全面的 NLP 模型偏差研究框架和相关常用工具和资源。

Apr, 2022

通过预测质量的代理方法测量掩盖语言模型中的社会偏见

通过使用迭代的蒙板实验测量变压器模型的预测质量，并评估多层语言模型对于劣势群体和优势群体的偏好，我们比较了两个基准数据集上的偏见估计结果，并发现在考虑的多层语言模型中具有相对较高的宗教和残疾偏见，而在一个数据集中相对较低的性别偏见。我们的测量方法在与人类注释者的一致性方面表现优于其他方法。我们通过评估在蒙版语言建模目标下重新训练多层语言模型后引入的社会偏见进行扩展，并发现我们提出的测量方法比其他方法更准确地估计了变压器之间具有偏见的句子的相对偏好。

Feb, 2024

去偏对于语言模型在下游任务中的影响被低估

通过使用包含女性、男性和刻板印象的单词的各种基准数据集，我们比较了去偏见对多个下游任务性能的影响，实验证明去偏见的影响在所有任务中都被一致地低估。此外，通过单独考虑包含女性、男性和刻板印象单词的实例，而不是所有实例，可以可靠地评估去偏见的影响。

Sep, 2023

构建面向掩蔽语言模型社会偏见的整体度量

本文利用高斯分布提出了 KLDivS 和 JSDivS 两种新的评估社会偏见的度量方法，并在公共数据集 StereoSet 和 CrowS-Pairs 上进行了实验，结果表明 KLDivS 和 JSDivS 比过去提出的度量方法更稳定和可解释。

May, 2023

内在偏见度量与应用偏见无关

本文比较了不同任务和实验条件下数百个已训练模型的内在和外在偏差度量标准之间的关系，发现这些度量标准在所有情况下都没有可靠的相关性。作者呼吁重点关注外在的偏差度量标准，并通过创建新的挑战集和注释测试数据使使用这些度量标准更加可行。在此基础上，作者发布了一份基于性别偏见的仇恨言论的代码、新的内部度量标准和一个注释的测试集。

Dec, 2020

评估社交媒体数据和屏蔽语言模型中短期时间波动的社交偏见

分析表明，尽管社会偏见存在于所有 MLMs 中，但大多数类型的社会偏见在时间上相对稳定（有几个例外）。进一步分析影响 MLMs 社会偏见的机制，我们发现在训练语料库中，某些人口群体（如男性）一直相对于其他人口群体（如女性）更受偏好。

Jun, 2024

大型语言模型公平性调研

大语言模型带来了强大的性能和发展前景，并广泛应用于现实世界。然而，这些模型可能从未经处理的训练数据中捕捉到社会偏见，并将其传播到下游任务。本文全面回顾了关于大语言模型中的公平性的相关研究，介绍了中等规模的模型和大规模的模型分别从内在偏见和外在偏见的角度引入了评估指标和去偏方法，并讨论了公平性发展中的挑战和未来方向。

Aug, 2023