消除偏见掩码：自然语言理解中一种新的快捷方式缓解框架

EMNLPOct, 2022

消除偏见掩码：自然语言理解中一种新的快捷方式缓解框架

Debiasing Masks: A New Framework for Shortcut Mitigation in NLU

Johannes Mario Meissner, Saku Sugawara, Akiko Aizawa

TL;DR介绍一种新的语言模型去偏置化的方法，使用剪枝口罩来确定模型去偏置化行为，不需要重新训练模型，可以高效地存储口罩并在推断时切换到多种去偏置行为。

Abstract

debiasing language models from unwanted behaviors in Natural Language Understanding tasks is a topic with rapidly increasing interest in the nlp<

language models debiasing pruning masks nlp statistical correlations

发现论文，激发创造

探究使用运动修剪在预训练基于 Transformer 的语言模型中的性别偏见

本研究提出了一种通过运动剪枝实现检查预训练变压器语言模型中偏差的方法，并使用性别偏见作为案例来验证方法。

Jul, 2022

参数高效的 Diff 剪枝用于偏差缓解

介绍了一种模块化的架构，应用 DiffPruning 和对抗训练技术在保持语言模型存储效率的同时，减少预设受保护属性对推理结果的影响。

May, 2022

自然语言理解中的去偏方法使得偏见更容易被接受

通过提出一种基于探究的框架，研究了自然语言理解中的偏见修正方法。结果表明，推迟偏见的方法会导致更多的偏见被编码到模型的内部表示中。

Sep, 2021

掩蔽：预训练语言模型的有效替代方法

本文提出了一种有效的预训练语言模型利用方法，其中利用二进制选择性蒙版来代替微调的方法对预训练权重进行修改。对 Bert 和 Roberta 模型进行掩模和微调的广泛评估表明，我们的掩模方案在执行多个任务时具有可比性的性能，却具有更小的内存占用。通过本文内在评估，我们展示了由掩模语言模型计算的表征编码了解决下游任务所需的信息。分析损失景观，我们展示了掩蔽和微调能够生成几乎具有恒定测试准确度的线段相连的值，证实了掩蔽是微调的有效替代方法。

Apr, 2020

消除自然语言理解模型中的未知偏见

本文提出了一种自我去偏方法，以减少 NLU 模型在不事先知道偏差情况下利用偏差的趋势，并表明此方法不仅具有一般性和互补性，而且还能提高模型的整体鲁棒性。

Sep, 2020

快速模型去偏置与机器遗忘

最近的研究发现，深度神经网络在许多实际场景中可能表现出偏见。本研究提出了一种快速模型去偏方法（FMD），该方法通过显式的反事实概念识别偏见属性，并使用影响函数量化数据样本的影响，进而设计了一种基于机器遗忘的策略来高效有效地消除模型中的偏见。实验证明，与现有先进方法相比，我们的方法在达到更高或相当的准确性的同时，具有更少的偏见和更低的去偏成本要求。

Oct, 2023

掩蔽语言模型的归纳偏好：从统计学到句法依赖

研究预训练语言模型如何通过无监督学习中的遮盖和预测标记产生语言结构和改进下游性能；理论认为，预训练语言模型通过遮盖具有暗示下游任务的填空作用，获得有用的归纳偏见。本文构建了类似填空的掩码，并用于三个不同的分类数据集，证明了预训练模型的绝大部分性能提升来自没有与词典关联的通用掩码；我们演示了掩码语言模型（MLM）目标与学习图形模型中的统计依赖的现有方法之间的对应关系，并利用这一点派生出一种提取该模型中学习到的统计依赖的方法，这些依赖以句法结构的形式编码。通过对暗示的统计依赖结构进行最小生成树的无监督解析评估，在无监督解析方面，简单地形成最小生成树优于经典的无监督解析方法（58.74 vs. 55.91 UUAS）

Apr, 2021

通用短语去偏器：在多令牌级别上去偏遮蔽语言模型

提出了一种自动的多令牌去偏见流程，称为 “General Phrase Debiaser”，它可以减轻被遮蔽语言模型中的短语级偏见。所提方法在标准数据集和评估指标上取得了最新成果，显著降低了职业和多个领域中的性别偏见，并适用于具有不同参数大小的模型。

Nov, 2023

通过内在偏见和遗忘的视角理解面向任务无关的去偏差技术

研究任务不可知偏差减轻对语言建模能力和重新学习社会偏见的影响所面临的挑战，提出了一种新的框架 ProSocialTuning，用于在下游微调中推动模型接近偏见下限，通过已成功去偏的注意力模块的正则化来克服忘记问题。

Jun, 2024

大型语言模型中的公平性偏差和去偏差之旅

这篇研究使用变换器语言模型研究了其训练数据所带来的偏见问题，并提出了一种去偏方法，得到的去偏模型在下游任务上保持了良好的表现。

May, 2023