消除自然语言理解模型中的未知偏见

EMNLPSep, 2020

消除自然语言理解模型中的未知偏见

Towards Debiasing NLU Models from Unknown Biases

Prasetya Ajie Utama, Nafise Sadat Moosavi, Iryna Gurevych

TL;DR本文提出了一种自我去偏方法，以减少 NLU 模型在不事先知道偏差情况下利用偏差的趋势，并表明此方法不仅具有一般性和互补性，而且还能提高模型的整体鲁棒性。

Abstract

nlu models often exploit biases to achieve high dataset-specific performance without properly learning the intended task. Recently proposed debiasing methods are shown to be effective in mitigating this tendency.

nlu models biases debiasing methods self-debiasing robustness

发现论文，激发创造

自然语言理解中的去偏方法使得偏见更容易被接受

通过提出一种基于探究的框架，研究了自然语言理解中的偏见修正方法。结果表明，推迟偏见的方法会导致更多的偏见被编码到模型的内部表示中。

Sep, 2021

端到端自校准框架用于稳健的 NLU 训练

通过引入一种简单而有效的去偏置框架，利用主模型的浅层表示来推导一个偏置模型，并同时训练两个模型，我们在三个广泛研究的自然语言理解任务中演示了该方法的有效性，尽管其简单性，但其在越界测试集上表现不俗，明显优于其他去偏执方法，并且仍然能够提供高性能的内分布结果。

Sep, 2021

注重权衡：在不损害内部分布性能的情况下去偏向自然语言理解模型

本文介绍了一种名为置信度正则化的新型去偏方法，旨在提高自然语言理解任务模型对于越界数据的表现，同时保持对内界数据的准确度。实验表明，与之前的方法相比，该方法在提高模型对越界数据的表现方面具有更好的效果。

May, 2020

通过建模语料库中的偏见进行端到端偏见缓解

本文提出了两种学习策略来训练神经模型，更加稳健，并且更能够迁移到域外的数据集。这些策略利用了数据集的偏差，通过 down-weighting 有偏差的例子，使基础模型减少对偏差的依赖。实验表明，我们的去偏差方法在所有设置中都显著提高了模型的稳健性，并且更好地迁移到其他文本蕴涵数据集上。

Sep, 2019

在没有民族信息的情况下进行 NLP 模型去偏见化

本研究提出了一种去偏见的方法，利用辅助模型检测出具有偏见的数据样本并在训练过程中进行下权重处理，从而实现在没有昂贵的人口统计学注释过程的情况下缓解社会偏见。

Dec, 2022

语言引导的未知数据集偏差检测与减轻

在这项研究中，我们提出了一种在没有先验知识的情况下通过关键词的部分出现来识别潜在偏见的框架，并进一步提出了两种去偏方法：(a) 通过指定伪标签将其传递给现有的需要先验知识的去偏方法，以及 (b) 通过文本到图像生成模型进行数据增强，使用获得的偏见关键词作为提示。实验结果表明，尽管简单，我们的框架不仅能在没有先验知识的情况下胜过现有方法，而且甚至可以与假设有先验知识的方法媲美。

Jun, 2024

稳健自然语言推理中的模型无关去偏策略的实证研究

本文探索了多种方法使自然语言推理模型具有鲁棒性，包括模型去偏，数据增强等，并提供了性能较好的模型集成方法。

Oct, 2020

通过同时建模多个偏差来提高问答的泛化性能

研究了消除数据集偏见的方法，并提出了一个能更好地在域内和域外数据集上提高性能的通用框架，可用于问答任务，并与现有的消除数据集偏见的方法进行了比较。

Oct, 2020

特征层面的无偏自然语言理解

本文提出了一种名为 Debiasing Contrastive Learning (DCT) 的 NLU 去偏置方法，该方法通过对比学习，同时缓解了编码偏置潜在特征和偏置影响的动态性，使用正向采样和动态负向抽样策略选取了最小相似度的偏态样本和动态选择最相似的负向偏态样本，实验表明，DCT 在保持分布内性能的同时，优于最先进的基线算法，在分布之外的数据集上表现出色，并减少了模型表示中的偏置潜在特征。

Dec, 2022

通过自然语言理解中的偏见专家来改进偏见缓解

通过引入偏见专家（bias experts），我们提出了一个新的去偏框架，改善了辅助模型的偏见识别能力，并且在各种挑战性数据集上始终优于现有技术水平。

Dec, 2023