通过适应残差来消除自然语言推理数据集中的偏差

EMNLPAug, 2019

通过适应残差来消除自然语言推理数据集中的偏差

Unlearn Dataset Bias in Natural Language Inference by Fitting the Residual

He He, Sheng Zha, Haohan Wang

TL;DR提出了 DRiFt 算法，该算法可以训练出较不受数据集偏差影响的 NLI 模型，该模型在挑战测试集上表现显著优于基准模型，并在原始测试集上保持良好的表现。

Abstract

statistical natural language inference (NLI) models are susceptible to learning dataset bias: superficial cues that happen to associate with the label on a particular dataset, but are not useful in general, e.g.,

statistical natural language inference dataset bias drift debiased models nli models

发现论文，激发创造

生成数据以缓解自然语言推理数据集中的伪相关性

本篇研究提出了一种生成去偏差数据集的方法，通过过滤掉对任务并无帮助的数据以提高自然语言处理模型的泛化能力，并在实验中证实了该方法可以显著提高模型在不同任务分布下的性能表现。

Mar, 2022

通过建模语料库中的偏见进行端到端偏见缓解

本文提出了两种学习策略来训练神经模型，更加稳健，并且更能够迁移到域外的数据集。这些策略利用了数据集的偏差，通过 down-weighting 有偏差的例子，使基础模型减少对偏差的依赖。实验表明，我们的去偏差方法在所有设置中都显著提高了模型的稳健性，并且更好地迁移到其他文本蕴涵数据集上。

Sep, 2019

针对词汇数据集偏差提高 NLI 模型的鲁棒性

本文探讨了深度学习模型在自然语言推理方面存在数据偏见的现象，并提出了数据级和模型级去偏见的方法，实验表明采用正交性方法可以更好地去偏见且保持高准确率。

May, 2020

不要以为前提成立：减轻自然语言推理中的人为误差

提出两种概率方法以构建更稳健的模型，让其更好地跨数据集进行传递，解决了自然语言推理数据集中存在的偏见问题。通过在含有偏差的数据集上进行训练，并在不含偏差数据集上进行测试，结果表明这些方法能够使模型更加稳健，相比基线模型在 12 个自然语言推理数据集中，有 9 个传输效果更好。

Jul, 2019

自然语言理解中的去偏方法使得偏见更容易被接受

通过提出一种基于探究的框架，研究了自然语言理解中的偏见修正方法。结果表明，推迟偏见的方法会导致更多的偏见被编码到模型的内部表示中。

Sep, 2021

特征层面的无偏自然语言理解

本文提出了一种名为 Debiasing Contrastive Learning (DCT) 的 NLU 去偏置方法，该方法通过对比学习，同时缓解了编码偏置潜在特征和偏置影响的动态性，使用正向采样和动态负向抽样策略选取了最小相似度的偏态样本和动态选择最相似的负向偏态样本，实验表明，DCT 在保持分布内性能的同时，优于最先进的基线算法，在分布之外的数据集上表现出色，并减少了模型表示中的偏置潜在特征。

Dec, 2022

注重权衡：在不损害内部分布性能的情况下去偏向自然语言理解模型

本文介绍了一种名为置信度正则化的新型去偏方法，旨在提高自然语言理解任务模型对于越界数据的表现，同时保持对内界数据的准确度。实验表明，与之前的方法相比，该方法在提高模型对越界数据的表现方面具有更好的效果。

May, 2020

自然语言推理中假设偏见的对抗消除

本文探讨如何通过对手博弈学习在自然语言推断任务中减弱假设偏见和虚假关联，结果表明通过对手博弈学习得到的表征可能更加公正且与任务精度下降不大。

Jul, 2019

通过集成对抗训练避免自然语言推理中仅有假设的偏差

采用对抗性训练和敌对对抗方法的集成来降低自然语言推理中的偏见，这种方法比先前的去偏见努力表现更好，并且在推广到 12 个其他数据集时表现良好。

Apr, 2020

借鉴他人的经验：避免数据集偏见的模型无关方法

通过限制处理数据的模型容量，利用其错误来训练更加健壮的模型，从而解决自然语言处理模型对数据集偏见的问题，并且在数据分布发生变化时具有良好的可移植性。

Dec, 2020