本篇研究提出了一种生成去偏差数据集的方法,通过过滤掉对任务并无帮助的数据以提高自然语言处理模型的泛化能力,并在实验中证实了该方法可以显著提高模型在不同任务分布下的性能表现。
Mar, 2022
本文提出了两种学习策略来训练神经模型,更加稳健,并且更能够迁移到域外的数据集。这些策略利用了数据集的偏差,通过 down-weighting 有偏差的例子,使基础模型减少对偏差的依赖。实验表明,我们的去偏差方法在所有设置中都显著提高了模型的稳健性,并且更好地迁移到其他文本蕴涵数据集上。
Sep, 2019
本文探讨了深度学习模型在自然语言推理方面存在数据偏见的现象,并提出了数据级和模型级去偏见的方法,实验表明采用正交性方法可以更好地去偏见且保持高准确率。
May, 2020
提出两种概率方法以构建更稳健的模型,让其更好地跨数据集进行传递,解决了自然语言推理数据集中存在的偏见问题。通过在含有偏差的数据集上进行训练,并在不含偏差数据集上进行测试,结果表明这些方法能够使模型更加稳健,相比基线模型在 12 个自然语言推理数据集中,有 9 个传输效果更好。
Jul, 2019
通过提出一种基于探究的框架,研究了自然语言理解中的偏见修正方法。结果表明,推迟偏见的方法会导致更多的偏见被编码到模型的内部表示中。
Sep, 2021
本文提出了一种名为 Debiasing Contrastive Learning (DCT) 的 NLU 去偏置方法,该方法通过对比学习,同时缓解了编码偏置潜在特征和偏置影响的动态性,使用正向采样和动态负向抽样策略选取了最小相似度的偏态样本和动态选择最相似的负向偏态样本,实验表明,DCT 在保持分布内性能的同时,优于最先进的基线算法,在分布之外的数据集上表现出色,并减少了模型表示中的偏置潜在特征。
Dec, 2022
本文介绍了一种名为置信度正则化的新型去偏方法,旨在提高自然语言理解任务模型对于越界数据的表现,同时保持对内界数据的准确度。实验表明,与之前的方法相比,该方法在提高模型对越界数据的表现方面具有更好的效果。
本文探讨如何通过对手博弈学习在自然语言推断任务中减弱假设偏见和虚假关联,结果表明通过对手博弈学习得到的表征可能更加公正且与任务精度下降不大。
采用对抗性训练和敌对对抗方法的集成来降低自然语言推理中的偏见,这种方法比先前的去偏见努力表现更好,并且在推广到 12 个其他数据集时表现良好。
Apr, 2020
通过限制处理数据的模型容量,利用其错误来训练更加健壮的模型,从而解决自然语言处理模型对数据集偏见的问题,并且在数据分布发生变化时具有良好的可移植性。
Dec, 2020