自然语言理解中的去偏方法使得偏见更容易被接受

EMNLPSep, 2021

自然语言理解中的去偏方法使得偏见更容易被接受

Debiasing Methods in Natural Language Understanding Make Bias More Accessible

Michael Mendelson, Yonatan Belinkov

TL;DR通过提出一种基于探究的框架，研究了自然语言理解中的偏见修正方法。结果表明，推迟偏见的方法会导致更多的偏见被编码到模型的内部表示中。

Abstract

model robustness to bias is often determined by the generalization on carefully designed out-of-distribution datasets. Recent debiasing methods

model robustness bias debiasing methods natural language understanding probing-based framework

发现论文，激发创造

消除自然语言理解模型中的未知偏见

本文提出了一种自我去偏方法，以减少 NLU 模型在不事先知道偏差情况下利用偏差的趋势，并表明此方法不仅具有一般性和互补性，而且还能提高模型的整体鲁棒性。

Sep, 2020

通过建模语料库中的偏见进行端到端偏见缓解

本文提出了两种学习策略来训练神经模型，更加稳健，并且更能够迁移到域外的数据集。这些策略利用了数据集的偏差，通过 down-weighting 有偏差的例子，使基础模型减少对偏差的依赖。实验表明，我们的去偏差方法在所有设置中都显著提高了模型的稳健性，并且更好地迁移到其他文本蕴涵数据集上。

Sep, 2019

注重权衡：在不损害内部分布性能的情况下去偏向自然语言理解模型

本文介绍了一种名为置信度正则化的新型去偏方法，旨在提高自然语言理解任务模型对于越界数据的表现，同时保持对内界数据的准确度。实验表明，与之前的方法相比，该方法在提高模型对越界数据的表现方面具有更好的效果。

May, 2020

特征层面的无偏自然语言理解

本文提出了一种名为 Debiasing Contrastive Learning (DCT) 的 NLU 去偏置方法，该方法通过对比学习，同时缓解了编码偏置潜在特征和偏置影响的动态性，使用正向采样和动态负向抽样策略选取了最小相似度的偏态样本和动态选择最相似的负向偏态样本，实验表明，DCT 在保持分布内性能的同时，优于最先进的基线算法，在分布之外的数据集上表现出色，并减少了模型表示中的偏置潜在特征。

Dec, 2022

端到端自校准框架用于稳健的 NLU 训练

通过引入一种简单而有效的去偏置框架，利用主模型的浅层表示来推导一个偏置模型，并同时训练两个模型，我们在三个广泛研究的自然语言理解任务中演示了该方法的有效性，尽管其简单性，但其在越界测试集上表现不俗，明显优于其他去偏执方法，并且仍然能够提供高性能的内分布结果。

Sep, 2021

InterFair: 具有自然语言反馈的去偏见公平可解释预测

该研究论文提出，自然语言处理模型中的去偏置方法应当使用敏感信息来实现公平去偏置，而不是盲目地消除它，为了实现公平平衡，研究人员建议采用能够与用户互动并提供反馈的交互式方法，从而在任务表现和偏置缓解之间实现更好和公正的平衡，并支持详尽的解释。

Oct, 2022

稳健自然语言推理中的模型无关去偏策略的实证研究

本文探索了多种方法使自然语言推理模型具有鲁棒性，包括模型去偏，数据增强等，并提供了性能较好的模型集成方法。

Oct, 2020

大型语言模型中的公平性偏差和去偏差之旅

这篇研究使用变换器语言模型研究了其训练数据所带来的偏见问题，并提出了一种去偏方法，得到的去偏模型在下游任务上保持了良好的表现。

May, 2023

针对词汇数据集偏差提高 NLI 模型的鲁棒性

本文探讨了深度学习模型在自然语言推理方面存在数据偏见的现象，并提出了数据级和模型级去偏见的方法，实验表明采用正交性方法可以更好地去偏见且保持高准确率。

May, 2020

视觉和语言研究中实现更公平的神经模型的去偏置方法：一份调查报告

在电脑视觉和自然语言处理领域中，神经网络虽然能够取得最新成果，但是其存在数据内的建模偏见，导致人工智能领域出现了公平性的研究方向，其目的为了纠正算法偏见，提出了几种基于公平性的神经网络去偏置的方法。

Nov, 2022