鲁棒文本分类中的虚假相关性识别

EMNLPOct, 2020

鲁棒文本分类中的虚假相关性识别

Identifying Spurious Correlations for Robust Text Classification

Zhao Wang, Aron Culotta

TL;DR本文提出了一种区分文本分类器中误导性和真实关联的方法，将其作为监督分类问题，并利用来自治疗效应估计器的特征，通过特征选择的方法进行更加鲁棒的分类。经过在情感分类和毒性检测等四个数据集上的实验，表明这种方法提高了最坏情况下的准确性和更好的分类效果。

Abstract

The predictions of text classifiers are often driven by spurious correlations -- e.g., the term `Spielberg' correlates with positively reviewed movies, even though the term itself does not semantically convey a p

text classifiers spurious correlations supervised classification treatment effect estimators feature selection

发现论文，激发创造

文本分类中误关联的理解和减缓

本文提出一种邻近分析框架，防止深度学习模型在训练集中利用虚假的相关性，通过 NFL 正则化方法来改进鲁棒性，并在两个文本分类任务中进行实验验证，达到了显著的效果提升。

May, 2023

机器学习中的虚假相关性：一项调查

机器学习系统对输入的偏倚特征（例如背景、纹理和次要对象）与相应标签之间的虚假相关性非常敏感。本综述提供了对该问题的全面回顾，以及现有最先进方法的分类体系，用于解决机器学习模型中的虚假相关性。此外，我们总结了现有的数据集、标杆和度量方法，以帮助未来的研究。综述最后讨论了该领域的最新进展和未来的研究挑战，旨在为相关领域的研究人员提供有价值的见解。

Feb, 2024

识别和缓解虚假关联，提高自然语言处理模型的鲁棒性

本研究提出了一种方法，利用解释性方法从文本中提取影响模型决策过程的标记，分析模型在多个语料库上的预测并进一步通过知识感知扰动来区分 ' 真正 ' 的标记和 ' 虚假 ' 标记，有效地识别出一组 ' 捷径 '，从而实现在多个应用中的更加鲁棒的模型。

Oct, 2021

信息量和不变性：自然语言中伪相关性的两个观点

该论文分析了 Gardner 等人提出的语言的组合性质意味着标签和各自的‘输入特征’之间的所有相关性都是虚假相关性这一提议，在简单的 PCFG 中演示出三种明显的条件可以导致特征 - 标签相关性的产生，论文指出在所有但极少数情况下，输入特征将与标签各自相关，因此需应用领域知识识别可能对鲁棒性构成真正威胁的虚假相关。

Apr, 2022

自引导假相关抑制学习强化分类器

在此研究中，我们提出了一种自引导的伪相关性缓解框架，它在无需标注伪相关性的情况下，自动构建了适合经验风险最小化得到的分类器的细粒度训练标签，以提高其对伪相关性的鲁棒性。通过在一种新颖的伪相关性嵌入空间中识别分类器的不同预测行为，并结合自动检测的概念属性和一种新颖的伪相关度量来构造细粒度的训练标签，我们证明了训练分类器以区分不同的预测行为可以减少其对伪相关性的依赖，而无需事先知道它们，并且在五个真实世界的数据集上优于先前的方法。

May, 2024

分类中虚假相关性的测量：译文中的 “聪明汉斯

通过两种方法进行定量化，并通过遮盖已知的错误主题相关项进行缓解，从而揭示了高性能神经翻译语分类器中的虚假主题相关性的存在。

Aug, 2023

控制学习效应以减少文本分类器中的错综相关性

本文提出了一种利用因果推断的方法实现自动化数据增强，从而减少机器学习模型学习特征和标签之间虚假相关性的问题，并在毒性数据集和 IMDB 评论数据集上得到了明显提升。

May, 2023

自然语言中的所有虚假特征是否相似？通过因果透镜进行分析

本文区分了 NLP 中的 “虚假相关” 中的两种情况（特征对标签的影响是否取决于上下文），并使用因果模型和必要性和充分性概率对其进行了更细致的处理，说明了现有去偏差方法的结果，并揭示了去偏差后模型表示中虚假特征的编码。

Oct, 2022

通过自动生成的反事实情况实现文本分类中对伪相关性的鲁棒性

通过增加具有相反特性和标签的反事实数据来训练鲁棒的文本分类器，以强化模型可靠性和泛化性，实验证明，其在人工生成对照样本和原始测试数据上表现出较高的鲁棒性和精准度。

Dec, 2020

探索语言模型在文本分类中的概念层次上的伪相关性

我们使用语言模型为每个文本标记概念并测量模型在测试数据上的概念偏差，然后提出一种数据再平衡方法来减轻由于训练数据中的不平衡标签分布而引起的虚假相关性，并证明我们的缓解方法在处理文本分类数据集中的标签分布偏差时具有优越性。

Nov, 2023