分类中虚假相关性的测量：译文中的 “聪明汉斯

Aug, 2023

分类中虚假相关性的测量：译文中的 “聪明汉斯

Measuring Spurious Correlation in Classification: 'Clever Hans' in Translationese

Angana Borah, Daria Pylypenko, Cristina Espana-Bonet, Josef van Genabith

TL;DR通过两种方法进行定量化，并通过遮盖已知的错误主题相关项进行缓解，从而揭示了高性能神经翻译语分类器中的虚假主题相关性的存在。

Abstract

Recent work has shown evidence of 'clever hans' behavior in high-performance neural translationese classifiers, where BERT-based classifiers capitalize on →

clever hans neural translationese classifiers spurious correlations topic information classification

发现论文，激发创造

鲁棒文本分类中的虚假相关性识别

本文提出了一种区分文本分类器中误导性和真实关联的方法，将其作为监督分类问题，并利用来自治疗效应估计器的特征，通过特征选择的方法进行更加鲁棒的分类。经过在情感分类和毒性检测等四个数据集上的实验，表明这种方法提高了最坏情况下的准确性和更好的分类效果。

Oct, 2020

文本分类中误关联的理解和减缓

本文提出一种邻近分析框架，防止深度学习模型在训练集中利用虚假的相关性，通过 NFL 正则化方法来改进鲁棒性，并在两个文本分类任务中进行实验验证，达到了显著的效果提升。

May, 2023

针对学习鲁棒分类器的伪装感知元学习

通过元学习训练图像分类器以减少对伪相关性的依赖，以实现对伪相关性的鲁棒性，同时在不知道先验信息的情况下获得了五个基准数据集上最好的鲁棒性。

Jun, 2024

信息量和不变性：自然语言中伪相关性的两个观点

该论文分析了 Gardner 等人提出的语言的组合性质意味着标签和各自的‘输入特征’之间的所有相关性都是虚假相关性这一提议，在简单的 PCFG 中演示出三种明显的条件可以导致特征 - 标签相关性的产生，论文指出在所有但极少数情况下，输入特征将与标签各自相关，因此需应用领域知识识别可能对鲁棒性构成真正威胁的虚假相关。

Apr, 2022

自引导假相关抑制学习强化分类器

在此研究中，我们提出了一种自引导的伪相关性缓解框架，它在无需标注伪相关性的情况下，自动构建了适合经验风险最小化得到的分类器的细粒度训练标签，以提高其对伪相关性的鲁棒性。通过在一种新颖的伪相关性嵌入空间中识别分类器的不同预测行为，并结合自动检测的概念属性和一种新颖的伪相关度量来构造细粒度的训练标签，我们证明了训练分类器以区分不同的预测行为可以减少其对伪相关性的依赖，而无需事先知道它们，并且在五个真实世界的数据集上优于先前的方法。

May, 2024

异常检测中的机智汉斯效应

本文为异常检测模型提供了一种可解释人工智能（XAI）的方法，以突出不同类型模型所使用的相关特征，并揭示了 “Clever Hans” 效应在许多意外形式中的普遍存在，这是由于模型自身的结构使其无法检测到真正相关的特征，提供了警告，并指出通过允许多个异常模型相互取消其各自的结构缺陷来共同产生更好、更可信的异常检测器的可能出路。

Jun, 2020

探索语言模型在文本分类中的概念层次上的伪相关性

我们使用语言模型为每个文本标记概念并测量模型在测试数据上的概念偏差，然后提出一种数据再平衡方法来减轻由于训练数据中的不平衡标签分布而引起的虚假相关性，并证明我们的缓解方法在处理文本分类数据集中的标签分布偏差时具有优越性。

Nov, 2023

识别和缓解虚假关联，提高自然语言处理模型的鲁棒性

本研究提出了一种方法，利用解释性方法从文本中提取影响模型决策过程的标记，分析模型在多个语料库上的预测并进一步通过知识感知扰动来区分 ' 真正 ' 的标记和 ' 虚假 ' 标记，有效地识别出一组 ' 捷径 '，从而实现在多个应用中的更加鲁棒的模型。

Oct, 2021

机器学习中的虚假相关性：一项调查

机器学习系统对输入的偏倚特征（例如背景、纹理和次要对象）与相应标签之间的虚假相关性非常敏感。本综述提供了对该问题的全面回顾，以及现有最先进方法的分类体系，用于解决机器学习模型中的虚假相关性。此外，我们总结了现有的数据集、标杆和度量方法，以帮助未来的研究。综述最后讨论了该领域的最新进展和未来的研究挑战，旨在为相关领域的研究人员提供有价值的见解。

Feb, 2024

利用反事实增强数据学习具有显著差异的因素

本文探讨了机器学习中由于混淆而导致的伪相关性问题，通过因果关系提供了明确的概念，并介绍了一种训练模型的方法和资源，可以降低其对伪相关性的敏感度，最终实验表明基于该方法提出的分类器在情感分析和自然语言推理任务上表现出了很好的性能。

Sep, 2019