分类中虚假相关性的测量:译文中的 “聪明汉斯
本文提出了一种区分文本分类器中误导性和真实关联的方法,将其作为监督分类问题,并利用来自治疗效应估计器的特征,通过特征选择的方法进行更加鲁棒的分类。经过在情感分类和毒性检测等四个数据集上的实验,表明这种方法提高了最坏情况下的准确性和更好的分类效果。
Oct, 2020
本文提出一种邻近分析框架,防止深度学习模型在训练集中利用虚假的相关性,通过 NFL 正则化方法来改进鲁棒性,并在两个文本分类任务中进行实验验证,达到了显著的效果提升。
May, 2023
该论文分析了 Gardner 等人提出的语言的组合性质意味着标签和各自的‘输入特征’之间的所有相关性都是虚假相关性这一提议,在简单的 PCFG 中演示出三种明显的条件可以导致特征 - 标签相关性的产生,论文指出在所有但极少数情况下,输入特征将与标签各自相关,因此需应用领域知识识别可能对鲁棒性构成真正威胁的虚假相关。
Apr, 2022
在此研究中,我们提出了一种自引导的伪相关性缓解框架,它在无需标注伪相关性的情况下,自动构建了适合经验风险最小化得到的分类器的细粒度训练标签,以提高其对伪相关性的鲁棒性。通过在一种新颖的伪相关性嵌入空间中识别分类器的不同预测行为,并结合自动检测的概念属性和一种新颖的伪相关度量来构造细粒度的训练标签,我们证明了训练分类器以区分不同的预测行为可以减少其对伪相关性的依赖,而无需事先知道它们,并且在五个真实世界的数据集上优于先前的方法。
May, 2024
本文为异常检测模型提供了一种可解释人工智能(XAI)的方法,以突出不同类型模型所使用的相关特征,并揭示了 “Clever Hans” 效应在许多意外形式中的普遍存在,这是由于模型自身的结构使其无法检测到真正相关的特征,提供了警告,并指出通过允许多个异常模型相互取消其各自的结构缺陷来共同产生更好、更可信的异常检测器的可能出路。
Jun, 2020
我们使用语言模型为每个文本标记概念并测量模型在测试数据上的概念偏差,然后提出一种数据再平衡方法来减轻由于训练数据中的不平衡标签分布而引起的虚假相关性,并证明我们的缓解方法在处理文本分类数据集中的标签分布偏差时具有优越性。
Nov, 2023
本研究提出了一种方法,利用解释性方法从文本中提取影响模型决策过程的标记,分析模型在多个语料库上的预测并进一步通过知识感知扰动来区分 ' 真正 ' 的标记和 ' 虚假 ' 标记,有效地识别出一组 ' 捷径 ',从而实现在多个应用中的更加鲁棒的模型。
Oct, 2021
机器学习系统对输入的偏倚特征(例如背景、纹理和次要对象)与相应标签之间的虚假相关性非常敏感。本综述提供了对该问题的全面回顾,以及现有最先进方法的分类体系,用于解决机器学习模型中的虚假相关性。此外,我们总结了现有的数据集、标杆和度量方法,以帮助未来的研究。综述最后讨论了该领域的最新进展和未来的研究挑战,旨在为相关领域的研究人员提供有价值的见解。
Feb, 2024
本文探讨了机器学习中由于混淆而导致的伪相关性问题,通过因果关系提供了明确的概念,并介绍了一种训练模型的方法和资源,可以降低其对伪相关性的敏感度,最终实验表明基于该方法提出的分类器在情感分析和自然语言推理任务上表现出了很好的性能。
Sep, 2019