本文提出一种邻近分析框架,防止深度学习模型在训练集中利用虚假的相关性,通过 NFL 正则化方法来改进鲁棒性,并在两个文本分类任务中进行实验验证,达到了显著的效果提升。
May, 2023
机器学习系统对输入的偏倚特征(例如背景、纹理和次要对象)与相应标签之间的虚假相关性非常敏感。本综述提供了对该问题的全面回顾,以及现有最先进方法的分类体系,用于解决机器学习模型中的虚假相关性。此外,我们总结了现有的数据集、标杆和度量方法,以帮助未来的研究。综述最后讨论了该领域的最新进展和未来的研究挑战,旨在为相关领域的研究人员提供有价值的见解。
Feb, 2024
本研究提出了一种方法,利用解释性方法从文本中提取影响模型决策过程的标记,分析模型在多个语料库上的预测并进一步通过知识感知扰动来区分 ' 真正 ' 的标记和 ' 虚假 ' 标记,有效地识别出一组 ' 捷径 ',从而实现在多个应用中的更加鲁棒的模型。
Oct, 2021
该论文分析了 Gardner 等人提出的语言的组合性质意味着标签和各自的‘输入特征’之间的所有相关性都是虚假相关性这一提议,在简单的 PCFG 中演示出三种明显的条件可以导致特征 - 标签相关性的产生,论文指出在所有但极少数情况下,输入特征将与标签各自相关,因此需应用领域知识识别可能对鲁棒性构成真正威胁的虚假相关。
Apr, 2022
在此研究中,我们提出了一种自引导的伪相关性缓解框架,它在无需标注伪相关性的情况下,自动构建了适合经验风险最小化得到的分类器的细粒度训练标签,以提高其对伪相关性的鲁棒性。通过在一种新颖的伪相关性嵌入空间中识别分类器的不同预测行为,并结合自动检测的概念属性和一种新颖的伪相关度量来构造细粒度的训练标签,我们证明了训练分类器以区分不同的预测行为可以减少其对伪相关性的依赖,而无需事先知道它们,并且在五个真实世界的数据集上优于先前的方法。
May, 2024
通过两种方法进行定量化,并通过遮盖已知的错误主题相关项进行缓解,从而揭示了高性能神经翻译语分类器中的虚假主题相关性的存在。
Aug, 2023
本文提出了一种利用因果推断的方法实现自动化数据增强,从而减少机器学习模型学习特征和标签之间虚假相关性的问题,并在毒性数据集和 IMDB 评论数据集上得到了明显提升。
本文区分了 NLP 中的 “虚假相关” 中的两种情况(特征对标签的影响是否取决于上下文),并使用因果模型和必要性和充分性概率对其进行了更细致的处理,说明了现有去偏差方法的结果,并揭示了去偏差后模型表示中虚假特征的编码。
Oct, 2022
通过增加具有相反特性和标签的反事实数据来训练鲁棒的文本分类器,以强化模型可靠性和泛化性,实验证明,其在人工生成对照样本和原始测试数据上表现出较高的鲁棒性和精准度。
Dec, 2020
我们使用语言模型为每个文本标记概念并测量模型在测试数据上的概念偏差,然后提出一种数据再平衡方法来减轻由于训练数据中的不平衡标签分布而引起的虚假相关性,并证明我们的缓解方法在处理文本分类数据集中的标签分布偏差时具有优越性。
Nov, 2023