虚假相关性及其发现
机器学习系统对输入的偏倚特征(例如背景、纹理和次要对象)与相应标签之间的虚假相关性非常敏感。本综述提供了对该问题的全面回顾,以及现有最先进方法的分类体系,用于解决机器学习模型中的虚假相关性。此外,我们总结了现有的数据集、标杆和度量方法,以帮助未来的研究。综述最后讨论了该领域的最新进展和未来的研究挑战,旨在为相关领域的研究人员提供有价值的见解。
Feb, 2024
本文提出了一种区分文本分类器中误导性和真实关联的方法,将其作为监督分类问题,并利用来自治疗效应估计器的特征,通过特征选择的方法进行更加鲁棒的分类。经过在情感分类和毒性检测等四个数据集上的实验,表明这种方法提高了最坏情况下的准确性和更好的分类效果。
Oct, 2020
该论文分析了 Gardner 等人提出的语言的组合性质意味着标签和各自的‘输入特征’之间的所有相关性都是虚假相关性这一提议,在简单的 PCFG 中演示出三种明显的条件可以导致特征 - 标签相关性的产生,论文指出在所有但极少数情况下,输入特征将与标签各自相关,因此需应用领域知识识别可能对鲁棒性构成真正威胁的虚假相关。
Apr, 2022
本文区分了 NLP 中的 “虚假相关” 中的两种情况(特征对标签的影响是否取决于上下文),并使用因果模型和必要性和充分性概率对其进行了更细致的处理,说明了现有去偏差方法的结果,并揭示了去偏差后模型表示中虚假特征的编码。
Oct, 2022
通过评估使用权重调整、强正则化和组鲁棒性训练等方法训练的模型,重训练模型的方法在多个视觉和 NLP 问题中表现出与其他方法相似的结果,表明无需过度正则化即可学习高质量的特征表示。
Oct, 2022
我们提出了一种高效侦测潜在假相关的通用方法,相对于现有技术需要更少人工干预,并且在消除像素级注释的同时提供直观的解释。此方法对 AI 生成的图像的特殊性表现出容忍度,而这是一个相当具有挑战性的任务,大多数现有方法在此方面存在不足。因此,我们的方法也适用于检测由生成模型产生的可能会传播到下游应用程序中的假相关。
Nov, 2023
研究表明,在训练集中,假设特征和标签之间的虚假相关性增强,检测模型对于发现野外数据的能力会大幅降低。通过引入 “不变” 的特征来新定义和建模数据转移,提出了新的数据转移形式,并在此基础上深入探究了虚假相关在识别过程中的影响,同时提出了一种降低虚假相关影响的方法。
Sep, 2021
本研究提出了一种方法,利用解释性方法从文本中提取影响模型决策过程的标记,分析模型在多个语料库上的预测并进一步通过知识感知扰动来区分 ' 真正 ' 的标记和 ' 虚假 ' 标记,有效地识别出一组 ' 捷径 ',从而实现在多个应用中的更加鲁棒的模型。
Oct, 2021