虚假相关性及其发现

ICMLAug, 2023

Spurious Correlations and Where to Find Them

Gautam Sreekumar, Vishnu Naresh Boddeti

TL;DR数据驱动的学习中出现虚假相关性，我们通过合并推导虚假相关性的指标，研究它们对基于 ERM 基线模型的影响，并从因果图生成的合成数据集中观察连接这些假设和模型设计选择的模式。

Abstract

spurious correlations occur when a model learns unreliable features from the data and are a well-known drawback of data-driven learning. Although there are several →

spurious correlations data-driven learning algorithms indicators causal graphs

发现论文，激发创造

机器学习中的虚假相关性：一项调查

机器学习系统对输入的偏倚特征（例如背景、纹理和次要对象）与相应标签之间的虚假相关性非常敏感。本综述提供了对该问题的全面回顾，以及现有最先进方法的分类体系，用于解决机器学习模型中的虚假相关性。此外，我们总结了现有的数据集、标杆和度量方法，以帮助未来的研究。综述最后讨论了该领域的最新进展和未来的研究挑战，旨在为相关领域的研究人员提供有价值的见解。

Feb, 2024

鲁棒文本分类中的虚假相关性识别

本文提出了一种区分文本分类器中误导性和真实关联的方法，将其作为监督分类问题，并利用来自治疗效应估计器的特征，通过特征选择的方法进行更加鲁棒的分类。经过在情感分类和毒性检测等四个数据集上的实验，表明这种方法提高了最坏情况下的准确性和更好的分类效果。

Oct, 2020

在线学习因果模型

通过检测和去除虚假特征来间接发现因果模型，以加强预测模型的鲁棒性和泛化能力，并说明问题的时间结构信息对于在线检测虚假特征至关重要。

Jun, 2020

信息量和不变性：自然语言中伪相关性的两个观点

该论文分析了 Gardner 等人提出的语言的组合性质意味着标签和各自的‘输入特征’之间的所有相关性都是虚假相关性这一提议，在简单的 PCFG 中演示出三种明显的条件可以导致特征 - 标签相关性的产生，论文指出在所有但极少数情况下，输入特征将与标签各自相关，因此需应用领域知识识别可能对鲁棒性构成真正威胁的虚假相关。

Apr, 2022

自然语言中的所有虚假特征是否相似？通过因果透镜进行分析

本文区分了 NLP 中的 “虚假相关” 中的两种情况（特征对标签的影响是否取决于上下文），并使用因果模型和必要性和充分性概率对其进行了更细致的处理，说明了现有去偏差方法的结果，并揭示了去偏差后模型表示中虚假特征的编码。

Oct, 2022

针对学习鲁棒分类器的伪装感知元学习

通过元学习训练图像分类器以减少对伪相关性的依赖，以实现对伪相关性的鲁棒性，同时在不知道先验信息的情况下获得了五个基准数据集上最好的鲁棒性。

Jun, 2024

在伪相关存在的情况下的特征学习

通过评估使用权重调整、强正则化和组鲁棒性训练等方法训练的模型，重训练模型的方法在多个视觉和 NLP 问题中表现出与其他方法相似的结果，表明无需过度正则化即可学习高质量的特征表示。

Oct, 2022

通过强韧视觉概念在真实和人工智能生成的图像分类中检测虚假相关性

我们提出了一种高效侦测潜在假相关的通用方法，相对于现有技术需要更少人工干预，并且在消除像素级注释的同时提供直观的解释。此方法对 AI 生成的图像的特殊性表现出容忍度，而这是一个相当具有挑战性的任务，大多数现有方法在此方面存在不足。因此，我们的方法也适用于检测由生成模型产生的可能会传播到下游应用程序中的假相关。

Nov, 2023

关于伪相关对于未知类别检测的影响

研究表明，在训练集中，假设特征和标签之间的虚假相关性增强，检测模型对于发现野外数据的能力会大幅降低。通过引入 “不变” 的特征来新定义和建模数据转移，提出了新的数据转移形式，并在此基础上深入探究了虚假相关在识别过程中的影响，同时提出了一种降低虚假相关影响的方法。

Sep, 2021

识别和缓解虚假关联，提高自然语言处理模型的鲁棒性

本研究提出了一种方法，利用解释性方法从文本中提取影响模型决策过程的标记，分析模型在多个语料库上的预测并进一步通过知识感知扰动来区分 ' 真正 ' 的标记和 ' 虚假 ' 标记，有效地识别出一组 ' 捷径 '，从而实现在多个应用中的更加鲁棒的模型。

Oct, 2021