通过强韧视觉概念在真实和人工智能生成的图像分类中检测虚假相关性

Nov, 2023

通过强韧视觉概念在真实和人工智能生成的图像分类中检测虚假相关性

Detecting Spurious Correlations via Robust Visual Concepts in Real and AI-Generated Image Classification

Preetam Prabhu Srikar Dammu, Chirag Shah

TL;DR我们提出了一种高效侦测潜在假相关的通用方法，相对于现有技术需要更少人工干预，并且在消除像素级注释的同时提供直观的解释。此方法对 AI 生成的图像的特殊性表现出容忍度，而这是一个相当具有挑战性的任务，大多数现有方法在此方面存在不足。因此，我们的方法也适用于检测由生成模型产生的可能会传播到下游应用程序中的假相关。

Abstract

Often machine learning models tend to automatically learn associations present in the training data without questioning their validity or appropriateness. This undesirable property is the root cause of the manifestation of →

machine learning models spurious correlations correlation detection algorithms generative models ai-generated images

发现论文，激发创造

通过反事实和不变数据生成实现强健的分类模型

该研究针对机器学习应用中存在的假相关问题，以图像分类为例，提出两种数据生成策略来减少此类问题，并在多个领域的数据集上表现出更好的准确性和更好的解释能力。

Jun, 2021

针对学习鲁棒分类器的伪装感知元学习

通过元学习训练图像分类器以减少对伪相关性的依赖，以实现对伪相关性的鲁棒性，同时在不知道先验信息的情况下获得了五个基准数据集上最好的鲁棒性。

Jun, 2024

自引导假相关抑制学习强化分类器

在此研究中，我们提出了一种自引导的伪相关性缓解框架，它在无需标注伪相关性的情况下，自动构建了适合经验风险最小化得到的分类器的细粒度训练标签，以提高其对伪相关性的鲁棒性。通过在一种新颖的伪相关性嵌入空间中识别分类器的不同预测行为，并结合自动检测的概念属性和一种新颖的伪相关度量来构造细粒度的训练标签，我们证明了训练分类器以区分不同的预测行为可以减少其对伪相关性的依赖，而无需事先知道它们，并且在五个真实世界的数据集上优于先前的方法。

May, 2024

机器学习中的虚假相关性：一项调查

机器学习系统对输入的偏倚特征（例如背景、纹理和次要对象）与相应标签之间的虚假相关性非常敏感。本综述提供了对该问题的全面回顾，以及现有最先进方法的分类体系，用于解决机器学习模型中的虚假相关性。此外，我们总结了现有的数据集、标杆和度量方法，以帮助未来的研究。综述最后讨论了该领域的最新进展和未来的研究挑战，旨在为相关领域的研究人员提供有价值的见解。

Feb, 2024

Spuriosity Rankings: 为假相关性的鲁棒性分类数据

提出了一种框架，用于基于存在的虚假线索以及图像排名，评估 ImageNet 模型的错误关联问题，通过对错误排名和正确排名的图像的准确度差距的测量（称为虚假差距），对 89 个 ImageNet 模型进行评估，发现即使是最好的模型在具有虚假线索存在的图像中也表现不佳，并且这种虚假线索的影响在不同的类别之间差异更大。

Dec, 2022

无监督概念发现减轻虚假相关性

我们提出了一种用于减轻虚假相关的概念平衡技术，通过利用现有的物体为中心的表示学习方法，无需对子群进行人工标注，在水鸟、CelebA 和 ImageNet-9 基准数据集上进行评估并展示了优越或竞争性的性能。

Feb, 2024

通过人工注释提高对错相关性的鲁棒性

本文提出了一种机器学习模型稳健性的框架，通过人类关于因果关系的常识知识来解决模型在训练和测试过程中的不一致性问题。透过在每个训练数据中加入人类标注的潜在未测变量，将问题转化为协变量转移问题，并引入分布稳健优化目标来控制测试时偏移的最坏情况损失，实验结果表明，在具有旋转混淆的数字识别任务和分析 NYPD 警务巡逻地点混杂的任务中能获得 5-10% 和 1.5-5% 的性能提升。

Jul, 2020

走向因果 VQA：通过不变量和协变语义编辑揭示和减少虚假相关

本文讨论了一种新的方法，可以分析和衡量 Visual Question Answering 模型的稳健性，同时提出了使模型更具鲁棒性的方法，包括自动化的语义图像操作，和测试模型预测的一致性，生成合成数据来解决这些问题，实验结果表明，通过我们编辑的数据，模型的不一致预测显著减少，对于各种有挑战性的计数问题，我们对三种不同类型的最先进的 VQA 模型进行了分析，最终结果同样能够很好地应用于实际误差案例中，从而实现整体性能的提高。

Dec, 2019

消除伪关联中的去偏性反事实

在这项工作中，我们介绍了第一个端到端训练框架，该框架同时整合了（i）用于避免附着在假象相关性上的流行去偏置分类器（例如分布鲁棒优化（DRO））和（ii）用于揭示与任务相关的可推广成像标记的反事实图像生成。此外，我们提出了一种新的度量标准，即假象相关性附着分数（SCLS），用于量化分类器依赖假象相关性的程度，该程度由反事实图像揭示。通过对两个公共数据集进行全面实验（包括模拟和真实视觉伪迹），我们证明了去偏置方法：（i）能够学习到可推广的标记，并且（ii）成功忽略假象相关性，专注于潜在的疾病病理。

Aug, 2023

鲁棒文本分类中的虚假相关性识别

本文提出了一种区分文本分类器中误导性和真实关联的方法，将其作为监督分类问题，并利用来自治疗效应估计器的特征，通过特征选择的方法进行更加鲁棒的分类。经过在情感分类和毒性检测等四个数据集上的实验，表明这种方法提高了最坏情况下的准确性和更好的分类效果。

Oct, 2020