深度生成模型中的虚假样本：是错误还是特征？

Oct, 2018

深度生成模型中的虚假样本：是错误还是特征？

Spurious samples in deep generative models: bug or feature?

Balázs Kégl, Mehdi Cherti, Akın Kazakçı

TL;DR本文研究生成模型中出现的错误样本（spurious samples），发现它们与模型学习到的数据集具有结构上的相似性，因此不能完全消除，否则会影响模型对测试样本的建模能力。

Abstract

Traditional wisdom in generative modeling literature is that spurious samples that a model can generate are errors and they should be avoided. Recent research, however, has shown interest in studying or even expl

generative modeling spurious samples deep generative nets model families learned dataset

发现论文，激发创造

通过反事实和不变数据生成实现强健的分类模型

该研究针对机器学习应用中存在的假相关问题，以图像分类为例，提出两种数据生成策略来减少此类问题，并在多个领域的数据集上表现出更好的准确性和更好的解释能力。

Jun, 2021

虚假相关性及其发现

数据驱动的学习中出现虚假相关性，我们通过合并推导虚假相关性的指标，研究它们对基于 ERM 基线模型的影响，并从因果图生成的合成数据集中观察连接这些假设和模型设计选择的模式。

Aug, 2023

通过简单偏好的视角早期识别训练中的伪偏差

研究表明，梯度下降训练的神经网络具有归纳偏差，倾向于学习简单的解决方案，导致学习到与标签高度相关的简单虚假特征而非复杂的核心特征，此文介绍一种名为 SPARE 的方法，能够早期发现含有虚假相关性的大型分组，并利用重要性抽样来平衡组大小，从而减轻虚假关联的影响，相对于现有方法，SPARE 方法的最差组准确度提高了最高达 5.6%，速度提高了多达 12 倍。

May, 2023

利用生成模型理解分类器的错误

本文提出了一种使用生成模型来检测分类器失效的方法，在三种分类错误中测试了该方法的有效性，并探讨了半监督学习中不受类标签影响的适用性。

Oct, 2020

机器学习中的虚假相关性：一项调查

机器学习系统对输入的偏倚特征（例如背景、纹理和次要对象）与相应标签之间的虚假相关性非常敏感。本综述提供了对该问题的全面回顾，以及现有最先进方法的分类体系，用于解决机器学习模型中的虚假相关性。此外，我们总结了现有的数据集、标杆和度量方法，以帮助未来的研究。综述最后讨论了该领域的最新进展和未来的研究挑战，旨在为相关领域的研究人员提供有价值的见解。

Feb, 2024

细调用于类别层次虚假特征生成的文本到图像扩散模型

使用大规模文本到图像扩散模型生成虚假特征的方法，通过利用已发现的虚假图像个性化扩散模型，并基于对抗性稳定模型的神经特征提出了一种新的虚假特征相似性损失，实验证明我们的方法能够一致且可视地生成与虚假 ImageNet 参考图像相似的虚假图像。

Feb, 2024

自然语言中的所有虚假特征是否相似？通过因果透镜进行分析

本文区分了 NLP 中的 “虚假相关” 中的两种情况（特征对标签的影响是否取决于上下文），并使用因果模型和必要性和充分性概率对其进行了更细致的处理，说明了现有去偏差方法的结果，并揭示了去偏差后模型表示中虚假特征的编码。

Oct, 2022

在线学习因果模型

通过检测和去除虚假特征来间接发现因果模型，以加强预测模型的鲁棒性和泛化能力，并说明问题的时间结构信息对于在线检测虚假特征至关重要。

Jun, 2020

Salient ImageNet: 如何发现深度学习中的假特征？

本文提出了一种通用框架来发现一般模型推断中使用的一些杂项和核心的视觉特征，并在大量图像上对这些视觉特征进行定位，从而对各种著名的 Imagenet 模型进行分析和评估。

Oct, 2021

超参数化为什么会加剧虚假相关性的调查

研究超参数化为什么会增加模型大小，尽管数据中存在虚假相关性，具有各种数量的少数族裔，理论上证明模型的归纳偏差会导致过度参数化的问题，并提出子抽样是有效的解决方案。

May, 2020