数据集平衡的局限性：对抗虚假相关的失败战役

ACLApr, 2022

数据集平衡的局限性：对抗虚假相关的失败战役

On the Limitations of Dataset Balancing: The Lost Battle Against Spurious Correlations

Roy Schwartz, Gabriel Stanovsky

TL;DR本观点文章指出，解决数据集平衡问题的常见方法已经不足以避免深度学习模型对小规模数据和特定标签的依赖和过拟合问题。我们提出了多种替代方法，包括增强数据集上下文语境，使用少量样本训练模型，通过与用户交互的方式进行模型推理等。

Abstract

Recent work has shown that deep learning models in nlp are highly sensitive to low-level correlations between simple features and specific output labels, leading to →

deep learning nlp overfitting dataset balancing few-shot learning

发现论文，激发创造

少学习捷径：分析和减轻虚假特征 - 标签相关性的学习

本文研究深度神经网络中数据集偏差对任务的影响。通过具体分析特征和标签之间的虚假相关性的来源，本文提出了一种训练策略，即通过量化偏置的程度来调整偏置示例的权重，以减少模型过度依赖数据集偏差的情况，并在 QM 和 NLI 任务上得到了表现的提高。

May, 2022

数据和模型中的顽固词汇偏见

使用新的统计方法检查模型训练过程中的假相关关系，发现即使使用了优化方法来减少数据中的偏差，训练出的模型中仍存在对标签的偏差，影响了自然语言推理和重复问题检测两个任务的性能。

Jun, 2023

生成数据以缓解自然语言推理数据集中的伪相关性

本篇研究提出了一种生成去偏差数据集的方法，通过过滤掉对任务并无帮助的数据以提高自然语言处理模型的泛化能力，并在实验中证实了该方法可以显著提高模型在不同任务分布下的性能表现。

Mar, 2022

文本分类中误关联的理解和减缓

本文提出一种邻近分析框架，防止深度学习模型在训练集中利用虚假的相关性，通过 NFL 正则化方法来改进鲁棒性，并在两个文本分类任务中进行实验验证，达到了显著的效果提升。

May, 2023

当多得更少：引入额外数据集可能会通过引入虚假关联降低性能

在大规模实证研究中，结合四个不同的开源胸部 X 光数据集和九个不同标签的组合的情况下，通过数据来自两家医院进行训练的模型在两个医院的最差组精度方面甚至比仅使用单家医院的数据进行训练的模型更差。这种出人意料的结果是由于医院特定的图像伪相关性造成的，同时说明了训练多个数据集的权衡，即额外数据的明显好处和引入伪相关性的隐蔽成本。这些风险凸显了在未来的研究和实践中对于仔细的数据选择和模型评估的需求。

Aug, 2023

探索语言模型在文本分类中的概念层次上的伪相关性

我们使用语言模型为每个文本标记概念并测量模型在测试数据上的概念偏差，然后提出一种数据再平衡方法来减轻由于训练数据中的不平衡标签分布而引起的虚假相关性，并证明我们的缓解方法在处理文本分类数据集中的标签分布偏差时具有优越性。

Nov, 2023

通过数据混合消除预先训练模型中的虚假相关性

本研究介绍了一种简单有效的方法来消除预先训练的机器学习模型中存在的伪相关性，该方法通过数据混合平衡所有类别中的伪属性，并在多种视觉和 NLP 任务中获得了最先进的表现。

May, 2023

在平衡数据以实现公平性或鲁棒性时，注意图形

机器学习中公平性或鲁棒性的失败可能源于协变量、结果和辅助因素之间的不希望的依赖关系。数据平衡是缓解这些问题的常见策略，但往往无法选择性地消除任务的因果图中的不希望依赖关系，导致多种失败模式，甚至干扰正则化等其他缓解技术。因此，在进行数据平衡之前，考虑因果图是非常重要的。

Jun, 2024

从特征角度解决文本数据关联性问题：去除无关信息，提取相关信息

本文针对自然语言理解领域模型的数据集偏见问题，提出了一种基于特征空间视角的微调方法，使用随机傅里叶特征和加权重采样来解耦特征之间的依赖，并设计了基于互信息的方法来净化这些特征，实验表明该方法优于其他对比方法。

Feb, 2022

即使是微小的相关性和多样性变化也会导致数据集偏差问题

本文针对分布转移对深度学习模型性能和可靠性的影响，研究了两种类型的分布转移：多样性转移和相关性转移，并提出了一种综合协议来分析这两种转移。应用我们的方法到一个真实的皮肤癌分类问题，最终有三个发现：模型在低偏差情况下仍学习和传播与转移相关的内容；模型学习了强健的特征但仍使用其他的特征；多样性转移可以降低偏差模型对于与转移相关的特征的依赖性。

May, 2023