使用低秩正则化进行自监督去偏差

Oct, 2022

使用低秩正则化进行自监督去偏差

Self-supervised debiasing using low rank regularization

Geon Yeong Park, Chanyong Jung, Jong Chul Ye, Sang Wan Lee

TL;DR本文介绍了一种自监督去偏置的框架，可以有效地去除神经网络中的伪相关性对泛化能力的影响，并提高自监督学习的性能。

Abstract

spurious correlations can cause strong biases in deep neural networks, impairing generalization ability. While most of existing debiasing methods require full supervisions on either spurious attributes or target

spurious correlations deep neural networks debiased model self-supervised learning generalization performance

发现论文，激发创造

无监督学习伪属性去偏表示

该论文提出了一种简单且有效的无监督去偏差技术，该方法利用聚类算法在特征嵌入空间识别伪属性，然后采用一种新颖的聚类加权重新调整方案来学习去偏置表示，以防止少数群体被忽视并达到最坏情况下的概括，实验证明其在多个标准基准测试数据集上具有出色的表现，甚至达到了有监督对照组的竞争精度。

Aug, 2021

自引导假相关抑制学习强化分类器

在此研究中，我们提出了一种自引导的伪相关性缓解框架，它在无需标注伪相关性的情况下，自动构建了适合经验风险最小化得到的分类器的细粒度训练标签，以提高其对伪相关性的鲁棒性。通过在一种新颖的伪相关性嵌入空间中识别分类器的不同预测行为，并结合自动检测的概念属性和一种新颖的伪相关度量来构造细粒度的训练标签，我们证明了训练分类器以区分不同的预测行为可以减少其对伪相关性的依赖，而无需事先知道它们，并且在五个真实世界的数据集上优于先前的方法。

May, 2024

从有偏分类器训练去偏分类器：从失败中学习

本文利用人类的知识针对神经网络的偏见问题提出了一个基于失败的去偏见训练方法，该方法通过训练两个神经网络同时进行，其思想是：(a) 通过反复放大偏见意图意图有意地训练第一个网络，(b) 重点关注具有对该偏差反对意见的样本以去偏见训练第二个网络。实验表明，该方法在合成和真实数据集中显著改善了网络抵御各种偏见的训练，甚至在某些情况下，比需要显式监督的有关特征的去偏见方法表现更好。

Jul, 2020

通过简单偏好的视角早期识别训练中的伪偏差

研究表明，梯度下降训练的神经网络具有归纳偏差，倾向于学习简单的解决方案，导致学习到与标签高度相关的简单虚假特征而非复杂的核心特征，此文介绍一种名为 SPARE 的方法，能够早期发现含有虚假相关性的大型分组，并利用重要性抽样来平衡组大小，从而减轻虚假关联的影响，相对于现有方法，SPARE 方法的最差组准确度提高了最高达 5.6%，速度提高了多达 12 倍。

May, 2023

少学习捷径：分析和减轻虚假特征 - 标签相关性的学习

本文研究深度神经网络中数据集偏差对任务的影响。通过具体分析特征和标签之间的虚假相关性的来源，本文提出了一种训练策略，即通过量化偏置的程度来调整偏置示例的权重，以减少模型过度依赖数据集偏差的情况，并在 QM 和 NLI 任务上得到了表现的提高。

May, 2022

通过数据混合消除预先训练模型中的虚假相关性

本研究介绍了一种简单有效的方法来消除预先训练的机器学习模型中存在的伪相关性，该方法通过数据混合平衡所有类别中的伪属性，并在多种视觉和 NLP 任务中获得了最先进的表现。

May, 2023

通过弱监督实现公平生成建模

本文提出了一种弱监督算法来克服深度生成模型中的数据集偏差，该方法通过额外的小型未标记参考数据集作为监督信号来探测现有数据集中的偏差，并学习生成模型。实验结果表明，该方法降低了基于潜在因素的偏差达到了高达 34.6％，在同时使用基于生成对抗网络的图像生成的情况下，数据效率显著提高。

Oct, 2019

通过属性关注信息瓶颈学习可分解且无偏扭曲的表征

通过引入基于注意力的信息瓶颈，我们提出了一种新的去偏框架，用于学习属性的组合表示，从而改善了性能并解释了模型对属性的注意力。通过在有偏数据集上进行全面评估，并进行定量和定性分析，展示了我们方法在属性中心化表示学习方面的有效性，以及区分内在特征和偏向特征的能力。

Mar, 2024

因果效应正则化：自动检测和去除假冒属性

本文提出了一种方法，通过估计标签对因果效应的影响来自动识别虚假属性，并使用正则化目标来减轻分类器对它们的依赖性，优于先前方法，特别是在虚假相关性高的情况下，并在噪声影响下缓解了对虚假属性的依赖。

Jun, 2023

使用有偏委员会学习去偏置化分类器

通过使用委员会的思想，训练不带伪标签的去偏见分类器，以解决神经网络在训练数据中出现偏倚和虚假相关性的问题，并在五个真实世界的数据集上验证了该方法的超越之处。

Jun, 2022