使用低秩正则化进行自监督去偏差
该论文提出了一种简单且有效的无监督去偏差技术,该方法利用聚类算法在特征嵌入空间识别伪属性,然后采用一种新颖的聚类加权重新调整方案来学习去偏置表示,以防止少数群体被忽视并达到最坏情况下的概括,实验证明其在多个标准基准测试数据集上具有出色的表现,甚至达到了有监督对照组的竞争精度。
Aug, 2021
在此研究中,我们提出了一种自引导的伪相关性缓解框架,它在无需标注伪相关性的情况下,自动构建了适合经验风险最小化得到的分类器的细粒度训练标签,以提高其对伪相关性的鲁棒性。通过在一种新颖的伪相关性嵌入空间中识别分类器的不同预测行为,并结合自动检测的概念属性和一种新颖的伪相关度量来构造细粒度的训练标签,我们证明了训练分类器以区分不同的预测行为可以减少其对伪相关性的依赖,而无需事先知道它们,并且在五个真实世界的数据集上优于先前的方法。
May, 2024
本文利用人类的知识针对神经网络的偏见问题提出了一个基于失败的去偏见训练方法,该方法通过训练两个神经网络同时进行,其思想是:(a) 通过反复放大偏见意图意图有意地训练第一个网络,(b) 重点关注具有对该偏差反对意见的样本以去偏见训练第二个网络。实验表明,该方法在合成和真实数据集中显著改善了网络抵御各种偏见的训练,甚至在某些情况下,比需要显式监督的有关特征的去偏见方法表现更好。
Jul, 2020
研究表明,梯度下降训练的神经网络具有归纳偏差,倾向于学习简单的解决方案,导致学习到与标签高度相关的简单虚假特征而非复杂的核心特征,此文介绍一种名为 SPARE 的方法,能够早期发现含有虚假相关性的大型分组,并利用重要性抽样来平衡组大小,从而减轻虚假关联的影响,相对于现有方法,SPARE 方法的最差组准确度提高了最高达 5.6%,速度提高了多达 12 倍。
May, 2023
本文研究深度神经网络中数据集偏差对任务的影响。通过具体分析特征和标签之间的虚假相关性的来源,本文提出了一种训练策略,即通过量化偏置的程度来调整偏置示例的权重,以减少模型过度依赖数据集偏差的情况,并在 QM 和 NLI 任务上得到了表现的提高。
May, 2022
本研究介绍了一种简单有效的方法来消除预先训练的机器学习模型中存在的伪相关性,该方法通过数据混合平衡所有类别中的伪属性,并在多种视觉和 NLP 任务中获得了最先进的表现。
May, 2023
本文提出了一种弱监督算法来克服深度生成模型中的数据集偏差,该方法通过额外的小型未标记参考数据集作为监督信号来探测现有数据集中的偏差,并学习生成模型。实验结果表明,该方法降低了基于潜在因素的偏差达到了高达 34.6%,在同时使用基于生成对抗网络的图像生成的情况下,数据效率显著提高。
Oct, 2019
通过引入基于注意力的信息瓶颈,我们提出了一种新的去偏框架,用于学习属性的组合表示,从而改善了性能并解释了模型对属性的注意力。通过在有偏数据集上进行全面评估,并进行定量和定性分析,展示了我们方法在属性中心化表示学习方面的有效性,以及区分内在特征和偏向特征的能力。
Mar, 2024
本文提出了一种方法,通过估计标签对因果效应的影响来自动识别虚假属性,并使用正则化目标来减轻分类器对它们的依赖性,优于先前方法,特别是在虚假相关性高的情况下,并在噪声影响下缓解了对虚假属性的依赖。
Jun, 2023
通过使用委员会的思想,训练不带伪标签的去偏见分类器,以解决神经网络在训练数据中出现偏倚和虚假相关性的问题,并在五个真实世界的数据集上验证了该方法的超越之处。
Jun, 2022