Bias Mimicking: 一种用于减轻偏差的简单采样方法
本文介绍了一种解决机器学习中数据不平衡问题的新方法,该方法利用深度感知嵌入和聚类基于图像外观计算样本似然,并使用提出的广义焦点损失函数在训练过程中对样本进行不同的加权。实验证实了该方法在自动驾驶视觉数据集(包括 KITTI 和 nuScenes)上的有效性,改进了 3D 物体检测方法,在 KITTI 数据集中涉及人为稀少的类别(骑车者)上实现了超过 200% 的 AP 增益。结果表明该方法具有通用性,可以补充现有技术,并对较小的数据集和罕见类别特别有益。
Aug, 2023
数据收集中的历史性歧视对弱势群体和个体产生了影响。现有的公平机器学习研究主要致力于减轻模型预测中的歧视倾向,但对于如何追踪数据中存在的偏见却付出了较少的努力,尽管这对公平机器学习的透明度和可解释性非常重要。为了填补这一空白,我们研究了一个新的问题:发现在训练数据中反映偏见 / 偏见的样本。基于现有的公平性概念,我们提出了一个样本偏见准则,并提出了衡量和抵消样本偏见的实用算法。得出的偏见分数提供了历史偏见在数据中的直观样本级归因和说明。在此基础上,我们通过基于样本偏见的最小数据编辑设计了两种公平机器学习策略。它们可以在最小或零的预测效用损失的情况下,减轻群体和个体的不公平现象。对多个真实世界数据集的大量实验和分析证明了我们方法在解释和减轻不公平方面的有效性。代码可在此 URL 获取:https://URL
Jun, 2024
本研究针对图像分类中的数据集偏差问题,提出了一种基于偏差模型 $f_B$ 的数据样本选择方法来增强偏差,有效提高了 $f_D$ 的训练效果。该方法适用于现有的基于重新加权的去偏差技术,并在合成和真实数据集上实现了最先进的性能。
May, 2022
本文探讨计算机视觉领域中,当进行看似不相关的任务(如活动识别或图像描述)训练时,模型学习偏见的问题,以及避免学习此类偏见的方法,并在 CelebA 数据集的属性分类任务中使用领域无关的训练技术,有效地减轻了现实世界中的性别偏见。
Nov, 2019
本文提出一个数学模型以创造具有代表性的数据来解决机器学习模型在非代表性数据集上产生的问题。我们将数据集创建问题形式化为一个约束优化问题,并提出了一种灵活的方法,它包含模型构建者和其他利益相关者的偏好,以及学习任务的统计特性。此外,我们证明,在一定条件下,即使没有关于学习率的先前知识,该优化问题也可以高效地求解。通过在合成基因组数据上进行的模拟研究,我们发现我们提出的自适应采样策略优于多种常用的数据收集启发式算法,包括等量和比例采样,并证明了通过策略数据集设计构建公平模型的价值。
Jan, 2022
从统计的角度研究了 “数据集偏差” 问题,发现问题的主要原因是输入 x 中类属性 u 与非类属性 b 之间的强相关性,通过 p (u|b) 与 p (u) 之间的显著差异来表示。基于最大对数似然(MLL)目标对偏差数据集进行训练的模型将这种相关性纳入其参数,导致对非偏差测试数据的泛化能力较差。通过加权或按比例采样每个样本的目标,提出了减轻数据集偏差的方法,其中权重为 ¼(p (u_{n}|b_{n}))。与因果推理建立了联系,加强了方法的理论基础。当偏差标签不可用时,通过使用以 “偏差放大” 损失进行训练的偏差分类器来近似计算 ½(p (u|b))。在多个数据集上进行了广泛实验,证明了在大多数情境下我们的方法优于现有的减轻偏差技术,并验证了我们的理论分析。
Feb, 2024
本文介绍了一种用于训练去偏置表示的新框架,通过鼓励其与一组从设计上存在偏差的表示不同来实现。该方法可在许多场景中使用,可以提高模型在不同类别中的泛化能力。
Oct, 2019
本文分析了大量过采样方法,并提出了一种新的基于隐藏部分多数类样本进行比较的过采样评估系统。我们的实验证明,所有研究过的过采样方法生成的少数类样本最有可能是多数类。因此,我们认为当前形式和方法的过采样不可靠,并在真实世界应用中应避免使用。
Feb, 2022