从统计角度重新审视数据集偏差问题

Feb, 2024

从统计角度重新审视数据集偏差问题

Revisiting the Dataset Bias Problem from a Statistical Perspective

Kien Do, Dung Nguyen, Hung Le, Thao Le, Dang Nguyen...

TL;DR从统计的角度研究了 “数据集偏差” 问题，发现问题的主要原因是输入 x 中类属性 u 与非类属性 b 之间的强相关性，通过 p (u|b) 与 p (u) 之间的显著差异来表示。基于最大对数似然（MLL）目标对偏差数据集进行训练的模型将这种相关性纳入其参数，导致对非偏差测试数据的泛化能力较差。通过加权或按比例采样每个样本的目标，提出了减轻数据集偏差的方法，其中权重为 ¼(p (u_{n}|b_{n}))。与因果推理建立了联系，加强了方法的理论基础。当偏差标签不可用时，通过使用以 “偏差放大” 损失进行训练的偏差分类器来近似计算 ½(p (u|b))。在多个数据集上进行了广泛实验，证明了在大多数情境下我们的方法优于现有的减轻偏差技术，并验证了我们的理论分析。

Abstract

In this paper, we study the "dataset bias" problem from a statistical standpoint, and identify the main cause of the problem as the strong correlation between a class attribute u and a non-class attribute b in th

dataset bias correlation sampling distributions debiasing approach causal reasoning

发现论文，激发创造

无监督学习伪属性去偏表示

该论文提出了一种简单且有效的无监督去偏差技术，该方法利用聚类算法在特征嵌入空间识别伪属性，然后采用一种新颖的聚类加权重新调整方案来学习去偏置表示，以防止少数群体被忽视并达到最坏情况下的概括，实验证明其在多个标准基准测试数据集上具有出色的表现，甚至达到了有监督对照组的竞争精度。

Aug, 2021

机器学习中识别和纠正标签偏差

本文提出了一种数学公式来证明数据集中的偏见对分类器的影响，通过无需改变标签来重新计算数据点的值，从而得到一个无偏分类器，这种方法可以在各种机器学习算法中使用，并实现了公平分类的目标。

Jan, 2019

强调打压偏见在去偏见中的重要性

本研究针对图像分类中的数据集偏差问题，提出了一种基于偏差模型 $f_B$ 的数据样本选择方法来增强偏差，有效提高了 $f_D$ 的训练效果。该方法适用于现有的基于重新加权的去偏差技术，并在合成和真实数据集上实现了最先进的性能。

May, 2022

样本选择偏差校正理论

本文基于分布稳定性的新概念，对样本选择偏差校正进行了理论分析，研究了两种估计技术：基于簇的估计技术和核均值匹配，以及使用这些技术对几个数据集进行样本偏差校正实验。

May, 2008

语言引导的未知数据集偏差检测与减轻

在这项研究中，我们提出了一种在没有先验知识的情况下通过关键词的部分出现来识别潜在偏见的框架，并进一步提出了两种去偏方法：(a) 通过指定伪标签将其传递给现有的需要先验知识的去偏方法，以及 (b) 通过文本到图像生成模型进行数据增强，使用获得的偏见关键词作为提示。实验结果表明，尽管简单，我们的框架不仅能在没有先验知识的情况下胜过现有方法，而且甚至可以与假设有先验知识的方法媲美。

Jun, 2024

借助偏见来抗衡偏见：通过放大数据集偏差来提高模型的稳健性

通过引入一个偏差放大的训练集和一个反偏袒的测试集来评估模型的性能，我们提出为了开发对这些偏差具有稳健性的模型，应该将数据集的偏差放大。实验表明，这种评估体系对模型来说比原始的数据拆分和手工制作的挑战集都更具挑战性。

May, 2023

关于在数据偏差下测试和比较公平分类器

本文针对注入数据偏差的理论模型，从理论和经验上研究了它对公平分类器准确性和公正性的影响，并证明了在重新加权偏差注入分布上最小化选择精心挑选的重加权损失可以恢复原始数据分布上的贝叶斯最优组感知公平分类器。通过广泛的实验，我们检查了标准公平工具包中的预处理公平分类器在训练数据注入不同程度的偏差时的公平性和准确性，并发现少量简单公平技术，如重新加权、指数梯度，在其训练数据注入欠代表性和标签偏差时也可以提供稳定的准确度和公平性保证。

Feb, 2023

机器学习中的低表示和抽样偏差问题探讨

本文介绍了通过采样偏差分析和定义样本大小偏差和代表性偏差，以及探讨借助企图收集欠代表的群体样本来处理歧视的观点。

Jun, 2023

Bias Mimicking: 一种用于减轻偏差的简单采样方法

本文提出了一种新的类别条件采样方法 Bias Mimicking，能够有效地提高具有不平衡数据样本的视觉识别模型中 Bias groups 的识别准确度，并能在较少的超参数调整下实现

Sep, 2022

通过解缠分特征增强学习无偏表示

本研究提出了一种基于特征级数据增广技术的去偏方法，通过使培训数据多样化，可以更有效地消除图像分类模型中偏见的影响。

Jul, 2021