Feb, 2024

从统计角度重新审视数据集偏差问题

TL;DR从统计的角度研究了 “数据集偏差” 问题,发现问题的主要原因是输入 x 中类属性 u 与非类属性 b 之间的强相关性,通过 p (u|b) 与 p (u) 之间的显著差异来表示。基于最大对数似然(MLL)目标对偏差数据集进行训练的模型将这种相关性纳入其参数,导致对非偏差测试数据的泛化能力较差。通过加权或按比例采样每个样本的目标,提出了减轻数据集偏差的方法,其中权重为 ¼(p (u_{n}|b_{n}))。与因果推理建立了联系,加强了方法的理论基础。当偏差标签不可用时,通过使用以 “偏差放大” 损失进行训练的偏差分类器来近似计算 ½(p (u|b))。在多个数据集上进行了广泛实验,证明了在大多数情境下我们的方法优于现有的减轻偏差技术,并验证了我们的理论分析。