特征偏差放大
机器学习中的偏见放大是一个常见的问题,需要加深对于模型机制的理解,本研究通过控制性实验发现,偏见放大可能由于模型准确度、能力、自信度以及训练数据量等因素产生,同时也可能与分组和分类任务的难易程度相关,研究结果对指导训练机器学习模型具有借鉴意义。
Jan, 2022
基于引入可学习的辅助变量的 BAM 算法通过扩大偏差,训练模型并在重新加权数据集上继续训练,从而在计算机视觉和自然语言处理的虚假相关基准测试中取得了竞争性的性能,同时发现基于最小类别准确率差异的简单停止准则可以消除对群组注释的需求,或者在最差组准确率上几乎没有损失。
Sep, 2023
通过引入一个偏差放大的训练集和一个反偏袒的测试集来评估模型的性能,我们提出为了开发对这些偏差具有稳健性的模型,应该将数据集的偏差放大。实验表明,这种评估体系对模型来说比原始的数据拆分和手工制作的挑战集都更具挑战性。
May, 2023
本研究针对图像分类中的数据集偏差问题,提出了一种基于偏差模型 $f_B$ 的数据样本选择方法来增强偏差,有效提高了 $f_D$ 的训练效果。该方法适用于现有的基于重新加权的去偏差技术,并在合成和真实数据集上实现了最先进的性能。
May, 2022
我们提出了针对连续敏感变量的偏见缓解策略,该策略基于经济计量学领域的内生性概念,并采用弱监督学习方法,对一小部分可进行公平测量的数据进行处理。结果表明我们的方法对实际应用的效果非常接近。
Feb, 2024
本文研究了文本到图像领域中的偏差放大现象,通过比较训练和生成的图像中的性别比例,发现模型似乎放大了训练数据中存在的性别职业偏见。然而,我们发现放大主要归因于训练字幕和模型提示之间的差异。当我们考虑到训练和生成所使用的文本之间的各种分布差异后,观察到放大程度显著降低。我们的研究结果说明了比较模型和训练数据中的偏见的挑战,并强调了导致偏见放大的混淆因素。
Aug, 2023
研究表明,基于先进的机器学习技术的自然语言处理中存在性别偏见放大问题,本文提出了基于后验正则化的偏见缓解方法,旨在降低性别偏见的放大,实验证明该方法可在保证少量性能损失的情况下,几乎完全消除了分布中的偏见放大。
May, 2020
机器学习系统通常通过利用数据中的不希望的特征获得偏差,对不同的亚群体造成不同程度的精确度影响。本文探讨了在教师 - 学生模型中,模拟不同数据亚群体的高斯混合模型,偏差如何演化的问题。我们提供了这种设置下线性分类器随机梯度下降动力学的解析描述,该描述在高维度下被证明是准确的。值得注意的是,我们的分析揭示了亚群体的不同属性在不同时间尺度上如何影响偏差,展示了分类器在训练过程中偏好的转变。将我们的发现应用于公平性和鲁棒性,我们阐述了异质数据和虚假特征如何生成和放大偏差的时间与方式。通过在合成数据集和真实数据集(包括 CIFAR10,MNIST 和 CelebA)上训练更深层次的网络来经验性地验证我们的结果。
May, 2024