该研究提出了公平混合(fair mixup)的新型数据增强策略,通过对分组间插值样本的正则化训练来实现分类器的公平性约束,并分析实验证明其在表格、视觉和语言测试中确保了更好的准确性和公平度的泛化能力。
Mar, 2021
该论文介绍了一种特定的数据增强方法,旨在增强分类任务中的交叉公平性。这种方法利用交叉性内在的层级结构,将群体视为其父类别的交集,通过学习组合父类群体数据的转换函数,对较小群体进行数据增强。我们对四个不同数据集进行的实证分析(包括文本和图像)表明,使用这种数据增强方法训练的分类器在交叉公平性方面表现优秀,并且在与优化传统群体公平度量方法相比时更具鲁棒性。
May, 2024
本文提供了理论分析,证明了使用 Mixup 在训练中如何帮助模型的鲁棒性和泛化性,表明最小化 Mixup 损失相当于大致最小化对抗性损失的上界,而对于泛化性我们证明了 Mixup 数据增强对应于一种特定类型的数据自适应正则化,从而减少了过拟合。
Oct, 2020
在本文中,我们提出了一种称为多重揉混(multi-mix)的简单而有效的扩展方法,它通过从样本对生成多个插值样本,可以比标准 mixup 更好地引导训练过程,从而在泛化性能、鲁棒性和校准度方面超过了各种 mixup 变体和非 mixup 基线。
Jun, 2024
本文研究了如何从数据增强的角度提高协同过滤推荐的公平性,通过增强数据集中的不平衡数据来改善其公平性,测试结果表明这种方法能有效提高推荐公平性。
Feb, 2023
提出一种名为 RMIX 的简单实用的框架来解决超参数化神经网络中意义重要性加权方法效果不佳的问题,从而更好地应对含不同子群比例的训练和测试分布的子群转移问题,并通过混合样本上的重要性加权来获取更鲁棒的模型。同时,RMIX 还利用训练轨迹的不确定性估计来灵活地表征子群分布,并通过理论分析验证了其具有更好的广义化界限。
Apr, 2023
通过线性最后一层重新训练和数据增强,我们针对每个子人群将潜在表示(输入到最后一层的数据)的分布建模为高斯分布,以实现在训练数据的许多不同子人群之间确保公平预测,并达到最优的最差组准确性。我们对合成数据和大型公开数据集进行了评估和验证。
研究机器学习中的公平性问题和图像分类任务中的去偏见问题,通过使用对抗性样本进行训练数据增强来实现模型的准确性和公平性。
Jul, 2020
本文提出使用数据增强方法减少自然语言处理中的性别偏见,并通过削减数据集中的例子提高模型的公平性,实验证明该方法在三个文本分类数据集上所实现的公平性优于数据增强方法。
Nov, 2022
本文提出了一种新的机器学习框架,旨在为实现公正和准确性而学习分组,从而减少 ML 模型在特定人群中的偏见和歧视,并在各种数据集上实现了最新技术的改进。