改进集体准确性差异的异常值感知训练
本文提出了 JTT 这样一个简单的两阶段方法,利用加重权重的方式提高标准 ERM 模型对于性能低下群组的准确性,从而填补了标准 ERM 模型与 group DRO 之间最差群组准确性差距的 75%,并且只需要在小型验证集上标注群体注释以调整超参数。
Jul, 2021
为了创建能为多样用户提供服务的机器学习系统,需要不仅实现高的平均性能,还要确保在不同群组中公平的结果。本文研究了多任务学习在最差群组准确性和群组公平性挑战中的潜力,并提出了通过对多任务表示空间进行正则化改进的方法。实验结果表明,我们的正则化多任务学习方法在最差和平均群组结果上都优于现有方法。
Dec, 2023
本文提出了自动特征重新加权 (AFR) 方法,使用加权损失重新训练模型的最后一层来减少对非目标相关的模式的依赖,并在几个视觉和自然语言分类基准测试中获得了最佳结果。
Jun, 2023
基于引入可学习的辅助变量的 BAM 算法通过扩大偏差,训练模型并在重新加权数据集上继续训练,从而在计算机视觉和自然语言处理的虚假相关基准测试中取得了竞争性的性能,同时发现基于最小类别准确率差异的简单停止准则可以消除对群组注释的需求,或者在最差组准确率上几乎没有损失。
Sep, 2023
本文提出了一种基于 Gram 矩阵的特征提取模型对训练数据集进行分组的方法,通过伪分组采用鲁棒优化策略来提高模型的容错性能,在没有真实分组标签的情况下证明其在提高模型鲁棒性方面的优越性,并优于最近的所有基线模型。
Aug, 2022
训练神经网络的新方法通过估计数据分组,有效解决了图像分类中因冗余属性导致的预测问题,在缺少冗余属性标注的情况下以非常快速且直接的方式提供了群体稳健性。
Dec, 2023
通过线性最后一层重新训练和数据增强,我们针对每个子人群将潜在表示(输入到最后一层的数据)的分布建模为高斯分布,以实现在训练数据的许多不同子人群之间确保公平预测,并达到最优的最差组准确性。我们对合成数据和大型公开数据集进行了评估和验证。
May, 2024
通过仅使用模型选择的族群注释和少数类别注释,最后一层的重新训练可以显著提高最差群组的准确性,而无需额外的数据或注释。此外,我们还引入了一种轻量级方法,即选择性的最后一层微调(SELF),通过使用误分类或不一致性的数据构建了重新加权数据集,实现了在视觉和语言任务的四个基准测试中无需族群注释和少于 3%的保留类别注释即可与 DFR 相媲美。
Sep, 2023
本文研究了深度神经网络在处理非真实相关数据时的稳健性问题,提出了一种不需要子分组信息训练、只需要将预训练模型的嵌入向量作为特征的线性分类器,实现了 90% 的准确率。实验表明,预训练模型的容量和数据集大小是影响效果的因素。
Dec, 2022