改进集体准确性差异的异常值感知训练

Oct, 2022

改进集体准确性差异的异常值感知训练

Outlier-Aware Training for Improving Group Accuracy Disparities

Li-Kuang Chen, Canasai Kruengkrai, Junichi Yamagishi

TL;DR该研究介绍了一种检测和移除训练子集中离群值的方法，以最大限度地减少假相关性并提高模型准确性，实验证明其能够有效检测并移除 JTT 中的注释错误。

Abstract

Methods addressing spurious correlations such as just train twice (JTT, arXiv:2107.09044v2) involve reweighting a subset of the training set to maximize the →

spurious correlations just train twice worst-group accuracy outliers detection annotation errors

发现论文，激发创造

只需要训练两次：在没有训练组信息的情况下提高团体鲁棒性

本文提出了 JTT 这样一个简单的两阶段方法，利用加重权重的方式提高标准 ERM 模型对于性能低下群组的准确性，从而填补了标准 ERM 模型与 group DRO 之间最差群组准确性差距的 75％，并且只需要在小型验证集上标注群体注释以调整超参数。

Jul, 2021

多任务学习可改善最差组结果

为了创建能为多样用户提供服务的机器学习系统，需要不仅实现高的平均性能，还要确保在不同群组中公平的结果。本文研究了多任务学习在最差群组准确性和群组公平性挑战中的潜力，并提出了通过对多任务表示空间进行正则化改进的方法。实验结果表明，我们的正则化多任务学习方法在最差和平均群组结果上都优于现有方法。

Dec, 2023

自动特征重新加权的简单快速群体鲁棒性

本文提出了自动特征重新加权 (AFR) 方法，使用加权损失重新训练模型的最后一层来减少对非目标相关的模式的依赖，并在几个视觉和自然语言分类基准测试中获得了最佳结果。

Jun, 2023

偏见放大提升少数群体表现

基于引入可学习的辅助变量的 BAM 算法通过扩大偏差，训练模型并在重新加权数据集上继续训练，从而在计算机视觉和自然语言处理的虚假相关基准测试中取得了竞争性的性能，同时发现基于最小类别准确率差异的简单停止准则可以消除对群组注释的需求，或者在最差组准确率上几乎没有损失。

Sep, 2023

利用神经特征获得增强的组鲁棒性

本文提出了一种基于 Gram 矩阵的特征提取模型对训练数据集进行分组的方法，通过伪分组采用鲁棒优化策略来提高模型的容错性能，在没有真实分组标签的情况下证明其在提高模型鲁棒性方面的优越性，并优于最近的所有基线模型。

Aug, 2022

基于损失重采样的无标注群组鲁棒性

训练神经网络的新方法通过估计数据分组，有效解决了图像分类中因冗余属性导致的预测问题，在缺少冗余属性标注的情况下以非常快速且直接的方式提供了群体稳健性。

Dec, 2023

数据增强最后一层训练方法的理论保证

通过线性最后一层重新训练和数据增强，我们针对每个子人群将潜在表示（输入到最后一层的数据）的分布建模为高斯分布，以实现在训练数据的许多不同子人群之间确保公平预测，并达到最优的最差组准确性。我们对合成数据和大型公开数据集进行了评估和验证。

May, 2024

面向少量注释的群体鲁棒性的最后一层重新训练

通过仅使用模型选择的族群注释和少数类别注释，最后一层的重新训练可以显著提高最差群组的准确性，而无需额外的数据或注释。此外，我们还引入了一种轻量级方法，即选择性的最后一层微调（SELF），通过使用误分类或不一致性的数据构建了重新加权数据集，实现了在视觉和语言任务的四个基准测试中无需族群注释和少于 3％的保留类别注释即可与 DFR 相媲美。

Sep, 2023

只需要一个好的嵌入提取器就能解决虚假相关性

本文研究了深度神经网络在处理非真实相关数据时的稳健性问题，提出了一种不需要子分组信息训练、只需要将预训练模型的嵌入向量作为特征的线性分类器，实现了 90% 的准确率。实验表明，预训练模型的容量和数据集大小是影响效果的因素。

Dec, 2022

在部分群标签存在的情况下实现群体鲁棒性

提出一种利用部分敏感信息训练深度神经网络并改善少数群体预测性能的方法。

Jan, 2022