检测和应对分布偏移下的伪特征

ICMLJun, 2021

Examining and Combating Spurious Features under Distribution Shift

Chunting Zhou, Xuezhe Ma, Paul Michel, Graham Neubig

TL;DR本文主要探讨机器学习中机器如何学习到能够捕捉输入特征与输出标签之间因果关系的鲁棒性表征，以及在有偏或有限数据集上可能存在的虚假相关性。提出了一种基于最小充分统计量的鲁棒表征和虚假表征的信息理论概念，并基于分组分布式鲁棒优化方法来缓解输入分布偏移的问题，同时通过实验展示该方法在图像和语言任务中具有显著的鲁棒性优势。

Abstract

A central goal of machine learning is to learn robust representations that capture the causal relationship between inputs features and output labels. However, minimizing empirical risk over finite or biased datas

machine learning robust representations spurious correlations group distributionally robust optimization covariate shift

发现论文，激发创造

专注于共同利益：团体分布稳健性的追求

本论文探讨的是使用组注释的数据进行分类模型训练的问题，提出了一个新的算法，旨在通过鼓励学习跨各种组共享的特征来提高少数族裔的性能。通过在标准基准测试中进行实证研究，证明了本文提出的算法在不同组别和少数族裔上的表现要好于 ERM 和 Group-DRO 等强基线。同时，论文也从理论上证明了所提出算法是一种下降方法，并且可以找到平稳点。

Oct, 2021

应对子群体稀缺的分布自适应优化与不变表示学习：机制与局限

通过全面的评估研究，我们首先展示了在医学图像分类中，当偏见不是性能不佳的唯一原因时，对于表现不佳样本的泛化再加权可能存在问题，同时也表明了朴素的不变表示学习在自身存在虚假相关性时也存在问题。然后，我们提出了一种新的方法，利用鲁棒优化来促进在存在虚假相关性的情况下学习不变表示。利用这种表示进行微调的分类器展示了减少子组群性能差异的能力，同时保持了较高的平均性能和最差组群性能。

Aug, 2023

通过分布式稳健优化实现统一性能学习模型

本研究提出了一种分布鲁棒的随机优化框架，利用凸形式化来解决学习模型受到数据生成分布扰动的问题，并通过多项收敛性保准来证明模型的可靠性，同时也得出了极限定理及有关泛化到未知人群、精细化认知等真实任务的证据。

Oct, 2018

通过分布式鲁棒性优化应对标签漂移

本论文提出了一种基于分布鲁棒优化的模型，通过设计并分析梯度下降 - 近端镜像上升算法，用一次训练获得一个对多种标签偏移都具有稳健性的单一分类器，并在 CIFAR-100 和 ImageNet 上的实验中展示出其显著的性能提高。

Oct, 2020

具有概率群的分布鲁棒优化

本文提出了一种新的概率组成员身份的框架 PG-DRO，以解决现代机器学习模型易受特定样本组内平均相关性的干扰的问题，通过考虑软组成员身份而不是硬组注释，该框架可以灵活生成组概率，从而更好地适应样本组成员身份模糊的情况，并在图像分类和自然语言处理基准测试中得到了优越性能。

Mar, 2023

先验转移下的分布鲁棒事后分类器

训练模型以适应由类先验或群组先验的分布变化引起的偏移问题并不容易，我们提出一种极其轻量级的事后方法，通过在验证集上求解约束优化问题并应用于模型，从而在测试时尽量减小选定目标分布周围的分布鲁棒性损失，并带有可证明的保证和实证的结果证明，表明我们的方法非常适用于分布鲁棒的事后分类器。

Sep, 2023

分布偏移下的稳定对抗学习

本文提出了一种 Stable Adversarial Learning（SAL）算法，该算法通过利用异构数据源构建更实用的不确定性集合，并针对与目标之间的相关性稳定性进行差异化的强鲁棒性优化，在随机梯度优化的情况下证明了可行性和提供了性能保证。该算法的实证研究在模拟和实际数据集上验证了其总体表现较好的有效性。

Jun, 2020

基于数据驱动的分布鲁棒优化最优成本选择

提供了一种自然的数据驱动方式，用于学习分布绝对稳健优化问题中定义的分布区间，证明该框架包括自适应正则化作为一个特殊案例，实证表明所提出的方法能够改进广泛应用的机器学习估计器。

May, 2017

DORO：分布式和异常值鲁棒优化

提出了一种名为 DORO 的分布与离群点鲁棒优化框架，其中核心在于改进的风险函数，可以解决分布变化和离群点的问题，从而提高了机器学习的性能和稳定性。该方法有助于提升现代大型数据集的实验结果。

Jun, 2021

AGRO: 鲁棒优化中易错群体的对抗性发现

通过对抗性组发现的传递稳健优化来提高模型性能，并发现导致模型错误的未研究的虚假相关性。

Dec, 2022