评估最坏情况下子群体下的模型性能

Jul, 2024

评估最坏情况下子群体下的模型性能

Evaluating Model Performance Under Worst-case Subpopulations

Mike Li, Hongseok Namkoong, Shangzhou Xia

TL;DR通过研究核心属性 Z 的规模，我们开发了一种可伸缩且有原则的两阶段估计过程，可以评估最先进模型的稳健性，证明了我们的方法认证模型的稳健性，防止部署不可靠的模型。

Abstract

The performance of ml models degrades when the training population is different from that seen under operation. Towards assessing distributional robustness, we study the worst-case performance of a model over all

distributional robustness ml models worst-case performance disadvantaged groups estimation procedure

发现论文，激发创造

潜变量混合的分布鲁棒损失

该研究使用凸优化方法控制给定大小的所有子人群的最坏情况表现，从而提高模型的泛化能力。实证研究表明该方法可在未知子人群中推广。

Jul, 2020

通过分布式稳健优化实现统一性能学习模型

本研究提出了一种分布鲁棒的随机优化框架，利用凸形式化来解决学习模型受到数据生成分布扰动的问题，并通过多项收敛性保准来证明模型的可靠性，同时也得出了极限定理及有关泛化到未知人群、精细化认知等真实任务的证据。

Oct, 2018

数据子群体间机器学习表现非线性相关性

研究机器学习模型在不同的数据分布下的性能表现，发现在子人群变化时，性能间的相关性呈现 “月形” 相关性，并且这种非线性相关性受到训练数据中虚假相关的影响，研究结果对机器学习的可靠性和公平性具有应用意义。

May, 2023

变化十分困难：分析亚群体转变

通过实验测试，我们对机器学习中的次群体转变机制和算法的泛化能力进行了深入分析，并提出了一种基于最差类准确率的简单选择标准，强调了最差组准确率和其他重要指标之间的基本权衡关系。

Feb, 2023

基因型分群漂移的基线标准

本文提出一种方法，通过控制数据次群体的训练和测试集来实现对模型对子群体变化的鲁棒性进行评估和测试，并在 ImageNet 数据集上得到了验证。

Aug, 2020

通过条件风险值测试进行多组公平性评估

通过允许模型在性能近乎相等的群体上产生微小概率差距的方法，基于条件风险价值 (CVaR) 提出了一种检测性能差异的方法；同时证明了具有特定先验分布权重的情况下，Rényi 熵阶数为 2/3 的先验分布可以捕获所提出的 CVaR 测试算法的样本复杂性。

Dec, 2023

多组鲁棒性

通过设计健壮的学习算法以克服任意和无差别的数据损坏，我们提出了一种多群健壮算法，其对每个亚群体的健壮性仅随该亚群体内的数据损坏量而降低。当数据损坏在亚群体中分布不均匀时，我们的算法提供比标准保证更有意义的健壮性保证，这些标准保证对数据损坏和受影响亚群体的关系视而不见。我们的技术在多群公平性和健壮性之间建立了新的联系。

May, 2024

稳健验证：即使分布发生偏移，也能自信地做出预测

本文提出了一种建立在鲁棒性预测推断上的不确定性估计模型，使用 conformal inference 方法建立了准确覆盖测试数据分布的预测集，通过估计数据漂移量建立了鲁棒性，并在多个基准数据集上进行了实验证明了该方法的重要性。

Aug, 2020

公平性审计的统计推断

通过多重假设检验，在统计保证的前提下，使用自助法在子人群的集合中同时限制性能差异，从而识别受模型性能不足影响的子人群并验证模型在某些子人群中的适用性。此外，该方法还兼容超丰富甚至无限的子人群集合，并支持评估在某些分布变化下的性能。

May, 2023

机器学习模型在实际中的稳健性、评估与适应性

通过培训算法来提高对于机器学习领域的可靠性，从而应对领域的变化，提高算法的性能，预测其表现并轻量级适应应用领域。

Mar, 2023