变化十分困难：分析亚群体转变

Feb, 2023

Change is Hard: A Closer Look at Subpopulation Shift

Yuzhe Yang, Haoran Zhang, Dina Katabi, Marzyeh Ghassemi

TL;DR通过实验测试，我们对机器学习中的次群体转变机制和算法的泛化能力进行了深入分析，并提出了一种基于最差类准确率的简单选择标准，强调了最差组准确率和其他重要指标之间的基本权衡关系。

Abstract

machine learning models often perform poorly on subgroups that are underrepresented in the training data. Yet, little is understood on the variation in mechanisms that cause subpopulation shifts, and how algorithms

machine learning subpopulation shift algorithms model selection testing metrics

发现论文，激发创造

基因型分群漂移的基线标准

本文提出一种方法，通过控制数据次群体的训练和测试集来实现对模型对子群体变化的鲁棒性进行评估和测试，并在 ImageNet 数据集上得到了验证。

Aug, 2020

注意 GAP：通过组感知先验改善对亚群体转变的鲁棒性

通过开发一系列针对神经网络参数的群组感知先验分布，本研究旨在改善机器学习模型在数据分布的子群体变化下的性能，从而在真实世界环境中实现安全部署，并且证明使用该先验进行训练可以获得最先进的性能，即使仅重新训练之前训练的模型的最后一层。群组感知先验简单易于理解，与现有方法，如属性伪标记和数据重新加权相辅相成，并为利用贝叶斯推理实现对子群体变化的稳健性打开了新的前景。

Mar, 2024

基于置信度的模型选择：何时为子集群转移采取捷径

本文提出 COnfidence-baSed MOdel Selection（CosMoS）方法，基于模型置信度动态选择不同强度的模型来在多数和少数子群体上实现高性能，并使用多个数据集验证其性能。

Jun, 2023

分布偏移的细粒度分析

本研究提出了一种框架来分析各种分布转移，并通过评估 19 个不同类别的方法，提供了当前最先进方法的整体分析。结果显示，与标准 ERM 基线相比，预训练和数据扩充（学习或启发式）在许多情况下都具有很大的优势，但不能很好地适应不同的数据集和转移。

Oct, 2021

跨模态去偏倚：利用语言减轻图像中的亚种群转变

本文通过利用多模态基础模型中的分布鲁棒性，通过参数微调来提高分布鲁棒性，并利用自然语言输入来消除图像特征中的偏见，从而在子群落变化下改善最坏情况性能。大量实证研究表明，通过自然语言进行去偏倚的图像表示能够显著提高性能，并降低在子群体变化下的性能不稳定性。

Feb, 2024

数据集转化诊断的统一框架

介绍了使用统一框架来检测数据移位类型并量化其强度，以便改进预测方法，可用于分类和回归任务。

May, 2022

强制执行公平是否可以减轻由子人群变化引起的偏见？

本文研究了在训练过程中强制实施算法公平性是否可以提高目标领域中训练模型的性能，并得出了一些结论。

Nov, 2020

机器学习系统子组绩效监控的高效框架

本文提出了一个高效的框架来监测机器学习系统的子群体表现，通过使用贝叶斯优化来寻找在有限的标记数据中表现最差的数据子群体。对此框架在各种实际应用数据下进行实验，结果表明其有效地且高效地取回了表现最差的数据子群体。

Dec, 2022

数据子群体间机器学习表现非线性相关性

研究机器学习模型在不同的数据分布下的性能表现，发现在子人群变化时，性能间的相关性呈现 “月形” 相关性，并且这种非线性相关性受到训练数据中虚假相关的影响，研究结果对机器学习的可靠性和公平性具有应用意义。

May, 2023

通过选择性增强提高对抗样本的鲁棒性

探讨了在实际应用中常见的基于配分转移的问题，提出了一种选择性增广的简单混合技术 LISA，通过学习不受限制的内部表示或预测器来学习不变的预测器，并在包括亚种人群转移和领域转移的九个基准测试中验证了 LISA 的有效性。

Jan, 2022