模型无关样本重新加权用于数据集外学习

Jan, 2023

模型无关样本重新加权用于数据集外学习

Model Agnostic Sample Reweighting for Out-of-Distribution Learning

Xiao Zhou, Yong Lin, Renjie Pi, Weizhong Zhang, Renzhe Xu...

TL;DR提出一种方法（MAPLE），通过样本重新加权，处理机器学习模型的过度拟合问题，特别针对过度参数化的情况，从而有效提高模型的超出分布的泛化能力。

Abstract

distributionally robust optimization (DRO) and invariant risk minimization (IRM) are two popular methods proposed to improve out-of-distribution (OOD) generalization performance of →

distributionally robust optimization invariant risk minimization overfitting machine learning sample reweighting

发现论文，激发创造

元学习不变风险最小化

本研究提出了一种基于元学习的方法来解决数据集分布变化和环境数据中假相关性的问题，并通过实验展示该方法在 Out-of-Distribution（OOD）泛化性能、稳定性和解决 IRMv1 的局限性方面具有显著改进。

Mar, 2021

通用重新加权为何不优于 ERM

本文介绍了一种名为广义重加权算法（GRW）的类别，它通过迭代地重新加权训练样本来更新模型参数。我们发现在采用 GRW 算法的过拟合模型下，所得到的模型与采用 Empirical risk minimization 得到的模型非常相似。此外，在 GRW 算法不使用小规则化方法的情况下，得到的结果也是不尽如人意的，我们需要更多的探索与研究。

Jan, 2022

Pareto 不变风险最小化：走向解决优化难题及其在超出分布泛化中的应用

该论文介绍了一种名为 PAIR 的多目标优化方案来改善针对 Out-of-Distribution 数据的机器学习模型的鲁棒性。该方案通过优化其他 OOD 目标来改进 OOD 目标的鲁棒性，并通过达到 Pareto 最优解来平衡 ERM 和 OOD 目标的权衡关系。在挑战性的基准测试 WILDS 上进行的广泛实验表明，PAIR 缓解了折衷并产生了最佳的 OOD 性能。

Jun, 2022

通过分布式稳健优化实现统一性能学习模型

本研究提出了一种分布鲁棒的随机优化框架，利用凸形式化来解决学习模型受到数据生成分布扰动的问题，并通过多项收敛性保准来证明模型的可靠性，同时也得出了极限定理及有关泛化到未知人群、精细化认知等真实任务的证据。

Oct, 2018

基于组合优化的大规模分布式鲁棒模型学习

本文提出通过有限和复合优化来提供可扩展的机器学习算法，用于训练鲁棒性强的模型，并展示本算法在超大数据集上学习鲁棒模型的有效性。

Mar, 2022

基于数据驱动的分布鲁棒优化最优成本选择

提供了一种自然的数据驱动方式，用于学习分布绝对稳健优化问题中定义的分布区间，证明该框架包括自适应正则化作为一个特殊案例，实证表明所提出的方法能够改进广泛应用的机器学习估计器。

May, 2017

一种广义的加权优化方法用于计算学习和反演

本文研究了回归模型的普适能力，用加权最小二乘优化方法，对有噪声数据的计算学习和反演进行了分析。权重方案编码了关于要学习的对象的先验知识和策略，权重来自先验知识可以提高学习模型的泛化能力。

Jan, 2022

样本重加权的稳健学习

本文研究如何在模型错配偏差情况下学习线性预测模型。我们提出了一种样本重新加权方法，该方法可以减少输入变量之间的共线性，从而提高设计矩阵的条件，并与任何标准学习方法相结合，用于参数估计和特征选择，进而提高模型在不同分布数据集下的稳定性。

Nov, 2019

使用双层优化重新加权数据的挑战

利用大训练集训练模型以在不同分布的较小测试集上表现良好的任务中，通过为每个训练数据点学习权重是一种吸引人的解决方案，但传统的双层优化算法可能导致次优解，这表明了数据重新加权的困难，并解释了为何这种方法很少在实践中使用。

Oct, 2023

虚假特征多样化提高离域泛化

通过理论分析和实证研究，我们发现在处理超越分布数据的机器学习任务中，利用多样的偶然特征进行加权模型集成可以显著提高整体的超越分布泛化性能，而不同于传统观点所认为的学习不变特征的方法。此外，我们提出了一种名为 BAlaNced averaGing (BANG) 的方法，可以有效修复原有方法 WiSE-FT 在超越分布情况下的过度自信问题，进一步提升其超越分布性能。

Sep, 2023