模型无关样本重新加权用于数据集外学习
本研究提出了一种基于元学习的方法来解决数据集分布变化和环境数据中假相关性的问题,并通过实验展示该方法在 Out-of-Distribution(OOD)泛化性能、稳定性和解决 IRMv1 的局限性方面具有显著改进。
Mar, 2021
本文介绍了一种名为广义重加权算法(GRW)的类别,它通过迭代地重新加权训练样本来更新模型参数。我们发现在采用 GRW 算法的过拟合模型下,所得到的模型与采用 Empirical risk minimization 得到的模型非常相似。此外,在 GRW 算法不使用小规则化方法的情况下,得到的结果也是不尽如人意的,我们需要更多的探索与研究。
Jan, 2022
该论文介绍了一种名为 PAIR 的多目标优化方案来改善针对 Out-of-Distribution 数据的机器学习模型的鲁棒性。该方案通过优化其他 OOD 目标来改进 OOD 目标的鲁棒性,并通过达到 Pareto 最优解来平衡 ERM 和 OOD 目标的权衡关系。在挑战性的基准测试 WILDS 上进行的广泛实验表明,PAIR 缓解了折衷并产生了最佳的 OOD 性能。
Jun, 2022
本研究提出了一种分布鲁棒的随机优化框架,利用凸形式化来解决学习模型受到数据生成分布扰动的问题,并通过多项收敛性保准来证明模型的可靠性,同时也得出了极限定理及有关泛化到未知人群、精细化认知等真实任务的证据。
Oct, 2018
提供了一种自然的数据驱动方式,用于学习分布绝对稳健优化问题中定义的分布区间,证明该框架包括自适应正则化作为一个特殊案例,实证表明所提出的方法能够改进广泛应用的机器学习估计器。
May, 2017
本文研究了回归模型的普适能力,用加权最小二乘优化方法,对有噪声数据的计算学习和反演进行了分析。权重方案编码了关于要学习的对象的先验知识和策略,权重来自先验知识可以提高学习模型的泛化能力。
Jan, 2022
本文研究如何在模型错配偏差情况下学习线性预测模型。我们提出了一种样本重新加权方法,该方法可以减少输入变量之间的共线性,从而提高设计矩阵的条件,并与任何标准学习方法相结合,用于参数估计和特征选择,进而提高模型在不同分布数据集下的稳定性。
Nov, 2019
利用大训练集训练模型以在不同分布的较小测试集上表现良好的任务中,通过为每个训练数据点学习权重是一种吸引人的解决方案,但传统的双层优化算法可能导致次优解,这表明了数据重新加权的困难,并解释了为何这种方法很少在实践中使用。
Oct, 2023
通过理论分析和实证研究,我们发现在处理超越分布数据的机器学习任务中,利用多样的偶然特征进行加权模型集成可以显著提高整体的超越分布泛化性能,而不同于传统观点所认为的学习不变特征的方法。此外,我们提出了一种名为 BAlaNced averaGing (BANG) 的方法,可以有效修复原有方法 WiSE-FT 在超越分布情况下的过度自信问题,进一步提升其超越分布性能。
Sep, 2023