样本重加权的稳健学习

AAAINov, 2019

Stable Learning via Sample Reweighting

Zheyan Shen, Peng Cui, Tong Zhang, Kun Kuang

TL;DR本文研究如何在模型错配偏差情况下学习线性预测模型。我们提出了一种样本重新加权方法，该方法可以减少输入变量之间的共线性，从而提高设计矩阵的条件，并与任何标准学习方法相结合，用于参数估计和特征选择，进而提高模型在不同分布数据集下的稳定性。

Abstract

We consider the problem of learning linear prediction models with model misspecification bias. In such case, the collinearity among input variables may inflate the error of →

linear prediction models model misspecification bias collinearity parameter estimation sample reweighting method

发现论文，激发创造

样本选择偏差校正理论

本文基于分布稳定性的新概念，对样本选择偏差校正进行了理论分析，研究了两种估计技术：基于簇的估计技术和核均值匹配，以及使用这些技术对几个数据集进行样本偏差校正实验。

May, 2008

协变量转移适应中的一般正则化

通过重新加权样本，本研究在再生核希尔伯特空间中修正最小二乘学习算法的误差，以解决未来数据分布与训练数据分布不同引起的问题，并证明在弱平滑条件下，相比现有分析所证明的，为了达到与标准监督学习相同精度所需的样本数量更小。

Jul, 2023

具有贝叶斯数据重新加权的强健概率建模

本研究提出了一种方法，通过将每个观察的可能性变为一种权重，从数据中推断连续变量和权重，以检测和减轻大量概率模型的不匹配性，并明确不同类型的不匹配性对模型的影响与表现，这有助于提高模型的鲁棒性和预测准确性。

Jun, 2016

模型错误规范和不可知分布转移下的稳定预测

提出了一种新的 Decorrelated Weighting Regression (DWR) 算法，能够提高模型错误规范化和未知测试数据下的参数估计准确性和预测稳定性。

Jan, 2020

重抽样相对于重新加权在使用随机梯度进行纠正抽样偏差时的表现更佳

考虑到数据集采样偏差影响机器学习模型的效果，本研究分析重新采样和重新加权等多种技术，并通过实验和理论工具从动态稳定性和随机渐近性方面阐述重新采样的优越性。我们强调在处理采样偏差时应该同时考虑目标函数设计和优化算法。

Sep, 2020

学习为鲁棒的深度学习调整例子的权重

该研究提出了一种基于元学习和梯度下降的新算法，来对训练样本进行权重分配，从而达到解决深度神经网络在训练集偏差和标签噪声方面的过度拟合问题，而不需要额外的超参数调整，并在少量有干净核准数据的情况下，实现了在类别不平衡和标签污染问题上的出色性能。

Mar, 2018

协变量偏移适应性的双加权方法

该研究提出了最小化风险分类的方法来处理资料控制变量变化的问题，同时也发展了有效的技术，取得了更好的分类性能。

May, 2023

快速学习无奖惩数据的样本加权

本文提出了一种学习样本快速再加权方法（FSR），该方法通过历史记录学习构建代理奖励数据和特征共享以降低优化成本，无需额外奖励数据和昂贵的二阶计算，并在标签噪声鲁棒性和长尾识别方面达到具有竞争力的结果，同时显着提高了训练效率。

Sep, 2021

自适应优先权重新加权以提高公平性泛化

通过提出一种新颖的自适应重新加权方法，该论文旨在消除训练和测试数据之间分布变化对模型普适能力的影响，进而改善算法的公平性和泛化性能。实验证明了该方法在准确性和公平性度量方面的普适性，并突出了对语言和视觉模型公平性改善的性能提升。

Sep, 2023

学习加权表示以实现跨设计通用化

提出了一个基于表示学习和样本重加权的误差界，针对因果推断和无监督域自适应问题，在设计转换下减少泛化误差的算法框架，与以往方法相比具有更好的效果并具有渐近一致性。

Feb, 2018