样本重加权的稳健学习
本文基于分布稳定性的新概念,对样本选择偏差校正进行了理论分析,研究了两种估计技术:基于簇的估计技术和核均值匹配,以及使用这些技术对几个数据集进行样本偏差校正实验。
May, 2008
通过重新加权样本,本研究在再生核希尔伯特空间中修正最小二乘学习算法的误差,以解决未来数据分布与训练数据分布不同引起的问题,并证明在弱平滑条件下,相比现有分析所证明的,为了达到与标准监督学习相同精度所需的样本数量更小。
Jul, 2023
本研究提出了一种方法,通过将每个观察的可能性变为一种权重,从数据中推断连续变量和权重,以检测和减轻大量概率模型的不匹配性,并明确不同类型的不匹配性对模型的影响与表现,这有助于提高模型的鲁棒性和预测准确性。
Jun, 2016
提出了一种新的 Decorrelated Weighting Regression (DWR) 算法,能够提高模型错误规范化和未知测试数据下的参数估计准确性和预测稳定性。
Jan, 2020
考虑到数据集采样偏差影响机器学习模型的效果,本研究分析重新采样和重新加权等多种技术,并通过实验和理论工具从动态稳定性和随机渐近性方面阐述重新采样的优越性。我们强调在处理采样偏差时应该同时考虑目标函数设计和优化算法。
Sep, 2020
该研究提出了一种基于元学习和梯度下降的新算法,来对训练样本进行权重分配,从而达到解决深度神经网络在训练集偏差和标签噪声方面的过度拟合问题,而不需要额外的超参数调整,并在少量有干净核准数据的情况下,实现了在类别不平衡和标签污染问题上的出色性能。
Mar, 2018
本文提出了一种学习样本快速再加权方法(FSR),该方法通过历史记录学习构建代理奖励数据和特征共享以降低优化成本,无需额外奖励数据和昂贵的二阶计算,并在标签噪声鲁棒性和长尾识别方面达到具有竞争力的结果,同时显着提高了训练效率。
Sep, 2021
通过提出一种新颖的自适应重新加权方法,该论文旨在消除训练和测试数据之间分布变化对模型普适能力的影响,进而改善算法的公平性和泛化性能。实验证明了该方法在准确性和公平性度量方面的普适性,并突出了对语言和视觉模型公平性改善的性能提升。
Sep, 2023
提出了一个基于表示学习和样本重加权的误差界,针对因果推断和无监督域自适应问题,在设计转换下减少泛化误差的算法框架,与以往方法相比具有更好的效果并具有渐近一致性。
Feb, 2018