样本选择偏差校正理论

May, 2008

Sample Selection Bias Correction Theory

Corinna Cortes, Mehryar Mohri, Michael Riley, Afshin Rostamizadeh

TL;DR本文基于分布稳定性的新概念，对样本选择偏差校正进行了理论分析，研究了两种估计技术：基于簇的估计技术和核均值匹配，以及使用这些技术对几个数据集进行样本偏差校正实验。

Abstract

This paper presents a theoretical analysis of sample selection bias correction. The sample bias correction technique commonly used in machine learning consists of reweighting the cost of an error on each training point of a biased sample to more closely reflect the unbiased distribution. This relies on weights derived by various →

sample selection bias correction machine learning estimation techniques cluster-based estimation kernel mean matching

发现论文，激发创造

样本重加权的稳健学习

本文研究如何在模型错配偏差情况下学习线性预测模型。我们提出了一种样本重新加权方法，该方法可以减少输入变量之间的共线性，从而提高设计矩阵的条件，并与任何标准学习方法相结合，用于参数估计和特征选择，进而提高模型在不同分布数据集下的稳定性。

Nov, 2019

重抽样相对于重新加权在使用随机梯度进行纠正抽样偏差时的表现更佳

考虑到数据集采样偏差影响机器学习模型的效果，本研究分析重新采样和重新加权等多种技术，并通过实验和理论工具从动态稳定性和随机渐近性方面阐述重新采样的优越性。我们强调在处理采样偏差时应该同时考虑目标函数设计和优化算法。

Sep, 2020

机器学习中识别和纠正标签偏差

本文提出了一种数学公式来证明数据集中的偏见对分类器的影响，通过无需改变标签来重新计算数据点的值，从而得到一个无偏分类器，这种方法可以在各种机器学习算法中使用，并实现了公平分类的目标。

Jan, 2019

通过重要性重新加权纠正空间建模中的采样偏差

机器学习模型中，在空间数据（例如环境研究中常见的数据）中，估计错误往往很复杂、存在分布偏差。我们介绍了一种基于重要性采样思想的方法，以获取目标误差的无偏估计。通过考虑期望误差与可用数据之间的差异，我们的方法在每个样本点上重新加权错误，并抵消偏移。重要性采样技术和核密度估计用于重新加权。我们使用模拟真实空间数据集的人造数据验证了我们方法的有效性。我们的研究结果表明，该方法在目标误差估计方面具有优势，为分布偏移问题提供了解决方案。预测的整体误差从 7% 降至仅为 2%，并且随着样本量的增加而减小。

Sep, 2023

协变量转移适应中的一般正则化

通过重新加权样本，本研究在再生核希尔伯特空间中修正最小二乘学习算法的误差，以解决未来数据分布与训练数据分布不同引起的问题，并证明在弱平滑条件下，相比现有分析所证明的，为了达到与标准监督学习相同精度所需的样本数量更小。

Jul, 2023

利用无似然重要性加权的方法校正学习生成模型的偏差

采用似然比未知的情况下可估计的概率分类器进行样本权重优化的无似然比重要加权方法，可以用于校正生成模型中的偏差问题，并提高生成模型的样本质量和性能。

Jun, 2019

元重置中的关键样本选择学习

本研究提出了一种学习框架，将元样本选择问题通过严格的理论分析降低到加权 K 均值聚类问题中，提出了两种聚类方法 RBC 和 GBC 以解决 “样本权重不均匀” 问题，并在实际应用中得到了验证。

Feb, 2023

协变量偏移适应性的双加权方法

该研究提出了最小化风险分类的方法来处理资料控制变量变化的问题，同时也发展了有效的技术，取得了更好的分类性能。

May, 2023

基于核心因果平衡的无偏协同过滤

通过在可观测数据集中消除不同的偏差，去偏协同过滤旨在学习一个无偏的预测模型。本文通过重新加权观测样本分布以适应目标样本的倾向得分来解决此问题。为了更好地满足因果平衡约束条件，作者提出了一种近似平衡函数的方法，并在再生核希尔伯特空间中证明了其更好满足因果平衡约束条件的能力。同时，作者提出了一种自适应平衡核函数的算法，并理论上分析了方法的泛化误差界。通过广泛的实验证明了该方法的有效性。

Apr, 2024

技术笔记：偏置与稳定性的量化

研究机器学习算法偏差对预测精度的影响时，应考虑稳定性因素，本文提出了一种基于概念一致性的稳定性度量方法，讨论了稳定性、预测精度和偏差之间的关系。

Dec, 2002