样本选择偏差校正理论
本文研究如何在模型错配偏差情况下学习线性预测模型。我们提出了一种样本重新加权方法,该方法可以减少输入变量之间的共线性,从而提高设计矩阵的条件,并与任何标准学习方法相结合,用于参数估计和特征选择,进而提高模型在不同分布数据集下的稳定性。
Nov, 2019
考虑到数据集采样偏差影响机器学习模型的效果,本研究分析重新采样和重新加权等多种技术,并通过实验和理论工具从动态稳定性和随机渐近性方面阐述重新采样的优越性。我们强调在处理采样偏差时应该同时考虑目标函数设计和优化算法。
Sep, 2020
本文提出了一种数学公式来证明数据集中的偏见对分类器的影响,通过无需改变标签来重新计算数据点的值,从而得到一个无偏分类器,这种方法可以在各种机器学习算法中使用,并实现了公平分类的目标。
Jan, 2019
机器学习模型中,在空间数据(例如环境研究中常见的数据)中,估计错误往往很复杂、存在分布偏差。我们介绍了一种基于重要性采样思想的方法,以获取目标误差的无偏估计。通过考虑期望误差与可用数据之间的差异,我们的方法在每个样本点上重新加权错误,并抵消偏移。重要性采样技术和核密度估计用于重新加权。我们使用模拟真实空间数据集的人造数据验证了我们方法的有效性。我们的研究结果表明,该方法在目标误差估计方面具有优势,为分布偏移问题提供了解决方案。预测的整体误差从 7% 降至仅为 2%,并且随着样本量的增加而减小。
Sep, 2023
通过重新加权样本,本研究在再生核希尔伯特空间中修正最小二乘学习算法的误差,以解决未来数据分布与训练数据分布不同引起的问题,并证明在弱平滑条件下,相比现有分析所证明的,为了达到与标准监督学习相同精度所需的样本数量更小。
Jul, 2023
采用似然比未知的情况下可估计的概率分类器进行样本权重优化的无似然比重要加权方法,可以用于校正生成模型中的偏差问题,并提高生成模型的样本质量和性能。
Jun, 2019
本研究提出了一种学习框架,将元样本选择问题通过严格的理论分析降低到加权 K 均值聚类问题中,提出了两种聚类方法 RBC 和 GBC 以解决 “样本权重不均匀” 问题,并在实际应用中得到了验证。
Feb, 2023
通过在可观测数据集中消除不同的偏差,去偏协同过滤旨在学习一个无偏的预测模型。本文通过重新加权观测样本分布以适应目标样本的倾向得分来解决此问题。为了更好地满足因果平衡约束条件,作者提出了一种近似平衡函数的方法,并在再生核希尔伯特空间中证明了其更好满足因果平衡约束条件的能力。同时,作者提出了一种自适应平衡核函数的算法,并理论上分析了方法的泛化误差界。通过广泛的实验证明了该方法的有效性。
Apr, 2024