通过重要性重新加权纠正空间建模中的采样偏差

Sep, 2023

通过重要性重新加权纠正空间建模中的采样偏差

Correcting sampling biases via importancereweighting for spatial modeling

Boris Prokhorov, Diana Koldasbayeva, Alexey Zaytsev

TL;DR机器学习模型中，在空间数据（例如环境研究中常见的数据）中，估计错误往往很复杂、存在分布偏差。我们介绍了一种基于重要性采样思想的方法，以获取目标误差的无偏估计。通过考虑期望误差与可用数据之间的差异，我们的方法在每个样本点上重新加权错误，并抵消偏移。重要性采样技术和核密度估计用于重新加权。我们使用模拟真实空间数据集的人造数据验证了我们方法的有效性。我们的研究结果表明，该方法在目标误差估计方面具有优势，为分布偏移问题提供了解决方案。预测的整体误差从 7% 降至仅为 2%，并且随着样本量的增加而减小。

Abstract

In machine learning models, the estimation of errors is often complex due to distribution bias, particularly in spatial data such as those

machine learning models estimation of errors spatial data importance sampling target error

发现论文，激发创造

利用无似然重要性加权的方法校正学习生成模型的偏差

采用似然比未知的情况下可估计的概率分类器进行样本权重优化的无似然比重要加权方法，可以用于校正生成模型中的偏差问题，并提高生成模型的样本质量和性能。

Jun, 2019

样本选择偏差校正理论

本文基于分布稳定性的新概念，对样本选择偏差校正进行了理论分析，研究了两种估计技术：基于簇的估计技术和核均值匹配，以及使用这些技术对几个数据集进行样本偏差校正实验。

May, 2008

比较基于重要性采样方法的类别不平衡效应缓解

在这项研究中，我们对 importance sampling 技术中的三种技术进行了探索和比较，包括 loss reweighting、undersampling 和 oversampling，并发现对于具有不平衡类别的模型，加权损失和欠采样对性能影响微乎其微，而过采样通常能够改善性能。此外，我们的结果还表明 Planet 数据集中可能存在某些冗余性，为进一步研究提供了基础。

Feb, 2024

超参数化领域中 “重要性加权” 估计器的离群错误的尖锐分析

我们研究了一个过参数化的高斯混合模型，结合了 “重要性权重”，对一个插值解的内分布和外分布的测试误差进行了严格的分析，发现了最坏情况下分布偏移鲁棒性和平均准确度之间的新的权衡关系。

May, 2024

自适应采样与重要性采样的高效梯度估计

通过提出的自适应方法和重要性采样方法，在机器学习框架中有效地整合了重要性函数，并仅通过输出层的损失梯度提出了一个简化的重要性函数，以实现在分类和回归任务中更好的收敛性和最小的计算开销。

Nov, 2023

重抽样相对于重新加权在使用随机梯度进行纠正抽样偏差时的表现更佳

考虑到数据集采样偏差影响机器学习模型的效果，本研究分析重新采样和重新加权等多种技术，并通过实验和理论工具从动态稳定性和随机渐近性方面阐述重新采样的优越性。我们强调在处理采样偏差时应该同时考虑目标函数设计和优化算法。

Sep, 2020

协变量转移适应中的一般正则化

通过重新加权样本，本研究在再生核希尔伯特空间中修正最小二乘学习算法的误差，以解决未来数据分布与训练数据分布不同引起的问题，并证明在弱平滑条件下，相比现有分析所证明的，为了达到与标准监督学习相同精度所需的样本数量更小。

Jul, 2023

面向离线强化学习的价值感知重要性加权

本文提出了一种基于价值感知的重要性权重方法，可用于增强学习的离线预测模型，并在实验中进行了评估。

Jun, 2023

隐私放大通过重要性抽样

通过重要性抽样作为预处理步骤来检验数据子抽样的隐私增强特性，我们发现异质性抽样概率可以同时提供更强的隐私保护和更好的效用，并以保持子样本大小的方式评估基于重要性抽样的隐私增强在 k 均值聚类问题上的隐私、效率和准确性。

Jul, 2023

后验修正抽样的再生 Stein 核方法

该论文通过对马尔可夫链的模拟实现的采样数据的加权经验分布来修正近似抽样算法的输出，从而为相关领域的目标分布提供一致的估计量，并建立了一种普遍的再现 Stein Kernel 理论，适用于一般的 Polish 空间。

Jan, 2020