Sep, 2023

通过重要性重新加权纠正空间建模中的采样偏差

TL;DR机器学习模型中,在空间数据(例如环境研究中常见的数据)中,估计错误往往很复杂、存在分布偏差。我们介绍了一种基于重要性采样思想的方法,以获取目标误差的无偏估计。通过考虑期望误差与可用数据之间的差异,我们的方法在每个样本点上重新加权错误,并抵消偏移。重要性采样技术和核密度估计用于重新加权。我们使用模拟真实空间数据集的人造数据验证了我们方法的有效性。我们的研究结果表明,该方法在目标误差估计方面具有优势,为分布偏移问题提供了解决方案。预测的整体误差从 7% 降至仅为 2%,并且随着样本量的增加而减小。