预测未知空间？估算空间预测模型的适用面积

May, 2020

预测未知空间？估算空间预测模型的适用面积

Predicting into unknown space? Estimating the area of applicability of spatial prediction models

Hanna Meyer, Edzer Pebesma

TL;DR通过提出新的 “不相似指数” 和 “适用范围” 的概念，研究了预测模型的适用性问题，并得出了一种确定模型可靠应用区域的方法。

Abstract

predictive modelling using machine learning has become very popular for spatial mapping of the environment. Models are often applied to make predictions far beyond sampling locations where new geographic location

predictive modelling machine learning area of applicability dissimilarity index cross-validation error

发现论文，激发创造

利用对抗验证量化地理空间机器学习预测的差异性

通过对地理空间机器学习预测结果和样本数据之间的差异度进行量化，在 0 到 100% 的区间内，基于对抗验证的方法可以准确度量差异度。此方法在合成和真实的数据集上测试，并逐渐增加差异度来研究其效果和普适性。测试结果表明该方法可以成功地量化整个数值范围内的差异度，并揭示出在地理空间机器学习预测中考虑特征空间差异度的重要性，以便选择更适合的交叉验证方法进行预测评估。

Apr, 2024

通过空间 k 折交叉验证估计空间模型的预测性能

本文研究机器学习中的空间自相关问题，提出了基于空间 k 折交叉验证的方法，并通过三个真实开放数据集的实验验证了该方法的有效性和应用性。

May, 2020

机器学习应用中空间预测变量选择的重要性 —— 从数据再现到空间预测

本文证明了在生态数据的空间预测中，除了空间验证之外，空间变量选择也必须考虑，以产生可靠的预测结果。使用 “随机森林” 机器学习算法，作者通过两个案例研究了非空间和空间交叉验证策略，并发现高度自相关的预测变量可能导致过拟合，从而产生错误的空间预测模式。

Aug, 2019

增强地球观测数据预测置信度的潜在空间度量

通过利用变分自编码器架构，本研究提出了一种衡量机器学习模型预测置信度的新方法，特别针对利用地球观测数据进行回归任务，以蚊子数量估计为重点。这种方法通过观测数据的潜在空间表示来派生置信度度量，建立了潜在表示的欧式距离与单个蚊子数量预测的绝对误差之间的相关性。我们的研究着重于意大利威尼托地区和德国上莱茵河流域的地球观测数据集，重点关注蚊子数量较为显著的地区。一个关键发现是蚊子数量预测的绝对误差与所提出置信度度量之间的相关性达到 0.46，这一相关性意味着一种稳健的新指标，用于量化人工智能模型在地球观测数据分析和蚊子数量研究中预测的可靠性和可信度的提升。

Jan, 2024

空间环境下预测方法的一致验证

空间预测是天气预报、空气污染研究等科学探索的关键。确定在统计或物理方法中信任预测的程度对科学结论的可信度至关重要。本文中我们基于现有的共变量转移方法，根据验证数据提出了一个新方法，并在模拟和真实数据上通过经验证明了其优势。

Feb, 2024

空间机器学习模型诊断：一种不依赖于模型的基于距离的方法

该研究提出了空间预测误差剖面（SPEPs）和空间变量重要性剖面（SVIPs）作为空间预测模型的新型模型无关的评估和解释工具，以预测距离为重点。这些诊断工具为空间数据科学提供了新的工具，可能会改善机器学习模型的解释、选择和设计。

Nov, 2021

使用核密度估计确定机器学习模型的领域：在材料性能预测中的应用

我们发展了一种新方法来评估模型的领域适用性，并展示了我们的方法在多个模型类型和材料性质数据集中提供准确和有意义的领域划分。我们的方法通过使用核密度估计计算特征空间中测试数据点与训练数据点的距离，并展示该距离为确定领域提供了有效的工具。我们展示了根据已有化学知识视为无关的化学组合在我们的测量中表现出显著的差异性。我们还展示了高度差异测量与模型性能不佳（即残差大小）和模型不确定性估计不可靠（即不可靠的不确定性估计）相关。我们提供了自动化工具，以帮助研究人员建立可接受的差异阈值，以确定他们自己的机器学习模型的新预测是领域内还是领域外。

May, 2024

用精确度 - 召回率曲线下面积进行聚类验证

本论文探讨了在聚类验证中，利用混淆矩阵和派生度量来衡量模型性能表现的可行性，并提出利用 Precision-Recall 曲线及相关度量作为聚类验证指标以及在聚类失衡的情况下更为合适的方法，通过实验验证，这一方法的可靠性与其在有监督学习中的表现相一致。

Apr, 2023

使用主动学习量化本地模型的有效性

通过主动学习减少所需数据量并学习模型错误来获得本地有效性估计，而不是全局指标太不敏感或评估本地有效性成本过高。使用模型验证基准，提供实证证据表明该方法能够在使用相对较少的数据量时生成具有足够辨别性能的错误模型，同时相比于替代方法，对于本地有效性边界的局部变化具有增强的敏感性。

Jun, 2024

在 R 中训练和评估空间预测模型的 CAST 工具包

环境科学中使用机器学习算法进行空间预测是一项关键任务，在这篇研究中，我们介绍了 CAST 包及其核心功能，展示了如何使用 CAST 来支持更可靠的空间预测，并以植物物种丰富度的案例研究为例，演示了建模工作流程的各个步骤。

Apr, 2024