空间机器学习模型诊断:一种不依赖于模型的基于距离的方法
本文证明了在生态数据的空间预测中,除了空间验证之外,空间变量选择也必须考虑,以产生可靠的预测结果。使用 “随机森林” 机器学习算法,作者通过两个案例研究了非空间和空间交叉验证策略,并发现高度自相关的预测变量可能导致过拟合,从而产生错误的空间预测模式。
Aug, 2019
环境科学中使用机器学习算法进行空间预测是一项关键任务,在这篇研究中,我们介绍了 CAST 包及其核心功能,展示了如何使用 CAST 来支持更可靠的空间预测,并以植物物种丰富度的案例研究为例,演示了建模工作流程的各个步骤。
Apr, 2024
空间预测是天气预报、空气污染研究等科学探索的关键。确定在统计或物理方法中信任预测的程度对科学结论的可信度至关重要。本文中我们基于现有的共变量转移方法,根据验证数据提出了一个新方法,并在模拟和真实数据上通过经验证明了其优势。
Feb, 2024
SEPAL 是一种新的模型,可以从组织外观直接预测基因组,通过利用生物学偏差来直接监督相对差异并通过图神经网络利用每个坐标的局部视觉上下文进行预测,该方法将当前方法中的完全局部性和完全全局性之间的差距缩小,并通过在转录组学中遵循当前最佳实践并限制预测变量仅为具有明确空间模式的变量来提出了一种旨在更好地定义该任务的新的基准,通过在两个不同的人类乳腺癌数据集中进行了广泛评估表明,SEPAL 优于之前的最先进方法和包括空间上下文的其他机制。
Sep, 2023
通过对地理空间机器学习预测结果和样本数据之间的差异度进行量化,在 0 到 100% 的区间内,基于对抗验证的方法可以准确度量差异度。此方法在合成和真实的数据集上测试,并逐渐增加差异度来研究其效果和普适性。测试结果表明该方法可以成功地量化整个数值范围内的差异度,并揭示出在地理空间机器学习预测中考虑特征空间差异度的重要性,以便选择更适合的交叉验证方法进行预测评估。
Apr, 2024
该论文评估了分类模型在无需依赖于标签的情况下对于分布外测试集的泛化能力,并提出了一种名为 vicinal risk proxy (VRP) 的方法来计算模型的准确性,该方法通过综合考虑邻近样本的响应来评估每个样本的正确性,从而在方法学和实验上稳定地提高了现有泛化指标与模型准确性的相关性,特别是在具有挑战性的分布外测试集上。
Jun, 2024
本文提出了一个黑盒谱方法 SPADEF,用于评估给定机器学习模型的对抗鲁棒性,它利用了构建输入 / 输出数据对应的流形的逆距离映射来进行,并通过广义 Courant-Fischer 定理提出了用于评估经过证明可以作为在流形设置下最佳 Lipschitz 常数的上界的 SPADE 分数。此外,通过利用占优广义特征向量,本文还开发了一种谱图嵌入过程,以揭示最易受到对抗攻击的最不鲁棒数据样本,并为更有效的对抗训练提供支持。经实验证明,所提出的 SPADE 方法对使用 MNIST 和 CIFAR-10 数据集进行对抗训练的神经网络模型具有良好的实验结果。
Feb, 2021