利用符合预测的不确定性定量化地球观测中的概率机器学习
本文调查了最近的深度学习方面的不确定性量化的研究,特别关注了具有数学特性和广泛适用性的无分布符合预测方法,介绍了相关技术和在时空数据背景下提高校准和效率的方法,并讨论了不确定性量化在安全决策方面的作用。
Sep, 2022
EarthPT是一个地球观测预训练的变压器模型,通过自回归自监督方式训练了一个7亿参数、针对地球观测应用场景的模型。我们展示了EarthPT是一个有效的预测器,可以准确预测未来的像素级表面反射率在400-2300nm范围内变化。此外,通过EarthPT学习的嵌入具有语义上有意义的信息,可用于下游任务,如高精度、动态的土地利用分类。
Sep, 2023
可靠和实用的地球系统科学建模领域中,证据深度学习是一种有前途的方法,它能够准确量化预测不确定性,包括预测方差和模型不确定性,还可以通过敏感性分析来解释模型的预测结果。
Sep, 2023
通过利用变分自编码器架构,本研究提出了一种衡量机器学习模型预测置信度的新方法,特别针对利用地球观测数据进行回归任务,以蚊子数量估计为重点。这种方法通过观测数据的潜在空间表示来派生置信度度量,建立了潜在表示的欧式距离与单个蚊子数量预测的绝对误差之间的相关性。我们的研究着重于意大利威尼托地区和德国上莱茵河流域的地球观测数据集,重点关注蚊子数量较为显著的地区。一个关键发现是蚊子数量预测的绝对误差与所提出置信度度量之间的相关性达到0.46,这一相关性意味着一种稳健的新指标,用于量化人工智能模型在地球观测数据分析和蚊子数量研究中预测的可靠性和可信度的提升。
Jan, 2024
提供一种新的方法,用于校准具有局部覆盖保证的回归问题的预测区间,该方法基于训练回归树和随机森林的合规得分创建最粗糙的特征空间划分,适用于各种合规得分和预测设置,且在模拟和实际数据集中表现出比现有基准更优的可扩展性和性能。
Feb, 2024
过去几十年,数据分析和机器学习领域的大部分工作都致力于优化预测模型,并取得比现有模型更好的结果。然而,本文指出对于很多应用而言,更加重要的并非准确的预测,而是变异性或不确定性。本文进一步探讨了让每个人了解不确定性、意识到其重要性并学会拥抱而不是害怕不确定性的世界,对一种确定性估计准确性的具体框架——被称为“符合性预测”的框架进行了细致研究。而且,无需对数据进行参数假设,这一非参数结果在渐近程度上也不必依赖大数定律,使得这个框架成为唯一值得称为“无分布假设”的框架。
May, 2024
在遥感等关键应用中,深度学习模型的黑盒特性使其使用变得复杂。与数据可交换性相关的符合预测是一种能确保信任的方法,可提供有限样本覆盖保证,以用户定义的错误率为形式,确保预测集合包含真实类别。本文展示了符合预测算法与深度学习模型的不确定性相关,并可用于检测模型是否未校准。通过将Resnet50、Densenet161、InceptionV3和MobileNetV2等常见分类模型应用于遥感数据集,如EuroSAT,证明在噪声场景下模型的输出变得不可靠。此外,还提出了一种基于模型不确定性和符合预测集合平均大小的未校准检测程序。
May, 2024
本研究针对数据驱动的代理模型在不确定性量化方面的不足开展,提出一种基于保形预测的框架,以无模型假设方式为时空预测提供边际覆盖保证。研究表明,该方法能在保证有效覆盖的同时,适用于多种时空模型,具有极低的计算成本,显著提升了代理模型的可靠性。
Aug, 2024
本研究探讨了在有限标注预算下设计下游任务(如估计植被覆盖)时的挑战,特别是在选择基础模型和标注样本的过程中。通过对八个现有基础模型进行大规模消融研究,我们揭示了空间可推广性的局限性和基础模型的有效性,发现不同区域和任务的性能及不确定性表现差异显著,这对实际应用具有重要影响。
Sep, 2024