模型监测中基于置信度的预测性能估计器
本文综述了机器学习中模型评估、模型选择和算法选择等三个子任务的不同技术,并讨论了每种技术的主要优缺点,给出了推荐实践建议。重点介绍了常见的模型评估和选择技术,如保留集方法和交叉验证技术,并给出了实用技巧。同时提出了多种算法比较策略,包括5x2交叉验证和嵌套交叉验证等,推荐在小数据集情况下使用。
Nov, 2018
本文提出了一种建立在鲁棒性预测推断上的不确定性估计模型,使用 conformal inference 方法建立了准确覆盖测试数据分布的预测集,通过估计数据漂移量建立了鲁棒性,并在多个基准数据集上进行了实验证明了该方法的重要性。
Aug, 2020
本文提出了一种简单的序列工具,用于测试源(训练)和目标(测试)数据分布之间的区别是否导致了风险函数的显著增加,同时忽略良性的变化,且不增加误报率,通过在一系列模拟数据集和真实数据集上的实证研究,证实了该方法的有效性。
Oct, 2021
本研究提出了一种平均阈值置信度 (ATC) 的实用方法,通过使用已标记的源数据和未标记的目标数据来预测目标域准确性。ATC 在多种模型结构、分布转移类型和数据集上的表现均优于之前的方法,并且比之前的方法更准确地估计目标性能。
Jan, 2022
我们提出了一种鲁棒准确的性能估计方法,用于评估无标签数据上机器学习分类模型的性能,准确量化协变量偏移对模型性能的影响,并在600个数据集-模型对上进行了评估,结果表明,该方法是估计分类模型在任何评估环境中性能的最佳方法。
Jan, 2024
过去的研究表明,置信度评估方法往往会对错误的预测产生不利影响,本研究提出了一种新的置信度评估方法,通过寻找平坦极小值来扩大置信度差距,从而实现在多种分类场景下的失败预测性能的持续改进。
Mar, 2024
利用一种名为CCR的新方法,通过使用模型输出的一系列符合预测间隔来建立模型参数的置信区间,创新地解决了模型参数置信区间构建中的挑战,并在有限样本情景下提供了覆盖保证。
May, 2024
在AutoML环境下,比较评估了9种最先进的方法和变体在置信区间(CI)估计方面的表现,以包含百分比、CI的紧致性和执行时间为指标,结果支持BBC-F和BBC在所有度量指标上优于其他方法。
Jun, 2024