模型监测中基于置信度的预测性能估计器

Jul, 2024

模型监测中基于置信度的预测性能估计器

Confidence-based Estimators for Predictive Performance in Model Monitoring

Juhani Kivimäki, Jakub Białek, Jukka K. Nurminen, Wojtek Kuberski

TL;DR研究机器学习模型在无法获取标签的情况下，如何通过模型置信度等新方法来估计其预测性能，探讨了这些方法的理论特性和相对质量。

Abstract

After a machine learning model has been deployed into production, its predictive performance needs to be monitored. Ideally, such monitoring can be carried out by comparing the model's predictions against

发现论文，激发创造

机器学习中的模型评估、模型选择和算法选择

本文综述了机器学习中模型评估、模型选择和算法选择等三个子任务的不同技术，并讨论了每种技术的主要优缺点，给出了推荐实践建议。重点介绍了常见的模型评估和选择技术，如保留集方法和交叉验证技术，并给出了实用技巧。同时提出了多种算法比较策略，包括5x2交叉验证和嵌套交叉验证等，推荐在小数据集情况下使用。

Nov, 2018

稳健验证：即使分布发生偏移，也能自信地做出预测

本文提出了一种建立在鲁棒性预测推断上的不确定性估计模型，使用 conformal inference 方法建立了准确覆盖测试数据分布的预测集，通过估计数据漂移量建立了鲁棒性，并在多个基准数据集上进行了实验证明了该方法的重要性。

Aug, 2020

学习模型性能的预测区间

使用自动化方法来估算模型预测的不确定性，使得预测间隔和性能预测等领域在真实世界中变得更加实用。

Dec, 2020

跟踪部署模型的风险并检测危害分布变化

本文提出了一种简单的序列工具，用于测试源（训练）和目标（测试）数据分布之间的区别是否导致了风险函数的显著增加，同时忽略良性的变化，且不增加误报率，通过在一系列模拟数据集和真实数据集上的实证研究，证实了该方法的有效性。

Oct, 2021

利用无标签数据预测超出分布性能

本研究提出了一种平均阈值置信度 (ATC) 的实用方法，通过使用已标记的源数据和未标记的目标数据来预测目标域准确性。ATC 在多种模型结构、分布转移类型和数据集上的表现均优于之前的方法，并且比之前的方法更准确地估计目标性能。

Jan, 2022

针对失败预测的置信度校准反思

研究表明，许多置信度校准方法对于失败预测通常是无用或有害的；作者提出了一个假设平坦极小值有助于失败预测，并通过实验证实了这一假设。

Mar, 2023

无需标签: 在协变量漂移下估算部署后模型性能的方法

我们提出了一种鲁棒准确的性能估计方法，用于评估无标签数据上机器学习分类模型的性能，准确量化协变量偏移对模型性能的影响，并在600个数据集-模型对上进行了评估，结果表明，该方法是估计分类模型在任何评估环境中性能的最佳方法。

Jan, 2024

重新审视置信度估计：朝向可靠的故障预测

过去的研究表明，置信度评估方法往往会对错误的预测产生不利影响，本研究提出了一种新的置信度评估方法，通过寻找平坦极小值来扩大置信度差距，从而实现在多种分类场景下的失败预测性能的持续改进。

Mar, 2024

从一致预测到置信区间

利用一种名为CCR的新方法，通过使用模型输出的一系列符合预测间隔来建立模型参数的置信区间，创新地解决了模型参数置信区间构建中的挑战，并在有限样本情景下提供了覆盖保证。

May, 2024

自动机器学习背景下的预测性能置信区间估计

在AutoML环境下，比较评估了9种最先进的方法和变体在置信区间（CI）估计方面的表现，以包含百分比、CI的紧致性和执行时间为指标，结果支持BBC-F和BBC在所有度量指标上优于其他方法。

Jun, 2024