跟踪部署模型的风险并检测危害分布变化

Oct, 2021

跟踪部署模型的风险并检测危害分布变化

Tracking the risk of a deployed model and detecting harmful distribution shifts

Aleksandr Podkopaev, Aaditya Ramdas

TL;DR本文提出了一种简单的序列工具，用于测试源（训练）和目标（测试）数据分布之间的区别是否导致了风险函数的显著增加，同时忽略良性的变化，且不增加误报率，通过在一系列模拟数据集和真实数据集上的实证研究，证实了该方法的有效性。

Abstract

When deployed in the real world, machine learning models inevitably encounter changes in the data distribution, and certain -- but not all -- distribution shifts could result in significant performance degradatio

发现论文，激发创造

响亮地失败：检测数据集漂移方法的实证研究

本文探讨机器学习系统在面对各类输入时，如何通过检测数据集漂移并量化其恶性，从而建立高鲁棒性的系统，同时提出使用预训练分类器的双样本测试法在多种数据集漂移情况下表现最佳，且判别方法有助于定性确定数据集漂移的影响。

Oct, 2018

对未见过分布进行有信心的预测

研究发现现有的分布距离度量方法，例如Frechetdistance或Maximum Mean Discrepancy，不能在分布偏移中可靠地估计模型性能；然而，分类器预测的置信度差异能够成功地估计分类器在各种转移情况下的性能变化，并且在几个现实和具有挑战性的分布转移中有效地减少预测误差近一半（46％），这一方法称为DoC(Difference of Confidences)。

Jul, 2021

分布偏移的细粒度分析

本研究提出了一种框架来分析各种分布转移，并通过评估19个不同类别的方法，提供了当前最先进方法的整体分析。结果显示，与标准ERM基线相比，预训练和数据扩充（学习或启发式）在许多情况下都具有很大的优势，但不能很好地适应不同的数据集和转移。

Oct, 2021

通过非参数自举法使用可解释的不确定性估计来监测模型恶化

研究如何利用非参数自助法和 SHAP 值提供可解释的不确定性估计，在部署环境中监测机器学习模型的退化，以及在缺乏目标标签时确定模型退化的来源，该方法在与当前最先进的方法相比展现了更好的性能。

Jan, 2022

当协变量和标签同时发生变化时，估计和解释模型性能

该文研究了机器学习模型在遇到新的用户数据时，如何估计模型的性能，提出了一种新的分布偏移模型SJS和算法框架SEES，实验结果表明SEES在各种数据集和分布偏移情况下，相比现有方法，均能显著提高分布偏移误差的估计精度。

Sep, 2022

Wild-Time: 一个基于视野内时间变化的分布漂移测试基准

本文介绍了机器学习领域中的分布漂移和时间漂移问题，通过时间戳元数据来增强模型学习能力，提出了一个包含五个数据集的基准测试，使用13种不同的方法进行系统评估，同时针对不同的实际应用场景设计了两种评估策略，发现现有的方法已经无法缩小在分布内和分布外数据间的性能差距。

Nov, 2022

朝着可行的顺序偏移检测器

部署的机器学习模型性能受到分布转移的有害影响的认识日益增长。因此，在相关成本累积之前，检测这些转移的兴趣日益增长。然而，现有的研究往往忽视可行性的顶级部署序列转移检测器的重要需求，限制了它们的广泛采用。我们确定了三个这样的需求，强调了与之满足相关的现有工作，并为未来研究提出了有影响力的方向。

Jul, 2023

监控机器学习模型：在线检测相关偏差

该研究提出了一种序列监测方案，通过考虑测量模型质量的时间依赖性，减少不必要的警报并解决多重测试问题，从而在检测模型质量相关变化方面优于基准方法。此研究为在动态环境中区分小幅波动和有意义的模型性能退化提供了实用解决方案，确保机器学习模型的可靠性。

Sep, 2023

无需标签: 在协变量漂移下估算部署后模型性能的方法

我们提出了一种鲁棒准确的性能估计方法，用于评估无标签数据上机器学习分类模型的性能，准确量化协变量偏移对模型性能的影响，并在600个数据集-模型对上进行了评估，结果表明，该方法是估计分类模型在任何评估环境中性能的最佳方法。

Jan, 2024

最坏情况分布偏移的决策导向评估

分布转移是预测模型在实践中的一个关键挑战，我们引入了一个新颖的框架，通过捕捉决策问题的实例内和实例间的转移来识别预测资源分配设置中的最差分布转移。

Jul, 2024