跟踪部署模型的风险并检测危害分布变化
本文探讨机器学习系统在面对各类输入时,如何通过检测数据集漂移并量化其恶性,从而建立高鲁棒性的系统,同时提出使用预训练分类器的双样本测试法在多种数据集漂移情况下表现最佳,且判别方法有助于定性确定数据集漂移的影响。
Oct, 2018
研究发现现有的分布距离度量方法,例如Frechetdistance或Maximum Mean Discrepancy,不能在分布偏移中可靠地估计模型性能;然而,分类器预测的置信度差异能够成功地估计分类器在各种转移情况下的性能变化,并且在几个现实和具有挑战性的分布转移中有效地减少预测误差近一半(46%),这一方法称为DoC(Difference of Confidences)。
Jul, 2021
本研究提出了一种框架来分析各种分布转移,并通过评估19个不同类别的方法,提供了当前最先进方法的整体分析。结果显示,与标准ERM基线相比,预训练和数据扩充(学习或启发式)在许多情况下都具有很大的优势,但不能很好地适应不同的数据集和转移。
Oct, 2021
研究如何利用非参数自助法和 SHAP 值提供可解释的不确定性估计,在部署环境中监测机器学习模型的退化,以及在缺乏目标标签时确定模型退化的来源,该方法在与当前最先进的方法相比展现了更好的性能。
Jan, 2022
该文研究了机器学习模型在遇到新的用户数据时,如何估计模型的性能,提出了一种新的分布偏移模型SJS和算法框架SEES,实验结果表明SEES在各种数据集和分布偏移情况下,相比现有方法,均能显著提高分布偏移误差的估计精度。
Sep, 2022
本文介绍了机器学习领域中的分布漂移和时间漂移问题,通过时间戳元数据来增强模型学习能力,提出了一个包含五个数据集的基准测试,使用13种不同的方法进行系统评估,同时针对不同的实际应用场景设计了两种评估策略,发现现有的方法已经无法缩小在分布内和分布外数据间的性能差距。
Nov, 2022
部署的机器学习模型性能受到分布转移的有害影响的认识日益增长。因此,在相关成本累积之前,检测这些转移的兴趣日益增长。然而,现有的研究往往忽视可行性的顶级部署序列转移检测器的重要需求,限制了它们的广泛采用。我们确定了三个这样的需求,强调了与之满足相关的现有工作,并为未来研究提出了有影响力的方向。
Jul, 2023
该研究提出了一种序列监测方案,通过考虑测量模型质量的时间依赖性,减少不必要的警报并解决多重测试问题,从而在检测模型质量相关变化方面优于基准方法。此研究为在动态环境中区分小幅波动和有意义的模型性能退化提供了实用解决方案,确保机器学习模型的可靠性。
Sep, 2023
我们提出了一种鲁棒准确的性能估计方法,用于评估无标签数据上机器学习分类模型的性能,准确量化协变量偏移对模型性能的影响,并在600个数据集-模型对上进行了评估,结果表明,该方法是估计分类模型在任何评估环境中性能的最佳方法。
Jan, 2024