生产环境模型的监控和可解释性

ICMLJul, 2020

Monitoring and explainability of models in production

Janis Klaise, Arnaud Van Looveren, Clive Cox, Giovanni Vacanti, Alexandru Coca

TL;DR讨论机器学习模型周期的后续，重要的是在已经部署的模型上进行监控，包括模型的性能和数据监控，使用统计技术检测异常值和数据漂移，提供历史预测的解释，同时使用开源工具来实现这些目标。

Abstract

The machine learning lifecycle extends beyond the deployment stage. Monitoring deployed models is crucial for continued provision of high quality machine learning enabled services. Key areas include →

machine learning model performance data monitoring outliers detection prediction explanations

发现论文，激发创造

ML Health: 为生产模型提供的健身追踪

ML Health 为监测机器学习模型预测性能潜在下降提出了一种诊断方法，并将该方法应用于一种实现了全生产生命周期的系统中，来自动化追踪并生成进一步调查的警报。

Feb, 2019

部署中的可解释机器学习

本研究探讨企业机构如何使用可解释机器学习来提供给利益相关者洞察模型行为，发现目前解释主要面向机器学习工程师，而不是受到模型影响的最终用户，存在内外部利益相关者的差异。研究综合分析了当前解释技术的局限，提出了促进最终用户交互的可解释性目标框架，并讨论了相关的问题。

Sep, 2019

监控机器学习模型：在线检测相关偏差

该研究提出了一种序列监测方案，通过考虑测量模型质量的时间依赖性，减少不必要的警报并解决多重测试问题，从而在检测模型质量相关变化方面优于基准方法。此研究为在动态环境中区分小幅波动和有意义的模型性能退化提供了实用解决方案，确保机器学习模型的可靠性。

Sep, 2023

用于实际应用中监控和重新训练语言模型的框架

机器学习模型的持续监控和重新训练对于实现多标签分类模型的关键因素和资源利用至关重要。

Nov, 2023

部署机器学习的挑战：案例研究调查

该论文调查了部署机器学习模型在实际业务系统中可能遇到的挑战和关注点，并将这些挑战与机器学习部署工作流程的各个阶段对应起来，以期为解决这些挑战探索新的方法和研究方向。

Nov, 2020

预测性流程监控中机器学习不确定性的量化和解释：运筹学视角

本文介绍了一个多阶段综合的机器学习方法，有效地将信息系统和人工智能相结合，以增强操作研究领域内的决策过程的效力。该方法能够解决现有解决方案的常见限制，例如忽略关键生产参数的数据驱动估计、仅生成点预测而不考虑模型不确定性以及缺乏关于不确定性来源的解释。我们的方法利用分位数回归森林生成间隔预测，同时采用了局部和全局版本的 SHapley 加性解释，用于研究预测过程监测问题。通过一个实际的生产计划案例研究，我们证明了所提出方法的实际适用性，强调了规范分析在完善决策程序方面的潜力。本文强调了解决这些挑战以充分利用广泛和丰富的数据资源来进行明智决策。

Apr, 2023

面向外部利益相关者的机器学习可解释性

本文主要介绍了在高风险背景下机器学习算法变得越来越重要的情况下，为了能够更好地解释机器学习算法，需要考虑相关方利益，例如终端用户，监管机构和领域专家。但是目前较少有关于实现解释性机器学习的工程实践，因此我们进行了一个闭门的研讨会，汇集了学界、产业界、法律界和政策界的专家，分析了当前实现解释性机器学习的现状，分享了大量实例和经验，并探讨了相关未解决的问题。

Jul, 2020

学习机器在健康与更广领域的应用

机器学习模型在医疗领域应用时需要进行后期维护和监控，以保证在实际应用中能够安全有效地使用。

Mar, 2023

机器学习系统部署管道的持续学习

研究了机器学习系统的最小自动化部署技术，并比较了自动化部署技术的优劣，以帮助后来的采用者避免在实际使用案例中发生概括性错误，并选择更好的策略，同时提高机器学习系统的部署评估框架意识，有更全面、有用的评估指标，而不仅仅关注单一的因素，这对于行业决策者尤为重要。

Dec, 2022

通过将系统与机器学习集成，自动化 MLOps 中的模型训练和部署

本文介绍了机器学习在现实世界应用中的重要性，探讨了 MLOps（机器学习运营）的兴起及其在解决模型部署和性能监控等挑战方面的重要性。通过回顾 MLOps 的演变和其与传统软件开发方法的关系，论文提出了将该系统与机器学习相结合以解决现有 MLOps 面临的问题并提高生产力的方法。本文重点关注自动化模型训练的重要性，以及通过版本控制系统确保训练过程的透明性和可重复性的方法。此外，还讨论了将机器学习组件集成到传统 CI/CD 流水线中面临的挑战，并提出了版本环境和容器化等解决方案。最后，论文强调了模型部署后持续监控和反馈循环的重要性，以保持模型的性能和可靠性。本文运用 Netflix 的案例研究和最佳实践，提出了成功实施 MLOps 实践的关键策略和经验教训，并为其他组织构建和优化自己的 MLOps 实践提供了有价值的参考。

May, 2024