MLOps 环境下的质量保证:工业视角
传统的自动化技术无法实现无人驾驶列车在非受限基础设施上的运行,此研究论文介绍了一个安全可靠的机器学习运维过程,用于持续开发和安全保证铁路领域的机器学习系统。该过程集成了系统工程、安全保证和机器学习生命周期,并自动化了不同阶段的挑战。
Jul, 2023
本文旨在从实践者的角度研究机器学习软件系统中的质量问题,通过一系列采访和调研,我们创建了一个包含 18 个质量问题和 24 个解决策略的目录,这将有助于开发高效的质量保证工具。
Jun, 2023
这篇论文研究了机器学习运营(MLOps)方法的重要性,以及如何选择最佳的工具结构来简化软件开发,并评估了各种 MLOps 方法的特性和可操作性。作者通过评估 22 篇相关论文发现,目前缺乏完全有效的 MLOps 方法,这些方法可以在不涉及人工干预的情况下实现自我调节的进步。
Aug, 2023
研究调查了 10 家奥地利中小型企业在开发人工智能 / 机器学习组件和代码时采用的软件质量保证策略,发现质量问题在何时出现并如何检测,同时识别了 12 个开发 AI/ML 组件时存在的问题,为未来 AI/ML 组件的软件质量保证流程提供指导。
Mar, 2022
本文旨在通过文献综述、工具综述以及专家访谈的研究方法,提供了机器学习运营的定义、必要原则、部件及角色,及其架构和工作流程的综合概述,并强调了该领域的开放性挑战,为想要用指定的技术来自动化和操作他们的机器学习产品的研究人员和从业者提供了指导。
May, 2022
本文介绍了机器学习在现实世界应用中的重要性,探讨了 MLOps(机器学习运营)的兴起及其在解决模型部署和性能监控等挑战方面的重要性。通过回顾 MLOps 的演变和其与传统软件开发方法的关系,论文提出了将该系统与机器学习相结合以解决现有 MLOps 面临的问题并提高生产力的方法。本文重点关注自动化模型训练的重要性,以及通过版本控制系统确保训练过程的透明性和可重复性的方法。此外,还讨论了将机器学习组件集成到传统 CI/CD 流水线中面临的挑战,并提出了版本环境和容器化等解决方案。最后,论文强调了模型部署后持续监控和反馈循环的重要性,以保持模型的性能和可靠性。本文运用 Netflix 的案例研究和最佳实践,提出了成功实施 MLOps 实践的关键策略和经验教训,并为其他组织构建和优化自己的 MLOps 实践提供了有价值的参考。
May, 2024
该研究详细介绍了 MLOps,它的好处,困难,演变以及重要的底层技术,如 MLOps 框架,Docker,GitHub 动作和 Kubernetes。该文章还侧重于使用各种成熟度水平的自动化管道的 ML 项目的端到端生产。它提供了一个企业级 MLOps 项目的详细示例,以解释技术在实际场景中的工作流程。
May, 2023
我们提出了一个适用于机器学习应用程序的过程模型,该模型涵盖从定义范围到维护部署的机器学习应用程序的六个阶段,其中每个阶段都包括适合解决风险挑战的质量保障方法,是一个具有普适性和稳定性的质量保障技术任务的行业和应用程序中性过程模型,该模型扩展了数据挖掘过程模型 CRISP-DM,但缺乏解决机器学习特定任务的能力。
Mar, 2020