托管的地理分布式特征存储:架构和系统设计
本研究针对数字化能源基础设施,通过机器学习模型支持新的数据应用,提出了一种适用于能源应用的数据模型设计,并进行了性能测试比较,结果表明更丰富的数据模型能提升模型性能。
May, 2022
该论文介绍了一种名为 GDML 的新型学习问题,旨在解决全球分布式数据的学习问题,提出了一种新的方法进行地理分布式培训,可同时应对法规制约和隐私等问题,并在三个真实数据集上进行了实证评估。
Mar, 2016
本文探究了基于地理和用户移动性的机器学习特征在商业成功中的预测能力, 并通过采集自 Foursquare 的数据集在纽约城市中研究了不同商业连锁店的普及程度,揭示了商业的成功与多个因素有关。
Jun, 2013
该研究详细介绍了 MLOps,它的好处,困难,演变以及重要的底层技术,如 MLOps 框架,Docker,GitHub 动作和 Kubernetes。该文章还侧重于使用各种成熟度水平的自动化管道的 ML 项目的端到端生产。它提供了一个企业级 MLOps 项目的详细示例,以解释技术在实际场景中的工作流程。
May, 2023
机器学习在工业部门中成为了一个流行工具,用于提升运营效率、增加效能和降低成本。然而,在生产环境中部署和管理机器学习模型可能十分复杂,因此机器学习运维 (MLOps) 的出现旨在简化这个过程。我们开发了一种新型的 MLOps 软件架构,以解决将解释和反馈功能整合到机器学习开发和部署过程中的挑战,并在工业应用案例中实施。该软件架构提供了高效管理生产环境中机器学习模型的方式,同时允许将解释整合到开发和部署过程中。
Sep, 2023
通过两个实例,本文旨在阐明开发适用于应用的机器学习模型的挑战,强调了通过自适应采样、物理学知识导向的特征选择以及考虑模型复杂性和泛化能力来实施严格的模型验证技术的重要性。
Apr, 2024
运用 DevOps 实践于机器学习系统,被称为 MLOps,其目的是建立不同开源工具之间的连接,构建一个能自动执行步骤来构建数据集、训练机器学习模型并将模型部署到生产环境的流水线,并存储不同版本的模型和数据集。本文提出了一个基于上下文信息(例如数据性质、数据类型)的推荐系统框架,用于为机器学习系统的操作化推荐相关的技术栈,通过对四种不同方法的调查,即基于规则的、随机森林、决策树和 K 最近邻,以准确率、召回率和 F1 分数进行评估,其中随机森林的 F1 分数最高,为 0.66。
Feb, 2024
本文旨在通过文献综述、工具综述以及专家访谈的研究方法,提供了机器学习运营的定义、必要原则、部件及角色,及其架构和工作流程的综合概述,并强调了该领域的开放性挑战,为想要用指定的技术来自动化和操作他们的机器学习产品的研究人员和从业者提供了指导。
May, 2022
本文介绍了基于能力的框架,旨在使用机器学习模型行为的细粒度规范来统一现有的机器学习工程支持,并通过初步实验展示了能力对于反映模型通用性的潜力以及将其整合到机器学习工程的挑战和机遇。
Nov, 2022
本文介绍了机器学习在现实世界应用中的重要性,探讨了 MLOps(机器学习运营)的兴起及其在解决模型部署和性能监控等挑战方面的重要性。通过回顾 MLOps 的演变和其与传统软件开发方法的关系,论文提出了将该系统与机器学习相结合以解决现有 MLOps 面临的问题并提高生产力的方法。本文重点关注自动化模型训练的重要性,以及通过版本控制系统确保训练过程的透明性和可重复性的方法。此外,还讨论了将机器学习组件集成到传统 CI/CD 流水线中面临的挑战,并提出了版本环境和容器化等解决方案。最后,论文强调了模型部署后持续监控和反馈循环的重要性,以保持模型的性能和可靠性。本文运用 Netflix 的案例研究和最佳实践,提出了成功实施 MLOps 实践的关键策略和经验教训,并为其他组织构建和优化自己的 MLOps 实践提供了有价值的参考。
May, 2024