数据管道培训:集成 AutoML 以优化机器学习模型的数据流
现代人工智能(AI)的方法旨在设计可以直接从数据中学习的算法,本文综述了深度学习流程中自动化数据处理任务的方法,包括数据预处理、数据增强和特征工程,并讨论了自动机器学习方法和工具在整个机器学习流程中的优化应用。
Mar, 2024
STREAMLINE 是一个简单、透明、端到端的自动化机器学习 (pipeline),旨在比较数据集、机器学习算法和其他 AutoML 工具的性能,在数据处理、模型比较方面提供一个全面和一致的基准。
Jun, 2022
本研究旨在针对数据漂移自动设计在线学习的管道,将在线学习器的固有适应能力与自动化管道的快速优化能力结合起来,我们基于异步遗传编程和异步连续缩减思路优化管道,实验证明了 OAML 系统在数据漂移情况下相比流行的在线学习算法具有更好的性能和适应能力,连续管道重新设计在处理数据漂移问题时效果显著。
Jan, 2022
本文介绍了自动化机器学习技术(AutoML)的研究现状,重点评估了多种 AutoML 工具在不同数据集、不同数据段上的表现和优缺点。
Aug, 2019
本研究的主要目标是了解数据流挑战(例如概念漂移)对自动化机器学习(AutoML)方法的性能产生的影响,并评估 6 种概念漂移适应策略在不同 AutoML 方法上的有效性。该研究在现实世界和合成数据流上进行了实证评估,提出方法来开发更复杂和更健壮的 AutoML 技术,包括贝叶斯优化、遗传编程和随机搜索自动堆叠等方法。
Jun, 2020
本文介绍了机器学习在现实世界应用中的重要性,探讨了 MLOps(机器学习运营)的兴起及其在解决模型部署和性能监控等挑战方面的重要性。通过回顾 MLOps 的演变和其与传统软件开发方法的关系,论文提出了将该系统与机器学习相结合以解决现有 MLOps 面临的问题并提高生产力的方法。本文重点关注自动化模型训练的重要性,以及通过版本控制系统确保训练过程的透明性和可重复性的方法。此外,还讨论了将机器学习组件集成到传统 CI/CD 流水线中面临的挑战,并提出了版本环境和容器化等解决方案。最后,论文强调了模型部署后持续监控和反馈循环的重要性,以保持模型的性能和可靠性。本文运用 Netflix 的案例研究和最佳实践,提出了成功实施 MLOps 实践的关键策略和经验教训,并为其他组织构建和优化自己的 MLOps 实践提供了有价值的参考。
May, 2024
本文介绍了一种基于 AutoML 框架的 eTOP 框架,该框架可以决定在执行到 Pipeline 中的哪个步骤时停止计算以加快训练时间,该框架同时还减少了与 MLBox4 结合使用时的计算资源消耗。
Apr, 2023
本文提出一种新的神经架构,将 Machine Learning pipeline 的组件嵌入到潜在表示中,通过 Bayesian Optimization 机制中的深度内核高斯过程模型在 meta-datasets 上搜索优化最优的 pipeline 嵌入,实验结果表明 pipeline 嵌入可以在 Pipeline Optimization 中取得最优结果。
May, 2023
本文总结了现有开源的 AutoML 工具的最新进展,并将它们应用于数据流挖掘的领域。通过比较,结果表明现成的 AutoML 工具可以提供令人满意的结果,但在出现概念飘移时,必须应用检测或适应技术以维持预测准确性。
Jun, 2021