数据管道培训：集成 AutoML 以优化机器学习模型的数据流

Feb, 2024

数据管道培训：集成 AutoML 以优化机器学习模型的数据流

Data Pipeline Training: Integrating AutoML to Optimize the Data Flow of Machine Learning Models

Jiang Wu, Hongbo Wang, Chunhe Ni, Chenwei Zhang, Wenran Lu

TL;DR通过整合 AutoML 与数据管道，优化数据流的自动化机器学习方法并构建高效的数据管道以适应不断变化的数据环境，从而在机器学习任务中取得更好的结果。

Abstract

Data Pipeline plays an indispensable role in tasks such as modeling machine learning and developing data products. With the increasing diversification and complexity of Data sources, as well as the rapid growth of data volumes, building an efficient Data Pipeline has become crucial for improving work efficiency and solving complex problems. This paper focuse

data pipeline training automl data environment machine learning

发现论文，激发创造

深度学习和大数据应用的自动数据处理和特征工程：一项调研

现代人工智能（AI）的方法旨在设计可以直接从数据中学习的算法，本文综述了深度学习流程中自动化数据处理任务的方法，包括数据预处理、数据增强和特征工程，并讨论了自动机器学习方法和工具在整个机器学习流程中的优化应用。

Mar, 2024

STREAMLINE: 一个简单、透明、端到端自动化机器学习管道，促进数据分析和算法比较

STREAMLINE 是一个简单、透明、端到端的自动化机器学习 (pipeline)，旨在比较数据集、机器学习算法和其他 AutoML 工具的性能，在数据处理、模型比较方面提供一个全面和一致的基准。

Jun, 2022

通过基于树的管道优化自动化生物医学数据科学

介绍了基于树形管道优化的自动化机器学习流程设计的概念，并通过实验验证了其有效性和实用性，具有挑战性和实用性的研究。

Jan, 2016

在线自动机器学习：一种适用于在线学习的自适应自动机器学习框架

本研究旨在针对数据漂移自动设计在线学习的管道，将在线学习器的固有适应能力与自动化管道的快速优化能力结合起来，我们基于异步遗传编程和异步连续缩减思路优化管道，实验证明了 OAML 系统在数据漂移情况下相比流行的在线学习算法具有更好的性能和适应能力，连续管道重新设计在处理数据漂移问题时效果显著。

Jan, 2022

自动机器学习：AutoML 方法和工具的评估和比较

本文介绍了自动化机器学习技术（AutoML）的研究现状，重点评估了多种 AutoML 工具在不同数据集、不同数据段上的表现和优缺点。

Aug, 2019

应对数据演化的自动化机器学习的适应策略

本研究的主要目标是了解数据流挑战（例如概念漂移）对自动化机器学习（AutoML）方法的性能产生的影响，并评估 6 种概念漂移适应策略在不同 AutoML 方法上的有效性。该研究在现实世界和合成数据流上进行了实证评估，提出方法来开发更复杂和更健壮的 AutoML 技术，包括贝叶斯优化、遗传编程和随机搜索自动堆叠等方法。

Jun, 2020

通过将系统与机器学习集成，自动化 MLOps 中的模型训练和部署

本文介绍了机器学习在现实世界应用中的重要性，探讨了 MLOps（机器学习运营）的兴起及其在解决模型部署和性能监控等挑战方面的重要性。通过回顾 MLOps 的演变和其与传统软件开发方法的关系，论文提出了将该系统与机器学习相结合以解决现有 MLOps 面临的问题并提高生产力的方法。本文重点关注自动化模型训练的重要性，以及通过版本控制系统确保训练过程的透明性和可重复性的方法。此外，还讨论了将机器学习组件集成到传统 CI/CD 流水线中面临的挑战，并提出了版本环境和容器化等解决方案。最后，论文强调了模型部署后持续监控和反馈循环的重要性，以保持模型的性能和可靠性。本文运用 Netflix 的案例研究和最佳实践，提出了成功实施 MLOps 实践的关键策略和经验教训，并为其他组织构建和优化自己的 MLOps 实践提供了有价值的参考。

May, 2024

eTOP: 用于 AutoML 系统快速训练的管道提前终止技术

本文介绍了一种基于 AutoML 框架的 eTOP 框架，该框架可以决定在执行到 Pipeline 中的哪个步骤时停止计算以加快训练时间，该框架同时还减少了与 MLBox4 结合使用时的计算资源消耗。

Apr, 2023

AutoML 的深度管道嵌入

本文提出一种新的神经架构，将 Machine Learning pipeline 的组件嵌入到潜在表示中，通过 Bayesian Optimization 机制中的深度内核高斯过程模型在 meta-datasets 上搜索优化最优的 pipeline 嵌入，实验结果表明 pipeline 嵌入可以在 Pipeline Optimization 中取得最优结果。

May, 2023

数据流的自动机器学习技术

本文总结了现有开源的 AutoML 工具的最新进展，并将它们应用于数据流挖掘的领域。通过比较，结果表明现成的 AutoML 工具可以提供令人满意的结果，但在出现概念飘移时，必须应用检测或适应技术以维持预测准确性。

Jun, 2021