VeML：大规模高维数据的端到端机器学习生命周期

Apr, 2023

VeML：大规模高维数据的端到端机器学习生命周期

VeML: An End-to-End Machine Learning Lifecycle for Large-scale and High-dimensional Data

Van-Duc Le

TL;DR本文介绍了一个专门针对端到端机器学习生命周期的版本管理系统VeML，其中通过核心集算法来解决大规模高维度数据的生命周期构建高成本的问题，同时也能检测训练数据和测试数据之间的不匹配导致的模型准确度下降，而无需使用标记数据来重新构建生命周期。作者在真实的大规模数据集上进行了实验并显示了良好的结果。

Abstract

An end-to-end machine learning (ML) lifecycle consists of many iterative processes, from data preparation and ML model design to model training and then deploying the trained model for inference. When building an

发现论文，激发创造

自动机器学习的综合框架

这篇综述旨在推广对自动化/自主机器学习系统的更广阔视角，并探讨整合各种机制和理论框架的最佳方式。主要介绍超参数优化、多组件模型、神经架构搜索、自动特征工程、元学习、多层集成、动态自适应、多目标评估、资源限制、灵活的用户参与和泛化原则的发展。最终得出结论，建立自动化机器学习系统的架构整合是一个值得更深入探讨的重要问题。

Dec, 2020

自动分量提升：可解释性自动机器学习系统

提出了一种AutoML系统，其构建了可解释的加法模型，使用高度可扩展的分量提升算法进行拟合，提供了易于模型解释的工具，并且在预测性能上与其他基于AutoML比较系统相媲美，更易于使用和透明。

Sep, 2021

SapientML: 通过从人类编写的解决方案中学习来综合机器学习流水线

本文提出了一种名为SapientML的自动机器学习技术，通过从现有数据集中学习人类编写的管道，实现针对新数据集的高质量管道的快速生成，采用了一种三阶段程序合成方法来进行搜索空间的有效管理。评估结果表明，在41个基准数据集中，SapientML在27个基准数据集上的表现最佳或与最佳工具相当。

Feb, 2022

以数据为导向架构视角的实际机器学习系统调查

本文主要讨论了在现实生活中，应用机器学习的算法所面临的各种挑战，提出了数据导向架构（DOA）作为一种解决方案，探讨了现有的基于机器学习的实际系统是否实现了DOA的原则，并提出了DOA进一步发展的研究方向和挑战。

Feb, 2023

MLCopilot: 大型语言模型在解决机器学习任务中的应用

本文介绍了一种利用LLMs自动学习生成机器学习解决方案的框架MLCopilot，旨在将机器智能与人类知识相结合来提高解决新任务的能力，生成的解决方案可以直接应用于实际环境中。

Apr, 2023

机器学习模型的经济高效再培训

优化机器学习模型重新训练的成本，通过考虑数据、模型和预测查询等多种因素，提出了一种成本感知的重新训练算法Cara，该算法能适应不同的数据变化并在总成本更低的情况下实现比漂移检测基线更好的准确性。

Oct, 2023

机器学习驱动的软件系统中模型集成的大规模研究

本研究解决了目前对机器学习（ML）驱动的软件系统特征了解不足的问题。通过对2928个开源系统的分类与分析，提出了一种新的研究思路，揭示了ML模型的嵌入与集成实践。研究结果为从业者和研究人员提供了重要见解，促进数据科学与软件工程的结合。

Aug, 2024

大规模语言模型及其他中的模型合并：方法、理论、应用与机会

本研究针对机器学习领域模型合并技术的系统审视，填补了现有文献的空白。提出了一种新的分类方法，全面讨论现有的模型合并方法，并探讨其在大规模语言模型、多模态大规模语言模型及多个机器学习子领域中的应用。研究的主要发现是模型合并仍面临挑战，并提供了未来研究方向的建议。

Aug, 2024

大规模语言模型及其他领域中的模型合并：方法、理论、应用与机遇

本研究针对文献中缺乏系统性综述模型合并技术的问题，提出了一种新的分类方法，以全面探讨现有的模型合并方法。此外，研究还讨论了模型合并技术在大规模语言模型和多模态大规模语言模型等多个机器学习子领域的应用。研究的重要发现是提出的模型合并方法可以为未来的研究方向奠定基础，具有广泛的应用潜力。

Aug, 2024

大模型中的模型合并：方法、理论、应用与机遇

本研究针对当前文献中缺乏系统的模型合并方法综述这一问题，提出了一种新的分类方法来全面讨论现有的模型合并技术。研究结果指出，模型合并在大型语言模型和多模态语言模型等多个领域中具有广泛的应用潜力，同时也面临若干挑战，亟需未来研究探索。

Aug, 2024