JetTrain:IDE原生的机器学习实验
该研究通过访谈28个组织中45位从业人员发现,在建立和部署机器学习系统时,团队在需求、数据和整合等方面都面临一些具体的协作挑战,主要来源于沟通、文档记录、工程和流程等方面,因此提出了一些建议以应对这些挑战。
Oct, 2021
我们提出了一个长期实验数据库(LDE),可以自动提取和存储实验相关的元数据,并提供重新生成这些元数据的功能,还可以进行元学习。LDE具有标准化的存储方式,利于查询和聚合数据,并提高元学习的性能表现。
Feb, 2022
研究指出,现有的机器学习开发环境和 API 缺乏足够的指导及软件工程最佳实践,需要在专门开发的机器学习应用程序开发方面扩展和适应软件工程概念、工具和技术,并为机器学习特定的软件工程提供充足的研究机会。
Mar, 2022
深度学习软件工程(SE4DL)是在深度学习软件上应用软件工程(SE)实践的一个新领域,本研究调查了在应用DL项目中采用的常规SE工具和MLOps工具的使用情况,并发现常规SE工具的使用比MLOps工具更为普遍,进一步的研究推荐关注开源项目对MLOps工具的采用情况以及如何促进已有工具的使用。
Oct, 2023
这项系统文献综述研究了MDE和机器学习(MDE4ML)交叉领域,分析了现有的研究动机、MDE解决方案、评估技术、关键优势和局限性,并提供了未来研究的建议。
Nov, 2023
通过使用开源库完成机器学习任务,本文旨在提出一种新的评估设置,以评估大型语言模型(LLMs)在实际编程中的适用性,并介绍了ML-Bench和ML-Agent两个工具,用于评估LLMs在利用开源函数时的有效性。
Nov, 2023
通过对高性能计算系统中机器学习应用的I/O进行研究,本文在2019年至2024年的6年时间窗口内,概述了机器学习的常见阶段,评估了可用的分析工具和基准测试,探讨了机器学习训练过程中遇到的I/O模式,研究了现代机器学习框架中使用的I/O优化方法并提出了未来的研究方向和需要进一步探索的问题。
Apr, 2024
本文探讨了当前一代大型语言模型在将 MLOps 功能整合到 ML 训练代码库中的可能性,并评估了 OpenAI(gpt-3.5-turbo)和 WizardCoder(开源,150亿参数)模型在不同设置下自动完成各种 MLOps 功能的性能。我们进行了基准测试,评估了这些模型在以下方面的能力:(1)使用特定组件的 MLOps 功能(如 MLflow 和 Weights&Biases 进行实验跟踪,Optuna 进行超参数优化等)来适应现有的代码示例(内联);(2)执行从 MLOps 功能的一个组件到另一个组件的翻译任务,例如将现有的基于 GitPython 库的版本控制代码转换为基于 Data Version Control 库的代码。我们还提出三种不同的方法,教导 LLM 在执行翻译任务时理解组件的 API 文档作为参考。在我们的评估中,gpt-3.5-turbo 模型在模型优化(Pass@3 准确率为 55%,而 WizardCoder 为 0%)、实验跟踪(准确率为 100%,而 WizardCoder 为 62.5%)、模型注册(准确率为 92%,而 WizardCoder 为 42%)和超参数优化(准确率为 83%,而 WizardCoder 为 58%)方面明显优于 WizardCoder,在复杂的 MLOps 任务中展现了出色的代码适应性能。
May, 2024
本研究解决了目前对机器学习(ML)驱动的软件系统特征了解不足的问题。通过对2928个开源系统的分类与分析,提出了一种新的研究思路,揭示了ML模型的嵌入与集成实践。研究结果为从业者和研究人员提供了重要见解,促进数据科学与软件工程的结合。
Aug, 2024