May, 2024

自动化 MLOps 代码适应:关于 LLMs 的基准研究

TL;DR本文探讨了当前一代大型语言模型在将 MLOps 功能整合到 ML 训练代码库中的可能性,并评估了 OpenAI(gpt-3.5-turbo)和 WizardCoder(开源,150 亿参数)模型在不同设置下自动完成各种 MLOps 功能的性能。我们进行了基准测试,评估了这些模型在以下方面的能力:(1)使用特定组件的 MLOps 功能(如 MLflow 和 Weights&Biases 进行实验跟踪,Optuna 进行超参数优化等)来适应现有的代码示例(内联);(2)执行从 MLOps 功能的一个组件到另一个组件的翻译任务,例如将现有的基于 GitPython 库的版本控制代码转换为基于 Data Version Control 库的代码。我们还提出三种不同的方法,教导 LLM 在执行翻译任务时理解组件的 API 文档作为参考。在我们的评估中,gpt-3.5-turbo 模型在模型优化(Pass@3 准确率为 55%,而 WizardCoder 为 0%)、实验跟踪(准确率为 100%,而 WizardCoder 为 62.5%)、模型注册(准确率为 92%,而 WizardCoder 为 42%)和超参数优化(准确率为 83%,而 WizardCoder 为 58%)方面明显优于 WizardCoder,在复杂的 MLOps 任务中展现了出色的代码适应性能。