自动化 MLOps 代码适应：关于 LLMs 的基准研究

May, 2024

自动化 MLOps 代码适应：关于 LLMs 的基准研究

Automating Code Adaptation for MLOps -- A Benchmarking Study on LLMs

Harsh Patel, Buvaneswari A. Ramanan, Manzoor A. Khan, Thomas Williams, Brian Friedman...

TL;DR本文探讨了当前一代大型语言模型在将 MLOps 功能整合到 ML 训练代码库中的可能性，并评估了 OpenAI（gpt-3.5-turbo）和 WizardCoder（开源，150 亿参数）模型在不同设置下自动完成各种 MLOps 功能的性能。我们进行了基准测试，评估了这些模型在以下方面的能力：（1）使用特定组件的 MLOps 功能（如 MLflow 和 Weights＆Biases 进行实验跟踪，Optuna 进行超参数优化等）来适应现有的代码示例（内联）；（2）执行从 MLOps 功能的一个组件到另一个组件的翻译任务，例如将现有的基于 GitPython 库的版本控制代码转换为基于 Data Version Control 库的代码。我们还提出三种不同的方法，教导 LLM 在执行翻译任务时理解组件的 API 文档作为参考。在我们的评估中，gpt-3.5-turbo 模型在模型优化（Pass@3 准确率为 55%，而 WizardCoder 为 0%）、实验跟踪（准确率为 100%，而 WizardCoder 为 62.5%）、模型注册（准确率为 92%，而 WizardCoder 为 42%）和超参数优化（准确率为 83%，而 WizardCoder 为 58%）方面明显优于 WizardCoder，在复杂的 MLOps 任务中展现了出色的代码适应性能。

Abstract

This paper explores the possibilities of the current generation of Large Language Models for incorporating Machine Learning Operations (mlops) functionalities into ML training code bases. We evaluate the performance of OpenAI (gpt-3.5-turbo) and WizardCoder (open-source, 15B parameters

large language models mlops performance evaluation api documentation code adaptability

发现论文，激发创造

ML-Bench：大型语言模型基于开源库进行机器学习任务

通过使用开源库完成机器学习任务，本文旨在提出一种新的评估设置，以评估大型语言模型（LLMs）在实际编程中的适用性，并介绍了 ML-Bench 和 ML-Agent 两个工具，用于评估 LLMs 在利用开源函数时的有效性。

Nov, 2023

使用 ChatGPT 3.5 进行代码生成的十种编程语言的比较研究

研究 ChatGPT 3.5 模型在编写代码方面的能力，评估其在 10 种编程语言和 4 个软件领域中生成代码片段的熟练程度，并发现了模型的主要意外行为和限制，旨在寻找发展的潜在领域，并检查自动生成代码对编程语言和技术行业发展的影响。

Aug, 2023

探索大型语言模型在解决编程问题中的鲁棒性

该研究探讨了大型语言模型在编程问题中的应用，发现最新技术如 InstructGPT 和 ChatGPT 在处理指令时表现优异，而早期使用变量名如 Codex 的模型的性能受描述问题时表浅的指标较大影响。

Jun, 2023

论开源大型语言模型的工具操作能力

研究了在开源 LLM 中通过一定程度的人工监督和对数据进行生成和调整，将其在工具操作方面提升至与已有的闭源 LLM 相竞争的能力，同时设计了一个工具操纵基准进行了实验，结果表明，在大多数情况下，该方法可使其成功率提高至 90％。

May, 2023

偶尔安全性：代码生成助理的比较分析

大型语言模型 (Large Language Models，LLMs) 被广泛应用于各种应用中，代码生成作为一个显著例子。本文聚焦于确定和理解在真实场景中，LLMs 可有效且安全地用于生成高质量代码的条件和环境。通过对四个先进的 LLMs (GPT-3.5 和 GPT-4，ChatGPT，Bard 和 Gemini) 进行比较分析，使用 9 个不同任务评估每个模型的代码生成能力。我们将研究情境化，以代表日常工作中开发人员使用 LLMs 执行常见任务的典型用例。此外，我们强调安全意识，通过使用我们的开发者角色的两个不同版本来表示。总共我们收集了 61 个代码输出并分析了其功能性、安全性、性能、复杂性和可靠性等方面。这些洞见对于理解模型的能力和限制非常重要，并指导未来在自动化代码生成领域的开发和实际应用。

Feb, 2024

AI 对您的代码进行优化吗？对比当前大型语言模型与经典优化编译器的研究

该论文通过比较分析两种先进的大型语言模型（GPT-4.0 和 CodeLlama-70B）与传统优化编译器在代码优化方面的能力和局限性，以及引入了一套挑战性的优化模式基准和用于评估生成代码性能和正确性的自动机制，发现虽然大型语言模型有超越当前优化编译器的潜力，但在大型代码上常常生成不正确的代码，需要自动化验证方法，其中 CodeLlama-70B 在两种大型语言模型中表现最佳，最大加速能达到 2.1 倍，而 CETUS 在优化编译器中表现最佳，最大加速能达到 1.9 倍。同时，两种提示方法（思考链和指令提示）没有显著差异。

Jun, 2024

大型语言模型的编程技能评估

通过比较 OpenAI 的 ChatGPT 和 Google 的 Gemini AI 在其免费版本中生成的编程代码的质量，以一个真实世界的例子和系统的数据集为支撑，本研究批判性地检验了这两种领先的大型语言模型的输出质量。鉴于它们在生成代码方面的显著能力，这方面的聊天机器人能力成为一项特别引人注目的分析领域。此外，编程代码的复杂性常常升级到需要验证的难度，强调了我们研究的重要性。本研究旨在揭示大型语言模型在生成高质量编程代码方面的功效和可靠性，这对软件开发领域和其他领域具有重要意义。

May, 2024

大型语言模型是否能编辑？评估其按照编程编辑指令的能力

通过一个仔细设计的代码编辑任务基准以及结合自然语言指令的训练集，我们评估了几个最先进的大型语言模型，并揭示了现有开源和闭源模型之间的显著差距。同时，我们展示了通过精细调优开源代码语言模型可以显著提高其代码编辑能力。

Dec, 2023

软件渗透测试中使用大型语言模型的初步研究

利用大型语言模型（LLM）构建用于软件渗透测试的人工智能代理，通过反复使用和提示工程来提高模型性能。

Jan, 2024

OMPGPT: 一个用于 OpenMP 的生成预训练 Transformer 模型

OMPGPT 是一个新型的、精心设计的模型，旨在利用语言模型的先天优势进行 OpenMP 预定义指令生成，同时采用 NLP 领域的提示工程技术，通过链式 OMP 提升其效果。在广泛的评估中，我们发现 OMPGPT 在 OpenMP 任务中胜过现有的大型语言模型，并且体积明显更小，更加符合 HPC 环境的硬件限制。我们认为 OMPGPT 是一座重要的桥梁，连接了语言模型的优势与 HPC 任务的特定需求。OMPGPT 的成功为计算效率和效果提供了可靠的基础，并且表明其潜在的适用性和可调整性可以延伸到更广泛的 HPC 任务范畴，从而在计算效率和效果领域开辟了新的道路。

Jan, 2024