比较 Llama-2 和 GPT-3 LLMs 用于 HPC 内核生成
本文通过使用 AI 辅助生成能力和 GitHub Copilot 生成的不同语言(C++,Fortran,Python 和 Julia)的高性能计算的基本数值内核代码,提出了一种衡量模型和编程模型之间关系的 “熟练度度量标准”,研究结果显示 OpenAI Codex 的输出与编程模型的使用和发展成熟度相关。
Jun, 2023
OMPGPT 是一个新型的、精心设计的模型,旨在利用语言模型的先天优势进行 OpenMP 预定义指令生成,同时采用 NLP 领域的提示工程技术,通过链式 OMP 提升其效果。在广泛的评估中,我们发现 OMPGPT 在 OpenMP 任务中胜过现有的大型语言模型,并且体积明显更小,更加符合 HPC 环境的硬件限制。我们认为 OMPGPT 是一座重要的桥梁,连接了语言模型的优势与 HPC 任务的特定需求。OMPGPT 的成功为计算效率和效果提供了可靠的基础,并且表明其潜在的适用性和可调整性可以延伸到更广泛的 HPC 任务范畴,从而在计算效率和效果领域开辟了新的道路。
Jan, 2024
本文对大型语言模型(LLMs)进行了全面的代码文档生成比较分析,评估了 GPT-3.5、GPT-4、Bard、Llama2 和 Starchat 等模型在准确度、完整性、相关性、可理解性、可读性和代码文档不同级别生成所花费的时间等参数上的表现。除了 Starchat 以外的所有 LLMs 一致优于原始文档,值得注意的是,闭源模型 GPT-3.5、GPT-4 和 Bard 在各个参数上相比开源 / 源代码可用的 LLMs(包括 LLama 2 和 StarChat)表现更好。就生成时间而言,GPT-4 的持续时间最长,其次是 Llama2、Bard,ChatGPT 和 Starchat 的生成时间相当,此外,文件级别文档在所有参数(时间除外)上表现明显较差,相比内联和函数级别文档。
Dec, 2023
该论文通过比较分析两种先进的大型语言模型(GPT-4.0 和 CodeLlama-70B)与传统优化编译器在代码优化方面的能力和局限性,以及引入了一套挑战性的优化模式基准和用于评估生成代码性能和正确性的自动机制,发现虽然大型语言模型有超越当前优化编译器的潜力,但在大型代码上常常生成不正确的代码,需要自动化验证方法,其中 CodeLlama-70B 在两种大型语言模型中表现最佳,最大加速能达到 2.1 倍,而 CETUS 在优化编译器中表现最佳,最大加速能达到 1.9 倍。同时,两种提示方法(思考链和指令提示)没有显著差异。
Jun, 2024
该研究评估了 GitHub Copilot 在 OpenAPI 完成度方面的性能,并提出了一组针对任务的特定优化,利用了 Meta 的开源模型 Code Llama。该研究还提出了一种语义感知的 OpenAPI 完成度基准方法,并通过一系列实验分析了各种提示工程和微调技术对 Code Llama 模型性能的影响。经过微调的 Code Llama 模型在参数数量比商业解决方案 Codex 模型的基础下少 25 倍的情况下,将正确性改进达到了 55.2% 的峰值。此外,该研究还提出了一种改进的代码插入训练技术,解决了模型在提示上下文大小小于训练时使用的大小时性能不佳的问题。
May, 2024
大型语言模型 (Large Language Models,LLMs) 被广泛应用于各种应用中,代码生成作为一个显著例子。本文聚焦于确定和理解在真实场景中,LLMs 可有效且安全地用于生成高质量代码的条件和环境。通过对四个先进的 LLMs (GPT-3.5 和 GPT-4,ChatGPT,Bard 和 Gemini) 进行比较分析,使用 9 个不同任务评估每个模型的代码生成能力。我们将研究情境化,以代表日常工作中开发人员使用 LLMs 执行常见任务的典型用例。此外,我们强调安全意识,通过使用我们的开发者角色的两个不同版本来表示。总共我们收集了 61 个代码输出并分析了其功能性、安全性、性能、复杂性和可靠性等方面。这些洞见对于理解模型的能力和限制非常重要,并指导未来在自动化代码生成领域的开发和实际应用。
Feb, 2024
提出基于 HPC 领域的 LLaMA 模型 HPC-GPT,通过生成的 QA 实例进行细粒度调整,提升 LLM 在高性能计算任务中的性能表现。通过在 AI 模型、数据集管理以及数据竞争检测等 HPC 任务中使用 HPC-GPT,得到与现有方法相媲美的结果,展示其在 HPC 相关场景下的优秀性能。实验结果表明 HPC-GPT 潜力巨大,能够弥合 LLM 和 HPC 特定任务之间的性能差距,为复杂计算应用中的语言模型的使用铺平道路。
Oct, 2023
研究 ChatGPT 3.5 模型在编写代码方面的能力,评估其在 10 种编程语言和 4 个软件领域中生成代码片段的熟练程度,并发现了模型的主要意外行为和限制,旨在寻找发展的潜在领域,并检查自动生成代码对编程语言和技术行业发展的影响。
Aug, 2023
利用 Large Language Models(LLMs)提高开发人员在开发环境(IDEs)中的生产力是现代软件开发的重点。本文介绍了 Copilot 评估工具,用于评估 LLM 引导的 IDE 交互,在不同编程场景和语言中提供了更稳健和信息丰富的评估指标。通过这些指标,我们评估了三种常见 LLMs 的性能,为未来的 LLM 引导 IDE 场景的开发和验证提供了经验教训。
Feb, 2024
本文探讨了当前一代大型语言模型在将 MLOps 功能整合到 ML 训练代码库中的可能性,并评估了 OpenAI(gpt-3.5-turbo)和 WizardCoder(开源,150 亿参数)模型在不同设置下自动完成各种 MLOps 功能的性能。我们进行了基准测试,评估了这些模型在以下方面的能力:(1)使用特定组件的 MLOps 功能(如 MLflow 和 Weights&Biases 进行实验跟踪,Optuna 进行超参数优化等)来适应现有的代码示例(内联);(2)执行从 MLOps 功能的一个组件到另一个组件的翻译任务,例如将现有的基于 GitPython 库的版本控制代码转换为基于 Data Version Control 库的代码。我们还提出三种不同的方法,教导 LLM 在执行翻译任务时理解组件的 API 文档作为参考。在我们的评估中,gpt-3.5-turbo 模型在模型优化(Pass@3 准确率为 55%,而 WizardCoder 为 0%)、实验跟踪(准确率为 100%,而 WizardCoder 为 62.5%)、模型注册(准确率为 92%,而 WizardCoder 为 42%)和超参数优化(准确率为 83%,而 WizardCoder 为 58%)方面明显优于 WizardCoder,在复杂的 MLOps 任务中展现了出色的代码适应性能。
May, 2024