OctoPack：指令优化大型语言模型代码

Aug, 2023

OctoPack：指令优化大型语言模型代码

OctoPack: Instruction Tuning Code Large Language Models

Niklas Muennighoff, Qian Liu, Armel Zebaze, Qinkai Zheng, Binyuan Hui...

TL;DR通过对指令进行细调，利用代码进行指令调整，以提升大型语言模型（LLMs）在自然语言任务中的性能表现，并在 Git 提交中利用人类指令的自然结构进行指令调整，实现了在 16B 参数 StarCoder 模型上超过其他自然和合成代码指令（xP3x，自我指导，OASST）的最新性能，即在 HumanEval Python 基准测试中达到 46.2％的一次通过率。

Abstract

finetuning large language models (LLMs) on instructions leads to vast performance improvements on natural language tasks. We apply instruction tu

finetuning language models instruction tuning git commits code instructions

发现论文，激发创造

WizardCoder：用 Evol-Instruct 使大型语言模型掌握编程技能

本文介绍了 WizardCoder，它利用 Evol-Instruct 方法将复杂的指令微调应用于代码领域，通过对四个主要的代码生成基准进行全面实验，揭示了该模型的出色能力，并超越了所有其他开源 Code LLMs，甚至在 HumanEval 和 HumanEval + 上表现出秀。

Jun, 2023

InstructCoder：赋予语言模型在代码编辑中的能力

本研究使用大型语言模型（LLMs）和 InstructCoder 数据集，探索用户指令下的代码编辑，涵盖评论插入、代码优化和代码重构等多个隐含任务。实验证明，在 InstructCoder 数据集上对开源 LLMs 进行精细调整，能够大多数情况下正确地编辑代码，展现了前所未有的代码编辑性能水平。

Oct, 2023

对基于代码训练的大型语言模型的评估

本文介绍了从 GitHub 公开可用的代码细调的 Codex 语言模型，并研究了其 Python 代码编写能力。在新的评估集 HumanEval 上，我们的模型可解决 28.8% 的问题，并发现重复采样模型是解决难题的有效策略。但我们也发现其局限性，最终讨论了代码生成技术的潜在影响。

Jul, 2021

大型语言模型是否能编辑？评估其按照编程编辑指令的能力

通过一个仔细设计的代码编辑任务基准以及结合自然语言指令的训练集，我们评估了几个最先进的大型语言模型，并揭示了现有开源和闭源模型之间的显著差距。同时，我们展示了通过精细调优开源代码语言模型可以显著提高其代码编辑能力。

Dec, 2023

LLaMoCo：大型语言模型的指令调优用于代码生成

使用 LLM（大型语言模型）进行优化的最新研究使用迭代地从 LLM 中寻找下一步解决方案或直接提示 LLM 进行优化。然而，这些方法存在固有的局限性，包括低操作效率、对提示设计的高敏感性和缺乏领域特定知识。我们介绍了 LLaMoCo，这是一种第一个被设计为在代码级别上调整 LLM 以解决优化问题的指令调整框架。具体地，我们建立了一个包含明确定义的问题提示和有效优化代码的全面指令集。然后，我们开发了一种新颖的两阶段学习策略，在指令调整阶段之前，通过对比学习为模型的微调过程提供了一个热身过程，以增强其收敛行为。实验证明，通过我们的 LLaMoCo 进行精细调整的 CodeGen（350M）模型在合成和真实问题集上都实现了优于 GPT-4 Turbo 和其他竞争对手的优化性能。精细调整的模型和使用说明可在此 URL 中获得。

Mar, 2024

大型语言模型用于编译器优化

我们探索了将大型语言模型应用于代码优化。我们提出了一个从头开始训练的 7B 参数的变换器模型，用于优化 LLVM 汇编的代码大小。该模型以未优化的汇编作为输入，并输出一系列最佳优化程序的编译器选项。在训练过程中，重要的是我们要求模型预测优化前后的指令计数和优化后的代码本身。这些辅助学习任务显著提高了模型的优化性能，并增强了模型的理解深度。我们在大量的测试程序上进行评估。我们的方法在减少指令计数方面比编译器的效果提高了 3.0%，超过了需要数千次编译的两个最先进的基线。此外，该模型显示出令人惊讶的强大代码推理能力，91% 的代码可编译，70% 的时间能完美模拟编译器的输出。

Sep, 2023

PanGu-Coder2: 通过排名反馈提升代码的大规模语言模型

通过 RRTF (Rank Responses to align Test&Teacher Feedback) 框架，我们提出了 PanGu-Coder2，它在 OpenAI HumanEval 基准测试中实现了 62.20% 的 pass@1，并通过对 CoderEval 和 LeetCode 基准测试的广泛评估显示，PanGu-Coder2 始终优于所有之前的 Code LLMs。

Jul, 2023

CodeT5+: 用于代码理解和生成的开源大型语言模型

提出了一种名为 CodeT5 + 的编译器 - 解码器语言模型，具有灵活的组件模块和多样化的预训练任务，能够在不同的代码相关基准测试中取得最先进的结果，特别是在针对人类评估的代码生成任务中。

May, 2023

学习性能提高的代码修改

本文探讨了大型语言模型对编写和重构性能更好的代码方面的能力，通过收集大量的程序优化历程以评估和提高大型语言模型的能力，并使用优化器 CODEGEN 推出性能更好的代码以帮助程序员编写有效的代码。

Feb, 2023

SemCoder：使用全面语义训练代码语言模型

该论文提出了一种新的策略，通过连接静态代码文本和动态执行状态，训练具有全面语义的 Code LLMs，从而填补 Code LLMs 在诸如调试和程序修复等复杂任务中对深层语义的依赖的差距。该方法通过收集 PyX，一个具有可执行样本、功能描述和执行跟踪的干净代码语料库，训练 Code LLMs 使用自然语言编写代码、表示和推理执行行为，从而开发出了仅有 67 亿参数的 SemCoder，该模型在代码生成和执行推理任务上与 GPT-3.5-turbo 表现相当。

Jun, 2024