LLaMoCo：大型语言模型的指令调优用于代码生成

Mar, 2024

LLaMoCo：大型语言模型的指令调优用于代码生成

LLaMoCo: Instruction Tuning of Large Language Models for Optimization Code Generation

Zeyuan Ma, Hongshu Guo, Jiacheng Chen, Guojun Peng, Zhiguang Cao...

TL;DR使用 LLM（大型语言模型）进行优化的最新研究使用迭代地从 LLM 中寻找下一步解决方案或直接提示 LLM 进行优化。然而，这些方法存在固有的局限性，包括低操作效率、对提示设计的高敏感性和缺乏领域特定知识。我们介绍了 LLaMoCo，这是一种第一个被设计为在代码级别上调整 LLM 以解决优化问题的指令调整框架。具体地，我们建立了一个包含明确定义的问题提示和有效优化代码的全面指令集。然后，我们开发了一种新颖的两阶段学习策略，在指令调整阶段之前，通过对比学习为模型的微调过程提供了一个热身过程，以增强其收敛行为。实验证明，通过我们的 LLaMoCo 进行精细调整的 CodeGen（350M）模型在合成和真实问题集上都实现了优于 GPT-4 Turbo 和其他竞争对手的优化性能。精细调整的模型和使用说明可在此 URL 中获得。

Abstract

Recent research explores optimization using large language models (LLMs) by either iteratively seeking next-step solutions from LLMs or directly prompting LLMs for an optimizer. However, these approaches exhibit

optimization large language models instruction-tuning framework code-to-code fine-tuning

发现论文，激发创造

DolphCoder: 用多目标指令调整为特征的大型语言模型进行回声定位编码

通过引入一种具有自我评估功能的多样指令模型 (DolphCoder) 来增强预训练的 Code LLM 的代码生成性能，实现了卓越的 HumanEval 和 MBPP 基准性能，为未来的代码指令调优工作提供了新的见解。

Feb, 2024

开源 LLM 指令调整的自动指令优化

通过自动修订样本来增强指令数据集的质量，CoachLM 训练自人工专家修订过的样本，并将数据集中高质量样本的比例从 17.7％提高到 78.9％。CoachLM 通过平均 29.9％的提升改善了指令调优的语言学习模型的指令跟随能力，并在华为的 LLM 数据管理系统中实现了高达 20％的效率提升。

Nov, 2023

评估经过教学调整的大型语言模型在代码理解和生成上的表现

在这项研究中，我们评估了 10 个开源指导式 LLMs 在四个代表性的代码理解和生成任务上的表现，并得出了以下主要发现：首先，在零样本设置下，指导式 LLMs 在代码理解和生成任务上非常有竞争力，有时甚至比特定于每个下游任务进行微调的小型 SOTA 模型表现更好。我们还发现，对于与代码相关的任务，并非总是越大的指导式 LLMs 表现更好。其次，在少样本设置下，我们发现添加演示示例可以大大帮助指导式 LLMs 在大多数代码理解和生成任务中表现得更好；然而，这些例子有时会导致不稳定甚至更差的表现。此外，我们发现广泛使用的基于 BM25 的选样策略在生成问题上明显优于基本随机选样或固定选样。第三，在微调设置下，我们发现与零样本 / 一样本的表现相比，微调可以进一步提高模型在下游代码理解和生成任务中的性能。此外，在在相同下游任务数据集上进行微调后，指导式 LLMs 的性能优于小型 SOTA 模型和未进行指导微调的相似规模 LLMs。根据我们的发现，我们进一步提出了有关模型和使用建议、性能和成本的权衡以及未来方向的实用影响。

Aug, 2023

使用顺序指令对大型语言模型进行微调

大语言模型（LLMs）在单个查询中难以遵循一系列指令，从而可能忽略或错误解释其中的一部分，这影响了它们在需要多个中间步骤的复杂问题（例如多语言（翻译然后回答）和多模态（字幕然后回答）任务）中的性能。我们通过使用开源 LLMs（如 LLaMA-2 70B 和 Mixtral-8x7B）进行实证验证。针对当今数据中顺序指令的稀缺性，我们提出了顺序指令调整，这是一种简单而有效的策略，用于自动增加指令调整数据并赋予 LLMs 执行多个顺序指令的能力。通过探索 Alpaca 等现有数据集中的交替指令和各种中间任务，我们发现，顺序指令调整模型在涉及推理、多语言和多模态能力的下游任务中始终优于传统的指令调整基线。为了进一步阐明我们的技术，我们分析了敌对中间文本、未见任务、提示语言的表达、任务数量和提示长度对顺序指令调整的影响。我们希望这种方法能为复杂任务的指令调整开辟新的研究途径。

Mar, 2024

通过启用中间层解码加速 LLM 推理

我们的研究工作通过指令调整大型语言模型的推理过程，提升其效率同时保持生成质量，这是推广应用这类模型的重要一步。

Oct, 2023

优化和测试指令追踪：分析对指令化调整的语言模型的细粒度指令变种的影响

介绍了一种有效的数据增强技术，通过将复杂指令分解为简单的子组件、修改并重构它们为新的变体，以在训练和评估大型语言模型的指令追踪精度时保留原始指令的上下文和复杂性，并引入可变性。使用该方法开发了 DeMoRecon 数据集来精细调整和评估大型语言模型，在我们的指令追踪基准和常用基准上，发现使用 DeMoRecon 进行精细调整的大型语言模型性能显著提升。

Jun, 2024

InstOptima: 多目标进化指令优化方法 —— 基于大型语言模型的指令操作

我们提出了一种名为 InstOptima 的新方法，将指导生成作为一种进化多目标优化问题，并借助大型语言模型模拟指导操作符，通过引入一个目标引导机制来改进生成指导的质量，实验证明了改进的微调性能和生成一系列高质量指导的多样性。

Oct, 2023

对比教学调节

指令调优是一种改善大型语言模型对未知任务性能的有前途的方法。然而，当前的大型语言模型在面对未知指令时表现出有限的稳健性，当相同的指令以稍微变形或语言风格变化的形式表达时会生成不一致的输出。这种行为表明大型语言模型对文本变化的稳健性和对未见指令的泛化能力存在缺陷，可能引发不可靠性问题。基于此，我们提出了对比指令调优，该方法通过最大化语义上等效的指令实例对的隐藏表示之间的相似性，最小化不同语义的实例对之间的相似性。为了促进这一方法，我们通过改写任务指令来扩充现有的 FLAN 集合。在 PromptBench 基准测试上的实验证明，对比指令调优（CoIN）能够使大型语言模型在字符、词、句子和语义级别上对未知指令的稳健性得到持续提升，平均准确率提高了 2.5%。

Feb, 2024

CodecLM: 用定制的合成数据对齐语言模型

通过使用编码 - 解码原理，我们引入了 CodecLM，这是一个用于自适应生成与不同后续指令分布和大语言模型对齐的高质量合成数据的通用框架。在编码过程中，我们将种子指令转化为元数据，然后通过解码来创建定制的指令。我们还引入自我评分和对比过滤来定制数据样本，经过在四个开放领域指令遵循基准测试上的大量实验证明，CodecLM 相对于当前技术水平具有显著的效果。

Apr, 2024

RoCoIns：通过代码风格指导提升大型语言模型的鲁棒性

通过将代码风格的指示替代自然语言指示，本文提供了更精确的指示，并增强了大语言模型的鲁棒性。同时，通过使用干净和对抗样本来构建上下文演示，我们进一步提高了大语言模型的鲁棒性。实验结果表明，我们的方法在八个鲁棒性数据集上持续优于自然语言指令的大语言模型。

Feb, 2024