非指导性微调：在没有指导性数据的情况下赋予预训练语言模型遵循指令的能力

Aug, 2024

非指导性微调：在没有指导性数据的情况下赋予预训练语言模型遵循指令的能力

Non-instructional Fine-tuning: Enabling Instruction-Following Capabilities in Pre-trained Language Models without Instruction-Following Data

HTML

PDF

Juncheng Xie, Shensian Syu, Hung-yi Lee

TL;DR本研究解决了在缺乏指导性数据的情况下，如何使预训练语言模型具备遵循指令能力的问题。提出了一种新方法，通过使用随机文本的前半部分作为指令，与GPT-3.5-turbo或GPT-4-turbo生成的文本作为响应，进行微调。实验表明，使用这种“非指导性数据”进行微调的模型在遵循指令能力上有所提升，甚至达到了与经过监督微调的模型相当的水平，具有重要的研究意义。

Abstract

Instruction Fine-tuning is crucial for today's large language models (LLMs) to learn to follow instructions and align with human preferences. Conventionally, supervised data, including the instruction and the correct response, is required for instruction →

发现论文，激发创造

使用GPT-4进行指令调优

本文利用GPT-4生成的instruction-following数据进行大型语言模型finetuning，发现相较于之前最先进模型生成的数据，52K的英文和中文instruction-following数据可以显着提高新任务的零-shot性能。同时我们公开了GPT-4生成的数据以及我们的代码库。

Apr, 2023

或许只需要0.5%的数据：低训练数据指令调优的初步探索

本文介绍了一种名为Low Training Data Instruction Tuning (LTD Instruction Tuning)的方式，从减少数据使用、优化任务性能、优化指令调整类型和使用任务特定模型等方面，降低大型语言模型（LLMs）指令调整的数据使用，提高数据利用效率。实验结果表明，可以使用少于原始数据集的0.5%来训练任务特定的模型，并且相较于使用完整的任务相关数据训练的模型，性能可提升2%。

May, 2023

大型语言模型的指导调整：一项调研

对于指令调优（IT）领域的研究进行了概述，它是增强和可控大型语言模型（LLMs）能力的关键技术。该研究系统回顾了IT的一般方法论、IT数据集的构建、IT模型的训练以及不同模态、领域和应用的应用，并分析了影响IT结果的因素（例如，指令输出的生成、指令数据集的大小等）。还审查了IT存在的潜在问题以及对其的批评，指出了现有策略的不足之处，并提出了一些有益的研究方向。

Aug, 2023

从语言建模到指令遵循：理解指令调优后LLMs的行为转变

通过本研究，我们发现指导微调对大型语言模型产生了三个重要影响，包括了对指令识别的加强、对知识存储层次的对齐以及对单词关系学习的促进。这些发现有助于更深入地理解指导微调对大型语言模型行为变化的影响，并为未来解释和优化这些模型以适用于不同应用领域的研究打下了基础。

Sep, 2023

对齐更长时间：一种简单但难以打败的教学微调基准

在对指令微调的研究中，最长指令的选择应该是任何研究的默认基线，因为经证实此方法能够在LLMs中提高性能，保持与对事实的知识进行测试的OpenLLM基准的竞争力。

Feb, 2024

指令调优的局限性

在本研究中，通过对LLMs进行严格实验和深入分析，我们发现Instruction Tuning的各种限制，比如IT无法增强LLMs的知识或技能、从知识来源中复制响应模式会导致响应质量下降、全参数微调会增加虚构错误等。同时，我们的研究还表明，仅从预训练知识中生成的响应始终优于通过IT学习任何形式的新知识的模型生成的响应。

Feb, 2024

使用顺序指令对大型语言模型进行微调

大语言模型（LLMs）在单个查询中难以遵循一系列指令，从而可能忽略或错误解释其中的一部分，这影响了它们在需要多个中间步骤的复杂问题（例如多语言（翻译然后回答）和多模态（字幕然后回答）任务）中的性能。我们通过使用开源LLMs（如LLaMA-2 70B和Mixtral-8x7B）进行实证验证。针对当今数据中顺序指令的稀缺性，我们提出了顺序指令调整，这是一种简单而有效的策略，用于自动增加指令调整数据并赋予LLMs执行多个顺序指令的能力。通过探索Alpaca等现有数据集中的交替指令和各种中间任务，我们发现，顺序指令调整模型在涉及推理、多语言和多模态能力的下游任务中始终优于传统的指令调整基线。为了进一步阐明我们的技术，我们分析了敌对中间文本、未见任务、提示语言的表达、任务数量和提示长度对顺序指令调整的影响。我们希望这种方法能为复杂任务的指令调整开辟新的研究途径。

Mar, 2024

大型语言模型的分阶段指导微调

通过渐进对齐的假设，我们提出了一种新颖的分阶段指令微调（Phased IFT）方法，基于难度评分并使用逐步训练的方式显著地提高了预训练语言模型的指令遵循能力。

Jun, 2024

优化和测试指令追踪：分析对指令化调整的语言模型的细粒度指令变种的影响

介绍了一种有效的数据增强技术，通过将复杂指令分解为简单的子组件、修改并重构它们为新的变体，以在训练和评估大型语言模型的指令追踪精度时保留原始指令的上下文和复杂性，并引入可变性。使用该方法开发了DeMoRecon数据集来精细调整和评估大型语言模型，在我们的指令追踪基准和常用基准上，发现使用DeMoRecon进行精细调整的大型语言模型性能显著提升。

Jun, 2024

用合成数据进行多样化且细粒度的指令遵循能力探索

介绍DINGO，这是一个细粒度且多样化的指示遵循评估数据集，通过该数据集可以对大型语言模型进行更具挑战性和全面性评估，并提供任务级细粒度指导以进一步改进语言模型。

Jul, 2024