从语言建模到指令遵循：理解指令调优后 LLMs 的行为转变

Sep, 2023

从语言建模到指令遵循：理解指令调优后 LLMs 的行为转变

From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning

Xuansheng Wu, Wenlin Yao, Jianshu Chen, Xiaoman Pan, Xiaoyang Wang...

TL;DR通过本研究，我们发现指导微调对大型语言模型产生了三个重要影响，包括了对指令识别的加强、对知识存储层次的对齐以及对单词关系学习的促进。这些发现有助于更深入地理解指导微调对大型语言模型行为变化的影响，并为未来解释和优化这些模型以适用于不同应用领域的研究打下了基础。

Abstract

large language models (LLMs) have achieved remarkable success, demonstrating powerful instruction-following capabilities across diverse tasks. Instruction fine-tuning is critical in enabling LLMs to align with user intentions and effectively follow instructions. In this work, we invest

large language models instruction fine-tuning behavior shift instruction recognition knowledge evolution

发现论文，激发创造

指令调整将 LLMs 对齐到人脑

指导调优对大型语言模型（LLMs）进行调优的普遍方法，能够使其生成更接近自然语言查询的人类响应的输出，在许多情况下在各种测试中实现人类水平的性能。然而，指导调优是否真正使 LLMs 更加与人类处理语言的方式相似仍不清楚。我们通过两种方式研究指导调优对 LLM-human 相似性的影响：(1) 大脑对齐，即 LLM 内部表示与人类语言系统的神经活动相似度，(2) 行为对齐，即 LLM 和人类在阅读任务上的行为相似度。我们评估了 25 个原始版本和经过指导调优的 LLMs 在涉及人类阅读自然故事和句子的三个数据集上的表现。我们发现指导调优通常使大脑对齐提高了平均 6％，但对行为对齐没有类似效果。为了确定影响 LLM-brain 对齐的因素，我们计算了 LLMs 的大脑对齐与各种模型特性之间的相关性，如模型大小、各种问题解决能力和需要跨各种领域的世界知识的任务的性能。值得注意的是，我们发现大脑对齐和模型大小（r = 0.95）以及需要世界知识的任务的表现（r = 0.81）之间存在强正相关。我们的结果表明，指导调优 LLMs 可以改善世界知识表示和大脑对齐，这表明在 LLMs 中编码世界知识的机制也可以改善与人类大脑的表征对齐。

Dec, 2023

大型语言模型中的指导位置在序列生成中的作用

通过改变任务指令在输入句子之后的位置，我们提出了一种增强大型语言模型的指令遵循功能的方法，该方法可以显著改善条件序列生成的零样本性能。

Aug, 2023

大型语言模型对指令的稳健性评估

指令微调方法能够增强大型语言模型在未知任务上的零样本功能，并对其性能和稳健性进行了评估，发现在处理陌生指令时性能显著下降，而对于关系抽取指令的稳健性较问答指令更差。

Aug, 2023

使用顺序指令对大型语言模型进行微调

大语言模型（LLMs）在单个查询中难以遵循一系列指令，从而可能忽略或错误解释其中的一部分，这影响了它们在需要多个中间步骤的复杂问题（例如多语言（翻译然后回答）和多模态（字幕然后回答）任务）中的性能。我们通过使用开源 LLMs（如 LLaMA-2 70B 和 Mixtral-8x7B）进行实证验证。针对当今数据中顺序指令的稀缺性，我们提出了顺序指令调整，这是一种简单而有效的策略，用于自动增加指令调整数据并赋予 LLMs 执行多个顺序指令的能力。通过探索 Alpaca 等现有数据集中的交替指令和各种中间任务，我们发现，顺序指令调整模型在涉及推理、多语言和多模态能力的下游任务中始终优于传统的指令调整基线。为了进一步阐明我们的技术，我们分析了敌对中间文本、未见任务、提示语言的表达、任务数量和提示长度对顺序指令调整的影响。我们希望这种方法能为复杂任务的指令调整开辟新的研究途径。

Mar, 2024

优化和测试指令追踪：分析对指令化调整的语言模型的细粒度指令变种的影响

介绍了一种有效的数据增强技术，通过将复杂指令分解为简单的子组件、修改并重构它们为新的变体，以在训练和评估大型语言模型的指令追踪精度时保留原始指令的上下文和复杂性，并引入可变性。使用该方法开发了 DeMoRecon 数据集来精细调整和评估大型语言模型，在我们的指令追踪基准和常用基准上，发现使用 DeMoRecon 进行精细调整的大型语言模型性能显著提升。

Jun, 2024

评估语言模型的零样本鲁棒性

本研究提出了一种简单的方法来提高指导微调模型的鲁棒性，即通过引入 “软提示” 嵌入参数并优化这些参数来最大化语义等效说明的表示之间的相似性。

Jun, 2023

大型语言模型的指导调整：一项调研

对于指令调优（IT）领域的研究进行了概述，它是增强和可控大型语言模型（LLMs）能力的关键技术。该研究系统回顾了 IT 的一般方法论、IT 数据集的构建、IT 模型的训练以及不同模态、领域和应用的应用，并分析了影响 IT 结果的因素（例如，指令输出的生成、指令数据集的大小等）。还审查了 IT 存在的潜在问题以及对其的批评，指出了现有策略的不足之处，并提出了一些有益的研究方向。

Aug, 2023

学习还是自我调整？重新思考指令微调

通过知识干预框架，我们揭示了指导微调的潜在机制，并为最近和可能的未来工作提供了强有力的支持。

Feb, 2024

仅需一点多语言知识的多语言教学优化

通过研究多语言指令调整多语言大型语言模型的效果，我们发现跨语言转移以及将多语言示例用于指令调整对多语言指令跟随具有显著的改进作用。

Jan, 2024

指令微调语言模型的扩展

本文研究了在指令集合中对语言模型进行微调以改善其性能及推广其应用的方法，重点探讨了任务规模的扩展、模型大小的扩展和链式推理数据的微调，发现通过上述方面的微调显著提高了包括 PaLM、T5、U-PaLM 在内的各种模型类别，在零样本、少样本和 CoT 环境中的表现，以及在多项基准测试中的表现。

Oct, 2022