无需指令调优的指令跟随

Sep, 2024

Instruction Following without Instruction Tuning

John Hewitt, Nelson F. Liu, Percy Liang, Christopher D. Manning

TL;DR本研究解决了在语言模型指令跟随过程中依赖于指令响应对的不足问题。通过提出新的隐式指令调优方法，发现仅通过响应训练模型仍能实现指令跟随，且在不同领域的训练中，模型能够展现出广泛的指令遵循行为。研究表明，简单调整语言模型的分布即可实现指令跟随，为未来模型适应性发展提供了新视角。

Abstract

Instruction tuning commonly means finetuning a language model on instruction-response pairs. We discover two forms of Adaptation (tuning) that are deficient compared to instruction tuning, yet still yield Instruction Fo

发现论文，激发创造

自我指导: 用自动生成的指令对齐语言模型

使用Self-Instruct框架，可以将预训练模型与指令对齐，提高模型的指令遵循能力，无需过多人为指令数据，可用于finetuning，大大提高了模型的通用性。

Dec, 2022

模型是否真的学会遵循指令？一项关于指令调整的经验研究

本文分析了模型在指令调优过程中如何利用指令，并对比了模型在不同指令下的表现。结果显示，指令调优的表现提升可以来自学习表面模式，例如识别输出格式和猜测。因此，本研究提出了迫切需要更加可靠的指令调优方法和评估。

May, 2023

指导性调整的模型具有快速学习能力

本文研究指令优化对增强模型转移学习和增强其在不同自然语言处理任务方面的效果，并表明在使用指令的预微调下，模型在单任务和多任务方面的性能都得到了提高。

May, 2023

从语言建模到指令遵循：理解指令调优后LLMs的行为转变

通过本研究，我们发现指导微调对大型语言模型产生了三个重要影响，包括了对指令识别的加强、对知识存储层次的对齐以及对单词关系学习的促进。这些发现有助于更深入地理解指导微调对大型语言模型行为变化的影响，并为未来解释和优化这些模型以适用于不同应用领域的研究打下了基础。

Sep, 2023

扭曲、分散、解码：调校模型能够从嘈杂的指令中优化应答

在这篇论文中，通过引入一种简单而有效的方法，称为指示性解码（ID），来改进指导性调整的语言模型。通过使用一种被称为噪声指示的操作版本的原始指示生成的预测，ID以对比的方式调整下一个令牌预测的逻辑回归。我们研究了一系列不同类型的噪声指示，包括通过随机单词插入语义噪声的指示和引发有偏离性响应的指示，如“相反”。我们的方法在不需要额外参数更新的情况下，在各种指导性调整的模型和任务中实现了相当大的性能提升。值得注意的是，将“相反”用作ID中的噪声指示，在多个模型和任务上始终产生最显著的性能提升。

Nov, 2023

使用指令损失进行指令调整

通过实验证明，Instruction Modelling 能够提高语言模型的性能，特别是在指令调整数据集不充足、指令长度与输出长度不匹配以及减少过拟合情况下，对低资源场景中的语言模型进行指令调整提供了实用指南。

May, 2024

大型语言模型的分阶段指导微调

通过渐进对齐的假设，我们提出了一种新颖的分阶段指令微调（Phased IFT）方法，基于难度评分并使用逐步训练的方式显著地提高了预训练语言模型的指令遵循能力。

Jun, 2024

在链中舞蹈：在语言模型中协调指令遵循与忠实性

本研究解决了现代语言模型在遵循人类指令和保持忠实性之间的权衡问题。我们提出了一种新颖的方法——基于拒绝采样的持续自我指导微调（ReSet），其有效性显著超越传统的多任务学习方法，甚至在数据量较少的情况下仍然取得了更好的结果。研究结果有助于深入理解语言模型对齐训练中目标差异的问题。

Jul, 2024

非指导性微调：在没有指导性数据的情况下赋予预训练语言模型遵循指令的能力

本研究解决了在缺乏指导性数据的情况下，如何使预训练语言模型具备遵循指令能力的问题。提出了一种新方法，通过使用随机文本的前半部分作为指令，与GPT-3.5-turbo或GPT-4-turbo生成的文本作为响应，进行微调。实验表明，使用这种“非指导性数据”进行微调的模型在遵循指令能力上有所提升，甚至达到了与经过监督微调的模型相当的水平，具有重要的研究意义。

Aug, 2024

通过激活引导改善语言模型的指令跟随能力

本研究解决了语言模型在实际应用中的指令跟随能力不足的问题。研究提出了一种从语言模型中提取特定指令向量的方法，以增强模型对指令的遵循，并展示了在推理时控制输出格式、长度等约束的能力。实验结果表明，该方法在没有明确指令的情况下也能使模型更好地遵循约束，并在有指令时提高了性能，具有显著的潜在影响。

Oct, 2024