模型是否真的学会遵循指令？一项关于指令调整的经验研究

May, 2023

模型是否真的学会遵循指令？一项关于指令调整的经验研究

Do Models Really Learn to Follow Instructions? An Empirical Study of Instruction Tuning

Po-Nien Kung, Nanyun Peng

TL;DR本文分析了模型在指令调优过程中如何利用指令，并对比了模型在不同指令下的表现。结果显示，指令调优的表现提升可以来自学习表面模式，例如识别输出格式和猜测。因此，本研究提出了迫切需要更加可靠的指令调优方法和评估。

Abstract

Recent works on instruction tuning (IT) have achieved great performance with zero-shot generalizability to unseen tasks. With additional context (e.g., task definition, examples) provided to models for fine-tunin

instruction tuning model fine-tuning zero-shot generalizability performance gain it methods

发现论文，激发创造

主动指令调整：通过对响应敏感任务进行训练来改善跨任务泛化能力

通过基于提示不确定性的主动指导调整，本研究提出了一种新颖的框架来识别信息量大的任务，并在所选任务上主动调整模型，实验表明该方法在任务选择方面优于其他基准策略，并通过更少的训练任务实现了更好的超出分布的泛化性能。

Nov, 2023

使用未标记数据学习指令，以实现零样本跨任务泛化

本文提出了 Unlabeled Data Augmented Instruction Tuning (UDIT) 算法，通过使用未标注的文本数据构建伪标注数据，以更好地利用指令来提高指令微调的性能，实验结果表明 UDIT 在不同场景下都具有较好的效果。

Oct, 2022

大型语言模型的指导调整：一项调研

对于指令调优（IT）领域的研究进行了概述，它是增强和可控大型语言模型（LLMs）能力的关键技术。该研究系统回顾了 IT 的一般方法论、IT 数据集的构建、IT 模型的训练以及不同模态、领域和应用的应用，并分析了影响 IT 结果的因素（例如，指令输出的生成、指令数据集的大小等）。还审查了 IT 存在的潜在问题以及对其的批评，指出了现有策略的不足之处，并提出了一些有益的研究方向。

Aug, 2023

指导事项对于特定任务的指导调优中的简单而有效的任务选择方法

指导调优通过仅利用指导信息来识别相关任务，并另外学习元数据集的独特指导模板风格，提高任务选择准确性，从而改进了性能。

Apr, 2024

指导性调整的模型具有快速学习能力

本文研究指令优化对增强模型转移学习和增强其在不同自然语言处理任务方面的效果，并表明在使用指令的预微调下，模型在单任务和多任务方面的性能都得到了提高。

May, 2023

大型语言模型的指令调优中的零 - shot 跨语言转移

在多语种环境下，我们对指令调优进行了系统研究，发现跨语言转移成功的关键在于超参数调整和足够的训练数据，虽然英文训练的大型语言模型能够生成其他语言的正确、全面和有帮助的回答，但其可信度较低且可能偶尔出现流畅性错误。

Feb, 2024

从符号任务到代码生成：多样化产生更好的任务执行者

通过合适的指令调整，语言模型在指令 - 输出对的训练上能够更好地适应真实世界；研究发现，提供足够多样化的任务集合能够使其在训练分布之外的情况下具备泛化和鲁棒性，并且扩展调整指令集合能够提高代码生成的性能。

May, 2024

评估语言模型的零样本鲁棒性

本研究提出了一种简单的方法来提高指导微调模型的鲁棒性，即通过引入 “软提示” 嵌入参数并优化这些参数来最大化语义等效说明的表示之间的相似性。

Jun, 2023

使用指令损失进行指令调整

通过实验证明，Instruction Modelling 能够提高语言模型的性能，特别是在指令调整数据集不充足、指令长度与输出长度不匹配以及减少过拟合情况下，对低资源场景中的语言模型进行指令调整提供了实用指南。

May, 2024

指导调整的统一因果观

通过引入多个潜在因素，本研究提出了一种结构因果模型 (meta-SCM)，以整合不同的 NLP 任务，并只使用与特定任务相关的因果因素来进行预测，从而在提高零样本能力的同时避免了伪相关性的影响。

Feb, 2024