Mar, 2024

使用顺序指令对大型语言模型进行微调

TL;DR大语言模型(LLMs)在单个查询中难以遵循一系列指令,从而可能忽略或错误解释其中的一部分,这影响了它们在需要多个中间步骤的复杂问题(例如多语言(翻译然后回答)和多模态(字幕然后回答)任务)中的性能。我们通过使用开源 LLMs(如 LLaMA-2 70B 和 Mixtral-8x7B)进行实证验证。针对当今数据中顺序指令的稀缺性,我们提出了顺序指令调整,这是一种简单而有效的策略,用于自动增加指令调整数据并赋予 LLMs 执行多个顺序指令的能力。通过探索 Alpaca 等现有数据集中的交替指令和各种中间任务,我们发现,顺序指令调整模型在涉及推理、多语言和多模态能力的下游任务中始终优于传统的指令调整基线。为了进一步阐明我们的技术,我们分析了敌对中间文本、未见任务、提示语言的表达、任务数量和提示长度对顺序指令调整的影响。我们希望这种方法能为复杂任务的指令调整开辟新的研究途径。